METODI NON PARAMETRICI PER DUE CAMPIONI DIPENDENTI

 

 

8.4.   Il test dei segni CON STIMA DELLA POTENZA A PRIORI

 

 

Quando non è possibile valutare la differenza esistente tra coppie di dati con una misura quantitativa, ma solo stabilire la direzione della differenza, si può utilizzare il test dei segni (sign test, Fisher’s sign test), per verificare se la tendenza centrale “dopo” è uguale oppure significativamente diversa da quella “prima”.

L'unico postulato (o condizione di validità) richiesto è che il fenomeno analizzato abbia una distribuzione continua, per cui è quasi sempre possibile stabilire il segno della differenza tra le misure appaiate dei due campioni dipendenti. Come nel test dei segni per un campione, le differenze uguali a zero non danno informazioni; quindi sono ignorate nell’elaborazione dei dati e dal conteggio delle dimensioni del campione.

 

Se è vera l'ipotesi nulla H0

H0: d = 0

(il trattamento non determina effetti sistematici e le differenze tra le coppie di risposte pertanto sono casuali),

il numero di miglioramenti (+) dovrebbe essere uguale al numero di peggioramenti (-).

Il numero di segni + e quello di segni – (da cui il nome “test dei segni”) dovrebbero equivalersi.

Indicando con X1 il segno positivo e con X2 il segno negativo, tale concetto è espresso dalla relazione

 

 

La procedura più diffusa, che semplifica e abbrevia i calcoli, richiede di contare sia i segni positivi che negativi e di utilizzare il numero minore.

Il problema di verificare la significatività della differenza assume quindi la seguente forma statistica:

- se è vera H0, la frequenza del segno più raro tende al valore medio (N/2);

- se è vera H1, la frequenza del segno più raro tende a 0.

Come nel test t per dati appaiati, il test dei segni può essere sia unilaterale che bilaterale, in dipendenza dell'ipotesi H1 sulla maggioranza di segni positivi o negativi oppure su una semplice loro differenza numerica.

 

Nel caso di piccoli campioni, la distribuzione delle probabilità è determinata mediante la distribuzione binomiale

 

 dove:

-          p = q = ;

-          N = numero di coppie di dati o di segni;

-          x = frequenza del segno più raro.

 

La distribuzione binomiale è una distribuzione discreta, che in questo caso fornisce la probabilità esatta di ottenere un dato numero (X) di segni più e di segni meno, nell’ipotesi che essi abbiano la stessa probabilità (1/2) di comparire. Per l'inferenza, occorre sommare la probabilità di ottenere la risposta osservata con quelle delle eventuali risposte più estreme (il segno più raro diminuisce progressivamente di una unità dal valore osservato fino a 0).

 

Per grandi campioni, in pratica per un numero di osservazioni (N) superiore a 20 o a 25 (il numero massimo riportato nelle tabelle per piccoli campioni nei vari testi non è sempre uguale) si ricorre alla distribuzione normale

dove

 X    è il numero di segni con frequenza minore,

  è la media attesa ed è uguale a

 

x   è la deviazione standard, calcolata come

 

Trattandosi di conteggi e quindi di una variabile discreta, si introduce una correzione per la continuità: si aumenta di 0,5 il valore osservato (quindi si diminuisce di 0,5 la differenza tra il numero minore osservato e la media attesa)

 

La formula di calcolo abbreviata, di uso abituale per semplificare i calcoli,

 diventa

 ricordando che

-          N è il numero di dati utili,

-          X è la frequenza del segno più raro.

 

ESEMPIO 1.   Dopo un anno di interventi per il risanamento ambientale di 12 laghi, si sono misurati alcuni parametri chimici e biologici che hanno permesso una valutazione complessiva: in 9 casi la situazione è migliorata, in 2 risulta peggiorata e in 1 caso non sembra mutata.

E' possibile sostenere che la situazione generale è migliorata in modo statisticamente significativo?

 

Risposta.

Si tratta di un test ad una coda (H0: d ³ 0;   H1: d < 0), ricordando che l’ipotesi è sulla mediana delle differenze.

Escludendo il caso in cui non si è avuto un cambiamento (in quanto privo d’informazione), si tratta di sapere se   9+   e   2-  possono essere ritenuti una variazione casuale di  5,5+  e altrettanti -, oppure se la differenza deve essere ritenuta non casuale.

Per N uguale a 11

con p e q uguali a 1/2,

-          la probabilità di avere 2 volte il segno - (P(2)), deve essere cumulata con

-          la probabilità di averlo 1 volta (P(1)) sola  e

-          quella di averlo 0 volte (P(0))

P(2)

P(1) 

P(0) 

 

La somma delle 3 probabilità (P(2) + P(1) + P(0)) risulta uguale a 0.033.

 

La tabella delle probabilità cumulate della distribuzione binomiale con p = q = ½  (già riportata nel caso di un campione) fornisce la risposta per N = 11 e r = 2, evitando i calcoli (P(2) = 0.033).

La probabilità complessiva di ottenere la risposta osservata e quelle più estreme nella stessa direzione risulta bassa, inferiore a 0.05.

Si rifiuta l'ipotesi nulla e si accetta l'ipotesi alternativa: la situazione è migliorata in modo statisticamente significativo.

 

 

ESEMPIO 2.  Per una ricerca sull’equilibrio tra due specie è stato calcolato il rapporto numerico tra la specie A e la specie B in 10 località. Dopo un anno, è stato ripetuto il campionamento. La tabella seguente riporta il rapporto tra le due specie nel primo e nel secondo campionamento, effettuati nelle stesse 10 località.

 

Località

a

b

c

d

e

F

g

h

I

l

Primo  Campionamento

1,1

1,7

1,3

1,3

0,8

1,2

1,0

1,3

0,9

1,2

Secondo Campionamento

0,9

1,2

1,3

0,9

1,3

0,7

0,8

0,5

0,5

0,9

 

Si può sostenere che il rapporto tra le due specie sia variato?

 

Risposta. Tassi, percentuali e rapporti rendono il valore indipendente dalle dimensioni del campione ed agevolano il confronto tra i risultati ottenuti su campioni che possono avere dimensioni anche molto differenti. Ma per i test parametrici questa caratteristica rappresenta un limite: quando sono ottenuti su campioni di numerosità molto differente, tassi, percentuali e rapporti hanno un’attendibilità ed un campo di variazione sensibilmente diversi.

In termini più semplici, per ricorrere ad un esempio, 3/4 e 15/20 pure fornendo lo stesso valore quando sono trasformati in tassi, percentuali o rapporti non possono essere direttamente confrontati, poiché la loro varianza è significativamente differente (vedi varianza delle percentuali e loro trasformazioni per rendere le varianze omogenee).

Il confronto tra le due serie di valori fornisce quindi per ogni località un’informazione limitata al segno dell’incremento, per cui è appropriato l’uso del test dei segni.

 

Con i dati dell’esempio,

1 - il primo passo è il calcolo delle differenze, tradotte in segni

 

 

Località

a

b

c

d

e

f

G

h

i

l

Primo

1,1

1,7

1,3

1,3

0,8

1,2

1,0

1,3

0,9

1,2

Secondo

0,9

1,2

1,3

0,9

1,3

0,7

0,8

0,5

0,5

0,9

Differenza

+

+

=

+

-

+

+

+

+

+

 

 

I dieci campioni determinano 8 differenze positive, 1 negativa e una differenza nulla.

 

2 - L’ipotesi da verificare, riferita alla mediana, è bilaterale:

H0: d = 0 ;       H1: d ¹ 0

 

Si trascura la differenza nulla, poiché ininfluente sulla possibile variazione complessiva; si deve stimare la probabilità totale di trovare 1 valore negativo P(1) e 0 valori negativi P(0) (che rappresenta l’unica risposta più estrema) su 9 dati.

 

3 - Il campione è di piccole dimensioni e quindi si deve ricorrere alla distribuzione binomiale:

 

P(1) =     9 × 0,001953 = 0,017578

P(0) =  =    1 × 0,001953 = 0,001953

 con

P(1) + P(0) = 0,017578 + 0,001953 = 0,01953

 

 che fornisce una probabilità complessiva in una coda della distribuzione (P(1) + P(0)) = 0.01953.

Trattandosi di un test bilaterale, la probabilità calcolata deve essere raddoppiata: P = 0.039062.

E’ una probabilità inferiore a 0.05. Si rifiuta l’ipotesi nulla e si accetta l’ipotesi alternativa.

Le due specie hanno modificato i loro rapporti numerici in modo significativo.

Invece di procedere ai calcoli, è più rapido utilizzare la tabella delle probabilità cumulate.

Come riportato nella pagina successiva, per N = 9  e  r = 1 fornisce una probabilità uguale a 0,020 in una coda della distribuzione (è un arrotondamento del 0,01953 prima stimato).

 

ESEMPIO 3.  Su 80 coppie di osservazioni, rilevate prima e dopo il trattamento, 5 non hanno mostrato differenze, 44 evidenziano un miglioramento e 31 un peggioramento.

Si può affermare che la situazione è migliorata in modo significativo?

 

Risposta.  E’ un grande campione, per cui si ricorre alla distribuzione normale.

Si tratta di un test ad una coda, con

-          X = 31 (il segno meno frequente) e

-          N = 75 (44+31) da cui :

Z =

 

Ad un valore di Z uguale a 1,39 in un test a una coda, nella tavola della distribuzione normale corrisponde una probabilità pari a 0.0823 o 8,23%.

E' una probabilità superiore al valore critico di  a = 0.05 per cui non si è nelle condizioni di rifiutare l'ipotesi nulla.


 

 

PROBABILITA’  CUMULATE  DELLA  DISTRIBUZIONE  BINOMIALE

 

 

 

 N = numero di osservazioni

 r = numero minore tra segni positivi e negativi

 

 

N

 

R

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

0

0.016

0.008

0.004

0.002

0.001

0.001

0.000

0.000

0.000

0.000

0.000

0.000

0.000

0.000

0.000

1

0.109

0.062

0.035

0.020

0.011

0.006

0.003

0.002

0.001

0.000

0.000

0.000

0.000

0.000

0.000

2

0.344

0.227

0.144

0.090

0.055

0.033

0.019

0.011

0.006

0.004

0.002

0.001

0.001

0.000

0.000

3

0.656

0.500

0.363

0.254

0.172

0.113

0.073

0.046

0.029

0.018

0.011

0.006

0.004

0.002

0.001

4

0.891

0.773

0.637

0.500

0.377

0.274

0.194

0.133

0.090

0.059

0.038

0.024

0.015

0.010

0.006

5

0.984

0.938

0.856

0.746

0.623

0.500

0.387

0.291

0.212

0.151

0.105

0.072

0.048

0.032

0.021

6

1.00

0.992

0.965

0.910

0.828

0.726

0.613

0.500

0.395

0.304

0.227

0.166

0.119

0.084

0.058

7

 

1.00

0.998

0.980

0.945

0.887

0.806

0.710

0.605

0.500

0.402

0.314

0.240

0.180

0.132

8

 

 

1.00

0.996

0.989

0.967

0.927

0.867

0.788

0.696

0.598

0.500

0.407

0.324

0.252

9

 

 

 

1.00

0.999

0.994

0.981

0.954

0.910

0.849

0.773

0.686

0.593

0.500

0.412

10

 

 

 

 

1.00

0.999

0.997

0.989

0.971

0.941

0.895

0.834

0.760

0.676

0.588

11

 

 

 

 

 

1.00

1.00

0.998

0.994

0.982

0.962

0.928

0.881

0.820

0.748

12

 

 

 

 

 

 

1.00

1.00

0.999

0.996

0.989

0.976

0.952

0.916

0.868

13

 

 

 

 

 

 

 

1.00

1.00

1.00

0.998

0.994

0.985

0.968

0.942

14

 

 

 

 

 

 

 

 

1.00

1.00

1.00

0.999

0.996

0.990

0.979

15

 

 

 

 

 

 

 

 

 

1.00

1.00

1.00

0.999

0.998

0.994

16

 

 

 

 

 

 

 

 

 

 

1.00

1.00

1.00

1.00

0.999

17

 

 

 

 

 

 

 

 

 

 

 

1.00

1.00

1.00

1.00

18

 

 

 

 

 

 

 

 

 

 

 

 

1.00

1.00

1.00

19

 

 

 

 

 

 

 

 

 

 

 

 

 

1.00

1.00

20

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1.00

 


La stima della potenza a priori del test dei segni per un campione e quella per due campioni dipendenti utilizzano lo stesso metodo, fondato sulla potenza della distribuzione binomiale, già trattata in altra parte del corso. Ma esistono anche proposte approssimate, che permettono calcoli rapidi.

Un metodo semplice, specifico per il test dei segni, è quello approssimato proposto da Gottfried E. Noether nel 1987 (vedi Sample Size Determination for Some Common Nonparametric Test, pubblicato su Journal of the American Statistical Association, Vol. 82, pp. 645-647).

Nel test dei segni,

-          la media attesa è m = Np e in particolare m0 = N/2

-          la varianza è s2 = Np(1-p) e in particolare , che rappresenta anche la varianza maggiore e quindi scelta più cautelativa.

Di conseguenza, la dimensione minima (N) richiesta è

 

N =

Sorge un problema per valutare il numero N nel caso dell’ipotesi alternativa, quando la sua proporzione p è ignota e diversa da 0,5. Una soluzione semplice, già trattata, è fondata sulla stima del

-          valore di odds ratio (r)

Il valore associato di p, per ritornare ad esso a partire da r,  è

Ad esempio,  se p = 0,6 si ha 1-p = 04   e   quindi  r = 0,6 / 0,4 = 1,5;

 si ritorna al valore di p attraverso la relazione p = 1,5/1+1,5 = 1,5/2,5 = 0,6

 

Una seconda stima semplice di N (Nr), sempre di Noether, che fornisce una quantità leggermente inferiore a quella del metodo precedente, utilizza una correzione r (rho, graficamente molto simile a p, pi latino, che indica la proporzione) data da

 

Quindi si stima Nr con

Nr =

Nell’artico di Noether sono elencate altre proposte, che tengono in considerazione il valore di a, quello di b e la trasformazione della proporzione in arcseno. Le stime di N sono vicine alle due precedenti e cadono entro questi valori.

L’articolo riporta alcune stime, utili anche per una verifica del metodo mediante esempi. Per a e b  entrambi unilaterali e uguali a 0.10 (quindi senza rispettare il rapporto di 1 a 4 suggerito da altri autori) sono

 

N

Nr

N/Nr

1,5

0,60

164,4

161, 0

1,02

2

2/3

59,2

55,8

1,06

3

0,75

26,3

22,9

1,15

 

ESEMPIO. Con

-          a = 0.10 in un test unilaterale e quindi Za = 1,282 (per la stima più precisa possibile)

-          b = 0.10 (sempre unilaterale) e quindi Zb = 1,282

per valutare se una proporzione p = 0,6 di segni positivi (non cambia nulla se fossero stati considerati quelli negativi) sia significativa, di quanti (N) segni occorre complessivamente disporre?

 

Risposta.  Utilizzando

N =  =

 si ottiene N = 164,35.

 

Utilizzando

Nr =  

 dopo aver calcolato

 si ottiene

Nr = 161,03. Sono valori identici a quelli riportati nella tabella.

 

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007