METODI NON PARAMETRICI PER DUE CAMPIONI DIPENDENTI

 

 

8.7.   TEST DI CASUALIZZAZIONE PER 2 CAMPIONI DIPENDENTI O FISHER’S   RANDOMIZATION TEST

 

Tra tutti i test non parametrici utili al confronto sulla tendenza centrale della differenza tra due campioni dipendenti, il test di casualizzazione (randomization test) risulta il più utile per piccoli campioni, sia dal punto di vista pratico che didattico. Come già evidenziato nel capitolo per un campione, non ha un autore definito, essendo impostato sul calcolo combinatorio, una delle metodologie classiche della statistica non parametrica. Snedecor George W.  e  Cochran William G. nel loro volume Statistical Methods (Sixth Edition, The Iowa University Press, Ames, Iowa, U.S.A., Seventh printing, 1974, cap. 5 a pag. 133) lo chiamano Fisher’s randomization test, attribuendolo appunto a R. A. Fisher in quanto descritto nel suo volume The Design of Experiments del 1960 (7th edition., p.44 Oliver and Boyd, Edinburgh).

 

E' chiamato anche test di permutazione (permutation test), anche se in realtà si fonda su disposizioni con replicazione, dal termine inglese che raggruppa sia permutazioni che disposizioni. E’ riportato in alcuni testi di statistica non parametrica, tra cui quello di Sidney Siegel (Statistica non parametrica per le Scienze del comportamento). Come per il test dei segni e il test T di Wilcoxon, anche in questo caso la metodologia è del tutto simile a quella per un campione: l’unica differenza è l’ipotesi che non è più relativa alla media della popolazione (m) rispetto ad una media attesa (m0) ma alla differenza reale o della popolazione (d) rispetto alla differenza attesa (d0).

 

Il test di casualizzazione può essere applicato solo con scale di rapporti o d'intervallo; in queste condizioni è più potente del test dei segni e di quello dei ranghi con segni di Wilcoxon; in molti casi è preferibile pure al test t di Student di cui è analogo, in particolare quando la varianza è grande. La sua potenza efficienza è del 100%.

Per essere ritenuto valido, non richiede

-          alcuna condizione sulla forma della distribuzione dei dati.

 

A differenza del test T di Wilcoxon e del test t di Student, fornisce direttamente la probabilità complessiva, senza il ricorso a tavole  dei valori critici.

I limiti alla sua utilizzazione derivano solamente dalle difficoltà pratiche del calcolo manuale, quando le dimensioni del campione superano le 12-14 osservazioni.

A differenza di quasi tutti gli altri test non parametrici, l’ipotesi è sulla media, non sulla mediana.

 

Il metodo può essere spiegato con semplicità mediante una dimostrazione.

Come già nel test T di Wilcoxon, dal confronto tra due campioni dipendenti si supponga di aver ottenuto le 10 differenze seguenti

 

+ 10

+25

+7

+8

+2

+71

-5

+4

+15

-3

 

 

Si intende verificare se la loro tendenza centrale è significativamente diversa da 0.

E' un test bidirezionale, con ipotesi nulla

H0: d = 0

ed ipotesi alternativa

H1: d ¹ 0

I fondamenti logici e i passaggi metodologici del test possono essere riassunti in 6 punti:

 

1 - Mantenere sempre fissi i valori assoluti delle differenze: esse sono il risultato oggettivo dell’esperimento e misurano la variazione trovata tra le coppie di dati.

Può cambiare solo il loro segno: se l'ipotesi H0 è vera, il segno di ogni differenza avrebbe potuto essere indifferentemente + oppure -.

 

2 - Calcolare il numero di possibili risposte, nell’ipotesi che ogni differenza calcolata possa essere sia positiva che negativa. Con N dati, il numero di possibili risposte binarie è 2N.

Con i 10 valori dell'esempio, le possibili risposte sono 210 = 1024.

Esse devono anche essere ugualmente probabili.

 

3 - Definire la zona di rifiuto, secondo la direzionalità del test (a una coda o a due code) ed il livello di significatività a prefissato.

Con 1024 possibili risposte, per una significatività  = 0.05 la zona di rifiuto esclude i 51 risultati (1024 x 0,05 = 51,2) possibili più estremi. Trattandosi di un test a due code, l'area di rifiuto è formata dalle 25 risposte più estreme in una coda e dalle altre 25 nell’altra coda (nella zona di rifiuto, l’arrotondamento deve sempre essere per difetto, al fine di non rifiutare l’ipotesi nulla con una probabilità a anche solo leggermente superiore a quella prefissata).

 

4 - Individuare i risultati più estremi, collocati nella zona di rifiuto.

A tale scopo ordinare i valori ottenuti sulla base della loro somma, al variare progressivo dei segni. La risposta più estrema in una direzione è quella in cui tutti i valori hanno segno positivo; la più estrema nell'altra direzione è quella in cui tutti i valori hanno segno negativo.

Con i dati dell'esempio e partendo da risultati tutti positivi; le due risposte più estreme sono:

 

 

Rango 1

+10

+25

+7

+8

+2

+71

+5

+4

+15

+3

=

+150

Rango 1024

-10

-25

-7

-8

-2

-71

-5

-4

-15

-3

=

-150

 

 

5 - Poiché la somma dei dati riportati nell’esempio è positiva, si può limitare la verifica ai soli 25 risultati positivi più estremi. Nell’elenco sottostante, per brevità sono riportate solo le 17 risposte più estreme, nella direzione dell’ipotesi d > 0.


 

Serie delle prime 17 risposte più estreme in una direzione

Rango

1)

+10

+25

+7

+8

+2

+71

+5

+4

+15

+3

=

+150

1

2)

+10

+25

+7

+8

-2

+71

+5

+4

+15

+3

=

+146

2

3)

+10

+25

+7

+8

+2

+71

+5

+4

+15

-3

=

+144

3

4)

+10

+25

+7

+8

+2

+71

+5

-4

+15

+3

=

+142

4

5)

+10

+25

+7

+8

+2

+71

-5

+4

+15

+3

=

+140

5,5

6)

+10

+25

+7

+8

-2

+71

+5

+4

+15

-3

=

+140

5,5

7)

+10

+25

+7

+8

-2

+71

+5

-4

+15

+3

=

+138

7

8)

+10

+25

-7

+8

+2

+71

+5

+4

+15

+3

=

+136

9

9)

+10

+25

+7

+8

+2

+71

+5

-4

+15

-3

=

+136

9

10)

+10

+25

+7

+8

-2

+71

-5

+4

+15

+3

=

+136

9

11)

+10

+25

+7

-8

+2

+71

+5

+4

+15

+3

=

+134

11,5

12)

+10

+25

+7

+8

+2

+71

-5

+4

+15

-3

=

+134

11,5

13)

+10

+25

+7

+8

+2

+71

-5

-4

+15

+3

=

+132

13,5

14)

+10

+25

-7

+8

-2

+71

+5

+4

+15

+3

=

+132

13,5

15)

-10

+25

+7

+8

+2

+71

+5

+4

+15

+3

=

+130

16

16)

+10

+25

-7

+8

+2

+71

+5

+4

+15

-3

=

+130

16

17)

+10

+25

+7

+8

-2

+71

-5

+4

+15

-2

=

+130

16

 

 

- La prima risposta è fornita dalla serie di tutti i valori positivi. La sua somma fornisce il totale maggiore: con i dati dell’esempio è 150.

- La seconda risposta possibile nella stessa direzione è quella data dal cambiamento di segno nella differenza minore (2); il suo totale è 146 ed è il maggiore dopo il precedente.

- La terza possibile risposta è data dal cambiamento di segno della seconda differenza minore (3); il suo totale è 144.

- Tutte le risposte successive sono costruite seguendo la stessa logica di detreminare la somma immediatamente minore.

 

Secondo le diverse combinazioni delle differenze calcolate, alcuni totali sono uguali: tali risposte occuperanno lo stesso rango. E’ il caso delle risposte 5 e 6, che danno un totale di 140, ottenuto rendendo negative insieme le differenze 2 e 3 oppure la differenza 5 da sola. Altro esempio di possibili risposte che occupano lo stesso rango, sono la 8, la 9 e la 10, riportate nell’elenco, che danno un totale di 136; esso è ottenuto rendendo negative la differenze 7, oppure 5 e 2 insieme, oppure 4 e 3 insieme.

Verificare se la serie dei dati osservati nell'esperimento rientrano nella zona di rifiuto.

 

6 - Dall’elenco parziale riportato, si evidenzia che la risposta ottenuta nell'esperimento occupa la 12a posizione, tra le risposte positive più estreme. La sua somma è uguale a quella fornita dalla 11a risposta e quindi il rango della sua posizione è 11,5.

Ai fini dell’inferenza sulla significatività della serie delle differenze osservate, si osserva che essa rientra tra le 25 risposte collocate in un estremo della zona di rifiuto, per un test a due code. Di conseguenza, alla probabilità a = 0.05 si rifiuta l'ipotesi nulla e si accetta l'ipotesi alternativa bilaterale: esiste una differenza significativa tra le medie delle due serie di dati appaiati.

 

E’ possibile una valutazione più precisa della probabilità di trovare la risposta osservata o risposte più estreme.

Con i dati dell’esempio, essa occupa il rango 11,5 su 1024 possibili risposte.

Per un test ad una coda, nella condizione che l’ipotesi nulla sia vera (“i segni positivi e negativi sono attribuiti a caso alle differenze mantenute costanti in valore assoluto”), la probabilità P che la serie osservata sia ottenuta casualmente è

P = 11,5/1024 = 0.0112.

Per un test a due code, tale probabilità deve essere moltiplicata per 2; quindi è

P = 0.0224

 

Il limite maggiore di questo test dipende dal numero di dati.

All'aumentare del numero di osservazioni, il test diventa rapidamente inapplicabile. Come dimostrazione è sufficiente rilevare che con 20 sole differenze, il numero di possibili risposte è

220  =  1.048.576

 

Anche limitando l'analisi al 5% delle risposte più estreme in una sola coda per un test bidirezionale, si tratta sempre di calcolare 26.214 serie di dati (1.048.576 x 0.025 = 26. 214,4)

Nel caso di grandi campioni, se non è possibile utilizzare il test t di Student si può ricorrere al test T di Wilcoxon, con una perdita di potenza - efficienza ridotta, inferiore al 5%.

 

ESEMPIO 1.   Il contributo delle microalghe sia epifitiche che epibentiche alla produzione primaria degli ecosistemi estuariali può essere molto rilevante.

In 7 località è stata misurata la produzione primaria; le misure sono state ripetute nello stesso posto a distanza di un mese.

 

Località

a

b

c

d

e

f

g

1a misurazione

22

23

26

19

17

23

24

2a misurazione

24

28

25

27

26

29

27

 

Esiste una differenza significativa tra le due valutazioni?

Risposta.   E’ un test bilaterale:

H0: d = 0;     H1: d ¹ 0

Il problema fondamentale nella scelta del tipo di test non parametrico da utilizzare, in questo caso la scelta tra test dei segni, test T di Wilcoxon e test di casualizzazione per la verifica di differenze nella tendenza centrale dipende dal valore reale della misura scelta.

Il test di casualizzazione può essere utilizzato solamente se la scala è di rapporti o d’intervalli; come le misure di peso o d’altezza; se sono punteggi o stime, in cui l’informazione reale è di rango, occorre utilizzare il test T di Wilcoxon.

 

Per utilizzare il test di casualizzazione, con i dati dell’esempio si devono calcolare le differenze tra le coppie di dati appaiati, conservando il loro segno

 

Località

a

b

c

d

e

f

g

1a misurazione

22

23

26

19

17

23

24

2a misurazione

24

28

25

27

26

29

27

Differenze

+2

+5

-1

+8

+9

+6

+3

 

 e, sulla base del loro numero (N = 7), calcolare le possibili risposte

2N,  (27 = 128)

 che risultano pari a 128.

 

Per un test bilaterale, alla probabilità a = 0.05 è compreso nella zona di rifiuto un numero di possibili risposte (128 x 0.05 = 6,4) pari a 6,4 che deve essere arrotondato all’unità per difetto (6): le 6 risposte saranno collocate 3 in una coda e altre 3 nell’altra coda della distribuzione.

Nella distribuzione delle differenze, si osserva che compare un solo valore negativo e che esso è riferito ad una differenza piccola. Per stimare le possibili risposte in una coda della distribuzione, è conveniente iniziare da quella in cui le differenze sono tutte positive e stimare da essa le successive, che danno totali sempre minori, come nella tabella successiva:

 

Rango  1

+2

+5

+1

+8

+9

+6

+3

= 34

Rango  2

+2

+5

-1

+8

+9

+6

+3

= 32

Rango  3

-2

+5

+1

+8

+9

+6

+3

= 30

Rango 4,5

+2

+5

+1

+8

+9

+6

-3

= 28

Rango 4,5

-2

+5

-1

+8

+9

+6

+3

= 28

Rango  6

+2

+5

-1

+8

+9

+6

-3

= 26

 

Nella tabella sono riportate le 6 risposte più estreme in una direzione.

Per un test bilaterale, alla probabilità a = 0.05 cadono nella zona di rifiuto le prime 3. La risposta fornita dall’esperimento è la 2a; di conseguenza, si rifiuta l’ipotesi nulla e si accetta l’ipotesi alternativa.

 

E’ possibile stimare la probabilità in modo più preciso, partendo dall’osservazione che la risposta ottenuta è la seconda ad iniziare da un estremo, sulle 128 teoricamente possibili se H0 fosse vera.

In un test ad una coda, la probabilità di ottenerla per caso, insieme (quindi distribuzione cumulata) con risposte più estreme, è data da 2/128 e P risulta uguale a 0.0156.

In un test a due code, occorre considerare anche le due possibili risposte più estreme nell’altra direzione; la probabilità P diviene 0.0156 x 2 = 0.0312 (oppure 4/128 = 0.0312).

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007