METODI NON PARAMETRICI PER DUE CAMPIONI INDIPENDENTI
9.11. Test di casualizzazione per 2 campioni indipendenti
Il test di permutazione (permutation test) o di casualizzazione è il test non parametrico più potente, per il confronto tra le tendenze centrali di 2 campioni indipendenti. Rispetto al test t di Student e al test F di Fisher, presenta i vantaggi classici di molti test non parametrici: - non richiede la verifica di alcun postulato in merito alla popolazione d'origine dei dati campionari, in riferimento alla variabilità dei due gruppi e alla forma della distribuzione, - fornisce direttamente le probabilità esatte, senza imporre il ricorso a tavole di distribuzione dei valori critici (come già dimostrato per la distribuzione binomiale, il metodo esatto di Fisher e il test di casualizzazione sia per un campione che per due campioni dipendenti).
A differenza degli altri test non parametrici che verificano la significatività della differenza tra 2 tendenze centrali, il test di casualizzazione richiede non misure ordinali ma dati misurati con una scala d'intervalli o di rapporti, in quanto utilizza le somme dei valori. Sebbene non sia necessario il loro calcolo e si tratti di un test non parametrico, il confronto e le ipotesi relative riguardano le medie non le mediane.
Come sarà possibile comprendere facilmente dopo l’illustrazione della metodologia, il limite fondamentale del test di permutazione per 2 campioni indipendenti è la possibilità pratica della sua applicazione manuale solo a campioni di dimensioni ridotte (non oltre 8-10 dati per gruppo). I calcolatori ora permettono di elevare facilmente tale limite, ma limitatamente a due, al massimo a tre decine di dati. Sono gli stessi pregi e svantaggi dell'analogo test per 2 campioni dipendenti: i metodi sono in parte differenti, ma la logica è identica.
La procedura può essere illustrata con semplicità e chiarezza, mediante lo svolgimento di un esempio. Si supponga di avere raccolto 2 gruppi di dati, con 4 osservazioni (n1 = 4) nel primo campione e 6 (n2 = 6) nel secondo, al fine di verificare l'ipotesi che la media del secondo gruppo è significativamente maggiore di quella del primo.
E’ un test ad una coda con ipotesi nulla H0: m1 ³ m2 ed ipotesi alternativa H1: m1 < m2
I fondamenti logici e i passaggi metodologici del test possono essere riassunti in 5 punti:
1 - Il presupposto fondamentale è che i punteggi osservati rappresentano, di fatto, il risultato dell’esperimento; di conseguenza, essi mantengono sempre costante il loro valore. Ma se l’estrazione dalla popolazione fosse fatta a caso, ogni dato osservato potrebbe fare parte indifferentemente di un gruppo oppure dell’altro, con probabilità dipendenti dal diverso numero di osservazioni. Quando H0 è vera, i punteggi grandi e quelli piccoli osservati tendono ad essere distribuiti in modo casuale, tra il gruppo 1 e il gruppo 2; quando H0 è falsa ed il test è ad una coda (come nell’esempio), i punteggi minori (e simmetricamente quelli maggiori) tendono a concentrarsi in uno dei due gruppi, individuato a priori; se H0 fosse falsa e il test fosse stato a due code, i valori minori (e simmetricamente quelli maggiori) tenderebbero a concentrarsi in uno dei due gruppi diversi, non individuabile a priori. 2 - Calcolare il numero di possibili diverse risposte dell’esperimento che sarebbe possibile ottenere, nella condizione che i dati possano cadere indifferente in uno dei due gruppi (come implicito nell’ipotesi nulla), mantenendo costanti le loro dimensioni.
Tale numero è dato dalle combinazioni
Nell’esempio, con n1 = 4 e n2 = 6
le possibili risposte sono 210.
3 - Con il valore di a prefissato alla probabilità 0.05, la differenza tra le due medie risulta significativa se le due serie di dati osservati rientrano tra le risposte più estreme, collocate nella zona di rifiuto.
Nell’esempio, tale numero è 10 (con arrotondamento all’unità inferiore per non superare il limite di probabilità prefissata), ottenuto moltiplicando quello delle possibili risposte per la probabilità a (210 x 0.05).
4 - Individuare i risultati più estremi che sono collocati nella zona di rifiuto. Con i dati dell'esempio, intuitivamente il risultato più estremo nella direzione scelta è quello determinato dall'insieme formato - dai 4 punteggi minori nel gruppo 1 e - dai 6 punteggi maggiori nel gruppo 2.
La verifica può essere effettuata mediante la differenza tra le somme dei due gruppi, che ha il valore negativo massimo (colonna Diff. nella tabella seguente). I risultati successivi sono quelli che riducono la differenza tra i due gruppi, fino ad invertire eventualmente il segno della differenza. L'ultimo risultato più estremo nell'altra direzione ha i 4 punteggi maggiori nel gruppo 1 e i 6 punteggi minori nel gruppo 2. Nella tabella successiva, in ordine di rango (colonna R) sono riportati i 10 risultati più estremi nella coda prevista dall'ipotesi H1 e i 5 più estremi nell'altra coda della distribuzione (che sarebbero utili se l’ipotesi alternativa fosse bilaterale).
5. Verificare se la distribuzione dei risultati dell’esperimento è compresa nella zona di rifiuto. Con i dati dell’esempio, la distribuzione osservata coincide con il nono risultato più estremo (in grassetto, nella tabella precedente). Poiché si tratta di un test ad una coda e la serie osservata dei dati cade nella zona di rifiuto, si rifiuta l'ipotesi nulla: la media del primo gruppo è significativamente minore di quella del secondo.
Se, con gli stessi dati, si fosse trattato di un test bilaterale, la zona di rifiuto sarebbe stata formata dai 5 risultati più estremi in ognuna delle due code. La combinazione dei dati osservata non sarebbe stata compresa in nessuna delle due zone di rifiuto; di conseguenza, si sarebbe dovuto concludere che le medie dei due gruppi non sono significativamente differenti.
Nel caso di grandi campioni, il test non è manualmente applicabile. Per esempio, con due gruppi di 10 dati (n1 e n2 = 10) il numero di combinazioni possibili è
= = 184.756 uguale a 184.756. Anche con il solo calcolo delle risposte più estreme, collocate nella zona di rifiuto, e limitato alla probabilità a = 0.05, si tratta di scrivere e controllare 9.237 serie diverse di 20 dati. Sono operazioni che possono essere eseguite in tempi accettabili solo con l’uso del calcolatore; ma anche in questo caso è possibile raggiungere rapidamente i limiti operativi. Già con 2 gruppi di 20 dati, = = 15.163.120.000.000
si richiederebbe di scrivere 15.163.120.000.000 possibili distribuzioni, tra le quali rintracciare quella ottenuta dall’esperimento. Anche l’artificio di analizzare solo il 5% delle possibili risposte, limitando la verifica alla sola zona di rifiuto, richiede sempre di confrontare la serie dei dati sperimentali con 758.155.900.000 (ottenuto da 15.163.120.000.000 x 0.05) serie diverse.
Nel caso di grandi campioni, si può ricorrere al test t per 2 campioni indipendenti, in quanto diviene possibile dimostrare l'esistenza delle condizioni di validità per un test parametrico, eventualmente mediante la trasformazione dei dati. Se le condizioni di validità non fossero rispettate e si richiedesse un test non parametrico, si può utilizzare il test U di Mann-Whitney.
ESEMPIO. Per valutare la qualità delle acque da destinare sia ad uso potabile ed alimentare in genere, sia ad uso agricolo per irrigazione od abbeveraggio di bestiame, occorre quantificare la concentrazione di molti elementi o composti, come fluoruri, cloruri, cianuri, boro, ferro, manganese, mercurio, piombo, rame, zinco (quasi sempre misurati in mg/l). Quando sono superati i valori guida o limite, stabiliti per legge per ogni uso specifico, si definisce l’acqua non idonea od inquinata. In due corpi idrici (individuati come A e B) sono stati estratti 4 campioni ed è stata misurata la presenza di un elemento o composto, per verificare se la località A abbia un’acqua con valori medi più bassi e quindi sia da preferire. I risultati dell’analisi chimica dell’elemento X è (in mg/l)
Si può affermare che la media dei quattro campioni della località A sia significativamente minore di quella dei quattro campioni della località B, per l’elemento o composto analizzato?
Risposta. I dati campionari raccolti sono misurati con una scala di rapporti; tuttavia è da ritenere non corretto l’uso di un test parametrico, come il test t di Student per 2 campioni indipendenti, data la maggiore variabilità dei dati del gruppo B (da un minimo di 1,7 a un massimo di 6,1) rispetto a quelli di A (da 1,2 a 1,9). Con poche osservazioni, anche se il test F per valutare la significatività del rapporto tra varianza maggiore e varianza minore non risultasse significativo, è sempre discutibile affermare che è dimostrata la omoschedasticità delle due diverse distribuzioni. Con campioni così piccoli, è ugualmente impossibile dimostrare la normalità delle due distribuzioni. Valori misurati con una scala di rapporti e distribuzione dei dati di forma ignota sono le condizioni necessarie e sufficienti per utilizzare in modo appropriato il test di casualizzazione.
Dopo aver definito l’ipotesi nulla H0: mA ³ mB e l’ipotesi alternativa unilaterale H1: mA < mB per semplificare i confronti è utile riportare i dati di ogni gruppo in ordine crescente.
Nel presupposto che gli 8 valori osservati restino costanti, ma possano fare parte indifferentemente del gruppo A o di quello B, si deve stimare il numero di combinazioni: quante diverse distribuzioni degli 8 dati è possibile formare, in modo che le serie dei dati del gruppo A o di quello B differiscano per almeno un elemento. Con il calcolo combinatorio = 70
risulta che il numero delle combinazioni di 8 elementi 4 a 4 è uguale a 70. Dopo aver prefissato a = 0.05 si deve calcolare quante sono le risposte che cadono nella zona di rifiuto. Con 70 possibili combinazioni alla probabilità a = 0.05
70 x 0.05 = 3,5
sono 3, poiché il numero di risposte che cadono nella zona di rifiuto deve sempre essere arrotondato all’unità inferiore. E’ lecito abbassare la probabilità, mentre è ritenuto errato alzarla: la prima è una scelta conservativa, mentre la seconda permette di rifiutare più facilmente l’ipotesi nulla quando essa è vera, determinando un errore di secondo tipo. Nell’esempio, si tratta di un test ad una coda; di conseguenza, le 3 risposte cadono tutte in un estremo.
Nel passaggio successivo, occorre individuare quali sono le risposte che cadono nella zona di rifiuto. E’ utile iniziare dalla risposta più estrema, nella direzione espressa dall’ipotesi alternativa H1. Trattandosi di un test ad una coda, in cui l’ipotesi alternativa è che la media del gruppo A sia inferiore a quella del gruppo B, la risposta più estrema nella direzione stabilita dalla domanda è quella in cui nel gruppo A si hanno i 4 valori minori ed in B i 4 valori maggiori.
Distribuzione teorica n. 1
Una verifica semplice è data dalla somma dei dati del gruppo A, che deve risultare la minore possibile, e dalla somma dei dati di B, che deve risultare la maggiore possibile. La loro differenza è massima.
La seconda possibile risposta più estrema nella stessa direzione è ottenuta spostando nel gruppo B il valore maggiore del gruppo A (1,9) e nel gruppo A il valore minore del gruppo B (1,7) della distribuzione precedente.
Distribuzione teorica n. 2
Come verifica si può osservare che la somma di A sarà maggiore della precedente, ma minore di tutte le altre possibili; mentre la somma di B sarà minore della precedente, ma maggiore di tutte le altre possibili. La differenza tra le due somme risulterà minore della precedente, ma maggiore di tutte le altre possibili.
La terza possibile risposta è ottenuta spostando il secondo valore più alto del gruppo A in B (1,9) ed il valore minore del gruppo B in A (1,7).
Distribuzione teorica n. 3
Aumenta la somma di A, diminuisce quella di B e si riduce la loro differenza di una posizione, rispetto ad una classificazione ordinale. L’ultimo passaggio richiede il confronto tra la distribuzione osservata o sperimentale e le distribuzioni teoriche più estreme costruite, per verificare se esse la comprendono. E’ possibile osservare che la distribuzione sperimentale coincide con la distribuzione teorica n.2. In conclusione, con i dati dell’esempio, la distribuzione osservata cade nella zona di rifiuto: si rifiuta l’ipotesi nulla e si accetta l’ipotesi alternativa.
E’ possibile calcolare con precisione la probabilità di trovare per caso la distribuzione osservata, nella condizione che l’ipotesi nulla H0 sia vera. Le risposte possibili sono 70 e la nostra risposta sperimentale è la seconda nell’ordine delle distribuzioni teoriche possibili, considerando solo la coda definita dall’ipotesi unilaterale H1. Pertanto, la probabilità di trovare per caso riposte uguali o più estreme di quella sperimentalmente osservata è P = 2/70 = 0,0286 o 2,86%
Se il test fosse bilaterale, occorre considerare anche l’altra coda della distribuzione. La probabilità calcolata (P = 2,86%) deve essere moltiplicata per 2 (P = 5,72%).
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |