METODI NON PARAMETRICI PER UN CAMPIONE
7.13. TEST T DI WILCOXON PER LA SIMMETRIA
Disponendo di una rilevazione campionaria di N dati, - sia per l’analisi delle caratteristiche della distribuzione, come la verifica di una particolare asimmetria destra o sinistra, - sia per la successiva applicazione ad essi di un test parametrico, quale il test t di Student, - sia per stimare l’intervallo fiduciale della media e della varianza, assume importanza valutare se la distribuzione è simmetrica. Esistono i test parametrici, illustrati nel capitolo dedicata alla simmetria; ma può essere vantaggioso ricorrere a un test non parametrico, per le sue caratteristiche specifiche, esposte nel primo paragrafo di questo capitolo. Tra le proposte rintracciabili in letteratura, assume importanza per la sua semplicità e generalizzazione il test T di Wilcoxon per ranghi con segno (the Wilcoxon signed-rank test), non attribuibile ad un autore specifico per questa sua utilizzazione.
La metodologia è del tutto simile a quella per il test sulla tendenza centrale, con la sola differenza che le differenze sono calcolate rispetto alla mediana del campione, non ad un valore qualsiasi prefissato. Il test è bilaterale, quando si verifica se esiste una differenza significativa tra i ranghi degli scarti positivi e di quelli negativi dalla mediana. E’ unilaterale, per asimmetria destra o asimmetria sinistra, quando la verifica è specificatamente per l’eccesso degli scarti positivi oppure di quelli negativi.
La serie di passaggi logici ed operativi può essere illustrata in modo semplice con un esempio. Si assuma di voler verificare la simmetria (bilaterale ) della seguente distribuzione di valori
1- Si ordinano i dati in modo crescente e si individua la mediana
che, con N = 10, cade a metà tra il 5° e il 6° valore, cioè tra 29 e 30; quindi la mediana è 29,5.
2 –Per ogni dato () si calcola lo scarto ( dalla mediana del campione
ottenendo la seguente serie con il loro segno
3 - Si trasformano queste differenze con segno () nel loro rango, considerandole in valore assoluto ( di
4 – Ad ognuno di questi ranghi ( di ) si attribuisce il segno della loro differenza () dalla mediana, ottenendone i ranghi con segno () come nella serie seguente
5 – Di questa serie di valori, si sommano tra loro - i ranghi negativi T- = 8 + 6,5 + 4 +3 + 1,5 = 23 ottenendo T- = 23 - i ranghi positivi T+= 1,5 + 5 + 6,5 + 9 + 10 = 32 ottenendo T+ = 32
6 - Come nel test precedente, la loro somma dipende solo da N ed è T- + T+ =
7 – Per l’analisi si sceglie il valore minore; la sua media attesa ( dovrebbe essere
Per piccoli campioni, come N = 10, la significatività è fornita dalla tabella dei valori critici (già riportati nel paragrafo precedente, ma forniti anche nella pagina successiva in modo più completo).
Per un’ipotesi bilaterale, il valore di T minore (23) deve essere confrontato con quello critico alla probabilità a = 0.05 bilaterale che risulta uguale a 8. Poiché il valore calcolato (23) è maggiore, in questo test non è possibile rifiutare l’ipotesi nulla.
Per un test unilaterale, si deve prima verificare se effettivamente la somma dei ranghi è maggiore dalla parte attesa, espressa nell’ipotesi alternativa (ad esempio, per l’asimmetria destra T+ deve essere maggiore di T-). Successivamente, si verifica se il T minore (in questo caso T-) è significativo. Con N = 10 e alla probabilità unilaterale a = 0.05, il valore critico è T = 10. Poiché il valore calcolato (T = 23) è maggiore, con questi dati non è possibile rifiutare l’ipotesi nulla, anche in un test unilaterale.
TAVOLA DEI VALORI CRITICI DEL TEST T DI WILCOXON (uguali ai precedenti, validi per entrambi i test, ma presentati in modo differente)
Nel caso di grandi campioni, si ricorre alla distribuzione normale. Sempre nella condizione che H0 sia vera, la somma dei ranghi dello stesso segno (T) segue approssimativamente la distribuzione normale
dove - è calcolato con la formula precedente - è la deviazione standard di T, determinata solamente da N (il numero di dati) secondo la relazione
Con misure ripetute e campioni grandi, la metodologia diventa più complessa. Per illustrare anche questa procedura, utile in varie situazioni, viene sviluppato l’esempio tratto dal testo di Jarrold Zar del 1999 (Biostatistical Analysis 4th ed. Prentice Hall, Upper Saddle River, Nee Jersey). E’ stato utilizzato in questo corso anche per la verifica della normalità, della simmetria e della curtosi con metodi parametrici, allo scopo di confrontarne i risultati e valutare la diversa potenza. Misurando l’altezza ( espressa in pollici, riportata nella colonna 1) di 70 studenti, è stata ottenuta la seguente distribuzione di frequenza (, nella colonna 2):
La procedura per valutare se esiste una asimmetria significativa (quindi test bilaterale) con il test non parametrico T di Wilcoxon richiede i seguenti passaggi logici:
1 - Individuare la mediana. Poiché le misure sono 70 (già ordinate dalla minore alla maggiore nella distribuzione di frequenza delle colonne 1 e 2), la mediana è il valore collocato tra il 35° rango (70) e il 36° rango (71), cioè mediana = 70,5.
2 - Si calcola la differenza () tra ogni misura () e la mediana, riportandone anche il segno (, vedi la terza colonna).
3 – Considerando queste differenze in valore assoluto (, vedi quarta colonna), si attribuisce ad esse il rango; è l’operazione che richiede più tempo e alla quale occorre prestare maggiore attenzione ( di , nella quinta colonna). Ad esempio. a) Le misure = 70 che sono 8 e le misure = 71 che sono 7 hanno tutte uno scarto dalla mediana (70,5) che in valore assoluto è 0,5 (= 0,5). In una disposizione ordinata per dimensioni, questi scarti occupano i ranghi da 1 a 15, il cui valore medio è 8. Quindi gli 8 scarti positivi (+0,5) e i 7 scarti negativi (-0,5) hanno tutti rango 8 ( di = 8). b) Le misure = 69 che sono 5 e le misure = 72 che sono 7 hanno tutte uno scarto dalla mediana (70,5) che in valore assoluto è 1,5 (= 1,5). In una disposizione ordinata per dimensioni, questi 12 scarti occupano le posizioni da rango 16 a rango 27, il cui valore centrale (individuabile anche come media della somma dei valori da 16 a 27) è 21,5. Quindi i 5 scarti positivi (+1,5) e i 7 scarti negativi (-1,5) hanno tutti rango 21,5 ( di = 21,5) c) Si continua in questo modo procedendo dai valori centrali, vicini alla mediana e quindi con scarti minori, verso i valori estremi, ovviamente con scarti maggiori. Ad esempio, le misure = 63 sono 2 e hanno uno scarto dalla mediana (70,5) che in valore assoluto è 7,5 ( = 7,5). Sono i due scarti maggiori su 70 e quindi occupano i ranghi 69 e 70, il cui valore medio è 69,5 (vedi, nella colonna 5, di = 69,5).
4 – Nella sesta colonna ( con segno ) vengono riportati i ranghi della quinta colonna, con il segno della loro differenza, riportata nella terza colonna.
5 – Nella settima e ultima colonna () è riportato il prodotto della colonna 2 con la colonna 6. Infine si devono sommare tra loro - i valori negativi T- = 139 + 135 + 192 + 287,5 + 194 + 213 + 107,5 + 64 = 1.332 ottenendo T- = 1.332 - i valori positivi T+ = 56 + 160,5 + 355 + 291 + 172,5 + 128 = 1.163 ottenendo T+ = 1.163
6 - Il valore di T minore è quello determinato dalla somma dei positivi (T+ = 1.163). E’ un risultato che indica una asimmetria sinistra, ma si tratta di valutarne la significatività. Tale valore non è assolutamente significativo, poiché per N = 70 il valore minimo di T è maggiore non solo di quello critico riportato per la probabilità bilaterale a = 0.05 (907), ma è maggiore anche di quello per la probabilità a = 0.5 (1.126).
Applicato allo studio della simmetria, il test T di Wilcoxon è poco potente. Mentre per il confronto della tendenza centrale rispetto al corrispondente parametrico test t di Student esso perde poco in potenza (è 0,95 in alcune stime; 0,96 in altre), nel caso del test sulla simmetria la perdita di potenza è grande. Infatti, applicata agli stessi dati, la metodologia parametrica proposta da D’Agostino (vedi capitolo relativo) per un test bilaterale con Z = -1,23 fornisce una stima della probabilità uguale a 0,219 o 21,9%.
Poiché il campione è grande (N = 70) è possibile ricorrere alla distribuzione normale e applicare la formula per la stima di Z. Con = e = si ottiene =
una stima Z = -0,47. In una distribuzione normale bilaterale a questo valore corrisponde una probabilità uguale a 0,638 (63,8%). E’ un risultato che conferma quello della tabella; ma fornisce una stima più precisa della probabilità.
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |