METODI NON PARAMETRICI PER UN CAMPIONE

7.13. TEST T DI WILCOXON PER LA SIMMETRIA

Disponendo di una rilevazione campionaria di N dati,

- sia per l’analisi delle caratteristiche della distribuzione, come la verifica di una particolare asimmetria destra o sinistra,

- sia per la successiva applicazione ad essi di un test parametrico, quale il test t di Student,

- sia per stimare l’intervallo fiduciale della media e della varianza,

assume importanza valutare se la distribuzione è simmetrica.

Esistono i test parametrici, illustrati nel capitolo dedicata alla simmetria; ma può essere vantaggioso ricorrere a un test non parametrico, per le sue caratteristiche specifiche, esposte nel primo paragrafo di questo capitolo.

Tra le proposte rintracciabili in letteratura, assume importanza per la sua semplicità e generalizzazione il test T di Wilcoxon per ranghi con segno (the Wilcoxon signed-rank test), non attribuibile ad un autore specifico per questa sua utilizzazione.

La metodologia è del tutto simile a quella per il test sulla tendenza centrale, con la sola differenza che le differenze sono calcolate rispetto alla mediana del campione, non ad un valore qualsiasi prefissato.

Il test è bilaterale, quando si verifica se esiste una differenza significativa tra i ranghi degli scarti positivi e di quelli negativi dalla mediana.

E’ unilaterale, per asimmetria destra o asimmetria sinistra, quando la verifica è specificatamente per l’eccesso degli scarti positivi oppure di quelli negativi.

La serie di passaggi logici ed operativi può essere illustrata in modo semplice con un esempio. Si assuma di voler verificare la simmetria (bilaterale ) della seguente distribuzione di valori

Campione	a	b	c	d	e	f	g	h	i	l
	22	28	30	15	48	37	50	24	29	36

1- Si ordinano i dati in modo crescente e si individua la mediana

Campione	D	A	H	B	I	C	L	F	E	G
	15	22	24	28	29	30	36	37	48	50

che, con N = 10, cade a metà tra il 5° e il 6° valore, cioè tra 29 e 30; quindi la mediana è 29,5.

2 –Per ogni dato () si calcola lo scarto ( dalla mediana del campione

ottenendo la seguente serie con il loro segno

	15	22	24	28	29	30	36	37	48	50
	-14,5	-7,5	-5,5	-1,5	-0,5	+0,5	+6,5	+7,5	+18,5	+20,5

3 - Si trasformano queste differenze con segno () nel loro rango, considerandole in valore assoluto ( di

	-14,5	-7,5	-5,5	-1,5	-0,5	+0,5	+6,5	+7,5	+18,5	+20,5
di	8	6,5	4	3	1,5	1,5	5	6,5	9	10

4 – Ad ognuno di questi ranghi ( di ) si attribuisce il segno della loro differenza () dalla mediana, ottenendone i ranghi con segno () come nella serie seguente

-8

-6,5

-4

-3

-1,5

+1,5

+6,5

+10

5 – Di questa serie di valori, si sommano tra loro

- i ranghi negativi

T^- = 8 + 6,5 + 4 +3 + 1,5 = 23

ottenendo T^- = 23

- i ranghi positivi

T⁺= 1,5 + 5 + 6,5 + 9 + 10 = 32

ottenendo T⁺ = 32

6 - Come nel test precedente, la loro somma dipende solo da N

ed è

T^- + T⁺ =

7 – Per l’analisi si sceglie il valore minore; la sua media attesa ( dovrebbe essere

Per piccoli campioni, come N = 10, la significatività è fornita dalla tabella dei valori critici (già riportati nel paragrafo precedente, ma forniti anche nella pagina successiva in modo più completo).

Per un’ipotesi bilaterale, il valore di T minore (23) deve essere confrontato con quello critico alla probabilità a = 0.05 bilaterale che risulta uguale a 8. Poiché il valore calcolato (23) è maggiore, in questo test non è possibile rifiutare l’ipotesi nulla.

Per un test unilaterale, si deve prima verificare se effettivamente la somma dei ranghi è maggiore dalla parte attesa, espressa nell’ipotesi alternativa (ad esempio, per l’asimmetria destra T⁺ deve essere maggiore di T^-). Successivamente, si verifica se il T minore (in questo caso T^-) è significativo.

Con N = 10 e alla probabilità unilaterale a = 0.05, il valore critico è T = 10. Poiché il valore calcolato (T = 23) è maggiore, con questi dati non è possibile rifiutare l’ipotesi nulla, anche in un test unilaterale.

TAVOLA DEI VALORI CRITICI

DEL TEST T DI WILCOXON

(uguali ai precedenti, validi per entrambi i test, ma presentati in modo differente)

	a bil.	0.50	0.20	0.10	0.05	0.02	0.01	0.005	0.001
	a uni.	0.25	0.10	0.05	0.025	0.01	0.005	0.0025	0.0005
4		2	0	---	---	---	---	---	---
5		4	2	0	---	---	---	---	---
6		6	3	2	0	---	---	---	---
7		9	5	3	2	0	---	---	---
8		12	8	5	3	1	0	---	---
9		16	10	8	5	3	1	0	---
10		20	14	10	8	5	3	1	---
11		24	17	13	10	7	5	3	0
12		29	21	17	13	9	7	5	1
13		35	26	21	17	12	9	7	2
14		40	31	25	21	15	12	9	4
15		47	36	30	25	19	15	12	6
16		54	42	35	29	23	19	15	8
17		61	48	41	34	27	23	19	11
18		69	55	47	40	32	27	23	14
19		77	62	53	46	37	32	27	18
20		86	69	60	52	43	37	32	21
21		95	77	67	58	49	42	37	25
22		104	86	75	65	55	48	42	30
23		114	94	83	73	62	54	48	35
24		125	104	91	81	69	61	54	40
25		136	113	100	89	76	68	60	45
26		148	124	110	98	84	75	67	51
27		160	134	119	107	92	83	74	57
28		172	145	130	116	101	91	82	64
29		185	157	140	126	110	100	90	71
30		198	169	151	137	120	109	98	78
35		272	235	213	195	173	159	146	120
40		358	313	286	264	238	220	204	172
45		456	402	371	343	312	291	272	233
50		566	503	466	434	397	373	350	304
55		688	615	573	536	493	465	438	385
60		822	739	690	648	600	567	537	476
65		968	875	820	772	718	681	647	577
70		1126	1022	960	907	846	805	767	689
75		1296	1181	1112	1053	986	940	898	811
80		1478	1351	1276	1211	1136	1086	1039	943
85		1672	1533	1451	1380	1298	1242	1191	1086
90		1878	1727	1638	1560	1471	1410	1355	1240
95		2097	1933	1836	1752	1655	1589	1529	1404
100		2327	2151	2045	1955	1850	1779	1714	1578

Nel caso di grandi campioni, si ricorre alla distribuzione normale.

Sempre nella condizione che H₀ sia vera, la somma dei ranghi dello stesso segno (T) segue approssimativamente la distribuzione normale

dove

- è calcolato con la formula precedente

- è la deviazione standard di T, determinata solamente da N (il numero di dati)

secondo la relazione

Con misure ripetute e campioni grandi, la metodologia diventa più complessa.

Per illustrare anche questa procedura, utile in varie situazioni, viene sviluppato l’esempio tratto dal testo di Jarrold Zar del 1999 (Biostatistical Analysis 4^th ed. Prentice Hall, Upper Saddle River, Nee Jersey). E’ stato utilizzato in questo corso anche per la verifica della normalità, della simmetria e della curtosi con metodi parametrici, allo scopo di confrontarne i risultati e valutare la diversa potenza.

Misurando l’altezza ( espressa in pollici, riportata nella colonna 1) di 70 studenti, è stata ottenuta la seguente distribuzione di frequenza (, nella colonna 2):

(1)	(2)	(3)	(4)	(5)	(6)	(7)
				di	con segno
63	2	-7,5	7,5	69,5	-69,5	-139
64	2	-6,5	6,5	67,5	-67,5	-135
65	3	-5,5	5,5	64	-64	-192
66	5	-4,5	4,5	57,5	-57,5	-287,5
67	4	-3,5	3,5	48,5	-48,5	-194
68	6	-2,5	2,5	35,5	-35,5	-213
69	5	-1,5	1,5	21,5	-21,5	-107,5
70	8	-0,5	0,5	8	-8	-64
71	7	+0,5	0,5	8	+8	+56
72	7	+1,5	1,5	21,5	+21,5	+160,5
73	10	+2,5	2,5	35,5	+35,5	+355
74	6	+3,5	3,5	48,5	+48,5	+291
75	3	+4,5	4,5	57,5	+57,5	+172,5
76	2	+5,5	5,5	64	+64	+128
Totale	70	---	---	---	---	---

La procedura per valutare se esiste una asimmetria significativa (quindi test bilaterale) con il test non parametrico T di Wilcoxon richiede i seguenti passaggi logici:

1 - Individuare la mediana. Poiché le misure sono 70 (già ordinate dalla minore alla maggiore nella distribuzione di frequenza delle colonne 1 e 2), la mediana è il valore collocato tra il 35° rango (70) e il 36° rango (71), cioè mediana = 70,5.

2 - Si calcola la differenza () tra ogni misura () e la mediana, riportandone anche il segno (, vedi la terza colonna).

3 – Considerando queste differenze in valore assoluto (, vedi quarta colonna), si attribuisce ad esse il rango; è l’operazione che richiede più tempo e alla quale occorre prestare maggiore attenzione ( di , nella quinta colonna).

Ad esempio.

a) Le misure = 70 che sono 8 e le misure = 71 che sono 7 hanno tutte uno scarto dalla mediana (70,5) che in valore assoluto è 0,5 (= 0,5).

In una disposizione ordinata per dimensioni, questi scarti occupano i ranghi da 1 a 15, il cui valore medio è 8. Quindi gli 8 scarti positivi (+0,5) e i 7 scarti negativi (-0,5) hanno tutti rango 8 ( di = 8).

b) Le misure = 69 che sono 5 e le misure = 72 che sono 7 hanno tutte uno scarto dalla mediana (70,5) che in valore assoluto è 1,5 (= 1,5).

In una disposizione ordinata per dimensioni, questi 12 scarti occupano le posizioni da rango 16 a rango 27, il cui valore centrale (individuabile anche come media della somma dei valori da 16 a 27) è 21,5. Quindi i 5 scarti positivi (+1,5) e i 7 scarti negativi (-1,5) hanno tutti rango 21,5 ( di = 21,5)

c) Si continua in questo modo procedendo dai valori centrali, vicini alla mediana e quindi con scarti minori, verso i valori estremi, ovviamente con scarti maggiori.

Ad esempio, le misure = 63 sono 2 e hanno uno scarto dalla mediana (70,5) che in valore assoluto è 7,5 ( = 7,5). Sono i due scarti maggiori su 70 e quindi occupano i ranghi 69 e 70, il cui valore medio è 69,5 (vedi, nella colonna 5, di = 69,5).

4 – Nella sesta colonna ( con segno ) vengono riportati i ranghi della quinta colonna, con il segno della loro differenza, riportata nella terza colonna.

5 – Nella settima e ultima colonna () è riportato il prodotto della colonna 2 con la colonna 6.

Infine si devono sommare tra loro

- i valori negativi

T^- = 139 + 135 + 192 + 287,5 + 194 + 213 + 107,5 + 64 = 1.332

ottenendo T^- = 1.332

- i valori positivi

T⁺ = 56 + 160,5 + 355 + 291 + 172,5 + 128 = 1.163

ottenendo T⁺ = 1.163

6 - Il valore di T minore è quello determinato dalla somma dei positivi (T⁺ = 1.163).

E’ un risultato che indica una asimmetria sinistra, ma si tratta di valutarne la significatività.

Tale valore non è assolutamente significativo, poiché per N = 70 il valore minimo di T è maggiore non solo di quello critico riportato per la probabilità bilaterale a = 0.05 (907), ma è maggiore anche di quello per la probabilità a = 0.5 (1.126).

Applicato allo studio della simmetria, il test T di Wilcoxon è poco potente. Mentre per il confronto della tendenza centrale rispetto al corrispondente parametrico test t di Student esso perde poco in potenza (è 0,95 in alcune stime; 0,96 in altre), nel caso del test sulla simmetria la perdita di potenza è grande. Infatti, applicata agli stessi dati, la metodologia parametrica proposta da D’Agostino (vedi capitolo relativo) per un test bilaterale con Z = -1,23 fornisce una stima della probabilità uguale a 0,219 o 21,9%.

Poiché il campione è grande (N = 70) è possibile ricorrere alla distribuzione normale e applicare la formula per la stima di Z.

Con

si ottiene

una stima Z = -0,47.

In una distribuzione normale bilaterale a questo valore corrisponde una probabilità uguale a 0,638 (63,8%). E’ un risultato che conferma quello della tabella; ma fornisce una stima più precisa della probabilità.

T- + T+ =

T^- + T⁺ =