METODI NON PARAMETRICI PER UN CAMPIONE

 

 

 

7.13.   TEST T DI WILCOXON PER LA SIMMETRIA

 

 

Disponendo di una rilevazione campionaria di N dati,

-          sia per l’analisi delle caratteristiche della distribuzione, come la verifica di una particolare asimmetria destra o sinistra,

-          sia per la successiva applicazione ad essi di un test parametrico, quale il test t di Student,

-          sia per stimare l’intervallo fiduciale della media e della varianza,

assume importanza valutare se la distribuzione è simmetrica.

Esistono i test parametrici, illustrati nel capitolo dedicata alla simmetria; ma può essere vantaggioso ricorrere a un test non parametrico, per le sue caratteristiche specifiche, esposte nel primo paragrafo di questo capitolo.

Tra le proposte rintracciabili in letteratura, assume importanza per la sua semplicità e generalizzazione il test T di Wilcoxon per ranghi con segno (the Wilcoxon signed-rank test), non attribuibile ad un autore specifico per questa sua utilizzazione.

 

La metodologia è del tutto simile a quella per il test sulla tendenza centrale, con la sola differenza che le differenze sono calcolate rispetto alla mediana del campione, non ad un valore qualsiasi prefissato.

Il test è bilaterale, quando si verifica se esiste una differenza significativa tra i ranghi degli scarti positivi e di quelli negativi dalla mediana.

E’ unilaterale, per asimmetria destra o asimmetria sinistra, quando la verifica è specificatamente per l’eccesso degli scarti positivi oppure di quelli negativi.

 

La serie di passaggi logici ed operativi può essere illustrata in modo semplice con un esempio. Si assuma di voler verificare la simmetria (bilaterale ) della seguente distribuzione di valori


 

Campione

a

b

c

d

e

f

g

h

i

l

22

28

30

15

48

37

50

24

29

36

 

1- Si ordinano i dati in modo crescente e si individua la mediana

 

Campione

D

A

H

B

I

C

L

F

E

G

15

22

24

28

29

30

36

37

48

50

 

 che, con N = 10,  cade a metà tra il 5° e il 6° valore, cioè tra 29 e 30; quindi la mediana è 29,5.

 

2 –Per ogni dato () si calcola lo scarto ( dalla mediana del campione

 ottenendo la seguente serie con il loro segno

 

15

22

24

28

29

30

36

37

48

50

-14,5

-7,5

-5,5

-1,5

-0,5

+0,5

+6,5

+7,5

+18,5

+20,5

 

 

3 -  Si trasformano queste differenze con segno () nel loro rango, considerandole in valore assoluto ( di

 

-14,5

-7,5

-5,5

-1,5

-0,5

+0,5

+6,5

+7,5

+18,5

+20,5

 di

8

6,5

4

3

1,5

1,5

5

6,5

9

10

 

 

4 – Ad ognuno di questi ranghi ( di ) si attribuisce il segno della loro differenza () dalla mediana, ottenendone i ranghi con segno () come nella serie seguente

 

 

-8

-6,5

-4

-3

-1,5

+1,5

+5

+6,5

+9

+10

 

5 – Di questa serie di valori, si sommano tra loro

-          i ranghi negativi

T- = 8 + 6,5 + 4 +3 + 1,5 = 23

 ottenendo T- = 23

-          i ranghi positivi

T+= 1,5 + 5 + 6,5 + 9 + 10 = 32

 ottenendo T+ = 32

 

6 - Come nel test precedente, la loro somma dipende solo da N 

 ed è

T- + T+ =

 

7 – Per l’analisi si sceglie il valore minore; la sua media attesa ( dovrebbe essere

 

 

Per piccoli campioni, come N = 10, la significatività è fornita dalla tabella dei valori critici (già riportati nel paragrafo precedente, ma forniti anche nella pagina successiva in modo più completo).

 

Per un’ipotesi bilaterale, il valore di T minore (23) deve essere  confrontato con quello critico alla probabilità a = 0.05 bilaterale che risulta uguale a 8. Poiché il valore calcolato (23) è maggiore, in questo test non è possibile rifiutare l’ipotesi nulla.

 

Per un test unilaterale, si deve prima verificare se effettivamente la somma dei ranghi è maggiore dalla parte attesa, espressa nell’ipotesi alternativa (ad esempio, per l’asimmetria destra T+ deve essere maggiore di T-). Successivamente, si verifica se il T minore (in questo caso T-) è significativo.

Con  N = 10 e alla probabilità unilaterale  a = 0.05, il valore critico è T = 10. Poiché il valore calcolato (T = 23) è maggiore, con questi dati non è possibile rifiutare l’ipotesi nulla, anche in un test unilaterale.


 

 

TAVOLA DEI VALORI CRITICI

DEL TEST T DI WILCOXON

(uguali ai precedenti, validi per entrambi i test, ma presentati in modo differente)

 

 

 

a bil.

0.50

0.20

0.10

0.05

0.02

0.01

0.005

0.001

a uni.

0.25

0.10

0.05

0.025

0.01

0.005

0.0025

0.0005

4

 

2

0

---

---

---

---

---

---

5

4

2

0

---

---

---

---

---

6

6

3

2

0

---

---

---

---

7

9

5

3

2

0

---

---

---

8

12

8

5

3

1

0

---

---

9

16

10

8

5

3

1

0

---

10

20

14

10

8

5

3

1

---

11

24

17

13

10

7

5

3

0

12

29

21

17

13

9

7

5

1

13

35

26

21

17

12

9

7

2

14

40

31

25

21

15

12

9

4

15

47

36

30

25

19

15

12

6

16

54

42

35

29

23

19

15

8

17

61

48

41

34

27

23

19

11

18

69

55

47

40

32

27

23

14

19

77

62

53

46

37

32

27

18

20

86

69

60

52

43

37

32

21

21

95

77

67

58

49

42

37

25

22

104

86

75

65

55

48

42

30

23

114

94

83

73

62

54

48

35

24

125

104

91

81

69

61

54

40

25

136

113

100

89

76

68

60

45

26

148

124

110

98

84

75

67

51

27

160

134

119

107

92

83

74

57

28

172

145

130

116

101

91

82

64

29

185

157

140

126

110

100

90

71

30

198

169

151

137

120

109

98

78

35

272

235

213

195

173

159

146

120

40

358

313

286

264

238

220

204

172

45

456

402

371

343

312

291

272

233

50

566

503

466

434

397

373

350

304

55

688

615

573

536

493

465

438

385

60

822

739

690

648

600

567

537

476

65

968

875

820

772

718

681

647

577

70

1126

1022

960

907

846

805

767

689

75

1296

1181

1112

1053

986

940

898

811

80

1478

1351

1276

1211

1136

1086

1039

943

85

1672

1533

1451

1380

1298

1242

1191

1086

90

1878

1727

1638

1560

1471

1410

1355

1240

95

2097

1933

1836

1752

1655

1589

1529

1404

100

2327

2151

2045

1955

1850

1779

1714

1578

 


Nel caso di grandi campioni, si ricorre alla distribuzione normale.

Sempre nella condizione che H0 sia vera, la somma dei ranghi dello stesso segno (T) segue approssimativamente la distribuzione normale

 

 dove

-           è calcolato con la formula precedente

-           è la deviazione standard di T, determinata solamente da N (il numero di dati)

 secondo la relazione

 

Con misure ripetute e campioni grandi, la metodologia diventa più complessa.

Per illustrare anche questa procedura, utile in varie situazioni, viene sviluppato l’esempio tratto dal testo di Jarrold Zar del 1999 (Biostatistical Analysis  4th ed. Prentice Hall, Upper Saddle River, Nee Jersey). E’ stato utilizzato in questo corso anche per la verifica della normalità, della simmetria e della curtosi con metodi parametrici, allo scopo di confrontarne i risultati e valutare la diversa potenza.

Misurando l’altezza ( espressa in pollici, riportata nella colonna 1) di 70 studenti, è stata ottenuta la seguente distribuzione di frequenza (, nella colonna 2):

 

(1)

(2)

(3)

(4)

(5)

(6)

(7)

 di

 con segno

63

2

-7,5

7,5

69,5

-69,5

-139

64

2

-6,5

6,5

67,5

-67,5

-135

65

3

-5,5

5,5

64

-64

-192

66

5

-4,5

4,5

57,5

-57,5

-287,5

67

4

-3,5

3,5

48,5

-48,5

-194

68

6

-2,5

2,5

35,5

-35,5

-213

69

5

-1,5

1,5

21,5

-21,5

-107,5

70

8

-0,5

0,5

8

-8

-64

71

7

+0,5

0,5

8

+8

+56

72

7

+1,5

1,5

21,5

+21,5

+160,5

73

10

+2,5

2,5

35,5

+35,5

+355

74

6

+3,5

3,5

48,5

+48,5

+291

75

3

+4,5

4,5

57,5

+57,5

+172,5

76

2

+5,5

5,5

64

+64

+128

 

Totale

 

70

 

---

 

---

 

---

 

---

 

---

 

 

La procedura per valutare se esiste una asimmetria significativa (quindi test bilaterale) con il test non parametrico T di Wilcoxon richiede i seguenti passaggi logici:

 

1 -  Individuare la mediana. Poiché le misure sono 70 (già ordinate dalla minore alla maggiore nella distribuzione di frequenza delle colonne 1 e 2), la mediana è il valore collocato tra il 35° rango (70) e il 36° rango (71), cioè mediana = 70,5.

 

2 - Si calcola la differenza  ()  tra ogni misura () e la mediana, riportandone anche il segno  (, vedi la terza colonna).

 

3 – Considerando queste differenze in valore assoluto (, vedi quarta colonna), si attribuisce ad esse il rango; è l’operazione che richiede più tempo e alla quale occorre prestare maggiore attenzione ( di , nella quinta colonna).

Ad esempio.

a) Le misure  = 70 che sono 8 e le misure  = 71 che sono 7 hanno tutte uno scarto dalla mediana (70,5) che in valore assoluto è 0,5 (= 0,5).

In una disposizione ordinata per dimensioni, questi scarti occupano i ranghi da 1 a 15, il cui valore medio  è 8. Quindi gli 8 scarti positivi (+0,5) e i 7 scarti negativi (-0,5) hanno tutti rango 8 ( di  = 8).

b) Le misure  = 69 che sono 5 e le misure  = 72 che sono 7 hanno tutte uno scarto dalla mediana (70,5) che in valore assoluto è 1,5 (= 1,5).

In una disposizione ordinata per dimensioni, questi 12 scarti occupano le posizioni da rango 16 a rango 27, il cui valore centrale (individuabile anche come media della somma dei valori da 16 a 27) è 21,5. Quindi i 5 scarti positivi (+1,5) e i 7 scarti negativi (-1,5) hanno tutti rango 21,5 ( di = 21,5)

c) Si continua in questo modo procedendo dai valori centrali, vicini alla mediana e quindi con scarti minori, verso i valori estremi, ovviamente con scarti maggiori.

Ad esempio, le misure  = 63 sono 2 e hanno uno scarto dalla mediana (70,5) che in valore assoluto è 7,5 ( = 7,5). Sono i due scarti maggiori su 70 e quindi occupano i ranghi 69 e 70, il cui valore medio è 69,5 (vedi, nella colonna 5,  di  = 69,5).

 

4 – Nella sesta colonna ( con segno ) vengono riportati i ranghi della quinta colonna, con il segno della loro differenza, riportata nella terza colonna.

 

5 – Nella settima e ultima colonna () è riportato il prodotto della colonna 2 con la colonna 6.

Infine si devono sommare tra loro

- i valori negativi

T- = 139 + 135 + 192 + 287,5 + 194 + 213 + 107,5 + 64 = 1.332

 ottenendo T- = 1.332

- i valori positivi

T+ = 56 + 160,5 + 355 + 291 + 172,5 + 128 = 1.163

 ottenendo T+ = 1.163

 

6 - Il valore di T minore è quello determinato dalla somma dei positivi (T+ = 1.163).

E’ un risultato che indica una asimmetria sinistra, ma si tratta di valutarne la significatività.

Tale valore non è assolutamente significativo, poiché per N = 70 il valore minimo di T è maggiore non solo di quello critico riportato per la probabilità bilaterale a = 0.05 (907), ma è maggiore anche di quello per la probabilità a = 0.5 (1.126).

 

Applicato allo studio della simmetria, il test T di Wilcoxon è poco potente. Mentre per il confronto della tendenza centrale rispetto al corrispondente parametrico test t di Student esso perde poco in potenza (è 0,95 in alcune stime; 0,96 in altre), nel caso del test sulla simmetria la perdita di potenza è grande. Infatti, applicata agli stessi dati, la metodologia parametrica proposta da  D’Agostino (vedi capitolo relativo) per un test bilaterale con Z = -1,23 fornisce una stima della probabilità uguale a 0,219 o 21,9%.

 

Poiché il campione è grande (N = 70) è possibile ricorrere alla distribuzione normale e applicare la formula per la stima di Z.

Con

 =

 e

 =

 si ottiene

 =

 

 una stima Z = -0,47.

In una distribuzione normale bilaterale a questo valore corrisponde una probabilità uguale a 0,638 (63,8%). E’ un risultato che conferma quello della tabella; ma fornisce una stima più precisa della probabilità.

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007