METODI NON PARAMETRICI PER DUE CAMPIONI INDIPENDENTI

 


 

9.9. L’INTERVALLO DI CONFIDENZA DELLA DIFFERENZA TRA DUE MEDIANE, CON L’INDICE U DI MANN-WHITNEY.

 

 

I valori critici del test U si prestano molto bene per la stima dell’intervallo di confidenza della differenza tra le due tendenze centrali, per la stretta relazione che esiste tra essi e la serie delle differenze a coppie delle due serie di valori.

 

Una prima corrispondenza è il numero di differenze: con 10 dati come nel gruppo A e 12 come nel gruppo B, 

 

Area A

143

173

226

233

250

287

291

303

634

637

---

---

Area B

50

164

198

221

225

302

328

335

426

534

586

618

 

 

 si calcolano 10 x 12 = 120 differenze possibili, che corrispondono alla somma U + U’.

Infatti, confrontando le due serie, le precedenze del gruppo A sono

 

Area A

143

173

226

233

250

287

291

303

634

637

Preced.

1

2

5

5

5

5

5

6

12

12

 

U = 1 + 2 + 5 + 5 + 5 + 5 + 5 + 6 + 12 + 12 = 58

 uguali a 58

 e quelle del gruppo B sono

 

Area B

50

164

198

221

225

302

328

335

426

534

586

618

Preced.

0

1

2

2

2

7

8

8

8

8

8

8

 

U’ = 0 + 1 + 2 + 2 + 2 + 7 + 8 + 8 + 8 + 8 + 8+ 8 = 62

 uguali a 62. In conclusione,

 x          10 x 12 = 52 + 62

 

Ordinando i valori per rango, le differenze calcolate sono disposte lungo una diagonale. In questo caso, come evidenziato nella tabella successiva, hanno i valori minori nell’angolo in fondo a sinistra e i valori maggiori nell’angolo in alto a destra.

La seconda corrispondenza è che per stimare l’intervallo di confidenza della differenza tra le due mediane, come stima migliore della loro tendenza centrale e coincidente con la differenza tra le due medie quando la distribuzione è simmetrica, si possono utilizzare i valori critici di U, per una distribuzione a due code.

 

B/A

143

173

226

233

250

287

291

303

634

637

50

93

123

176

183

200

237

241

253

584

587

164

-21

9

62

69

86

123

127

139

470

473

198

-55

-25

28

35

52

89

93

105

436

439

221

-78

-48

5

12

29

66

70

82

413

416

225

-82

-52

1

8

25

62

66

78

409

412

302

-159

-129

-76

-69

-52

-15

-11

1

332

335

328

-185*

-155

-102

-95

-78

-41

-37

-25

306

309

335

-192

-162

-109

-102

-85

-48

-44

-32

299

302

426

-283

-253

-200

-193

-176

-139

-135

-123

208

211

534

-391

-361

-308

-301

-284

-247

-243

-231

100

103*

586

-443

-413

-360

-353

-336

-299

-295

-283

48

51

618

-475

-445

-392

-385

-368

-331

-327

-315

16

19

 

Differenze tra le osservazioni di due campioni indipendenti (Ai – Bj)

 

 

Per calcolare l’intervallo di confidenza della differenza tra le due mediane, è sufficiente scartare ai due estremi della serie delle differenze un numero pari a U.

Poiché nella tabella dei valori critici di U, per due campioni indipendenti e con un numero differente di osservazioni,

-          alla probabilità a = 0.05 il valore critico è U = 29

-          alla probabilità a = 0.01 il valore critico è U = 21

 l’intervallo di confidenza della differenza tra le due mediane

-          con probabilità P = 0.95 sarà compreso tra i due estremi ottenuti scartando le 29 differenze minori e le 29 maggiori,

-          con probabilità P = 0.99 sarà compreso tra i due estremi ottenuti scartando le 21 differenze minori e le 21 maggiori.

Nella tabella delle differenze, alla probabilità P = 0.95 la differenza tra le due mediane come limite interiore ha –185 e come limite superiore 103:

-185 < q < 103

 

Per il confronto con altri metodi che affrontano lo stesso problema e sono stati applicati alle stesse due serie campionarie, si ricorda che alla stessa probabilità P = 0,95

-          con il test della mediana l’intervallo era

- 78 < q < +200

-          con il test t di Student era

–142,94  < q <  + 172,04

 

Rispetto al test parametrico, ha un intervallo minore (288 invece di 314,98) e non ha le stesse limitazioni per essere ritenuto valido.

Rispetto al test della mediana, ha un intervallo leggermente superiore ma una distribuzione meno influenzata dalla presenza di due valori anomali.

E’ tuttavia evidente la differenza tra i tre metodi. Tra essi, quello meno attendibile è ovviamente quello parametrico, fondato su ipotesi di normalità della distribuzione che non sono assolutamente verificate nei due campioni. Se la distribuzione fosse stata normale, l’intervallo con il test t sarebbe stato quello minore; e sarebbe stata una buona indicazione della sua effettiva maggiore validità, come è dimostrato nel capitolo dedicato alla trasformazione dei dati che, normalizzando le distribuzioni, riducono al minimo la varianza d’errore.

 

 

 

 

 

 

 

 

 

 

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007