METODI NON PARAMETRICI PER DUE CAMPIONI INDIPENDENTI
9.9. L’INTERVALLO DI CONFIDENZA DELLA DIFFERENZA TRA DUE MEDIANE, CON L’INDICE U DI MANN-WHITNEY.
I valori critici del test U si prestano molto bene per la stima dell’intervallo di confidenza della differenza tra le due tendenze centrali, per la stretta relazione che esiste tra essi e la serie delle differenze a coppie delle due serie di valori.
Una prima corrispondenza è il numero di differenze: con 10 dati come nel gruppo A e 12 come nel gruppo B,
si calcolano 10 x 12 = 120 differenze possibili, che corrispondono alla somma U + U’. Infatti, confrontando le due serie, le precedenze del gruppo A sono
U = 1 + 2 + 5 + 5 + 5 + 5 + 5 + 6 + 12 + 12 = 58 uguali a 58 e quelle del gruppo B sono
U’ = 0 + 1 + 2 + 2 + 2 + 7 + 8 + 8 + 8 + 8 + 8+ 8 = 62 uguali a 62. In conclusione, x 10 x 12 = 52 + 62
Ordinando i valori per rango, le differenze calcolate sono disposte lungo una diagonale. In questo caso, come evidenziato nella tabella successiva, hanno i valori minori nell’angolo in fondo a sinistra e i valori maggiori nell’angolo in alto a destra. La seconda corrispondenza è che per stimare l’intervallo di confidenza della differenza tra le due mediane, come stima migliore della loro tendenza centrale e coincidente con la differenza tra le due medie quando la distribuzione è simmetrica, si possono utilizzare i valori critici di U, per una distribuzione a due code.
Differenze tra le osservazioni di due campioni indipendenti (Ai – Bj)
Per calcolare l’intervallo di confidenza della differenza tra le due mediane, è sufficiente scartare ai due estremi della serie delle differenze un numero pari a U. Poiché nella tabella dei valori critici di U, per due campioni indipendenti e con un numero differente di osservazioni, - alla probabilità a = 0.05 il valore critico è U = 29 - alla probabilità a = 0.01 il valore critico è U = 21 l’intervallo di confidenza della differenza tra le due mediane - con probabilità P = 0.95 sarà compreso tra i due estremi ottenuti scartando le 29 differenze minori e le 29 maggiori, - con probabilità P = 0.99 sarà compreso tra i due estremi ottenuti scartando le 21 differenze minori e le 21 maggiori. Nella tabella delle differenze, alla probabilità P = 0.95 la differenza tra le due mediane come limite interiore ha –185 e come limite superiore 103: -185 < q < 103
Per il confronto con altri metodi che affrontano lo stesso problema e sono stati applicati alle stesse due serie campionarie, si ricorda che alla stessa probabilità P = 0,95 - con il test della mediana l’intervallo era - 78 < q < +200 - con il test t di Student era –142,94 < q < + 172,04
Rispetto al test parametrico, ha un intervallo minore (288 invece di 314,98) e non ha le stesse limitazioni per essere ritenuto valido. Rispetto al test della mediana, ha un intervallo leggermente superiore ma una distribuzione meno influenzata dalla presenza di due valori anomali. E’ tuttavia evidente la differenza tra i tre metodi. Tra essi, quello meno attendibile è ovviamente quello parametrico, fondato su ipotesi di normalità della distribuzione che non sono assolutamente verificate nei due campioni. Se la distribuzione fosse stata normale, l’intervallo con il test t sarebbe stato quello minore; e sarebbe stata una buona indicazione della sua effettiva maggiore validità, come è dimostrato nel capitolo dedicato alla trasformazione dei dati che, normalizzando le distribuzioni, riducono al minimo la varianza d’errore.
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |