METODI NON PARAMETRICI PER DUE CAMPIONI INDIPENDENTI
9.8. Il test U di Mann-Whitney o dell'ordine robusto dei ranghi
Il test U di Mann-Whitney o test dell'ordine robusto dei ranghi deriva dalla proposta di H. B. Mann e D. R. Whitney di generalizzare il metodo di Wilcoxon (vedi il loro articolo On a test of whether one of two random variables is stochastically larger than the other, pubblicato su Annals of Mathematical Statistics, Vol. 18, pp. 50-60). Il test non richiede alcuna ipotesi sulla simmetria dei due campioni. Può essere applicato quando essi hanno dimensioni diverse (come d’altronde il test di Wilcoxon nella versione presentata nel paragrafo precedente) e serve sempre per verificare la significatività della differenza tra le mediane.
Le ipotesi possono essere - bilaterali
contro
- unilaterali in una direzione contro oppure nell’altra direzione contro dove sono rispettivamente la mediana del gruppo 1 e la mediana del gruppo 2.
A motivo della sua più estesa applicabilità, è preferibile al test di Wilcoxon-Mann-Whitney. Molti programmi informatici e testi di statistica applicata recenti riportano solo questo test e non riportano più il precedente, sebbene esso mantenga ancora una relativa diffusione internazionale e la sua conoscenza sia utile per capire articoli dei decenni scorsi. La procedura del test U di Mann-Whitney è fondata sulle precedenze, che rappresentano l’altra metodologia più diffusa nei test non parametrici, alternativa ai ranghi. Come già illustrato da Mann e Whitney nella loro prima presentazione (e come sarà in seguito dimostrato), è facile passare dal risultato di questo test a quello del test di Wilcoxon (come sarà spiegato nel paragrafo successivo). Per illustrare questa metodologia è didatticamente utile avvalersi ancora dell’esempio utilizzato in precedenza:
Nel primo passaggio, la sequenza delle operazioni è simile:
1 - Combinare i dati dei due gruppi in un insieme unico, disponendo i valori o punteggi in ordine crescente, secondo il valore algebrico. Per ogni dato, conservare l'informazione relativa al gruppo di appartenenza.
Nel secondo iniziano le differenze 2 - Contare il numero di precedenze: quante volte ogni dato di un gruppo è preceduto da dati dell'altro gruppo. Per esempio, - il valore 82, che appartiene al gruppo A non è preceduto da alcun valore di B; di conseguenza il suo numero di precedenze è 0; - i valori 92, 110 e 114 del gruppo A sono tutti tre preceduti da un valore di B (83); di conseguenza ognuno di questi tre valori come numero di precedenze ha 1. Come indicatore, chiamato U, è stato scelto il numero minore di precedenze.
Con i dati dell’esempio, è corretto contare quante volte ogni dato di A è preceduto da dati di B. La somma di queste precedenze
è il valore di U
che risulta uguale a 11.
Si sarebbe anche potuto calcolare quante volte ogni valore del gruppo B è preceduto da valori di A
ottenendo un valore
uguale a 45, maggiore del precedente. Il valore corretto dell’indice U è quello minore, mentre quello maggiore deve essere indicato con U’.
3 - Quando le differenze tra U e U’ sono ridotte, non sempre è facile trovare subito il valore corretto. A questo scopo, è utile ricordare che U e U' sono legati dalla relazione
dove: n1 è il numero di dati del gruppo minore, n2 è il numero di dati del gruppo maggiore.
Con i dati dell'esempio, dove n1 = 7, n2 = 8, U = 11, U’ = 45 si ottiene
Di conseguenza, è possibile calcolare un primo valore di U e, mediante la relazione, stimare l’altro.
Il valore da utilizzare, il vero U, è il valore minore tra i due. Attraverso la relazione
può essere verificato facilmente, per escludere eventuali errori di calcolo.
4 - Nel caso in cui sia vera l'ipotesi H1, quindi un campione abbia una mediana nettamente minore dell’altro, il valore di U tenderà a 0, poiché i dati del gruppo in esame, che deve fornire il totale minore, precederanno tutti i dati dell'altro gruppo e quindi ognuno di essi avrà 0 precedenze. Nel caso in cui sia vera l'ipotesi H0 di uguaglianza od identità delle due tendenze centrali, i dati dei due gruppi saranno casualmente mescolati: U tenderà ad un valore medio (), dipendente dal numero di osservazioni presenti n1 e n2 , secondo la relazione
mU =
5 - Per valutare la significatività del valore di U si seguono metodi diversi, in funzione delle dimensioni dei due campioni.
Nel caso di piccoli campioni (n1 e n2 < 15), la tavola dei valori critici fornisce il valore di U significativo. Nella tabella sono riportati i valori critici alla probabilità a uguale a 0.05 - per test a due code nella parte superiore di ogni casella, - per test a una coda nella parte inferiore. E’ significativo qualunque valore di U calcolato che sia uguale o inferiore a quello riportato nella tabella.
Per n1 = 7 e n2 = 8 in un test ad una coda, il valore di U riportato nella tabella alla probabilità a = 0.05 è 13. Con i dati dell’esempio, il valore U calcolato (11) risulta inferiore a quello tabulato (13). Pertanto alla probabilità 0.05 si rifiuta l’ipotesi nulla e si accetta l’ipotesi alternativa: la mediana del primo gruppo è significativamente minore di quella del secondo gruppo.
Tavola dei valori critici di U del test Mann-Whitney per 2 campioni indipendenti alla probabilità a £ 0.05
Valore critico per test a due code (2) nella parte superiore e per test a una coda (1) nella parte inferiore di ogni casella. U calcolato è significativo quando è uguale o minore del valore tabulato. = campione con il numero minore di osservazioni. = campione con il numero maggiore di osservazioni.
Tabella dei valori critici del test U di Mann-Whitney (campioni di dimensioni diverse)
I valori della matrice triangolare superiore si riferiscono alla probabilità a = 0.05. I valori della matrice triangolare inferiore si riferiscono alla probabilità a = 0.01.
Test a 1 coda
Tabella dei valori critici del test U di Mann-Whitney (campioni di dimensioni diverse)
I valori della matrice triangolare superiore si riferiscono alla probabilità a = 0.05. I valori della matrice triangolare inferiore si riferiscono alla probabilità a = 0.01.
Test a 2 code
Ai fini dell’inferenza il confronto è tra le mediane, anche se non è necessario calcolarle.
Quando sono presenti valori identici (ties), si deve assegnare il rango medio e stimare il numero di precedenze come media dei diversi ranghi possibili. Nel caso di piccoli campioni non dovrebbero essere presenti valori identici, come richiesto dalla condizione che la scala sia continua. Valori identici (ties) non alterano la media, ma abbassano il valore della varianza, che non viene considerata quando si deve ricorrere alla tabella dei valori critici per piccoli campioni. Un numero molto limitato di valori ex-aequo incide in modo trascurabile sulla stima della significatività; pertanto nella prassi viene abitualmente accettato il valore che non considera la correzione, che invece può essere utile nel caso di grandi campioni.
Nel caso di grandi campioni (n1 o n2 > 15), se è vera l'ipotesi nulla H0 la distribuzione di campionamento di U è bene approssimato dalla distribuzione normale, con media 0 e varianza unitaria: Z = dove U è lo stimatore osservato, - è il suo valore atteso nell'ipotesi H0 mU = - e la deviazione standard è
Con i dati dell'esempio, U è risultato uguale a 11, mentre
è uguale a 28 e la deviazione standard
è uguale a 8,64. La significatività della differenza tra le mediane dei due gruppi indipendenti può essere stimata mediante il valore di Z
che risulta uguale a -1,967. Nella distribuzione normale a Z = 1,967 in una coda della distribuzione corrisponde una probabilità leggermente inferiore a 0.0250. Si rifiuta l'ipotesi nulla e si accetta l'ipotesi alternativa di una minore presenza di solventi aromatici dispersi nell'aria della città, durante i giorni festivi. Il valore di Z risulta sempre negativo e non assume un significato preciso, in quanto U è sempre inferiore alla media attesa mU.
Il test U ipotizza che la scala utilizzata sia continua ; quindi che le osservazione ex-aequo non esistano o abbiano una presenza molto limitata. In caso di ties, ad ogni gruppo di punteggi uguali sarà assegnata la media del gruppo. La presenza di valori identici non altera la media ma modifica la varianza. Nel caso di grandi campioni ed il ricorso alla distribuzione normale, la deviazione standard diventa
dove: N è eguale a è dato da:
con ex-aequo dello stesso rango.
La correzione riduce il valore della deviazione standard ed aumenta proporzionalmente il valore di Z. Se non si introduce la correzione, il valore di Z risulta minore e quindi è più difficile raggiungere la significatività; si dice anche che, senza correzione, il test risulta più conservativo. Di norma anche molti valori simili determinano una correzione ridotta: una sola serie molto lunga di valori identici ha effetti maggiori di molti valori ripetuti solo due o tre volte.
ESEMPIO. Per verificare se un’area montana (M) ha avuto una quantità di piogge significativamente superiore a quella di un’area collinare ( C ) limitrofa si confrontano due serie mensili (in millimetri):
La quantità mediana di pioggia caduta nell’area montana è significativamente superiore a quella dell’area collinare?
Risposta. E’ un test ad una coda, con le seguenti ipotesi sulle mediane H0: MeM £ MeC H1: MeM > MeC
Per applicare il test, effettuare i seguenti passaggi operativi:
1 - Ordinare i valori, conservando l’informazione del gruppo d’appartenenza.
2 - Riportare le precedenze e sommarle, determinando U
che risulta uguale a 3. Per n1 = 4 e n2 = 6, il valore critico riportato nella tabella per un test unilaterale alla probabilità a = 0.05 risulta uguale a 3. Il valore calcolato è uguale a quello riportato nella tabella: il test risulta significativo e si rifiuta l’ipotesi nulla.
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |