METODI NON PARAMETRICI PER DUE CAMPIONI INDIPENDENTI
9.4. Il test della mediana
Il test della mediana è utile per verificare differenze nella tendenza centrale tra due campioni indipendenti. Non ha un nome specifico, in quanto è fondato su un metodo noto da tempo come il chi-quadrato. In alcuni testi di statistica e in manuali di programmi informatici è chiamato anche test di Mood, attribuendo appunto a A. M. Mood il merito della sua divulgazione con il suo testo del 1950 (Introduction to the Theory of Statistics, pubblicato da McGraw-Hill, New York, 433 pp.). E’ chiamato anche test di Brown-Modd, per le pubblicazioni di questi due statistici sulla versione asintotica del test, cioè con un campione teoricamente infinito (di A. M. Modd, 1954, vedi On the asymptotic efficiency of certain nonparametric two-sample test, pubblicato su Annals of Mathematical Statistics, Vol. 25, pp. 514-522). Questo test di Mood non deve essere confuso con quello proposto per valutare la dispersione o variabilità.
Le ipotesi da verificare con il test della mediana, fondato concettualmente sul metodo delle probabilità esatte di Fisher quando i dati sono poche decine o ancor meno, altre volte sul chi-quadrato o del test G in funzione delle dimensioni dei due campioni, possono essere - bilaterali contro
- unilaterali in una direzione contro
- oppure nell’altra direzione contro
e dove sono rispettivamente la mediana del gruppo 1 e la mediana del gruppo 2.
Il test della mediana è di solito consigliato quando i due gruppi hanno misure approssimate, rilevate con precisione differente in rapporto alle dimensioni del fenomeno, per cui le informazioni contenute hanno attendibilità e precisione differente: massime verso i valori centrali e minime agli estremi. Molti strumenti di misura sono tarati per valori non troppo diversi dalla norma, valutando con accuratezza quelli prossimi alla tendenza centrale, più frequenti, ma in modo sempre meno preciso i valori estremi nelle due direzioni. Le bilance tarate per misurare grammi non possono essere ugualmente sensibili ai milligrammi e agli ettogrammi; ad una trappola o rete per la cattura di animali di una certa dimensione sfuggono quelli di taglia troppo piccola o eccessivamente grande. Tutte queste misure, nelle quali l’errore non è costante, devono essere considerate di rango ai fini di una elaborazione statistica corretta. Un altro uso frequente del test della mediana è nel conteggio di popolazioni che crescono in modo esponenziale, poiché la distribuzione dei dati è quasi sempre molto asimmetrica.
Si supponga di voler verificare se esiste una differenza significativa tra la tendenza centrale dei due campioni indipendenti A e B
In essi è evidente che non è possibile determinare la somma e quindi media dei due gruppi, né tutte le statistiche da esse derivate, per la presenza di alcuni valori non esattamente definiti. La procedura del test della mediana per due campioni indipendenti può essere schematizzata in 4 passaggi.
1 – Disporre i dati in un gruppo unico in ordine crescente, mantenendo l’indicazione del gruppo d’appartenenza.
L'ordine prende in considerazione le grandezze algebriche: quando sono presenti valori negativi, i ranghi inferiori sono attribuiti ai valori negativi maggiori.
2 - Calcolare la mediana del gruppo unico. Con 22 dati la mediana è tra l’11° (32) e il 12° (38) valore e corrisponde a 35. Se è vera l'ipotesi nulla, i dati dei due gruppi sono casualmente mescolati. Rispetto alla mediana, i dati di ognuno dei due gruppi dovrebbero essere ripartiti equamente: metà con valore inferiore e metà con valore superiore. Se è vera l'ipotesi alternativa, i due gruppi non sono mescolati: prima della mediana vi dovrebbe essere una presenza prevalente dei valori di un gruppo e dopo la mediana la presenza prevalente dei valori dell'altro gruppo.
3 - Costruire una tabella 2 x 2 per sintetizzare la distribuzione dei valori dei due gruppi rispetto alla mediana: riportare nella tabella quante misure di ognuno dei due gruppi si trovano prima della mediana e quante dopo. Se il numero di dati è dispari e la mediana coincide con un valore, porre nel primo quelli che non superano (£) la mediana e nel secondo gruppo i valori che la superano (>). Se la mediana cade su un gruppo di valori uguali, non dividere tale gruppo ma spostare la mediana. Con i dati dell’esempio, la distribuzione in una tabella 2 x 2 risulta
4 - Calcolare la significatività della distribuzione mediante - il test 2 per tabelle 2 x 2, nel caso di grandi campioni (N > 100); - la distribuzione Z, nel caso di campioni molto grandi; - il test 2 con la correzione per la continuità di Yates, nel caso di campioni con dimensioni intermedie (100 > N > 30); - il metodo esatto di Fisher, nel caso di piccoli campioni (N < 30, ma con il computer facilmente estensibile anche a campioni molto grandi.
Il test della mediana utilizza solo una parte dell’informazione contenuta nelle due serie di valori, essendo fondato sul conteggio di quanti sono i valori grandi e quanti quelli piccoli. E’ quindi il meno potente dei test per due campioni indipendenti che sono qui presentati. Di conseguenza, per risultare significativo richiede un numero relativamente grande di dati.
ESEMPIO. Nel centro storico di una città, per l'analisi della qualità dell'aria sono state rilevate le quantità di solventi aromatici (Benzene, Toluene, Etilbenzene, Xileni in microgrammi/mc) presenti in un giorno festivo ed in un giorno feriale.
Con i dati della tabella verificare se nel giorno festivo la quantità di solventi aromatici è significativamente minore di quella presente nel giorno feriale.
Risposta. E’ un test ad una coda, con ipotesi nulla H0: Mefestivo ³ Meferiale ed ipotesi alternativa H1: Mefestivo < Meferiale
Per costruire la tabella 2 x 2, si ordinano i valori in ordine crescente e si individua la mediana: con 15 dati è il valore che occupa il rango 8 (corrispondente al valore 156)
Si contano le osservazioni di ogni gruppo che sono inferiori od uguali alla mediana e le osservazioni che sono superiori, costruendo una tabella 2 x 2 come la seguente
Poiché il numero di osservazioni è limitato, troppo ridotto per il test anche apportando la correzione per la continuità, la significatività della distribuzione può essere verificata con il metodo esatto di Fisher. A questo scopo, si calcolano sia la probabilità di ottenere la tabella osservata sia le risposte più estreme nella stessa direzione. Sono facilmente identificabili: si varia verso 0 la frequenza osservata minore (2), mantenendo fissi i totali marginali.
La probabilità P(2) di avere la distribuzione osservata (2 nella casella con la frequenza minore)
è uguale a = 0,18275.
La probabilità P(1) di avere la distribuzione più estrema in cui al posto di 2 si abbia 1
è uguale a = 0,03046.
La probabilità P(0) di avere quella ancora più estrema (0 al posto di 2)
è uguale a = 0,00124
La probabilità totale risulta P = 0.21445 (0,18275 + 0,03046 + 0,00124), per un test ad una coda. E' molto elevata, per cui non è possibile rifiutare l'ipotesi nulla.
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |