VERIFICA DELLE IPOTESITEST PER UN CAMPIONE SULLA TENDENZA CENTRALE CON VARIANZA NOTAE TEST SULLA VARIANZA CON INTERVALLI DI CONFIDENZA
4.8. INTERVALLO DI CONFIDENZA DI UNA MEDIANA CON VARIANZA NOTA E IGNOTA
Come misura della tendenza centrale di una distribuzione di dati, - con scale a intervalli e di rapporti, di norma si utilizza la media, - con scale di rango e ordinali, si utilizza la mediana. Tuttavia la scelta tra esse non è così semplice o banale, poiché dipende anche dalle caratteristiche della distribuzione. Il caso più dibattuto è quando le misure sono state rilevate con una scala di rapporti o di intervalli, ma la distribuzione dei dati non è normale. Per i test d’inferenza sulla tendenza centrale, esiste la possibilità di 1 - utilizzare ugualmente il test parametrico, contando sulla sua robustezza; 2 - normalizzare la distribuzione, attraverso una trasformazione dei dati; 3 - ricorrere a un test non parametrico. Il metodo migliore sarebbe di utilizzarli tutti e confrontare i risultati Quando la distribuzione è simmetrica, media e mediana coincidono. Ma quando la distribuzione è asimmetrica, la media è maggiormente influenzata dai valori estremi. Di conseguenza, - la media è maggiore della mediana, quando l’asimmetria è destra o positiva, - la media è minore della mediana, quando l’asimmetria è sinistra o negativa.
L’uso della mediana in sostituzione della media comporta vantaggi e svantaggi: - il vantaggio più rilevante è che la mediana non è influenzata dalla presenza di outlier, se essi sono sostituiti da valori “normali”; ne è influenzata in modo molto marginale, se gli outlier sono eliminati, in quanto variano le dimensioni del campione; - lo svantaggio più importante è che con pochi dati, la mediana si mantiene maggiormente costante, forse troppo, essendo poco sensibile alla variazione di dati che differiscono per quantità limitate. Inoltre, la media
offre l’opportunità di determinare con facilità la quantità totale che
spesso è un parametro importante, come la quantità annuale di inquinante
trasportato da un fiume nel mare oppure la quantità mensile di prodotto di
un’azienda. Infatti se la quantità media giornaliera calcolata su pochi giorni
è La mediana non gode di tale proprietà.
L’intervallo di confidenza di una mediana può essere calcolato A) con metodo parametrico, B) con metodi non parametrici
A) Il metodo
parametrico è del tutto analogo a quello della media, ma con un errore standard
moltiplicato per 1,25. Ha due forme leggermente differenti, in funzione del
fatto che la varianza della popolazione ( - è nota - oppure ignota Con s2 nota, l’errore standard della mediana è
Indicando con dove -
Spesso la
varianza vera (s2) o della
popolazione è ignota. In sua sostituzione, si utilizza la varianza campionaria L’intervallo di
confidenza della mediana della popolazione
Dalla lettura di
queste due formule, è semplice dedurre che l’intervallo di confidenza della
mediana è maggiore del 25% di quello della media, a parità dei tre
parametri che lo determinano: E’ la dimostrazione
elementare del fatto che, rispetto alla media
B) Quando la distribuzione dei dati della popolazione dalla quale è estratto il campione non è normale oppure la forma della sua distribuzione non è nota, è possibile ricorrere a metodi non parametrici. Essi possono essere classificati in metodi per - campioni piccoli, - campioni grandi.
Oltre a - essere validi nonostante la non normalità della distribuzione, - in caso di asimmetria forte gli intervalli di confidenza della tendenza centrale stimati con i metodi non parametrici sono più efficienti dell’intervallo di confidenza fondato sulla media - e ancor più di quello parametrico fondato sulla mediana ma con la distribuzione Z. La dimostrazione banale è che l’intervallo di confidenza non parametrico è meno ampio. Inoltre può essere asimmetrico, come la popolazione di origine dei dati, ed elimina la risposta assurda che, con valori che possono essere solo positivi, l’intervallo possa comprendere valori negativi. Ad esempio, con i 5 valori seguenti di concentrazione di un principio attivo estratto da un prodotto vegetale
- di cui sia nota la deviazione standard vera s = 1,1 - poiché la media
campionaria è - si può ricavare che la quantità reale di principio attivo presente con probabilità del 95% è compresa nell’intervallo tra che è chiaramente una risposta assurda, risultando –0,22 il limite inferiore. L’intervallo di confidenza della mediana calcolato con il metodo parametrico accentua questa incoerenza, in quanto la mediana è minore (nell’esempio è 1,4) e l’intervallo è maggiore del 25%.
Nel caso di campioni piccoli, l’intervallo di confidenza della mediana di un campione può essere calcolato - con il test dei segni, fondato sulla distribuzione binomiale, - con il test T di Wilcoxon, fondato sulla distribuzione dei segni con rango, - con i normal scores, ai quali può essere applicato sia un test parametrico sia uno non parametrico; - con il jackknife e il bootstrap. Sono metodi illustrati in modo dettagliato e con esempi, nei capitoli successivi. Gli ultimi due in particolare sono tecniche valide anche per test molto complessi, nei quali non sia nota o non sia stimabile la forma della distribuzione I primi due metodi (dei segni e di Wilcoxon), presentati nel capitolo sui test non parametrici per un campione, sono specifici per la mediana e sono sia più semplici sia rapidi. La loro logica è semplice. Disponendo di una serie di osservazione, i valori devono essere ordinati per rango. Con modalità e risultati leggermente differenti, i due metodi permettono di individuare, per ogni probabilità a specificata, quanti sono i valori estremi nelle due code da eliminare. Il minimo e il massimo di quelli rimanenti identificano gli estremi dell’intervallo di confidenza della mediana. Tra i due test, il più potente, quindi quello con un intervallo minore, è il test di Wilcoxon in quanto utilizza una quantità maggiore di informazione rispetto a quello dei segni. La velocità di calcolo dei computer e la diffusione dell’informatica permettono ora di applicare questi test anche a campioni di grandi dimensioni.
Quando il
campione è abbastanza grande ( Per un campione di Per a = 0.05 dove Z = 1,96 è bene approssimato da
La formula generale è solamente la trasformazione in ranghi di -
- il valore
ESEMPIO. Calcolare l’intervallo di confidenza non parametrico alla probabilità a = 0.05 della seguente serie di 42 valori, corrispondenti al tempo di germinazione in giorni di altrettanti semi:
Risposta. Poiché - la mediana del
campione è il valore corrispondente al rango - il suo errore
standard per la probabilità a = 0.05 è In realtà un valore
più preciso sarebbe Di conseguenza, l’intervallo di confidenza della mediana di questa distribuzione, con probabilità a = 0.05 di errare, è data dai valori corrispondenti: - al rango 15 (21,5 – 6,48) e quindi come limite inferiore il valore L1 = 13; - al rango 28 (21,5 + 6,48) e quindi come limite superiore il valore L2 = 17.
E' semplice
osservare che, rispetto alla tendenza centrale ( Inoltre questo intervallo (tra 13 e 17), entro il quale con probabilità del 95% si trova la tendenza centrale della popolazione, è nettamente minore dell’intervallo di confidenza della media e di quello della mediana, calcolati in modo parametrico. Quindi, con questi dati, l'uso della mediana permette un test più potente. Infatti
A) l’intervallo di confidenza della media con - come limite inferiore ha L1 = 14,79 - come limite superiore ha L2 = 22,01
B) l’intervallo di confidenza della mediana parametrica con - come limite inferiore ha L1 = 9,98 - come limite superiore ha L2 = 19,02.
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |