VERIFICA DELLE IPOTESI

TEST PER UN CAMPIONE SULLA TENDENZA CENTRALE CON VARIANZA NOTA

E TEST SULLA VARIANZA

CON INTERVALLI DI CONFIDENZA

4.8. INTERVALLO DI CONFIDENZA DI UNA MEDIANA CON VARIANZA NOTA E IGNOTA

Come misura della tendenza centrale di una distribuzione di dati,

- con scale a intervalli e di rapporti, di norma si utilizza la media,

- con scale di rango e ordinali, si utilizza la mediana.

Tuttavia la scelta tra esse non è così semplice o banale, poiché dipende anche dalle caratteristiche della distribuzione. Il caso più dibattuto è quando le misure sono state rilevate con una scala di rapporti o di intervalli, ma la distribuzione dei dati non è normale. Per i test d’inferenza sulla tendenza centrale, esiste la possibilità di

1 - utilizzare ugualmente il test parametrico, contando sulla sua robustezza;

2 - normalizzare la distribuzione, attraverso una trasformazione dei dati;

3 - ricorrere a un test non parametrico.

Il metodo migliore sarebbe di utilizzarli tutti e confrontare i risultati

Quando la distribuzione è simmetrica, media e mediana coincidono. Ma quando la distribuzione è asimmetrica, la media è maggiormente influenzata dai valori estremi. Di conseguenza,

- la media è maggiore della mediana, quando l’asimmetria è destra o positiva,

- la media è minore della mediana, quando l’asimmetria è sinistra o negativa.

L’uso della mediana in sostituzione della media comporta vantaggi e svantaggi:

- il vantaggio più rilevante è che la mediana non è influenzata dalla presenza di outlier, se essi sono sostituiti da valori “normali”; ne è influenzata in modo molto marginale, se gli outlier sono eliminati, in quanto variano le dimensioni del campione;

- lo svantaggio più importante è che con pochi dati, la mediana si mantiene maggiormente costante, forse troppo, essendo poco sensibile alla variazione di dati che differiscono per quantità limitate.

Inoltre, la media offre l’opportunità di determinare con facilità la quantità totale che spesso è un parametro importante, come la quantità annuale di inquinante trasportato da un fiume nel mare oppure la quantità mensile di prodotto di un’azienda. Infatti se la quantità media giornaliera calcolata su pochi giorni è , la quantità totale mensile o quella annuale è ottenuta moltiplicando la media giornaliera per il numero di giorni.

La mediana non gode di tale proprietà.

L’intervallo di confidenza di una mediana può essere calcolato

A) con metodo parametrico,

B) con metodi non parametrici

A) Il metodo parametrico è del tutto analogo a quello della media, ma con un errore standard moltiplicato per 1,25. Ha due forme leggermente differenti, in funzione del fatto che la varianza della popolazione () da cui è estratto il campione

- è nota

- oppure ignota

Con s² nota, l’errore standard della mediana è

Indicando con la mediana di un campione di dati, estratti da una popolazione distribuita in modo normale, la mediana della popolazione () con probabilità P = è compresa nell’intervallo, i cui estremi sono definiti da

dove

- è il valore di Z corrispondente alla probabilità a in una distribuzione bilaterale

Spesso la varianza vera (s²) o della popolazione è ignota. In sua sostituzione, si utilizza la varianza campionaria e si utilizza come prima la distribuzione normale. Effettivamente, nel caso di campioni grandi e in modo asintotico al crescere del numero di osservazioni, sempre se i dati della popolazione sono distribuiti in modo normale, il valore campionario tende a coincidere con quello vero .

L’intervallo di confidenza della mediana della popolazione è

Dalla lettura di queste due formule, è semplice dedurre che l’intervallo di confidenza della mediana è maggiore del 25% di quello della media, a parità dei tre parametri che lo determinano: , , .

E’ la dimostrazione elementare del fatto che, rispetto alla media , la mediana del campione è uno stimatore meno efficiente della tendenza centrale della popolazione, ovviamente quando la distribuzione dei dati è tratta da una popolazione normale.

B) Quando la distribuzione dei dati della popolazione dalla quale è estratto il campione non è normale oppure la forma della sua distribuzione non è nota, è possibile ricorrere a metodi non parametrici. Essi possono essere classificati in metodi per

- campioni piccoli,

- campioni grandi.

Oltre a

- essere validi nonostante la non normalità della distribuzione,

- in caso di asimmetria forte gli intervalli di confidenza della tendenza centrale stimati con i metodi non parametrici sono più efficienti dell’intervallo di confidenza fondato sulla media

- e ancor più di quello parametrico fondato sulla mediana ma con la distribuzione Z.

La dimostrazione banale è che l’intervallo di confidenza non parametrico è meno ampio. Inoltre può essere asimmetrico, come la popolazione di origine dei dati, ed elimina la risposta assurda che, con valori che possono essere solo positivi, l’intervallo possa comprendere valori negativi.

Ad esempio, con i 5 valori seguenti di concentrazione di un principio attivo estratto da un prodotto vegetale

1,2

1,5

4,3

1,3

1,4

- di cui sia nota la deviazione standard vera s = 1,1

- poiché la media campionaria è = 1,94

- si può ricavare che la quantità reale di principio attivo presente con probabilità del 95% è compresa nell’intervallo tra

che è chiaramente una risposta assurda, risultando –0,22 il limite inferiore.

L’intervallo di confidenza della mediana calcolato con il metodo parametrico accentua questa incoerenza, in quanto la mediana è minore (nell’esempio è 1,4) e l’intervallo è maggiore del 25%.

Nel caso di campioni piccoli, l’intervallo di confidenza della mediana di un campione può essere calcolato

- con il test dei segni, fondato sulla distribuzione binomiale,

- con il test T di Wilcoxon, fondato sulla distribuzione dei segni con rango,

- con i normal scores, ai quali può essere applicato sia un test parametrico sia uno non parametrico;

- con il jackknife e il bootstrap.

Sono metodi illustrati in modo dettagliato e con esempi, nei capitoli successivi. Gli ultimi due in particolare sono tecniche valide anche per test molto complessi, nei quali non sia nota o non sia stimabile la forma della distribuzione

I primi due metodi (dei segni e di Wilcoxon), presentati nel capitolo sui test non parametrici per un campione, sono specifici per la mediana e sono sia più semplici sia rapidi. La loro logica è semplice.

Disponendo di una serie di osservazione, i valori devono essere ordinati per rango. Con modalità e risultati leggermente differenti, i due metodi permettono di individuare, per ogni probabilità a specificata, quanti sono i valori estremi nelle due code da eliminare. Il minimo e il massimo di quelli rimanenti identificano gli estremi dell’intervallo di confidenza della mediana. Tra i due test, il più potente, quindi quello con un intervallo minore, è il test di Wilcoxon in quanto utilizza una quantità maggiore di informazione rispetto a quello dei segni.

La velocità di calcolo dei computer e la diffusione dell’informatica permettono ora di applicare questi test anche a campioni di grandi dimensioni.

Quando il campione è abbastanza grande ( > 30), è possibile utilizzare anche il metodo successivo, fondato su un principio identico a quello del test dei segni e del test di Wilcoxon. E’ richiesto che il campione sia grande, in quanto sia la media sia l’errore standard sono calcolati sul presupposto che un numero elevato di ranghi ha una distribuzione bene approssimata dalla normale.

Per un campione di osservazioni, ordinate in modo crescente, l’intervallo di confidenza della mediana () della popolazione è

Per a = 0.05 dove Z = 1,96 è bene approssimato

La formula generale è solamente la trasformazione in ranghi

dove

- la mediana del campione () è uguale a

- è il valore di Z alla probabilità a prefissata, in una distribuzione bilaterale; i valori di uso più frequente, da scegliere un funzione sia del numero di dati, sia del rischio accettato, sono (esatti alla quarta cifra decimale):

a	0.100	0.05	0.01	0.005	0.001
Z	1,6448	1,9600	2,5758	2,8070	3,2905

- il valore nella distribuzione binomiale e con i ranghi è uguale a

ESEMPIO. Calcolare l’intervallo di confidenza non parametrico alla probabilità a = 0.05 della seguente serie di 42 valori, corrispondenti al tempo di germinazione in giorni di altrettanti semi:

5	6	8	8	8	9	11	12	12	12	13	13	13	13
13	14	14	14	14	14	14	15	15	15	16	16	17	17
18	18	20	20	22	24	26	26	27	28	31	43	51	68

Risposta. Poiché = 42,

- la mediana del campione è il valore corrispondente al rango . E’ il valore che cade tra il rango 21 (valore 14) e il rango 22 (valore 15); quindi = 14,5

- il suo errore standard per la probabilità a = 0.05 è

In realtà un valore più preciso sarebbe . E’ una precisione del tutto inutile, a meno di disporre di centinaia di dati, tanto più che occorre poi arrotondare il risultato finale all’unità.

Di conseguenza, l’intervallo di confidenza della mediana di questa distribuzione, con probabilità a = 0.05 di errare, è

data dai valori corrispondenti:

- al rango 15 (21,5 – 6,48) e quindi come limite inferiore il valore L₁ = 13;

- al rango 28 (21,5 + 6,48) e quindi come limite superiore il valore L₂ = 17.

E' semplice osservare che, rispetto alla tendenza centrale (= 14,5), questi due limiti non sono simmetrici e quindi, a differenza dell'intervallo di confidenza della media, rispettano la distribuzione originaria dei dati.

Inoltre questo intervallo (tra 13 e 17), entro il quale con probabilità del 95% si trova la tendenza centrale della popolazione, è nettamente minore dell’intervallo di confidenza della media e di quello della mediana, calcolati in modo parametrico. Quindi, con questi dati, l'uso della mediana permette un test più potente.

Infatti

A) l’intervallo di confidenza della media

con = 18,40 e = 11,95

- come limite inferiore ha L₁ = 14,79

- come limite superiore ha L₂ = 22,01

B) l’intervallo di confidenza della mediana parametrica

con = 14,5 e = 11,95

- come limite inferiore ha L₁ = 9,98

- come limite superiore ha L₂ = 19,02.