Services and Training for Six Sigma, Design of Experiments and Industrial Statistics

INFERENZA SU UNA O DUE MEDIE CON IL TEST t DI STUDENT

6.2. CONFRONTO TRA UNA MEDIA OSSERVATA E UNA MEDIA ATTESA, CON CALCOLO DEI LIMITI DI CONFIDENZA DI UNA MEDIA, CON IGNOTA

La distribuzione t con n-1 gdl (indicata con t_n-1) è data dal rapporto

- tra la differenza della media campionaria e quella attesa sulla base dell'ipotesi nulla,

- con il suo errore standard s/

come espresso dalla formula

t_(n-1) =

dove

- è il numero di dati,

- è la deviazione standard calcolata sui dati del campione,

E’ importante ricordare che, come ampiamente presentato nel capitolo sulla statistica descrittiva, la deviazione standard è ottenuta a partire dalla devianza mediante la formula

dove

la parte sotto radice è chiamata varianza campionaria corretta o stima corretta della varianza.

Ai fini pratici del calcolo, la devianza

è stimata più rapidamente e con maggiore precisione, in quanto non prevede arrotondamenti caratteristici delle medie,

ricorrendo alla formula abbreviata

Per verificare l’ipotesi relativa alla media di un campione rispetto ad una media attesa, nel caso di un test bilaterale,

- l'ipotesi alternativa H₁ è scritta come

H₁ : m ¹ m₀

- e l’ipotesi nulla H₀

H₀: m = m₀

dove

- m è la media della popolazione da cui è estratto il campione con media osservata

- m₀ è la media attesa o di riferimento per il confronto.

Con la medesima simbologia, in un test unilaterale

- l'ipotesi alternativa H₁ è scritta come

H₁ : m < m₀

- e l’ipotesi nulla H₀ corrispondente

H₀: m ³ m₀

al fine di verificare se la media del campione è significativamente minore della media attesa (con formulazione più estesa e precisa, se la media della popolazione dalla quale è stato estratto il campione è minore della media attesa)

oppure nelle direzione opposta l’ipotesi nulla H₀ è scritta come

H₀: m £ m₀

e l'ipotesi alternativa H₁ come

H₁ : m > m₀

al fine di verificare se la media della popolazione m da cui è estratto il campione è maggiore di quella attesa m₀.

Dalla precedente formula da utilizzare per verificare la differenza tra media campionaria e media attesa

t_(n-1) =

si può derivare quella dell'intervallo di confidenza (confidence interval, tradotto spesso anche intervallo fiduciale), entro il quale alla probabilità a è compresa la media reale della popolazione dalla quale è estratto il campione.

Lo sviluppo dei concetti di intervallo di confidenza, che è applicato a diverse misure (varianza, coefficiente angolare nella retta, ecc.…) e non solo alla media come in questo caso, è attribuito a Jerzy Neyman per averlo introdotto nel 1934 con i termini confidence interval o confidence coefficient, benché il concetto fosse già stato proposto un secolo prima. In varie situazioni come in questo testo, si usa come sinonimo benché non lo sia in tutte le situazioni, anche il termine fiducial interval sviluppato da R. A. Fisher nel 1930 (per ulteriori chiarimenti vedi di J. Pfanzagl del 1978 Estimation: Confidence interval and regions, pp. 259-267 in Kruskal and Tanur).

La formula per il calcolo dell’intervallo di confidenza

diventa

dove indica il valore della distribuzione t con n-1 gradi di libertà alla probabilità .

Sommando alla media campionaria le due parti, la quota positiva e quella negativa, si ottiene l'intervallo che comprende la media con probabilità a prefissata

ESEMPIO 1. In un appezzamento di terreno adibito a vivaio, sono coltivate pianticelle della specie A; una lunga serie di misure ha dimostrato che dopo due mesi dalla semina raggiungono un’altezza media di 25 centimetri. A causa di un incidente, su quel terreno sono state disperse sostanze tossiche; si ritiene che esse incidano negativamente sulla crescita di alcune specie, tra le quali la specie A.

Per una verifica di tale ipotesi, vengono seminate sul terreno inquinato 7 pianticelle che, controllate dopo 2 mesi, raggiungono le seguenti altezze in cm.: 22, 25, 21, 23, 24, 25, 21.

Si intende rispondere a due quesiti.

1 - Si può sostenere che le sostanze tossiche disperse inibiscano la crescita della specie A?

2 - Quale è la media reale dell’altezza delle piante dell’età di due mesi, nella nuova condizione del terreno?

Risposta 1. E’ un test ad una coda in cui l’ipotesi nulla è

H₀ : m ³ m₀

e l’ipotesi alternativa è

H₁ : m < m₀

Infatti, se le sostanze tossiche inibiscono la crescita, la media m della popolazione da cui è estratto il campione di 7 piante può solo essere inferiore alla media m₀ della popolazione precedente pari a 25.

Il test assume significato solamente se la media campionaria è minore della media attesa m₀: il test serve per verificare se la differenza è da ritenersi casuale oppure significativa. Se, con l’ipotesi alternativa espressa, la media campionaria fosse risultata superiore alla media attesa, diverrebbe totalmente inutile applicare il test: non si riuscirebbe mai a dimostrare che la media del campione è significativamente minore di quella espressa nell’ipotesi nulla.

Scegliendo una probabilità a = 0.05 e

applicando la formula

t_(n-1) =

dove, sulla base dei 7 dati campionari,

m₀ = 25,0

si ottiene un valore

t₍₆₎ = = -3,053

di t con 6 gdl uguale a - 3,05.

Il segno negativo indica solamente che la differenza è negativa rispetto al valore atteso; ai fini della significatività, il valore di t viene preso in modulo.

Per un test ad una coda, il valore critico del t alla probabilità 0.05 con 6 gdl è uguale a 1,943.

Il valore calcolato in modulo è superiore a quello riportato nella tabella sinottica della distribuzione t. Pertanto, con probabilità inferiore a 0.05 (di commettere un errore) si rifiuta l’ipotesi nulla e si accetta l’ipotesi alternativa: le sostanze tossiche disperse inibiscono la crescita delle piante della specie A in modo significativo.

Risposta 2. L’altezza media reale m della popolazione dalla quale sono stati estratti i 7 dati può essere stimata mediante

l’intervallo di confidenza

Con i dati del campione

= 23,0 S = 1,732 n = 7

e il valore del t associato alla probabilità 0.05 per un test a due code con 6 gdl

si calcola che

Pertanto, alla probabilità complessiva a = 0.05

- il limite inferiore l₁ ed il limite superiore l₂ dell’intervallo di confidenza

risultano rispettivamente:

In questo caso, non è possibile il confronto diretto tra le due risposte poiché

- nella prima è un test unilaterale (con t_{(0.05, 6)} = 1,943),

- mentre nella seconda l’intervallo di confidenza utilizza il valore di t corrispondente a un test bilaterale (con t_(0.025,6) = 2,447).

Esempio 2. Disponendo di un campione di 13 individui di Heterocypris incongruens pescati in un fiume, dei quali sono riportate le lunghezze (in mm),

Individui	Lunghezza (mm)
1	1,21
2	1,39
3	1,21
4	1,21
5	1,21
6	1,21
7	1,20
8	1,18
9	1,23
10	1,21
11	1,23
12	1,24
13	1,33

si vuole verificare se alla probabilità P = 0.99 la loro lunghezza media è significativamente differente dalla media di 1,25 mm stimata per la stessa specie nei laghi della regione, in varie ricerche precedenti.

Risposta. E’ possibile fornire una risposta sia mediante l’applicazione del test t per un campione (1), sia attraverso la stima dell’intervallo di confidenza della media campionaria (2).

1 - Dai 13 dati campionari, devono essere calcolati il valore della media e della deviazione standard:

La domanda dell’esempio richiede un test a due code o bilaterale, poiché prima della raccolta dei dati è ugualmente logico che la media del campione abbia un valore sia significativamente minore sia maggiore della media attesa.

Indicando con m la media reale del campione estratto dal fiume e con m₀ la media della popolazione che vive nei laghi, l’ipotesi nulla è

H₀ : m = m₀

e l’ipotesi alternativa

H₁ : m ¹ m₀

Mediante il test t

t₍₁₂₎ = = -0,917

si ottiene un valore di t₍₁₂₎ uguale a -0,917.

Alla probabilità a = 0.01 per un test bilaterale con 12 gdl il valore critico riportato è uguale a 3,055.

Il valore calcolato in modulo è nettamente inferiore a quello corrispondente riportato nella tavola sinottica; di conseguenza, non si è in grado di rifiutare l’ipotesi nulla.

La dimensione media dei 13 individui della specie Heterocypris incongruens pescati nel fiume non è significativamente diversa da quella degli individui della stessa specie che vivono nei laghi della regione.

2 - Per la stima dell’intervallo di confidenza, dopo il calcolo dei medesimi parametri si deve scegliere il valore del t con 12 gdl

- alla probabilità a = 0.01 per un test a due code oppure

- alla probabilità a= 0.005 per un test a una coda

trovando in entrambi i casi t_{0.005; 12} = 3,055.

I valori del limite inferiore l₁ e del limite superiore l₂

dell’intervallo fiduciale

risultano rispettivamente .

La media della popolazione m₀ uguale a 1,25 è compresa nell’intervallo fiduciale della media campionaria.

Pertanto, non esiste una differenza significativa alla probabilità prefissata di a = 0.01 in un test bilaterale.

Si può osservare come questo risultato coincida con quello ottenuto nella prima parte della risposta: il valore atteso m₀, risulta non significativamente differente dal valore della media campionaria; pertanto alla stessa probabilità a risulta compreso nel suo intervallo fiduciale.

Se fosse stata rifiutata l’ipotesi nulla, il valore atteso risulterebbe escluso dall’intervallo fiduciale calcolato.

Con un numero maggiore di osservazioni, la differenza facilmente sarebbe risultata significativa. Per la stima del numero di dati utili, è importante osservare che

- un aumento del numero di dati campionari agisce doppiamente sulla riduzione dell'intervallo di confidenza e sulla significatività del t:

- attraverso il valore del t_(n-1), che diminuisce al crescere di gdl,

- mediante la riduzione dell'errore standard, come evidenzia il rapporto .