INFERENZA SU UNA O DUE MEDIE CON IL TEST t DI STUDENT

 

 

 

6.11.  DIMENSIONE DEL CAMPIONE PER LA PRECISIONE NELLA STIMA SIA DI UNA MEDIA SIA DI UNA DIFFERENZA TRA DUE MEDIE

 

 

Nella ricerca sul campo ed in laboratorio, è frequente il caso in cui un tecnico o un ricercatore debbano fornire un valore medio attendibile, con una differenza piccola e non superiore ad una quantità certa, rispetto alla media reale.

A posteriori, dopo aver raccolto i dati, l’intervallo fiduciale permette di valutare entro quali limiti si trova la media reale alla probabilità desiderata.

A priori, prima della raccolta dei dati, sovente occorre essere in grado di conoscere quanti dati è necessario raccogliere, quante misure effettuare, affinché la media campionaria  abbia la precisione desiderata, cioè non si discosti dalla media reale m o della popolazione di una quantità superiore a un valore d prefissato.

 

Nel caso della media un campione o della media delle differenze tra due campioni dipendenti, il numero n di osservazioni necessario per fornire una stima con la precisione desiderata

è dato da

 dove

-   s2 è la varianza del campione (stimata su un sondaggio preliminare),

-   il valore di t deve essere preso per un test bilaterale, alla probabilità a prefissata,

-  con gdl  n = n-1,

-  d è la differenza massima accettabile, scelta a priori o individuata come la metà dell’intervallo di confidenza.

Anche in questo caso, per la relazione esistente tra n e i gradi di libertà n del t prescelto (n = n-1), si deve procedere in modo iterativo.

 

ESEMPIO 1.   Ad un tecnico di laboratorio è stato chiesto di indicare, con precisione, la quantità media di un conservante (in gr.) presente per Kg di peso di un alimento. L’errore massimo accettato, lo scarto d rispetto alla media reale, non deve superare 1 gr. alla probabilità del 99 per cento.

Dopo l’analisi di un campione pilota (12,4;  11,9  12,7  …), che gli ha permesso di stimare la varianza (s2 = 4,12), quante misure deve effettuare per fornire la media con la precisione richiesta?

 

Risposta.  La formula da utilizzare

 indica le informazioni indispensabili:

-  la varianza di un campione, che in un sondaggio preliminare è risultata s2 = 4,12

-  la differenza massima (d  =  = 1) che si vuole accettare;

-  la probabilità a con la quale si accetta di commettere l’errore; nell’esempio, a = 0.01 per un test bilaterale;

-  il numero di gdl n collegato al valore di t, per la probabilità prefissata; come indicazione preliminare, si può sempre partire da una stima soggettiva di n che varia da 20 a 40.

Sulla base delle ultime due serie di indicazioni(a,n) relative all’esempio, assumendo n = 30 il valore di t

-  alla probabilità a = 0.01 bilaterale e

-  per n = 29

t0.005,29 = 3,038

 è uguale a 3,038.

Da queste quantità, si deriva una prima stima di n

 

 

 che risulta uguale a 38,03 quindi differente da n = 30 scelto in via preliminare.

Poiché il valore di t per a = 0.01 bilaterale e n = 38 non è riportato nella tabella, in modo cautelativo si può prendere quello per n = 35 (che ha un valore maggiore di quello per  n = 40)

t0.005,35 = 2,996

Da esso si stima un

 secondo valore di n

 

che indica in n =  37 il numero minimo di misurazioni da effettuare.

Poiché questa seconda stima di  n  è molto vicina alla prima, discostandosene di una quantità inferiore all’unità, si può concludere che servono almeno  n = 37 misurazioni.

 

Il calcolo dell’intervallo fiduciale permette di condurre una verifica della stima effettuata.

Alla probabilità a = 0.01, la media reale m è compresa entro un intervallo I

 

I = 0 ± ta/2,n ×

Con

-  t0.005,35 = 2,996 (poiché la tabella non riporta il valore esatto per n = 36)

-  s2 = 4,12   e   n = 37

 si ottiene un intervallo fiduciale I intorno alla media reale m

 

I = 0 ± 2,996 ×  = ±2,996 × 0,334 = ± 1,000664

 uguale a 1,000664 (leggermente differente da 1,0 a causa delle approssimazioni introdotte nel calcolo).

 

Nel caso della differenza tra due medie  (mA - mB), per una stima campionaria () che abbia la precisione desiderata, comunque con uno scarto d non superiore al limite prefissato alla probabilità a, la dimensione del campione o numero n di dati per ognuno dei due campioni

 è data da

n =

dove

 è la varianza associata, misurata in un esperimento pilota con due campioni indipendenti,

-  il valore di t deve essere preso per un test bilaterale, alla probabilità a prefissata,

-  con gdl n = 2 (n-1) trattandosi di due campioni indipendenti,

-  d è la differenza massima accettabile, scelta a priori.

 

Per la dipendenza reciproca tra n e n, la stima di n avviene in modo iterativo; ma quasi sempre è sufficiente la seconda stima, presa con un arrotondamento in eccesso.

 

ESEMPIO 2.   Per misurare l’effetto di una sostanza tossica sull’accrescimento normale di un gruppo di cavie, si intende programmare un esperimento con due gruppi: al primo è somministrata la sostanza tossica, mentre il secondo serve come controllo. Un esperimento precedente, non significativo, ha permesso di stimare la varianza associata  = 0,5193 dei due gruppi.

Che dimensioni devono avere i due gruppi, affinché una differenza d massima uguale a 0,4 risulti significativa alla probabilità del 5%?

 

Risposta.  Assumendo, in prima approssimazione, che servano 30 dati per gruppo,

-  si deve scegliere il valore di t alla probabilità a = 0.05 bilaterale, per n = 58;

-  non essendo riporta nella tabella, è possibile utilizzare il valore per n = 60,

 che risulta uguale a 2,000

t0.025, 60 = 2,000

-  con  = 0,5193   e   d = 0,4

Con la formula proposta in precedenza,

 la prima stima di n

 25,96

 

 indica n = 26 le osservazioni per gruppo.

Poiché si discosta dalla stima preliminare (30),

-  dopo aver scelto il valore di t per  n = 50

che risulta uguale a 2,008

t0.025, 50 = 2,008

-  si perviene alla seconda stima di n


 

 26,17

 che risulta n =  26,17.

Con un arrotondamento in eccesso, servono almeno 27 cavie per gruppo, 54 in totale.

Ovviamente, anche in questo caso, il calcolo dell’intervallo fiduciale permette di condurre una verifica della stima effettuata.

 

Alla probabilità a = 0.05, la differenza reale tra le due medie (mA - mB), è compresa entro un intervallo I intorno alla differenza campionaria D = .

Con

I = 0 ± ta/2,n ×

 e

-  con  = 0,5193     e     n = 27

-  t0.025, 50 = 2,008 (n = 50 poiché nella tabella non è riportato il valore esatto per n = 52)

 si ottiene un intervallo fiduciale I

 

I = 0 ± 2,008 ×  = ± 2,008 × 0,196 = ± 0,3936

 

 uguale a ± 0,3936 (leggermente differente da 0,4 per le approssimazioni introdotte nel calcolo).

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007