VERIFICA DELLE IPOTESI

TEST PER UN CAMPIONE SULLA TENDENZA CENTRALE CON VARIANZA NOTA

E TEST SULLA VARIANZA

CON INTERVALLI DI CONFIDENZA

4.10. SIGNIFICATIVITA DELLA DIFFERENZA TRA DUE MEDIE, CON VARIANZA NOTA

Quanto nei paragrafi precedenti è stato presentato sulla significatività

- della differenza tra una media campionaria e una media attesa m,

- può essere esteso alla differenza tra due medie campionarie e .

Questo ultimo argomento sarà sviluppato soprattutto nel capitolo sul t di Student, in quanto il caso che ricorre con frequenza maggiore nella ricerca applicata è quello di

- non conoscere la varianza della popolazione ()

- e quindi, in sua sostituzione, di utilizzare la varianza campionaria ().

Tuttavia, soprattutto nella ricerca industriale dove le rilevazioni sono frequenti, allo scopo di tenere sotto controllo il ciclo produttivo, ma anche nella ricerca medica o ambientale dove è possibile memorizzare centinaia di cartelle cliniche e condizioni ambientali, si hanno situazioni in cui la varianza vera è nota.

Nel caso di due serie di dati, le metodologie differiscono se si tratta di

a) due campioni dipendenti,

b) due campioni indipendenti.

A - Due campioni sono detti dipendenti, quando ogni dato di una serie può essere abbinato a un dato dell’altra serie. Il caso classico è quello denominato: Prima - Dopo.

Ad esempio, per valutare l’effetto di un farmaco sul livello di colesterolo LDL, a 8 pazienti è stato rilevato il livello prima della cura e dopo 30 giorni di somministrazione, con i risultati seguenti:

Paziente	I	II	III	IV	V	VI	VII	VIII
Prima	159	138	163	129	131	172	125	134
Dopo	152	140	145	125	134	156	120	128
Differenza (Prima – Dopo)	-7	+2	-18	-4	+3	-16	-5	-6

Per l’analisi statistica, non si utilizza nessuna delle due serie di dati osservati. Ma una terza serie, quella delle differenze () riportate nella terza riga della tabella, che hanno media .

In modo del tutto analogo al caso di un campione

- in cui si confronta la media delle osservazioni con una media teorica m,

nel caso di due campioni dipendenti,

- si confronta la media delle differenze con una differenza attesa o teorica d.

Se l’effetto che il farmaco somministrato può avere sul livello di colesterolo LDL non è noto e si vuole valutarlo, si effettua un test bilaterale con ipotesi

H₀: d = 0 contro H₁: d ¹ 0

Se si vuole verificare l’ipotesi che il farmaco abbassi il livello di LDL, si effettua un test unilaterale

H₀: d ³ 0 contro H₁: d < 0

La formula per il test è

dove

- è il numero di differenze , con il loro segno.

Nello stesso modo illustrato per un campione nei paragrafi precedenti, anche con due campioni dipendenti, è possibile calcolare

- l’intervallo di confidenza di questa differenza,

- la potenza del test per la significatività della differenza,

- il numero di dati necessari affinché una differenza d risulti significativa, alla probabilità a

- il numero di dati necessari, per avere una misura campionaria della differenza con un errore massimo prestabilito.

I metodi sono del tutto uguali, per cui è inutile una loro presentazione.

B - Il caso più frequente è quello di due campioni indipendenti.

E’ quando

- a un gruppo di ammalati (1) si somministra un farmaco

- e a un altro gruppo (2) un altro farmaco,

allo scopo di valutare mediante la differenza tra le loro medie campionarie e , se l’effetto dei due farmaci differiscono in modo statisticamente significativo.

Con un linguaggio e una simbologia più formali, l’ipotesi da verificare

- in un test bilaterale è

H₀: contro H₁:

- e in un test unilaterale è

H₀: contro H₁:

- oppure nell’altra direzione

H₀: contro H₁:

Quando

1 - i due campioni sono estratti dalla stessa popolazione oppure da popolazioni differenti ma sempre con la stessa varianza,

2 - la varianza reale s² è nota,

3 - i due campioni sono molto grandi,

4 - entrambe le popolazioni hanno forma normale,

è possibile utilizzare anche la distribuzione Z.

Più in generale, anche quando la stima di s è ottenuta mediante un campione “pilota”, è ritenuto da molti statistici applicati che sia sufficientemente corretto utilizzare la distribuzione normale Z al posto della distribuzione t di Student, se il campione delle differenze è composto da alcune decine d’unità. Infatti già con 30 osservazioni, le differenze tra il valore di Z e quello di t sono praticamente trascurabili, essendo di circa il 2%.

Nel caso di due campioni indipendenti, il test per la significatività della differenza tra due medie campionarie () è

dove

- è la varianza comune (pooled) dei due campioni, assumendo il valore campionario () come stima corretta della varianza reale dei due gruppi:

Spesso, soprattutto quando le due varianze e sono differenti,

è scritto anche

dove

- d frequentemente è uguale a 0; ma può assumere qualsiasi valore.

ESEMPIO 1. In una azienda, con un metodo standard di analisi chimica è stata determinata la percentuale di nitrocellulosa presente in due tipi di propellente, disponendo di 5 campioni per il primo e di 4 per il secondo.

I risultati delle analisi sono stati

Propellente	Risultati %					Medie
1	63,12	63,57	62,81	64,32	63,76	63,516
2	62,54	63,21	62,38	62,06	---	62,548

La lunga ripetizione di queste analisi ha permesso di stimare che la deviazione standard è s = 0,6.

La quantità media di nitrocellulosa presente nei due propellenti è significativamente differente?

Risposta. Per verificare le ipotesi

H₀: contro H₁:

con i dati: = 63,516 = 62,548 = 0,6 = 5 = 4

si ottiene

Nella distribuzione normale bilaterale, a Z = 2,41 corrisponde una probabilità P = 0,016

Il test è significativo: le due medie sono statisticamente differenti.

Tuttavia, nella interpretazione del risultato e sulla decisione aziendale che può derivare da questa risposta statistica, come può essere la scelta di un propellente a favore dell’altro, bisogna tenere in considerazione altri parametri, che possono portare a scelte differenti dalla conclusione statistica. Ad esempio, valutare se la differenza precedente tra le due medie, che in valore assoluto è inferiore a 1 punto (esattamente 0,968), ha realmente effetti importanti sulla funzione che deve svolgere. Oppure se costi diversi possono rendere addirittura vantaggioso il propellente con una quantità di nitrocellulosa inferiore, essendo le differenze nella funzione del tutto trascurabili.

La discussione del risultato in termini disciplinari è un problema che deve sempre essere posto nella ricerca industriale e farmacologica, dove la varianza di norma ha valori molto bassi, a causa dello sviluppo della tecnologia applicata alla produzione. Tale problema può essere accentuata dal fatto che, sempre nelle applicazioni industriali della statistica, spesso sono disponibili migliaia di dati.

Con una varianza piccola e/o un numero elevato di dati, risultano statisticamente significative differenze che, nei loro effetti pratici sul problema affrontato, sono totalmente ininfluenti e banali.

ESEMPIO 2. Per un esatta comprensione del valore pratico o disciplinare del risultato statistico, è quindi importante osservare che una differenza tra le due medie che sia ridotta a un decimo della precedente (0,0968), ma con due campioni di 100 dati ognuno,

fornisce un valore Z = 3,61

che corrisponde approssimativamente a una probabilità P = 0.0004 sempre in un test a due code.

Soprattutto nella ricerca ambientale, biologica e medica, si ritrova con frequenza anche il caso opposto.

Una differenza tra due medie, se reale, avrebbe conseguenze importanti nella disciplina. Ma, a motivo dei pochi dati disponibili e della grande variabilità delle risposte individuali, questa differenza non risulta statisticamente significativa. In questo caso, si richiede una conoscenza ampia dei metodi statistici, per

- impostare correttamente la ricerca,

- utilizzare il test più potente,

- calcolare la potenza (1 - b) del test,

- stimare il numero minimo di dati necessari.