VERIFICA DELLE IPOTESI

TEST PER UN CAMPIONE SULLA TENDENZA CENTRALE CON VARIANZA NOTA

E TEST SULLA VARIANZA

CON INTERVALLI DI CONFIDENZA

 

 

4.14.  LA POTENZA A POSTERIORI E A PRIORI PER LA SIGNIFICATIVITA’ DELLA DIFFERENZA TRA UNA VARIANZA OSSERVATA E UNA VARIANZA ATTESA

 

 

 

Ricorrendo alla distribuzione c2 possono essere calcolate

-  la potenza a posteriori (1-b) e

- la potenza a priori ()

 dei test sulla significatività della differenza tra una varianza campionaria  e una varianza attesa .

 

La potenza a posteriori (1-b), cioè misurata dopo che gli  dati del campione con varianza  sono stati raccolti ma ugualmente possibile prima dell’esperimento quando  e  specificati,

-  per un test bilaterale quindi con ipotesi

H0: s2 = s20      contro      H1: s2 ¹ s20

 può essere ricavata mediante

la relazione

 

-  per un test unilaterale con ipotesi

H0: s2 £ s20        contro         H1: s2 > s20

 con la relazione

 

-  per un test unilaterale con ipotesi

H0: s2 ³ s20       contro      H1: s2 < s20

 con la relazione

 

        oppure       


 

ESEMPIO 1 (TEST UNILATERALE SULLA POTENZA). La varianza di un nuovo reagente è stata indicata dall’azienda produttrice in  = 1,5. Si pensa che in realtà sia maggiore e sia rimasto uguale a quello precedente. Un esperimento con   = 8  ha permesso di stimare  = 2,69.

Quale è la potenza del test, se con una significatività a = 0.05 si vuole dimostrare che la varianza vera del nuovo prodotto è effettivamente maggiore di quella indicata?

 

Risposta. E' un test unilaterale con ipotesi

H0: s2 £ s20        contro         H1: s2 > s20

 La relazione

 

 con      s2 = 2,69   e    = 14,067  per   = 8   e  a = 0.05

 e quindi

 

 permette di stimare un valore del .

Nella tavola sinottica dei valori critici con gdl 7, esso cade

-  tra il valore corrispondente alla probabilità a = 0.25

-  e quello per la probabilità a = 0.5.

I programmi informatici di norma forniscono una stima più precisa della probabilità corrispondente a tale valore del chi- quadrato, in quanto possono usare tabelle molto più dettagliate o stimare direttamente la distribuzione delle probabilità. Con un programma informatico, in questo caso è stato stimato che  corrisponde a una probabilità  = 0,36.

Una potenza 1-b = 0,36  può essere giudicata molto bassa. Infatti esiste solo il 36% di probabilità che tale esperimento, con i parametri in indicati,  risulti significativo.

Nella programmazione di un esperimento, di norma deve superare almeno 0.80 quando si pensa di utilizzare, sui dati raccolti, un test che si vorrebbe significativo alla probabilità a = 0.05.

 

Dopo uno studio pilota che fornisce le informazioni di base oppure la lettura di una ricerca pubblicata che si vuole ripetere, diventa logico chiedersi: “Quanti dati occorre raccogliere, per realizzare un esperimento con il quale si possa dimostrare, alla probabilità a e con un rischio b prestabiliti, che la varianza reale  del reagente è effettivamente maggiore della varianza  indicata dall'azienda produttrice?”

Questa varianza può essere stimata

-  sia sui dati di un solo campione, come presentato nel paragrafo precedente,

-  sia su due campioni dipendenti.

 

Nella statistica applicata, spesso è richiesto che si analizzi la varianza di uno strumento utilizzato da persone differenti oppure di un reagente impiegato in condizioni differenti. Si supponga che su 10 campioni due tecnici conducano la stessa analisi, ottenendo i risultati nell'esempio successivo:

 

Campione

I

II

III

IV

V

VI

VII

VIII

IX

X

Oper. 1 

190

131

103

144

163

171

124

149

172

185

Oper. 2 

196

128

101

147

162

171

125

148

169

183

- 6

+ 3

+ 2

- 3

+ 1

0

- 1

+ 1

+ 3

- 2

 

 

La procedura per calcolare la varianza delle risposte tra i due operatori illustrata nei 3 punti successivi:

1 – Dalle due serie di dati  e , si ricavano le differenze , come nell'ultima riga

Potrebbe anche essere le differenze di segno opposto rispetto a quelle indicate nella tabella, vale a dire:

;

Cambierebbe solamente il segno della loro media, non la varianza.

 

2 - Si calcola le media  delle differenze .

 Con i dati dell’esempio

 si ottiene  = - 0,2


 

3 – Infine si ricava la varianza

Con i dati dell’esempio

 

 

 si ottiene .

Essa può essere confrontata con la varianza dichiarata, come illustrato nel paragrafo precedente.

 

La potenza a priori, o stima delle dimensioni minime  del campione affinché il test risulti significativo

1)  alla probabilità a desiderata

2)   con il rischio b prefissato,

 

-  in test unilaterale con ipotesi

H0: s2 £ s20        contro         H1: s2 > s20

 è ricavato da

 

-  in un test unilaterale con ipotesi

H0: s2 ³ s20       contro      H1: s2 < s20

 è ricavato  da

 operando in modo iterativo.

(Per la stima di  con ipotesi bilaterale, non ho trovato la formula)


 

I due valori del c2 richiesti dalla formula, 

-  quello per la per la probabilità a

-  quello per il rischio b

 possono essere scelti nella tavola sinottica solo conoscendo i gdl.

Ma essi dipendono dal numero  di dati, il cui valore deve essere identificato.

Si procede quindi per tentativi, fino a individuare i due valori critici che determinano il rapporto richiesto, cioè

I loro gdl forniscono la stima del numero minimo  cercato.

(Individuare i valori da cui partire è determinato dall'esperienza. Coloro che affrontano questo procedimento per la prima volta ovviamente dovranno fare più tentativi per identificare il valore necessario).

 

 

ESEMPIO 2 (NUMERO MINIMO DI DATI  PER UN TEST UNILATERALE). Il tecnico che ha effettuato l'analisi discussa nell’esempio precedente, ottenendo il risultato sperimentale s2 = 2,69 sulla base della sua esperienza è convinto che la varianza reale del reagente () sia maggiore di quella indicata dall’azienda produttrice in  = 1,5. 

Quanti campioni deve analizzare, per dimostrare statisticamente che la varianza reale del reagente è effettivamente maggiore di quella indicata, con una significatività a = 0.05 e un rischio b = 0.10?

 

Risposta.  Trattandosi di un test unilaterale con

H0: s2 £ s20        contro         H1: s2 > s20

 si deve utilizzare la relazione

 

Tentativo I

Con   s2 = 2,69      = 1,5     a = 0.05          b = 0.10,

 visto il risultato dell'esempio precedente che ha fornito una potenza particolarmente bassa con  = 8, per un primo tentativo di stima si può scegliere indicativamente  = 35.

Dalla tabella dei valori critici, con gdl = 34 () si ricava

-  per la probabilità a = 0.05 il valore  c2 =  48,602 

- per la probabilità 1-b = 0.90 il valore c2 =  23,952 (nella tabella vedere probabilità 0.90)

Dai rapporti delle due formule precedenti

 risulta

(1)         e         (2) 

 

 cioè che

- il rapporto (0,493) tra i due valori critici del  

- è sensibilmente inferiore a quello delle due varianze (0,558).

Questa prima scelta di  non è corretta, in quanto i due rapporti dovrebbero essere uguali, almeno approssimativamente.

 

Tentativo II

Di conseguenza, poiché il rapporto tra questi due   aumenta al crescere dei loro gdl, nel secondo tentativo per stimare  occorre scegliere due valori del c2 con un numero maggiore di gdl.

Può apparire ragionevole tentare con  = 55.

(Solamente l'esperienza porterà a scelte che si dimostreranno vicine al valore corretto).

 

Dalla tabella dei valori critici, con gdl = 54 () si ricava

-  per la probabilità a = 0.05 il valore c2 =  72,153 

-  per la probabilità 1-b = 0.90 il valore c2 =  41,183 (nella tabella vedere probabilità 0.90)

 

Dal rapporto tra i due valori critici

 

(1)           e          (2) 

 

 si ottiene un risultato (0,571) che questa volta è maggiore di quello tra le due varianze (0,558), rimasto ovviamente immutato . Ma questa volta la differenza è piccola, come possono evidenziare i risultati dei due rapporti, arrotondati  alla seconda cifra decimale  (0,57 contro 0,56).

 

Tentativo III

Con un terzo tentativo, questa volta si deve provare con un numero leggermente minore, che indicativamente può essere  = 50.

Dalla tabella dei valori critici con gdl = 49 () si ricava

-  per la probabilità a = 0.05 il valore c2 =  66,339 

-  per la probabilità 1-b = 0.90 il valore c2 =  36,818 (nella tabella vedere probabilità 0.90)

 

Dal rapporto tra i due valori critici

 

(1)           e        (2) 

 

 si ottiene (0,555).

Questa volta il risultato del rapporto tra i due  è molto vicino a quello tra le due varianze (0,558); la differenza è trascurabile, tanto che essi coincidono alla seconda cifra decimale (0,56).

Poiché rapporto tra i due  è minore del rapporto , è stato scelto un numero  di poco inferiore a quello minimo richiesto.

Con interpolazione anche grossolana rispetto agli ultimi due valori, come risposta conclusiva è possibile indicare non in 50 ma in 51-52 dati il numero minimo  richiesto, per rispettare le condizioni prefissate.

 

 

Con metodi grafici proposti negli anni 40 e 50, del tutto analoghi a quelli utilizzati per la media, è possibile ottenere gli stessi risultati,

-  in modo molto più rapido,

-  seppure più impreciso,

 ma spesso ugualmente utile per una prima stima del rischio b e  del numero minimo  di dati necessari.

 

Il grafico riportato nelle pagine seguenti, è stato proposto nel 1946 da C. D. Ferris, F. E. Grubbs e L. C. Weaver con l’articolo Operating Characteristics for the Common Statistical Tests of Significance (pubblicato su  Annals of Mathematical Statistics Vol. 17, p. 181) e è stato divulgato in particolare dal manuale del dipartimento di ricerca della Marina militare Americana, pubblicato nel 1960, Statistical Manual (con autori Edwin L. Crow, Frances A. Davis, Margaret W. Maxfield, è stato pubblicato da Research Department U. S: Naval Ordnance Test Station, Dover Publications, Inc., New York, XVII + 288 p.),

E’ solamente una dimostrazione e ha applicazioni limitate, in quanto è utile

-  solamente per il caso di un test unilaterale, presentato nel manuale con la simbologia

H0:        contro        H1:

- e solamente per la probabilità a = 0.05.

 Dopo aver calcolato il parametro l attraverso la relazione

 dove

 =  deviazione standard del campione;

(nella figura successiva è indicato con , in quanto il dato campionario è assunto come la deviazione standard vera o della sua popolazione)

 =  deviazione standard di confronto, il cui valore è riportato nell'ipotesi nulla,

 permette di stimare

a)  -  il rischio b,

b)  - il numero minimo  di dati necessari, affinché il test risulti significativo con i parametri specificati.

 

 

 

 

 

A - Per stimare il rischio b,

-  dopo aver individuato il valore di l sull’asse delle ascisse,

-  si sale verticalmente fino a incontrare la curva  in un punto;

-  trasferito orizzontalmente sull’asse delle ordinate, esso indica il rischio b.

B - Per stimare le dimensioni minime () del campione,

- dopo aver individuato il valore di l sull’asse delle ascisse si sale verticalmente

-  e dopo aver prefissato il valore di b ci si sposta in modo orizzontale:

- il punto di incrocio dei due segmenti ortogonali individua la curva .

 

Per l’ipotesi  nell’altra direzione   H0:  contro H1:  nello stesso articolo é proposto un altro grafico, non riportato nel manuale.

Per l’ipotesi bilaterale   H0:  contro H1: , non è proposto alcun grafico.



ESEMPIO 3   (STIMA DI b CON IL GRAFICO E GLI STESSI DATI DELL’ESEMPIO 1). La varianza nelle risposte di un reagente è stata indicata dall’azienda produttrice in  = 1,5. Si pensa che in realtà sia  = 2,69.

Quale è la potenza () del test, se in un esperimento con = 8  si vuole dimostrare che la varianza è effettivamente maggiore di quella indicata, con una significatività a = 0.05?

 

Risposta.  Con = 1,64   e   = 1,22

 l’indice l

 è uguale a 1,34

Individuato sull’asse delle ascisse, il valore l = 1,34

proiettato verticalmente incontra la curva teorica di  = 8 in un punto

-  che, trasferito orizzontalmente sull’asse delle ordinate, indica approssimativamente b = 0,65.

La potenza  del test è circa 0,35. E’ un risultato molto vicino a quello ottenuto in precedenza, mediante i calcoli dei vari parametri implicati, seppure nel grafico sia più difficile da leggere con precisione.

Per la rapidità della risposta e la semplicità d’uso, è comprensibile la diffusione di questi grafici in analisi di routine. Resta il problema che, pure fornendo una risposta corretta, attraverso essa il tecnico raramente può comprendere esattamente quali sono i parametri che ha effettivamente utilizzato in questa determinazione.

 

ESEMPIO 4   (STIMA DI  CON IL GRAFICO E GLI STESSI DATI DELL’ESEMPIO 2). Il tecnico che ha effettuato l'analisi (esempio 1 con risultato s2 = 2,69), è convinto che la varianza reale del reagente () sia maggiore di quella indicata dall’azienda produttrice in  = 1,5. 

Quanti campioni deve analizzare per dimostrare statisticamente che la varianza reale del reagente è effettivamente maggiore di quella indicata, con una significatività a = 0.05 e un rischio b = 0.10?

 

Risposta.  Trattandosi di un test unilaterale con = 1,64  e  = 1,22

 l’indice l

 è uguale a 1,34.

Individuato, sull’asse delle ascisse, il valore l = 1,34

- si deve salire verticalmente;

-  contemporaneamente sull’asse delle ordinate si deve prendere il valore  = 0,10 e ci si sposta orizzontalmente;

- queste due rette si incontrano in un punto, che cade approssimativamente sulla curva  = 50.

Serve un campione di circa 50 dati.

Dal confronto tra i risultati dei 4 esempi sviluppati, emerge con evidenza che, soprattutto per campioni grandi, quando si utilizzano i grafici si ottengono stime puramente indicative della dimensione .

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007