VERIFICA DELLE IPOTESITEST PER UN CAMPIONE SULLA TENDENZA CENTRALE CON VARIANZA NOTAE TEST SULLA VARIANZA CON INTERVALLI DI CONFIDENZA
4.14. LA POTENZA A POSTERIORI E A PRIORI PER LA SIGNIFICATIVITA’ DELLA DIFFERENZA TRA UNA VARIANZA OSSERVATA E UNA VARIANZA ATTESA
Ricorrendo alla distribuzione c2 possono essere calcolate - la potenza a posteriori (1-b) e - la potenza a priori () dei test sulla significatività della differenza tra una varianza campionaria e una varianza attesa .
La potenza a posteriori (1-b), cioè misurata dopo che gli dati del campione con varianza sono stati raccolti ma ugualmente possibile prima dell’esperimento quando e specificati, - per un test bilaterale quindi con ipotesi H0: s2 = s20 contro H1: s2 ¹ s20 può essere ricavata mediante la relazione
- per un test unilaterale con ipotesi H0: s2 £ s20 contro H1: s2 > s20 con la relazione
- per un test unilaterale con ipotesi H0: s2 ³ s20 contro H1: s2 < s20 con la relazione
oppure
ESEMPIO 1 (TEST UNILATERALE SULLA POTENZA). La varianza di un nuovo reagente è stata indicata dall’azienda produttrice in = 1,5. Si pensa che in realtà sia maggiore e sia rimasto uguale a quello precedente. Un esperimento con = 8 ha permesso di stimare = 2,69. Quale è la potenza del test, se con una significatività a = 0.05 si vuole dimostrare che la varianza vera del nuovo prodotto è effettivamente maggiore di quella indicata?
Risposta. E' un test unilaterale con ipotesi H0: s2 £ s20 contro H1: s2 > s20 La relazione
con s2 = 2,69 e = 14,067 per = 8 e a = 0.05 e quindi
permette di stimare un valore del . Nella tavola sinottica dei valori critici con gdl 7, esso cade - tra il valore corrispondente alla probabilità a = 0.25 - e quello per la probabilità a = 0.5. I programmi informatici di norma forniscono una stima più precisa della probabilità corrispondente a tale valore del chi- quadrato, in quanto possono usare tabelle molto più dettagliate o stimare direttamente la distribuzione delle probabilità. Con un programma informatico, in questo caso è stato stimato che corrisponde a una probabilità = 0,36. Una potenza 1-b = 0,36 può essere giudicata molto bassa. Infatti esiste solo il 36% di probabilità che tale esperimento, con i parametri in indicati, risulti significativo. Nella programmazione di un esperimento, di norma deve superare almeno 0.80 quando si pensa di utilizzare, sui dati raccolti, un test che si vorrebbe significativo alla probabilità a = 0.05.
Dopo uno studio pilota che fornisce le informazioni di base oppure la lettura di una ricerca pubblicata che si vuole ripetere, diventa logico chiedersi: “Quanti dati occorre raccogliere, per realizzare un esperimento con il quale si possa dimostrare, alla probabilità a e con un rischio b prestabiliti, che la varianza reale del reagente è effettivamente maggiore della varianza indicata dall'azienda produttrice?” Questa varianza può essere stimata - sia sui dati di un solo campione, come presentato nel paragrafo precedente, - sia su due campioni dipendenti.
Nella statistica applicata, spesso è richiesto che si analizzi la varianza di uno strumento utilizzato da persone differenti oppure di un reagente impiegato in condizioni differenti. Si supponga che su 10 campioni due tecnici conducano la stessa analisi, ottenendo i risultati nell'esempio successivo:
La procedura per calcolare la varianza delle risposte tra i due operatori illustrata nei 3 punti successivi: 1 – Dalle due serie di dati e , si ricavano le differenze , come nell'ultima riga Potrebbe anche essere le differenze di segno opposto rispetto a quelle indicate nella tabella, vale a dire: ; Cambierebbe solamente il segno della loro media, non la varianza.
2 - Si calcola le media delle differenze . Con i dati dell’esempio
si ottiene = - 0,2 3 – Infine si ricava la varianza
Con i dati dell’esempio
si ottiene . Essa può essere confrontata con la varianza dichiarata, come illustrato nel paragrafo precedente.
La potenza a priori, o stima delle dimensioni minime del campione affinché il test risulti significativo 1) alla probabilità a desiderata 2) con il rischio b prefissato,
- in test unilaterale con ipotesi H0: s2 £ s20 contro H1: s2 > s20 è ricavato da
- in un test unilaterale con ipotesi H0: s2 ³ s20 contro H1: s2 < s20 è ricavato da
operando in modo iterativo. (Per la stima di con ipotesi bilaterale, non ho trovato la formula)
I due valori del c2 richiesti dalla formula, - quello per la per la probabilità a - quello per il rischio b possono essere scelti nella tavola sinottica solo conoscendo i gdl. Ma essi dipendono dal numero di dati, il cui valore deve essere identificato. Si procede quindi per tentativi, fino a individuare i due valori critici che determinano il rapporto richiesto, cioè
I loro gdl forniscono la stima del numero minimo cercato. (Individuare i valori da cui partire è determinato dall'esperienza. Coloro che affrontano questo procedimento per la prima volta ovviamente dovranno fare più tentativi per identificare il valore necessario).
ESEMPIO 2 (NUMERO MINIMO DI DATI PER UN TEST UNILATERALE). Il tecnico che ha effettuato l'analisi discussa nell’esempio precedente, ottenendo il risultato sperimentale s2 = 2,69 sulla base della sua esperienza è convinto che la varianza reale del reagente () sia maggiore di quella indicata dall’azienda produttrice in = 1,5. Quanti campioni deve analizzare, per dimostrare statisticamente che la varianza reale del reagente è effettivamente maggiore di quella indicata, con una significatività a = 0.05 e un rischio b = 0.10?
Risposta. Trattandosi di un test unilaterale con H0: s2 £ s20 contro H1: s2 > s20 si deve utilizzare la relazione
Tentativo I Con s2 = 2,69 = 1,5 a = 0.05 b = 0.10, visto il risultato dell'esempio precedente che ha fornito una potenza particolarmente bassa con = 8, per un primo tentativo di stima si può scegliere indicativamente = 35. Dalla tabella dei valori critici, con gdl = 34 () si ricava - per la probabilità a = 0.05 il valore c2 = 48,602 - per la probabilità 1-b = 0.90 il valore c2 = 23,952 (nella tabella vedere probabilità 0.90) Dai rapporti delle due formule precedenti risulta (1) e (2)
cioè che - il rapporto (0,493) tra i due valori critici del - è sensibilmente inferiore a quello delle due varianze (0,558). Questa prima scelta di non è corretta, in quanto i due rapporti dovrebbero essere uguali, almeno approssimativamente.
Tentativo II Di conseguenza, poiché il rapporto tra questi due aumenta al crescere dei loro gdl, nel secondo tentativo per stimare occorre scegliere due valori del c2 con un numero maggiore di gdl. Può apparire ragionevole tentare con = 55. (Solamente l'esperienza porterà a scelte che si dimostreranno vicine al valore corretto).
Dalla tabella dei valori critici, con gdl = 54 () si ricava - per la probabilità a = 0.05 il valore c2 = 72,153 - per la probabilità 1-b = 0.90 il valore c2 = 41,183 (nella tabella vedere probabilità 0.90)
Dal rapporto tra i due valori critici
(1) e (2)
si ottiene un risultato (0,571) che questa volta è maggiore di quello tra le due varianze (0,558), rimasto ovviamente immutato . Ma questa volta la differenza è piccola, come possono evidenziare i risultati dei due rapporti, arrotondati alla seconda cifra decimale (0,57 contro 0,56).
Tentativo III Con un terzo tentativo, questa volta si deve provare con un numero leggermente minore, che indicativamente può essere = 50. Dalla tabella dei valori critici con gdl = 49 () si ricava - per la probabilità a = 0.05 il valore c2 = 66,339 - per la probabilità 1-b = 0.90 il valore c2 = 36,818 (nella tabella vedere probabilità 0.90)
Dal rapporto tra i due valori critici
(1) e (2)
si ottiene (0,555). Questa volta il risultato del rapporto tra i due è molto vicino a quello tra le due varianze (0,558); la differenza è trascurabile, tanto che essi coincidono alla seconda cifra decimale (0,56). Poiché rapporto tra i due è minore del rapporto , è stato scelto un numero di poco inferiore a quello minimo richiesto. Con interpolazione anche grossolana rispetto agli ultimi due valori, come risposta conclusiva è possibile indicare non in 50 ma in 51-52 dati il numero minimo richiesto, per rispettare le condizioni prefissate.
Con metodi grafici proposti negli anni 40 e 50, del tutto analoghi a quelli utilizzati per la media, è possibile ottenere gli stessi risultati, - in modo molto più rapido, - seppure più impreciso, ma spesso ugualmente utile per una prima stima del rischio b e del numero minimo di dati necessari. Il grafico riportato nelle pagine seguenti, è stato proposto nel 1946 da C. D. Ferris, F. E. Grubbs e L. C. Weaver con l’articolo Operating Characteristics for the Common Statistical Tests of Significance (pubblicato su Annals of Mathematical Statistics Vol. 17, p. 181) e è stato divulgato in particolare dal manuale del dipartimento di ricerca della Marina militare Americana, pubblicato nel 1960, Statistical Manual (con autori Edwin L. Crow, Frances A. Davis, Margaret W. Maxfield, è stato pubblicato da Research Department U. S: Naval Ordnance Test Station, Dover Publications, Inc., New York, XVII + 288 p.), E’ solamente una dimostrazione e ha applicazioni limitate, in quanto è utile - solamente per il caso di un test unilaterale, presentato nel manuale con la simbologia H0: contro H1: - e solamente per la probabilità a = 0.05. Dopo aver calcolato il parametro l attraverso la relazione
dove - = deviazione standard del campione; (nella figura successiva è indicato con , in quanto il dato campionario è assunto come la deviazione standard vera o della sua popolazione) - = deviazione standard di confronto, il cui valore è riportato nell'ipotesi nulla, permette di stimare a) - il rischio b, b) - il numero minimo di dati necessari, affinché il test risulti significativo con i parametri specificati.
- trasferito orizzontalmente sull’asse delle ordinate, esso indica il rischio b. B - Per stimare le dimensioni minime () del campione, - dopo aver individuato il valore di l sull’asse delle ascisse si sale verticalmente - e dopo aver prefissato il valore di b ci si sposta in modo orizzontale: Per l’ipotesi nell’altra direzione H0: contro H1: nello stesso articolo é proposto un altro grafico, non riportato nel manuale.
ESEMPIO 3 (STIMA DI b CON IL GRAFICO E GLI STESSI DATI DELL’ESEMPIO 1). La varianza nelle risposte di un reagente è stata indicata dall’azienda produttrice in = 1,5. Si pensa che in realtà sia = 2,69. Quale è la potenza () del test, se in un esperimento con = 8 si vuole dimostrare che la varianza è effettivamente maggiore di quella indicata, con una significatività a = 0.05?
Risposta. Con = 1,64 e = 1,22 l’indice l
Individuato sull’asse delle ascisse, il valore l = 1,34 - proiettato verticalmente incontra la curva teorica di = 8 in un punto - che, trasferito orizzontalmente sull’asse delle ordinate, indica approssimativamente b = 0,65. La potenza del test è circa 0,35. E’ un risultato molto vicino a quello ottenuto in precedenza, mediante i calcoli dei vari parametri implicati, seppure nel grafico sia più difficile da leggere con precisione. Per la rapidità della risposta e la semplicità d’uso, è comprensibile la diffusione di questi grafici in analisi di routine. Resta il problema che, pure fornendo una risposta corretta, attraverso essa il tecnico raramente può comprendere esattamente quali sono i parametri che ha effettivamente utilizzato in questa determinazione.
ESEMPIO 4 (STIMA DI CON IL GRAFICO E GLI STESSI DATI DELL’ESEMPIO 2). Il tecnico che ha effettuato l'analisi (esempio 1 con risultato s2 = 2,69), è convinto che la varianza reale del reagente () sia maggiore di quella indicata dall’azienda produttrice in = 1,5. Quanti campioni deve analizzare per dimostrare statisticamente che la varianza reale del reagente è effettivamente maggiore di quella indicata, con una significatività a = 0.05 e un rischio b = 0.10?
Risposta. Trattandosi di un test unilaterale con = 1,64 e = 1,22 l’indice l
Individuato, sull’asse delle ascisse, il valore l = 1,34 - si deve salire verticalmente; - contemporaneamente sull’asse delle ordinate si deve prendere il valore = 0,10 e ci si sposta orizzontalmente; - queste due rette si incontrano in un punto, che cade approssimativamente sulla curva = 50. Serve un campione di circa 50 dati. Dal confronto tra i risultati dei 4 esempi sviluppati, emerge con evidenza che, soprattutto per campioni grandi, quando si utilizzano i grafici si ottengono stime puramente indicative della dimensione .
| |||||||||||||||||||||||||||||||||||||||||||||
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |