VERIFICA DELLE IPOTESITEST PER UN CAMPIONE SULLA TENDENZA CENTRALE CON VARIANZA NOTAE TEST SULLA VARIANZA CON INTERVALLI DI CONFIDENZA
4.2 PERCHE’ P < 0.05 ? E’ UN RITO OPPURE UNA SCELTA RAZIONALE? Un concetto
importante per i suoi aspetti pratici, più volte enunciato nel paragrafo
precedente e applicato negli esempi di test già svolti, è il livello di
significatività dei test, convenzionalmente fissato in P = 0.05.
Dagli anni ’60, il termine statisticamente significativo (statistically
significant) è sinonimo di Perché è stato
universalmente accettato il valore Ha un effettivo valore dirimente, per separare il vero dal falso, il
probabile dall’improbabile, oppure le stesse conclusioni possono essere
raggiunte con valori di probabilità Questo limite è un rito oppure una scelta razionale?
Sono domande che molti si pongono all'inizio di un corso di statistica, per decidere se un test è risultato effettivamente significativo. Per rispondere, è utile conoscere le vicende storiche che hanno portato la comunità scientifica ad adottare questa prassi. All'inizio del
'900, dopo aver calcolato un valore Z o il In esse erano
riportate in dettaglio lunghe serie di valori di probabilità
Nella pratica degli statistici applicati e dei biometristi, il volume Karl Pearson è sostituito nel 1925 dalla prima edizione del testo di R. A. Fisher Statistical Methods for Research Workers, nel quale sono presentati i test noti in quegli anni e sono riportate le tabelle dei valori critici. Resterà il testo più importante fino agli anni ‘50, appaiato più tardi dal volume di Snedercor e Cochran intitolato Statistical methods, che ha la prima edizione nel 1937 e proseguirà fino alla fine degli anni’80. Il testo di Fisher
è progressivamente aggiornato, senza un aumento rilevante del numero di pagine,
fino alla 14a edizione (con varie ristampe) del 1970. In questo
volume, Fisher riporta sempre una selezione limitata dei valori Nel 1938, insieme
con Frank Yates, Fisher stampa un volume di sole tabelle Statistical
Tables for Biological, Agricultural, and Medical Research, che ancora
oggi sono riprodotte su molti testi di statistica. Anche in esse è riportata
solamente una selezione dei valori
Perché; partendo
dal lungo elenco di probabilità Le scelte contingenti sono lo spazio ridotto che nel volume poteva essere dedicato alle tabelle e il fatto che per pubblicarle Fisher doveva ottenere il permesso di Pearson, ma da tempo si trovava in forte contrasto con lui. Nel capitolo di I. D. J. Bross intitolato Critical Levels, Statistical Language and Scientific Inference (nel volume del 1971 di V. P. Godambe and Sprott (eds.) Foundations of Statistical Inference, Toronto, Holt, Rinehart & Winston of Canada), Jack Good nella sezione discussion (pag. 513) scrive: - Kendall mentioned that Fisher produced the tables of significance levels to save space and to avoid copyright problems with Karl Pearson, whom he disliked.
La sintesi operata da Fisher ha anche motivazioni suggerite dall’uso del suo testo. Come dice il titolo, è scritto per gli addetti alla ricerca, non per studiosi di statistica. Pertanto ha uno scopo eminentemente pratico: fornisce una selezione di probabilità, che semplifica la scelta e aiuta nella decisione.
Le giustificazioni
di logica statistica per attribuire a - (a pag. 504 ) … it is convenient to draw the line at about the level at which we can say: ”Either there is something in the treatment, or a coincidence has occurred such as does occur more than once in twenty trials.” … - (a pag. 504) Personally, the writer prefers to set a low standard of significance at the 5 per cent point, and ignore enterily all results wich fail to reach this level. A scientific fact should be regarded as experimentally established only if a properly designed experiment rarely fails to give this level of significance. E ancora, nella 13a edizione (1956) del suo testo Statistical Methods for Research Workers (New York, Hafner), descrivendo l’uso della distribuzione normale: - (a
pag. 44) The value for which
Pure definendo i limiti in modo così preciso e netto, Fisher applica anche un uso più elastico delle probabilità P, in funzione degli scopi della ricerca, della distribuzione dei dati e delle dimensioni del campione. Sempre nel testo del 1956, scrive: - (a
pag. 80) In preparating this table we have borne in mind that in practice
we do not want to know the exact value of P for any observed
L’interpretazione deve essere collegata alla conoscenza della disciplina e lasciare spazio alla presenza di dubbi, quando il risultato del test non appare del tutto logico. In un test - (a pag. 137) The result must be judged significant, though barely so; in view of the data we cannot ignore the possibility that on this field, and in conjunction with the other manures used, nitrate of soda has conserved the fertility better than sulphate of ammonia; the data do not, however, demonstrate this point beyond the possibilty of doubt.
Anche un campione
piccolo ( - (a pag. 139-140) We find ... t =1.844 (con df 13 e P = 0.088) …though relatively large, cannot be regarded as significant. There is not sufficient evidence to assert that culture B was growing more rapidly than culture A.
Questo approccio di
Fisher e della sua scuola (Yates fu suo assistente presso
l’Istituto di ricerca in Agricoltura di Londra) a una interpretazione spesso
attenuata e problematica, che alcuni definiscono di apparent
inconsistency, è in forte contrasto con Jerzy Neyman
(1894-1981), che in collaborazione con Egon Sharpe Pearson (1896-1980,
figlio di Karl) tra il 1928 e il 1933 propone la teoria del test d’ipotesi.
Secondo questo approccio, il valore di
La scelta meccanica di accettazione/rifiuto (acceptance/rejection) dell’ipotesi nulla assume un ruolo fondamentale nella teoria di Neyman-Pearson. All’opposto Fisher ritiene corretto - riportare il
valore di - e interpretarne scientificamente l’evidenza. La diversa opinione deriva anche dal fatto che Neyman e Pearson si rifanno alla statistica bayesiana, mentre Fisher alla inferenza frequentista.
I due differenti approcci può essere entrambi corretti, ma in situazioni differenti. La teoria di Neyman-Pearson è ritenta appropriata con campioni grandi e ripetuti. Il caso classico può essere il controllo di qualità, nel quale la proporzione di difetti può essere prefissata a priori, sulla base di calcoli di convenienza. Una macchina deve essere senza dubbio fermata, se la quantità di scarti da essa prodotti supera il limite prefissato.
Nel caso di campioni
piccoli, con l'uso della distribuzione binomiale, quella ipergeometrica e
dati di rango, la distribuzione delle probabilità Questo problema è
ora da tempo superato con l’uso di programmi informatici. Disponendo di una
memoria molto ampia e utilizzando procedimenti diversi per stimare la tabella
dei valori critici, si ottiene una stime di probabilità Nella
interpretazione della significatività di un test statistico, come evidenziato
in un esempio di Fisher, si pone il problema della sua rilevanza
disciplinare. Ad esempio, un test statistico sulla quantità di farmaco, emesso
da una bomboletta spray tarata per emettere ogni volta 55 milligrammi e
condotto su un campione di 2000 unità, evidenzia che una differenza di 2
milligrammi risulta significativa, con una probabilità
D. J. Bross
nel volume del 1971 Critical Levels, Statistical Language and Scientific
Inference (V. P. Godambe and Sprott (eds.) Foundations of
Statistical Inference, Toronto, Holt, Rinehart & Winston of Canada)
evidenzia che ogni disciplina studia fenomeni che hanno una variabilità più o
meno grande e quindi i test forniscono probabilità
| |
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |