VERIFICA DELLE IPOTESITEST PER UN CAMPIONE SULLA TENDENZA CENTRALE CON VARIANZA NOTAE TEST SULLA VARIANZA CON INTERVALLI DI CONFIDENZA
4.1. RISULTATI SIGNIFICATIVI E NON-SIGNIFICATIVI Nel capitolo precedente sul chi quadrato, dopo l'elenco delle fasi elementari in cui è possibile scomporre la serie di passaggi logici richiesti dall’uso corretto di un test statistico, è stata applicata la procedura per la verifica delle ipotesi. Sono stati spiegati in modo sommario e applicati i concetti di - ipotesi nulla H0 e ipotesi alternativa H1, - test unilaterali o a una coda e test bilaterali o a due code, - valori critici e livello di significatività, - zona o regione di rifiuto e zona o regione di accettazione o di non-rifiuto. Oltre a rendere familiari i termini, con varie applicazioni in condizioni differenti è stato dimostrato sperimentalmente come la loro utilizzazione possa essere semplice, quasi intuitiva. Tuttavia, per una esatta comprensione dei metodi e al fine di procedere nell’approfondimento dei concetti verso livelli più sofisticati e applicazioni più complesse, è indispensabile conoscere con chiarezza: - le convenzioni abitualmente usate nell’applicazione dei test statistici, - alcune nozioni teoriche fondamentali sull’inferenza.
Si può definire test statistico una procedura che, - sulla base di dati campionari - e con un certo grado di probabilità, - consente di decidere se è ragionevole respingere l’ipotesi nulla H0 (ed accettare implicitamente l’ipotesi alternativa H1) - oppure se non esistono elementi sufficienti per respingerla.
La scelta tra le due ipotesi (H0 e H1) è fondata sulla probabilità di ottenere per caso il risultato osservato nel campione o un risultato ancor più distante da quanto atteso, nella condizione che l'ipotesi nulla H0 sia vera. Quanto più tale probabilità (indicata con a) è piccola, tanto più è improbabile che l'ipotesi nulla H0 sia vera.
La probabilità a può essere calcolata direttamente nei test esatti (come nell’uso della distribuzione binomiale o nel metodo di Fisher per tabelle 2 x 2, per ricordare solamente test già utilizzati); ma abitualmente è ricavata in modo indiretto attraverso il valore stimato con il test, per il quale sono state costruite tabelle di densità di probabilità (come nel caso dei test che ricorrono al valore di Z o del c2, per ricordare ancora una volta solamente quelli già utilizzati).
L’insieme di valori ottenibili con il test formano la distribuzione campionaria dell’indice statistico. Essa può essere divisa in due zone: 1 - la zona di rifiuto dell’ipotesi nulla, detta anche regione critica, che corrisponde ai valori collocati agli estremi della distribuzione secondo la direzione dell'ipotesi alternativa H1; sono quei valori che hanno una probabilità piccola di verificarsi per caso, quando l’ipotesi nulla H0 è vera; 2 - la zona di accettazione dell’ipotesi nulla H0, che comprende i restanti valori, quelli che si possono trovare abitualmente per effetto della variabilità casuale. Se il valore dell’indice statistico calcolato cade nella zona di rifiuto, si respinge l’ipotesi nulla H0. Con un test statistico è posta in discussione la credibilità dell’ipotesi nulla. Occorre sempre accettarla, a meno di dimostrare che quanto effettivamente trovato abbia una probabilità piccola di essere avvenuto per caso.
Per consolidata convenzione internazionale, i livelli di soglia delle probabilità a ai quali di norma si ricorre sono tre: 0.05 (5%); 0.01 (1%); 0.001 (0.1%). Nella presentazione sintetica dei risultati e nella discussione conclusiva dei test, quando è possibile solo l’uso di tabelle sinottiche (riassuntive) con i valori critici, i differenti livelli di significatività sono indicati con una simbologia e con parole chiave, che hanno significati precisi, non equivoci o generici, nella terminologia statistica.
Le tre probabilità e i valori critici più frequentemente utilizzati sono definiti dalle parole chiave e sono indicati con i simboli mostrati nello schema sottostante:
LIVELLO DI PROBABILITA’ RISULTATO DEL TEST SIMBOLOP < 0.05 (livello 5%) significativo *P < 0.01 (livello 1%) molto significativo ** P < 0.001 (livello 0,1%) altamente significativo ***
Riportati di fianco al risultato del test, nelle pubblicazioni uno oppure due o tre asterischi indicano in modo simbolico che il risultato è significativo ad una probabilità minore rispettivamente del 5%, dell’1% o dello 0,1% (uno per mille). Convenzionalmente, in termini discorsivi, si dice che il risultato è significativo, molto significativo od altamente significativo. In una pubblicazione scientifica, utilizzare il termine significativo (es.: la differenza tra due medie è significativa, la varianza del primo gruppo di dati è significativamente maggiore di quella del secondo) indica esattamente che - è stato applicato un test e il suo risultato ha determinato una probabilità P minore di 0.05. E’ scorretto, come spesso si deduce dal senso della frase, utilizzare il termine “la differenza (tra medie o tra varianze) è significativa”, solamente per indicare che essa non è zero, è un valore importante oppure è grande, ma a parere del ricercatore, non come risultato di un test.
Tuttavia, a questi valori di probabilità che servono per decidere o per effettuare una scelta tra due ipotesi, non deve essere attribuita una capacità discriminante assoluta: se la probabilità è inferiore a quella indicata come critica, il risultato non è di natura completamente diversa da quello ottenuto con una probabilità leggermente superiore. Questi valori critici di probabilità sono numeri tondi, puramente orientativi e non possiedono particolari proprietà intrinseche. I due statistici che hanno costruito le basi della teoria delle ipotesi, Jerzy Neyman (1894 – 1981) e Egon Sharpe Pearson (1896 - 1980), figlio del più famoso Karl Pearson (1857 – 1936), già in una pubblicazione del 1928 (vedi a pag. 176 dell’articolo On the use and interpretation of certain test criteria for purposes of statistical inference. Part I. pubblicato su Biometrika, vol. 20, pp. 175-240) scrivevano: “Il test per se stesso non da un verdetto finale, ma è uno strumento che aiuta il ricercatore a formarsi la sua decisione finale”.
Valori di probabilità leggermente differenti sia tra loro sia con quella prefissata a priori, per esempio uguali a 0.0505 oppure a 0.0491, conducono in realtà alle medesime conclusioni. Queste probabilità non sono tali da indurre, in modo certo o definitivo, ad accettare oppure a rifiutare l’ipotesi nulla perché leggermente inferiori o superiori al valore soglia di 0.05 eventualmente prescelto. Si deve parlare di risultati tendenzialmente significativi. I valori critici non devono essere assunti come confini rigidi, ma come indicazioni orientative per l’accettazione o il rifiuto dell’ipotesi nulla. Peter Armitage e Geoffry Berry nel loro testo del 1994, tradotto in italiano nel 1996 (vedi Statistica Medica, metodi statistici per la ricerca in medicina, McGraw-Hill Libri Italia, Milano), scrivono (a pag. 97) “Il test di significatività è un criterio per decidere se un campione qualsiasi appartiene alla classe dei “probabili” o degli “improbabili” o, in termini più pratici, è un dispositivo per valutare l’entità della discrepanza tra quanto osservato nel campione e quanto previsto nell’ipotesi nulla. La linea che divide la classe “probabile” dalla “improbabile” è chiaramente arbitraria, ma di solito si definisce in termini di probabilità (P) e si chiama livello di significatività o livello critico, indicato generalmente con a”.
Sono concetti che sovente inducono alla diffidenza verso la statistica il ricercatore che vi ricorra per le prime volte. Egli vorrebbe una risposta precisa, universale e senza equivoci, attribuendo alla statistica il compito di decidere senza incertezze o dubbi di qualsiasi natura. In realtà, il livello di significatività non è sempre uguale nel tempo e in ogni circostanza: test differenti, la cui scelta dipende dal ricercatore, forniscono probabilità differenti. Anche secondo sir Ronald Aylmer Fisher (1890 – 1962), il padre della statistica moderna al quale si deve soprattutto l’analisi della varianza, l’ipotesi deve essere accettata o rifiutata in relazione a ciascun caso particolare, alla sua evidenza e alle idee del ricercatore. In fondo la statistica è solo un contributo dato al ricercatore per decidere in modo corretto.
Nel capitolo precedente, con il test statistico c2, si è potuto verificare se una specifica distribuzione osservata fosse in sostanziale accordo con una determinata ipotesi o teoria (H0) e se le differenze rilevate fossero imputabili al caso. Oppure, se le due distribuzioni fossero significativamente differenti (H1), per la presenza di un fattore noto o ignoto, comunque diversamente incidente sulle distribuzioni e tale da alterare le frequenze assolute delle classi a confronto. In termini generali, - l’ipotesi riguardava la forma di distribuzione della popolazione, che poteva essere diversa per almeno uno dei 4 parametri (tendenza centrale, variabilità, simmetria, curtosi) senza una chiara identificazione su quale fosse la causa principale. E’ una ipotesi funzionale.
In altri esercizi, si è verificato se le percentuali o proporzioni rilevate in due campioni potessero essere giudicate statisticamente uguali (H0) oppure se esistesse una differenza significativa (H1), anche questa determinata da cause diversamente presenti nei campioni raccolti. L’ipotesi riguardava un solo parametro specifico della popolazione, che quasi sempre è la media oppure la varianza. E’ una ipotesi parametrica.
L’ipotesi nulla è, in generale, l’ipotesi che si vorrebbe rifiutare. Essa afferma che gli effetti osservati nei campioni sono dovuti a fluttuazioni casuali, sempre possibili quando esiste variabilità tra gli individui; si tratta di variazioni che sono tanto più marcate quanto più ridotto è il numero di osservazioni. L’ipotesi nulla H0 deve essere rifiutata solamente se esiste l’evidenza che la contraddice. E’ importante comprendere che l’ipotesi nulla non è necessariamente vera, quando i dati campionari (eventualmente pochi) non sono tali da contraddirla. L’ipotesi nulla H0 non è mai provata o verificata; è solo possibile negarla o disapprovarla, sulla base di dati sperimentali.
Contrapposta all’ipotesi nulla H0 si ha l’ipotesi alternativa H1, in alcuni testi indicata con HA. Essa, in rapporto al problema e al test utilizzato, può essere di tre tipi, tra loro mutuamente esclusivi: 1) bilaterale H0: q = q0 contro H1: q ¹ q0 2) unilaterale destra H0: q £ q0 contro H1: q > q0 3) unilaterale sinistra H0: q ³ q0 contro H1: q < q0 dove - q è il valore del parametro (media, varianza, simmetria, curtosi, correlazione, ecc., …) nel campione estratto dalla popolazione studiata - q0 è il valore dell’effetto teorico, prescelto come confronto.
In modo formalmente meno corretto ma ugualmente comprensibile, nei test unilaterali alcuni testi importanti e a grande diffusione internazionale, tra i quali il testo di Myles Hollander e Douglas A. Wolfe del 1999 Nonparametric Statistical Methods (2nd ed. John Wiley & Sons, Inc. New York, XIV + 787), in questo corso utilizzano H0: q = q0 contro H1: q > q0 e H0: q = q0 contro H1: q < q0
Un altro aspetto importante è la simbologia utilizzata, per indicare - la media del campione oppure la media della popolazione, - la varianza del campione oppure la varianza della popolazione, - in generale se l’indice utilizzato è quello misurato sul campione di dati raccolti oppure è quello vero o della popolazione A Ronald Fisher, si deve il primo passo importante nel chiarimento dei concetti che stanno alla base dell’inferenza statistica. Con i suoi articoli, nei primi decenni del ‘900 introduce una distinzione chiara - tra il valore del parametro che caratterizza la popolazione (indicato con simbolo dell’alfabeto greco: m per la media, s2 per la varianza, r per la correlazione) - e il valore corrispondente, chiamato statistica, calcolato sui dati del campione (indicato con simbolo latino o altra convenzione: per la media, s2 per la varianza, r per la correlazione)
Secondo R. Fisher, non tutte le ipotesi possono essere scelte come ipotesi alternative: devono essere scelte sulla base del test e delle conoscenze acquisite prima dell’esperimento (ad esempio, il confronto tra l’effetto di un farmaco e quello del placebo richiede un’ipotesi unilaterale). Secondo J. Neyman e E. S. Pearson nell’articolo citato in precedenza (a pag. 176 e seguenti), “Uno dei problemi più comuni e più importanti, che si presentano nell’interpretazione di un risultato statistico, è decidere se un particolare campione può essere estratto casualmente da una certa popolazione, specificata in modo completo o solamente in modo parziale”.
Come sarà presentato nel corso, esistono due approcci distinti: - un metodo parte dalla conoscenza dei parametri della popolazione (P) e chiede quale è la probabilità che un campione ( C ) possa essere stato estratto da essa, - l’altro metodo, con procedura inversa, parte dai dati del campione ( C ) e valuta la probabilità che P sia la popolazione campionata.
Mediante il ricorso ai test, nel capitolo precedente si è sempre pervenuti alla stima di una probabilità complessiva, che corrisponde a quella di ottenere differenze uguali o superiori a quelle sperimentalmente riscontrate, nell’ipotesi che i due campioni a confronto fossero estratti dalla stessa popolazione. Quando la probabilità è risultata inferiore a quella a prescelta, si è concluso che esisteva una differenza statisticamente significativa. Per una corretta comprensione dei concetti utilizzati in statistica, è importante evidenziare che, accettando questa conclusione, è possibile commettere un errore: - la differenza riscontrata nell’esperimento in realtà potrebbe non esistere. Tuttavia, la conclusione è ugualmente corretta, poiché - con il test non si perviene ad una affermazione assoluta, - ma ad una probabilità conosciuta di poter commettere un errore.
Con due esempi è utile chiarire ulteriormente questi concetti. Con un test statistico si determina solamente una probabilità, che può essere differente ripetendo lo stato esperimento, e che la decisione che ne deriva può essere errata. Come primo caso, si supponga che un giocatore utilizzi una moneta perfettamente bilanciata, ma di cui egli non conosca le caratteristiche. Mediante alcuni lanci, egli deve decidere se la moneta è bilanciata (H0) oppure truccata (H1). Si supponga quindi che egli lanci questa moneta 6 volte e che ottenga croce tutte le volte. Se il giocatore fosse uno statistico ragionerebbe in questo modo: "Avere questa risposta di 6 croci su 6 lanci è un evento raro; più esattamente ha una probabilità di 0,56 = 0,0156 o 1,56% di avvenire, se la moneta non fosse truccata (H0 vera). Con una ipotesi bilaterale, quindi comprendendo anche la possibilità di avere 6 volte testa, la probabilità è esattamente uguale a 3,12%. Di conseguenza, poiché 3,12% è una probabilità ritenuta bassa, ottenere 6 volte testa oppure 6 volte croce sono eventi complessivamente poco probabili, seppure possibili". Se egli avesse prefissato come valore soglia la probabilità del 5%, con questo test statistico rifiuterebbe l’ipotesi nulla. Giungerebbe alla conclusione che tra atteso (3 volte teste e 3 volte croce su 6 lanci) ed osservato (6 volte croce oppure l'opposto) esiste una differenza significativa e che pertanto la moneta è truccata. Ma noi, che da molto tempo la portiamo in tasca e spesso la usiomo per gioco, sappiamo che in realtà essa non la è. E’ un errore, che in statistica si chiama errore di I tipo (scritto spesso con l'iniziale maiuscola Tipo; in altri testi, è detto errore di prima specie). Consiste nel rifiutare l’ipotesi nulla H0, quando in realtà essa è vera.
Si supponga ora, come secondo caso, che sempre all’insaputa del giocatore questa volta la moneta sia truccata e dia solo croce. Se questa volta egli la lancia solo 3 volte, ovviamente otterrebbe 3 volte croce. In questo caso, se fosse uno statistico seguirebbe questo ragionamento: "Se la moneta non fosse truccata (H0 vera), la probabilità di trovare per caso 3 volte croce è alta, più esattamente uguale a 0,53 = 0,125 o 12,5%".Con un test bilaterale la probabilità è 0,25. Pertanto, egli non rifiuterebbe l’ipotesi nulla. Errando, arriverebbe alla conclusione che la moneta non è truccata. In questo caso, si ha l’errore di II tipo (o seconda specie). Consiste nel non rifiutare (o accettare) l'ipotesi nulla H0, quando in realtà essa è falsa.
In statistica, non è possibile eliminare questi due tipi di errore. E’ possibile solamente - ridurre la loro frequenza al minimo - e conoscere con precisione la probabilità con la quale avvengono. Solo conoscendo la probabilità di sbagliare, è possibile scegliere in modo corretto. La statistica è la scienza che permette di scegliere e prendere decisioni non perché immune da errori, ma perché fornisce la probabilità di errare, associata ad ogni scelta. Quindi di valutare il rischio che si corre, se la scelta si dimostrasse errata.
Come sola informazione, poiché l’argomento sarà approfondito nel capitolo dedicato ai confronti multipli, dalla metà degli anni ’80 si parla anche di errori di III tipo (Type III errors), introdotti da H. L. Harter nel 1957 con l’articolo Errors Rates and Sample Sizes for Range Tests in Multiple Comparisons (pubblicato su Biometrics Vol. 13, pp. 511-536). Avviene quando, con una serie ordinata di medie in procedure di confronti multipli che stabiliscono la media migliore o l’ordine tra di esse, si ipotizza che una media sia maggiore di un’altra, quando in realtà essa è minore. L’errore può anche esser nella direzione opposta: si ipotizza che la prima sia minore della seconda, quando in realtà è maggiore. Insieme con l’errore di Tipo I, l’errore di tipo III aumenta il valore di , come dimostra Eve Bofinger nel 1985 con l’articolo Multiple Comparisons and Type III Errors (pubblicato su Journal of the American Statistical Association, Vol. 80, No. 390, pp. 433 – 437, Theory and Methods.)
| |
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |