trasformazionI dei dati; test per normalita’ e PER OUTLIER
Sempre nel casi di dati - che siano stati estratti da una popolazione distribuita in modo normale, - ma con campioni piccoli (), anche se (come il test t di Student) il metodo è ugualmente applicabile a campioni grandi, - e per una individuazione degli outlier fondata su una probabilità definita, è possibile utilizzare la procedura T o metodo T (T procedure or T method) di Grubbs proposto appunto da F. E. Grubbs nel 1969 con l’articolo Procedures for detecting outlying observations in samples (pubblicato su Technometrics Vol. 11, pp. 1 – 21). In alcuni testi questo metodo è chiamato anche extreme Studentized residual o, più frequentemente, extreme Studentized deviate (ESD). Rappresenta una evoluzione del test di Grubbs e può essere applicata sia alla ricerca di un solo outlier sia alla ricerca di più outlier, con modifiche lievi.
Secondo la presentazione di James E. De Muth, nel suo testo del 1999 Basic Statistics and Pharmaceutical Statistical Applications (edito da Marcel Dekker, Inc. New York, XXI + 596 p. a pag. 533), da cui è tratto l’esempio successivo, la procedura di Grubbs richiede - di ordinare per ranghi i dati del campione - e, in rapporto al fatto che il dato ritenuto anomalo sia il primo oppure l’ultimo, - di calcolare il valore T con oppure
Il risultato deve essere confrontato con i valori critici riportati nella pagina seguente, validi per un test unilaterale, vale a dire quando a priori è nota la cosa nella quale è collocato il potenziale outlier.
I valori della tabella, la cui versione completa è rintracciabile nelle tavole statistiche di Robert R. Sokal e F. James Rohlf del 1995 (3rd ed. W. H. Freeman and Company, New York, XIV + 199 p.), rappresentano una elaborazione di quanto pubblicato da F. E. Grubbs e G. Beck nel 1972 con Extension of Sample Size and Percentage Points for Significance Tests of Outlying Observations (su Technometrics Vol. 14, pp. 847 – 854).
ESEMPIO 1 (MODIFICATO DA DE MUTH; STESSI DATI DI THE HUGE RULE). Considerando le seguenti 15 osservazioni
il valore 98,0 può essere considerato un outlier?
Risposta. Comprendendo il potenziale outlier (98,0), con tutti gli = 15 dati - si ottiene = 99,09 e = 0,41; Poiché 98,0 è il valore minore della serie, con
si ottiene T = 2,66.
Nella tabella dei valori critici, per = 15 il valore calcolato (T = 2,66) risulta - maggiore di quello critico (T = 2,549) alla probabilità a = 0.025 - minore di quello critico (T = 2,705) alla probabilità a = 0.01
Valori critici per il test di Grubbs (test unilaterale)
Di conseguenza, con probabilità di errare P < 0.025, si può affermare che il valore 98,0 è un outlier, rispetto al gruppo complessivo di osservazioni. E’ la stessa conclusione alla quale si era pervenuti con il metodo Huge Rule. Ma ora è stata stimata una probabilità abbastanza precisa di commettere un errore di Tipo I.
Il confronto tra i due risultati mostra che, con campioni piccoli, il valore M > 4 del metodo Huge Rule non è un risultato così estremo. In questo caso, corrisponde a una probabilità minore di 0,025 ma maggiore di 0.01.
Il test di Grubbs può essere utilizzato anche quando si sospetta che vi sia più di un outlier.
Su testi o manuali di statistica applicata differenti, il test Q di Dixon è presentato con due modalità apparentemente diverse. Esse fanno riferimento all’articolo del 1951 oppure a quello del 1953 di W. J. Dixon su gli outlier. Di seguito, sono presentati entrambi i metodi, ricordando che a) il primo è per un test bilaterale, b) il secondo per un test unilaterale
A) Il manuale della Marina Militare Americana del 1960 (Statistical Manual by Edwin L. Crow, Frances A. Davis, Margaret W. Maxfield, Research Department U. S: Naval Ordnance Test Station, Dover Pubblications, Inc., New York, XVII + 288 p.) per la identificazione degli outlier consiglia il test ratios for gross errors proposto da W. J. Dixon nel 1951 nell’articolo Ratios involving extreme values (pubblicato su Annals of Mathematichal Statistics, Vol. 22, pp. 68 – 78). Il test - che verifica l’ipotesi nulla H0 che il dato sospettato appartenga alla stessa popolazione degli altri dati, contro l’ipotesi alternativa H1 che provenga da una popolazione differente, - sembra limitato a un solo outlier, anche se tale limite non è espressamente dichiarato, - è bilaterale e quindi a priori non è determinata la coda nella quale occorre verificare l’esistenza dell’outlier, - può essere applicato a un campione piccolo (), - tratto da una popolazione distribuita in modo normale.
La procedura è molto semplice e rapida, non richiedendo né il calcolo della media né quello della deviazione standard campionarie.
Test ratios for gross errors Valori critici del test di Dixon (1951) Quando è ignota la coda, prima di osservare i valori (test unilaterale)
Disponendo di una serie di dati, - prima i valori devono essere ordinati per rango, - in modo crescente oppure decrescente, in funzione della coda nella quale è collocato il dato, ma individuata dalla lettura dei dati e non specificata in anticipo; - successivamente, utilizzando solo i valori estremi, la scelta dei quali dipende anche dalle dimensioni del campione, si calcola un rapporto .
La scelta dei dati per calcolare il rapporto dipende dal numero di dati del campione:
- per campioni molto piccoli, fino a = 7 dati, è
- per campioni intermedi da = 8 e fino a = 12 dati, è
- per campioni maggiori, da = 13 e fino a = 30 dati, è
I valori critici sono riportati nella tabella precedente.
ESEMPIO 2. (tratto dal testo Statistical Manual citato). Da una distribuzione normale, sono stati estratti i sei valori seguenti
Dalla lettura dei dati risulta che valore 0,357 è nettamente minore degli altri. Può essere considerato un outlier?
Risposta. Da come è stata impostata la domanda si deduce che il test è bilaterale. Dopo avere ordinato tutti i dati del campione in modo crescente
poiché il valore sospettato è il minore di un gruppo con mediante
si ottiene il rapporto = 0,747. Nella tabella dei valori critici, con = 6 il valore per a = 0.01 (la probabilità minore riportata) è uguale a 0,740. Di conseguenza, poiché il valore calcolato è maggiore, si rifiuta l’ipotesi H0 con probabilità P < 0.01.
B) Il testo di James E. De Muth del 1999 Basic Statistics and Pharmaceutical Statistical Applications (edito da Marcel Dekker, Inc. New York, XXI + 596 p. a pag. 534-536) presenta anch’esso un test Q di Dixon, ma rifacendosi all’articolo di W. J. Dixon del 1953 Processing data for outliers (pubblicato su Biometrics Vol. 1, pp. 74 - 89) e nella versione di test unilaterale.
Il test - verifica l’ipotesi nulla H0 che il dato sospettato appartenga alla stessa popolazione degli altri dati, contro l’ipotesi alternativa H1 che provenga da una popolazione differente, - quando a priori è noto in quale coda della distribuzione si dovrà verificare l’esistenza dell’outlier, - disponendo di un campione piccolo (), - tratto da una popolazione distribuita in modo normale. Come nella versione precedente, non si deve calcolare né la media la deviazione standard del campione. Quindi rispetto ad altri metodi, il Q di Dixon offriva un vantaggio pratico rilevante, quando tutti i calcoli dovevano essere svolti manualmente. Nonostante questo non è possibile affermare che sia un test non-parametrico, in quanto ipotizza che i dati siano distribuiti in modo normale. La procedura è identica a quella precedente, per quanto riguarda l’ordinamento dei dati. La scelta dei dati per calcolare il rapporto dipende - dal numero di dati del campione - e dalla coda nella quale a priori si è ipotizzato che il valore più estremo sia un outlier. Nella serie successive di formule, tra ogni coppia si sceglie la prima oppure la seconda formula, se nella serie dei valori ordinati in modo crescente l’outlier è il primo oppure l’ultimo dato:
- per campioni molto piccoli, da = 3 e fino a = 7 dati, si utilizza oppure
- per campioni da = 8 e fino a = 10 dati, si utilizza oppure
- per campioni da = 11 e fino a = 13 dati, si utilizza oppure
- per campioni maggiori, da = 14 e fino a = 30 dati, si utilizza oppure
I valori critici sono riportati nella tabella successiva
ESEMPIO 3 (MODIFICATO DA DE MUTH; STESSI DATI DI THE HUGE RULE E DEL TEST DI GRUBBS DELL’ESEMPIO 1). Considerando le seguenti 15 osservazioni
il valore minore 98,0 può essere considerato un outlier?
Test Q di Dixon (1953) per gli outlier
Risposta. E’ un test unilaterale, con il quale si verifica - l’ipotesi nulla H0 che il dato minore appartenga alla stessa popolazione degli altri dati, - contro l’ipotesi alternativa H1 che esso provenga da una popolazione differente. A questo scopo, si ordinano i valori del campione attribuendo i ranghi:
Poiché = 15 e l’eventuale outlier è il primo nella serie ordinata, si utilizza la formula
Con i dati dell’esempio = 98,8 = 98,0 = 99,4 si ottiene
il risultato = 0,57. Poiché nella tabella del test Q di Dixon (1953) per gli outlier sono riportati - per = 0.05 il valore critico = 0.525 - per = 0.01 il valore critico = 0.616 si rifiuta l’ipotesi nulla con probabilità P > 0.05 di commettere un errore di Tipo I.
Dal confronto degli esempi 1 e 3 che sono stati applicati agli stessi dati, e dalle informazioni precedenti a conclusione si può dedurre che: - il test di Dixon è più semplice, mentre il test di Grubbs richiede più calcoli; - ma il test di Grubbs è più potente; - inoltre il test di Grubbs può essere ripetuto, per individuare più outlier negli stessi dati. Entrambi i test richiedono che la distribuzione dei dati sia normale.
Verificato che il valore sospettato è statisticamente un outlier, per eliminare il dato dalle analisi successive il dubbio sulla correttezza del valore non può derivare solamente dalla semplice osservazione che esso è nettamente minore o maggiore degli altri. Il dubbio deve essere giustificato esternamente all’analisi statistica, come possono essere la condizione particolare dell’esperimento con cui quel dato è stato ottenuto, un errore strumentale, una trascrizione sbagliata del risultato reale. Condizioni che eventualmente possono essere verificate a posteriori, dopo il suggerimento della probabile rarità del dato sospettato fornita dal test.
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |