Services and Training for Six Sigma, Design of Experiments and Industrial Statistics

trasformazionI dei dati;

test per normalita’ e PER OUTLIER

13.11. METODI STATISTICI PER GRANDI CAMPIONI: LA DISTRIBUZIONE DI CHEBYSHEV E LA DISTRIBUZIONE NORMALE; THE HUGE RULE

Quando il campione è grande,

- se la forma della distribuzione non è nota e ancor più se è certo che non è normale, un metodo statistico è la disuguaglianza di Chebyshev (scritto in inglese; in francese è Cebicev; in tedesco è Tchebysheff; il cognome reale è in cirillico, trattandosi di un russo);

- se la distribuzione della popolazione dei dati è normale, almeno in modo approssimato, si utilizza la distribuzione Z.

Il metodo statistico più generale per stimare la probabilità di appartenenza di un dato a una popolazione, che non richiede alcuna conoscenza o ipotesi sulla forma della distribuzione dei dati, è l’uso della disuguaglianza di Chebyshev (già presentata nel capitolo sulle distribuzioni teoriche).

Indicando con

- k il numero di deviazioni standard (s) che separano il valore (X) dalla media (m) della popolazione,

si ricava la percentuale di osservazioni (P) che cadono tra l’osservazione e k deviazioni standard dalla media attraverso la relazione

dove k deve essere superiore a 1.

Ad esempio,

- entro un intervallo compreso tra due deviazioni standard (K = 2) dalla media

è compreso almeno il 75% dei dati;

- entro un intervallo compreso tra quattro deviazioni standard (K = 4) sopra e sotto la media

è compreso almeno il 93,75% dei dati.

Quindi, da quei due limiti verso i valori più estremi, è compreso meno del 6,25% dei dati.

Se un dato dista 6,3 deviazioni standard dalla media, ha una probabilità

2,52

P < 0,0252 o 2,52% di appartenere alla stessa popolazione, in quanto collocato oltre quegli estremi.

Tale legge è utile quando la forma della distribuzione dei dati è ignota. Quindi può essere necessaria quando si ritiene che i dati abbiano una asimmetria fortissima. La disuguaglianza di Chebyshev

- offre il vantaggio di essere applicata a qualsiasi distribuzione di dati,

- ma è molto meno potente dei metodi che ricorrono alla distribuzione normale Z

- oppure a distribuzioni che la presuppongono almeno approssimativamente, come la t di Student.

Se la distribuzione è normale almeno in modo approssimato, si utilizza la distribuzione Z

mediante

in un test che può essere

- sia unilaterale, quando a priori è nota la coda nella quale si può trovare l’outlier,

- sia bilaterale, quando a priori questa informazione non è disponibile.

I valori critici si uso più comune alle varie probabilità sono

a	0.05	0.01	0.005	0.001
Z unilaterale	1,645	2,33	2,58	3,09
Z bilaterale	1,96	2,58	2,81	3,28

Il concetto fondamentale è lo scarto di un dato ipotizzato outlier dalla media, in rapporto alla deviazione standard.

Con una distribuzione di dati campionari, nella quale si presume siano presenti outlier,

la formula diventa

dopo aver calcolato la media e la deviazione standard , usando tutti gli dati, compreso quello sottoposto a verifica per essere giudicato outlier.

Se il test è bilaterale, si calcola Z utilizzando come valore il dato che è più distante dalla media, qualunque sia la coda in cui è collocato.

Se il test è unilaterale, si utilizza il valore più estremo nella coda prescelta.

Con quale valore di Z si può affermare che il dato è un outlier?

La soglia tra che cosa è atteso e che cosa è anomalo è certo arbitraria, ma generalmente quando si trova sopra le +3,00 deviazioni standard o sotto le –3,00 deviazioni standard di distanza dalla media va guardato quantomeno con sospetto (ancora Geoff R. Norman e David L. Streiner a pag. 203).

Se si decide che è un outlier,

- si elimina il dato,

- e si effettua una seconda analisi con i rimanenti dati, verificando se il nuovo dato più distante dalla media è anch’esso un outlier, nel suo nuovo contesto.

A questo scopo, con i rimanenti dati si calcolano nuovamente la media e la deviazione standard, che ovviamente risultano leggermente modificati, rispetto alle precedenti. Ne consegue che potrebbe diventare outlier un valore che prima non lo era.

E’ possibile ripetere l’operazione più volte, eliminando ogni volta l’osservazione ritenuta anomala, finché il valore Z risulta inferiore al limite prestabilito. Da quel momento, nessun altro dato sarà anomalo. E’ un principio di cautela, anche se effettivamente, modificando appunto media e varianza, potrebbero comparirne altri, nei gruppo di dimensioni minori.

Proposto in vari manuali di statistica applicata e utilizzato da molti ricercatori, perché semplice concettualmente e rapido, più recentemente questo uso della Z allo scopo di evidenziare la presenza di uno o più outlier è criticato, in quanto può condurre a conclusioni errate più facilmente di altri metodi.

Nel 1988 R. Shiffler con l’articolo Maximum z scores and outliers (pubblicato su American Statistician Vol. 42, pp. 79 –80) dimostra che

- il valore massimo assoluto di dipende da , le dimensioni del campione;

- e che questo limite massimo è

Di conseguenza, ad esempio

- con = 10

il limite massimo di z è 2,846

- con = 20

il limite massimo di z sale a 4,289

- con = 100

il limite massimo di z diventa 9,9.

Più grande è il campione, più alto è il limite del valore di z che un outlier può raggiungere.

Quindi con un campione piccolo, è più facile dichiarare che un valore non è un outlier, con la giustificazione che lo Z calcolato è piccolo. Ma era basso anche il suo limite massimo possibile.

In realtà poteva essere un outlier, se fossero state considerate anche le dimensioni del campione.

Tra le numerose proposte per evidenziare la presenza di un outlier, sui manuali specialistici si è affermata anche un’altra strategia,

- la the Huge Rule, riportata nel testo di L. A. Marascuilo del 1971 Statistical Methods for Behavioral Science Research (edito da McGraw-Hill, New York, 578 p. a pag. 199), che utilizza un metodo del tutto analogo alla distribuzione Z, ma si differenzia dalla metodologia precedente per tre aspetti:

- il valore, chiamato M, è fondato su uno scarto preso in valore assoluto (il test è sempre bilaterale)

- la media e la deviazione standard sono calcolati su dati, escludendo quello giudicato outlier,

- il valore di M deve essere maggiore di 4 (M > 4).

E una regola empirica, che utilizza un valore “enorme” al quale corrisponde una probabilità molto piccola, più esattamente P < 0.00005, se la distribuzione della popolazione dei dati dalla quale è stato estratto il campione è perfettamente normale.

Il limite maggiore di questo metodo è di non stimare una probabilità precisa per l’outlier analizzato.

Per meglio comprendere questa proposta e deciderne correttamente l’eventuale applicazione al proprio settore di ricerca, è importante ricordare che la regola empirica (rule of thumb) sulla quale è fondata (the huge rule) è riportata da Marascuilo tra i metodi adatti alle scienze del comportamento, caratterizzate sempre da una variabilità estremamente grande.

Ma essa è utilizzata anche da James E. De Muth nel suo testo del 1999 Basic Statistics and Pharmaceutical Statistical Applications (edito da Marcel Dekker, Inc. New York, XXI + 596 p. a pag. 533) dal quale è tratto l’esempio successivo.

ESEMPIO. (THE HUGE RULE). Considerando le seguenti 15 osservazioni

99,3

99,7

98,6

99,0

99,1

99,3

99,5

98,0

98,9

99,4

99,0

99,4

99,2

98,8

99,2

il valore 98,0 può essere considerato un outlier?

Risposta. Escludendo il potenziale outlier (98,0), con gli altri = 14 dati

- si ottiene = 99,17 e = 0,29;

da essi con

si ricava M = 4,03.

Ne deriva che, sulla base del Huge Role, il valore 98,0 è un outlier, nel contesto degli altri 14 valori .

Le procedure illustrate in precedenza con l’uso della distribuzione Z rimangono invariate, quando per la stima della probabilità si utilizza la disuguaglianza di Chebyshev. Sono differenti la stima della probabilità e le assunzioni sulla forma della distribuzione dei dati.

Confrontando i risultati ottenuti con la distribuzione normale e quelli con la diseguaglianza di Chebyshev, nel caso di un test bilaterale

- con almeno due deviazioni standard dalla media (Z = 2) un dato ha una probabilità P < 4,6% di appartenere alla popolazione, mentre con la disuguaglianza di Chebyshev è P < 25% (come risulta nei calcioli precedenti);

- con 4 deviazioni standard (Z = 4) tale probabilità scende a circa 2 su diecimila, mentre con Chebyshev la stima era P < 6,25%.

La stima fornita dalla distribuzione di Chebyshev certamente ha il vantaggio rilevante di non richiedere la normalità della distribuzione dei dati e quindi di poter essere teoricamente utilizzata in una varietà di situazioni molto più ampia, senza essere mai sospettata di invalidità.

Ma, nella pratica sperimentale, in molte situazioni fornisce risposte troppo generiche. E’ troppo cautelativa, per essere realmente utile.

Per scoprire outlier univariati, vale a dire sempre quando si utilizza una sola variabile indipendente, in letteratura sono proposti anche

- il test di Grubb (Grubbs test for Outlying Observations) e il test Q di Dixon (Dixon Q test), che sono illustrati nel paragrafo successivo;

- il Youden’s test for outliers e il Cochran’s test for extreme values of variance, utilizzati per misure chimiche e rintracciabili nel testo di J. K. Taylor del 1987 Quality Assurance of Chemical Measures (edito da Lewis Publishers, Chelsea)

- il metodo studentized deleted residuals, descritto nel testo di R. L. Mason, R. F. Gunst, J. L: Hess del 1989 Statistical Design and Analysis of Experiments (editi da John Wiley and Sons, New York)