trasformazionI dei dati;

test per normalita’ e PER OUTLIER

 

 


13.12. VERIFICA DEGLI OUTLIER O GROSS ERROR PER CAMPIONI PICCOLI CON DISTRIBUZIONE NORMALE: IL TEST DI GRUBBS O EXTREME STUDENTIZED RESIDUAL; IL TEST Q DI DIXON.

 

 

Sempre nel casi di dati

- che siano stati estratti da una popolazione distribuita in modo normale,

- ma con campioni piccoli (), anche se (come il test t di Student) il metodo è ugualmente applicabile a campioni grandi,

- e per una individuazione degli outlier fondata su una probabilità definita,

 è possibile utilizzare la procedura T o metodo T (T procedure or T method) di Grubbs proposto appunto da F. E. Grubbs nel 1969 con l’articolo Procedures for detecting outlying observations in samples (pubblicato su Technometrics Vol. 11, pp. 1 – 21).

In alcuni testi questo metodo è chiamato anche extreme Studentized residual o, più frequentemente, extreme Studentized deviate (ESD). Rappresenta una evoluzione del test di Grubbs e può essere applicata sia alla ricerca di un solo outlier sia alla ricerca di più outlier, con modifiche lievi.

 

Secondo la presentazione di James E. De Muth, nel suo testo del 1999 Basic Statistics and Pharmaceutical Statistical Applications (edito da Marcel Dekker, Inc. New York, XXI + 596 p. a pag. 533), da cui è tratto l’esempio successivo,

 la procedura di Grubbs richiede

- di ordinare per ranghi i dati del campione

- e, in rapporto al fatto che il dato ritenuto anomalo sia il primo oppure l’ultimo,

-  di calcolare il valore T

 con

        oppure       

 

 Il risultato deve essere confrontato con i valori critici riportati nella pagina seguente, validi per un test unilaterale, vale a dire quando a priori è nota la cosa nella quale è collocato il potenziale outlier.

 

I valori della tabella, la cui versione completa è rintracciabile nelle tavole statistiche di Robert R. Sokal e F. James Rohlf del 1995 (3rd ed. W. H. Freeman and Company, New York, XIV + 199 p.), rappresentano una elaborazione di quanto pubblicato da F. E. Grubbs e G. Beck nel 1972 con Extension of Sample Size and Percentage Points for Significance Tests of Outlying Observations (su Technometrics Vol. 14, pp. 847 – 854).

 

 

ESEMPIO 1 (MODIFICATO DA DE MUTH; STESSI DATI DI THE HUGE RULE). Considerando le seguenti 15 osservazioni

 

99,3

99,7

98,6

99,0

99,1

99,3

99,5

98,0

98,9

99,4

99,0

99,4

99,2

98,8

99,2

 

 

 il valore 98,0 può essere considerato un outlier?

 

Risposta. Comprendendo il potenziale outlier (98,0), con tutti gli  = 15 dati

- si ottiene  = 99,09   e    = 0,41;

 Poiché 98,0 è il valore minore della serie,

con

si ottiene T = 2,66.

 

Nella tabella dei valori critici, per    = 15 il valore calcolato (T = 2,66) risulta

maggiore di quello critico  (T = 2,549) alla probabilità a = 0.025

minore di quello critico (T = 2,705) alla probabilità a = 0.01


 

Valori critici per il test di Grubbs (test unilaterale)

 

a = 0.10

a = 0.05

a = 0.025

a = 0.01

a = 0.005

3

1.148

1.153

1.155

1.155

1.155

3

4

1.425

1.463

1.481

1.492

1.496

4

5

1.602

1.672

1.715

1.749

1.764

5

6

1.729

1.822

1.887

1.944

1.973

6

7

1.828

1.938

2.020

2.097

2.139

7

8

1.909

2.032

2.126

2.221

2.274

8

9

1.977

2.110

2.215

2.323

2.387

9

10

2.036

2.176

2.290

2.410

2.482

10

11

2.088

2.234

2.355

2.485

2.564

11

12

2.134

2.285

2.412

2.550

2.636

12

13

2.175

2.331

2.462

2.607

2.699

13

14

2.213

2.371

2.507

2.659

2.755

14

15

2.247

2.409

2.549

2.705

2.806

15

16

2.279

2.443

2.585

2.747

2.852

16

17

2.309

2.475

2.620

2.785

2.894

17

18

2.335

2.504

2.651

2.821

2.932

18

19

2.361

2.532

2.681

2.854

2.968

19

20

2.385

2.557

2.709

2.884

3.001

20

21

2.408

2.580

2.733

2.912

3.051

21

22

2.429

2.603

2.758

2.939

3.060

22

23

2.448

2.624

2.781

2.963

3.087

23

24

2.467

2.644

2.802

2.987

3.112

24

25

2.486

2.663

2.822

3.009

3.135

25

26

2.502

2.681

2.841

3.029

3.157

26

27

2.519

2.698

2.859

3.049

3.178

27

28

2.534

2.714

2.876

3.068

3.199

28

29

2.549

2.730

2.893

3.085

3.218

29

30

2.563

2.745

2.908

3.103

3.236

30

31

2.577

2.759

2.924

3.119

3.253

31

32

2.591

2.773

2.938

3.135

3.270

32

33

2.604

2.786

2.592

3.150

3.286

33

34

2.616

2.799

2.965

3.164

3.301

34

35

2.628

2.811

2.979

3.178

3.316

35

36

2.639

2.823

2.991

3.191

3.330

36

37

2.650

2.835

3.003

3.204

3.343

37

38

2.661

2.846

3.014

3.216

3.356

38

39

2.671

2.857

3.025

3.228

3.369

39

40

2.682

2.866

3.036

3.240

3.381

40

50

2.768

2.956

3.128

3.336

3.483

50

60

2.837

3.025

3.199

3.411

3.560

60

70

2.893

3.082

3.257

3.471

3.622

70

80

2.940

3.130

3.305

3.521

3.673

80

90

2.981

3.171

3.347

3.563

3.716

90

100

3.017

3.207

3.383

3.600

3.754

100


Di conseguenza, con probabilità di errare P < 0.025, si può affermare che il valore 98,0 è un outlier, rispetto al gruppo complessivo di osservazioni.

E’ la stessa conclusione alla quale si era pervenuti con il metodo Huge Rule. Ma ora è stata stimata una probabilità abbastanza precisa di commettere un errore di Tipo I.

 

Il confronto tra i due risultati mostra che, con campioni piccoli, il valore M > 4 del metodo Huge Rule non è un risultato così estremo. In questo caso, corrisponde a una probabilità minore di 0,025 ma maggiore di 0.01.

 

Il test di Grubbs può essere utilizzato anche quando si sospetta che vi sia più di un outlier.

 

Su testi o manuali di statistica applicata differenti, il test Q di Dixon è presentato con due modalità apparentemente diverse. Esse fanno riferimento all’articolo del 1951 oppure a quello del 1953 di W. J. Dixon su gli outlier.  Di seguito, sono presentati entrambi i metodi, ricordando che

a)  il primo è per un test bilaterale,

b)  il secondo per un test unilaterale

 

A)   Il manuale della Marina Militare Americana del 1960 (Statistical Manual by Edwin L. Crow, Frances A. Davis, Margaret W. Maxfield, Research Department U. S: Naval Ordnance Test Station, Dover Pubblications, Inc., New York, XVII + 288 p.) per la identificazione degli outlier consiglia il test ratios for gross errors proposto da W. J. Dixon nel 1951 nell’articolo Ratios involving extreme values (pubblicato su Annals of Mathematichal Statistics, Vol. 22, pp. 68 – 78).

Il test

- che verifica l’ipotesi nulla H0 che il dato sospettato appartenga alla stessa popolazione degli altri dati, contro l’ipotesi alternativa H1 che provenga da una popolazione differente,

- sembra limitato a un solo outlier, anche se tale limite non è espressamente dichiarato,

- è bilaterale e quindi a priori non è determinata la coda nella quale occorre verificare l’esistenza dell’outlier,

- può essere applicato a un campione piccolo (),

-  tratto da una popolazione distribuita in modo normale.

 

La procedura è molto semplice e rapida, non richiedendo né il calcolo della media  né quello della deviazione standard  campionarie.


 

 

Test ratios for gross errors

Valori critici del test di Dixon (1951)

Quando è ignota la coda, prima di osservare i valori (test unilaterale)

 

 

 

Rapporti

 

Valori critici

a = 0.10

a = 0.05

a = 0.01

3

0.941

0.970

0.994

4

0.765

0.829

0.926

5

0.642

0.710

0.821

6

0.560

0.628

0.740

7

0.507

0.569

0.680

8

0.544

0.608

0.717

9

0.503

0.564

0.672

10

0.470

0.530

0.635

11

0.445

0.502

0.605

12

0.423

0.479

0.579

13

0.563

0.611

0.697

14

0.539

0.586

0.670

15

0.518

0.565

0.647

16

0.500

0.546

0.627

17

0.483

0.529

0.610

18

0.469

0.514

0.594

19

0.457

0.501

0.580

20

0.446

0.489

0.567

21

0.435

0.478

0.555

22

0.426

0.468

0.544

23

0.418

0.459

0.535

24

0.410

0.451

0.526

25

0.402

0.443

0.517

26

0.396

0.436

0.510

27

0.389

0.429

0.502

28

0.383

0.423

0.495

29

0.378

0.417

0.489

30

0.373

0.412

0.483

 

 


Disponendo di una serie di dati,

-  prima i valori devono essere ordinati per rango,

- in modo crescente oppure decrescente, in funzione della coda nella quale è collocato il dato, ma individuata dalla lettura dei dati e non specificata in anticipo;

- successivamente, utilizzando solo i valori estremi,  la scelta dei quali dipende anche dalle dimensioni del campione, si calcola un rapporto .

 

La scelta dei dati per calcolare il rapporto  dipende dal numero  di dati del campione:

 

- per campioni molto piccoli, fino a  = 7 dati,

 è

 

- per campioni intermedi da  = 8 e fino a  = 12 dati,

 è

 

- per campioni maggiori, da  = 13 e fino a  = 30 dati,

 è

 

I valori critici sono riportati nella tabella precedente.

 

ESEMPIO 2. (tratto dal testo  Statistical Manual citato). Da una distribuzione normale, sono stati estratti i sei valori seguenti

 

0,505

0,511

0,519

0,478

0,357

0,506

 

 

Dalla lettura dei dati risulta che valore 0,357 è nettamente minore degli altri.

Può essere considerato un outlier?


 

Risposta.  Da come è stata impostata la domanda si deduce che il test è bilaterale.

Dopo avere ordinato tutti i dati del campione in modo crescente

 

0,357

0,478

0,505

0,506

0,511

0,519

 

 

 poiché il valore sospettato è il minore di un gruppo con

 mediante

 

 si ottiene il rapporto  = 0,747.

Nella tabella dei valori critici, con  = 6  il valore per a = 0.01 (la probabilità minore riportata) è uguale a 0,740.

Di conseguenza, poiché il valore calcolato è maggiore, si rifiuta l’ipotesi H0 con probabilità P < 0.01.

 

B)   Il testo di James E. De Muth del 1999 Basic Statistics and Pharmaceutical Statistical Applications (edito da Marcel Dekker, Inc. New York, XXI + 596 p. a pag. 534-536) presenta anch’esso un test Q di Dixon, ma rifacendosi all’articolo di W. J. Dixon del 1953 Processing data for outliers (pubblicato su Biometrics Vol. 1, pp. 74 - 89) e nella versione di test unilaterale.

 

Il test

- verifica l’ipotesi nulla H0 che il dato sospettato appartenga alla stessa popolazione degli altri dati, contro l’ipotesi alternativa H1 che provenga da una popolazione differente,

- quando a priori è noto in quale coda della distribuzione si dovrà verificare l’esistenza dell’outlier,

-  disponendo di un campione piccolo (),

-  tratto da una popolazione distribuita in modo normale.

Come nella versione precedente, non si deve calcolare né la media  la deviazione standard  del campione. Quindi rispetto ad altri metodi, il Q di Dixon offriva un vantaggio pratico rilevante, quando tutti i calcoli dovevano essere svolti manualmente.

Nonostante questo non è possibile affermare che sia un test non-parametrico, in quanto ipotizza che i dati siano distribuiti in modo normale.

La procedura è identica a quella precedente, per quanto riguarda l’ordinamento dei dati.

La scelta dei dati per calcolare il rapporto  dipende

-  dal numero  di dati del campione

-  e dalla coda nella quale a priori si è ipotizzato che il valore più estremo sia un outlier.

Nella serie successive di formule, tra ogni coppia si sceglie la prima oppure la seconda formula, se nella serie dei valori ordinati in modo crescente l’outlier è il primo oppure l’ultimo dato:

 

- per campioni molto piccoli, da  = 3 e fino a  = 7 dati,

 si utilizza

        oppure       

 

- per campioni da  = 8 e fino a  = 10 dati,

 si utilizza

        oppure       

 

- per campioni da  = 11 e fino a  = 13 dati,

 si utilizza

        oppure       

 

- per campioni maggiori, da  = 14 e fino a  = 30 dati,

 si utilizza

        oppure       

 

I valori critici sono riportati nella tabella successiva

 

ESEMPIO 3   (MODIFICATO DA DE MUTH; STESSI DATI DI THE HUGE RULE E DEL TEST DI GRUBBS DELL’ESEMPIO 1). Considerando le seguenti 15 osservazioni

 

99,3

99,7

98,6

99,0

99,1

99,3

99,5

98,0

98,9

99,4

99,0

99,4

99,2

98,8

99,2

 

 il valore minore 98,0 può essere considerato un outlier?


 

Test Q di Dixon (1953) per gli outlier

 

Se è sospetto

 Primo

 

Valori critici

 

Se è sospetto

Ultimo

a = 0.05

a = 0.01

a = 0.005

3

0.941

0.988

0.994

3

4

0.765

0.889

0.926

4

5

0.642

0.780

0.821

5

6

0.560

0.698

0.740

6

7

0.507

0.637

0.680

7

8

0.554

0.683

0.725

8

9

0.512

0.635

0.677

9

10

0.477

0.597

0.639

10

11

0.576

0.679

0.713

11

12

0.546

0.642

0.675

12

13

0.521

0.615

0.649

13

14

0.546

0.641

0.674

14

15

0.525

0.616

0.647

15

16

0.507

0.595

0.624

16

17

0.490

0.577

0.605

17

18

0.475

0.561

0.589

18

19

0.462

0.547

0.575

19

20

0.450

0.535

0.562

20

21

0.440

0.524

0.551

21

22

0.430

0.514

0.541

22

23

0.421

0.505

0.532

23

24

0.413

0.497

0.524

24

25

0.406

0.489

0.516

25


Risposta. E’ un test unilaterale, con il quale si verifica

-  l’ipotesi nulla H0 che il dato minore appartenga alla stessa popolazione degli altri dati,

-  contro l’ipotesi alternativa H1 che esso provenga da una popolazione differente.

A questo scopo, si ordinano i valori del campione attribuendo i ranghi:

 

98,0

98,6

98,8

98,9

99,0

99,0

99,1

99,2

99,2

99,3

99,3

99,4

99,4

99,5

99,7

---

---

---

---

---

---

---

 

 

Poiché   = 15 e  l’eventuale outlier è il primo nella serie ordinata,

 si utilizza la formula

 Con i dati dell’esempio

 = 98,8         = 98,0         = 99,4

 si ottiene

 il risultato  = 0,57.

Poiché nella tabella del test Q di Dixon (1953) per gli outlier sono riportati

-  per  = 0.05 il valore critico  = 0.525

-  per  = 0.01 il valore critico  = 0.616

 si rifiuta l’ipotesi nulla con probabilità P > 0.05 di commettere un errore di Tipo I.

 

Dal confronto degli esempi 1 e 3 che sono stati applicati agli stessi dati, e dalle informazioni precedenti  a conclusione si può dedurre che:

- il test di Dixon è più semplice, mentre il test di Grubbs richiede più calcoli;

- ma il test di Grubbs è più potente;

- inoltre il test di Grubbs può essere ripetuto, per individuare più outlier negli stessi dati.

Entrambi i test richiedono che la distribuzione dei dati sia normale.

 

Verificato che il valore sospettato è statisticamente un outlier, per eliminare il dato dalle analisi successive il dubbio sulla correttezza del valore non può derivare solamente dalla semplice osservazione che esso è  nettamente minore o maggiore degli altri. Il dubbio deve essere giustificato esternamente all’analisi statistica, come possono essere la condizione particolare dell’esperimento con cui quel dato è stato ottenuto, un errore strumentale, una trascrizione sbagliata del risultato reale. Condizioni che eventualmente possono essere verificate a posteriori, dopo il suggerimento della probabile rarità del dato sospettato fornita dal test.

 

 

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007