trasformazionI dei dati;

test per normalita’ e PER OUTLIER

 

 

13.7.  METODI GRAFICI E ALTRI TEST (LILLIEFORS, D’AGOSTINO-PEARSON) PER NORMALITA’, SIMMETRIA E CURTOSI (CENNI DEI TEST DI GEARY E DI SHAPIRO-WILK)

 

Per analizzare la normalità di una distribuzione, oltre al test c2 i test proposti sono numerosi. Alcuni, ovviamente bilaterali, considerano gli effetti congiunti di asimmetria e curtosi; sono chiamati anche test omnibus (Omnibus test for departure from normality). Attualmente i più utilizzati sono:

-   il test di Lilliefors, derivato dal test di Kolmogorov-Smirnov chiamato anche distance test, essendo fondato sulla distanza massima tra la distribuzione cumulata osservata e quella cumulata attesa,

-   il test proposto da R. B. D’Agostino  e  E. S. Pearson.

 

Altri test, come già visto nel paragrafo precedente, possono prendere in considerazione solo la simmetria e la curtosi, permettendo anche l’ipotesi unilaterale. Tra questi test possono essere brevemente ricordati

-   il test di R. C. Geary (vedi gli articoli, entrambi del 1947 e sullo stesso volume, Frequency distribution of Öb1, pubblicato su Biometrika, Vol. 34, pp.: 68-97 e Testing for normality, su Biometrika, Vol. 34, pp.:209-242),

-   il test di S. S. Shapiro & M. B. Wilks (vedi del 1965 l’articolo An analysis of variance test for normality (complete sample), pubblicato su Biometrika, Vol. 52, pp.: 591-611 e del 1968 l’articolo Approximations for the null distribution of the W statistic, pubblicato su Technometrics, Vol. 10, pp.: 861-866).

 

Essi non utilizzano i momenti di 3° e 4° ordine, ma un indicatore (U per Geary e W per Shapiro & Wilk) fondato sul rapporto tra le due misure della variabilità. Per Geary

U = deviazione media / deviazione standard

 

 Cioè

 

 

Calcolato su una popolazione normale, U = 0,7979.

Per lo studio delle curtosi,

-  una curtosi positiva (curva platicurtica) produce valori bassi, inferiori  a 0,7979

-  una curtosi negativa (curva leptocurtica) produce valori alti, superiori a 0,7979.

Il confronto tra i valori di g2 e di U, ovviamente calcolati sugli stessi dati, dimostrano un buon accordo. Il valore U offre due vantaggi

-   è tabulato anche per campioni di piccole dimensioni,

-   è più facile e rapido da calcolare.

Come quello di Shapiro & Wilk è comunque un test poco diffuso e fondato su una base teorica meno solida.

 

L’esempio riportato nel paragrafo percedente ha dimostrato che

il test con il c2 ha poca potenza,

 per verificare la bontà dell’adattamento alla normale di una distribuzione osservata.

Questo problema è stato risolto con la richiesta di numero molto alto di osservazioni; ma nella ricerca ambientale e biologica, raramente si raccolgono alcune centinaia di dati.

Il test di Kolmogorov-Smirnov, che può essere applicato alla verifica della normalità per un campione, offre il vantaggio di poter essere utilizzato anche con pochi dati. Inoltre, quando la scala è una variabile continua, gli intervalli di classe possono essere molto piccoli e tra loro differenti: ne deriva un’analisi più sensibile, in particolare quando sono importanti le frequenze verso gli estremi.

 

Per analizzare la normalità di una distribuzione, con la diffusione dei computer in questi anni sono stati rilanciati i metodi grafici. Tra essi, è diffuso quello che

-   sull’asse delle ascisse riporta i valori della scala utilizzata,

-   sull’asse delle ordinate riporta le frequenza relative cumulate di ogni classe, espresse in percentuale.

 

Per illustrare questa metodologia, viene riproposta la distribuzione dell’altezza di 70 studenti universitari, misurata in pollici, tratta dal testo di Jerrold Zar del 1999 (Biostatistical Analysis, 4th ed. Prentice Hall, Upper Saddle River, New Jersey):


 

Altezza (X)

Freq. Oss.

% su totale

Cumulata (Y)

63

2

2,9

2,9

64

2

2,9

5,8

65

3

4,2

10,0

66

5

7,1

17,1

67

4

5,7

22,8

68

6

8,6

31,4

69

5

7,1

38,5

70

8

11,5

50,0

71

7

10,0

60,0

72

7

10,0

70,0

73

10

14,3

84,3

74

6

8,6

92,9

75

3

4,2

97,1

76

2

2,9

100,0

Totale

70

100,0

----



 

I valori della X sono distribuiti in modo approssimativamente normale, i punti della percentuale cumulata (Y) sono distribuiti in modo lineare, utilizzando carte specifiche come quella riportata. La pendenza della retta è inifluente, dipendendo solo dalla scala dalla scala delle ascisse.

 

Altri grafici sono più complessi da costruire manualmente perché richiedono il calcolo di Z per tutti i valori campionari di X; ma sono altrettanto semplici da ottenere con il computer.

Essi sull’asse delle ordinate riportano il valore di Z, entro un campo di variazione estremamente ampio, che contiene oltre il 99% dei dati. Nelle figure sottostanti, sono riportati schemi grafici in cui il valore di Z varia da –3,72 a +3,72; corrripondono alla percentuali che in ogni coda della distribuzione escludono una frequenza pari a 0.0001 (o 0.01%)

 

 

 

 


 

Quando la distribuzione è perfettamente normale (g1 e g2 uguali a 0), la cumulata delle frequenze ha una forma esattamente lineare (Fig. A).

I vari tipi di scostamento dalla normalità forniscono curve di forma differente e tipica. Di conseguenza, dalla forma della cumulata è possibile dedurre la probabile forma della distribuzione di frequenza sottostante. Questo metodo risulta più semplice dell’uso della normale, in quanto lo scostamento da una retta risulta visivamente più evidente di quella da una normale, soprattutto quando i dati sono pochi.

Nelle altre cinque figure del grafico precedente, sono rappresentate rispettivamente:

B) una distribuzione bimodale,

C) una distribuzione con asimmetria sinistra (g1 negativo),

D) una distribuzione con asimmetria destra (g1 positivo),

E) una distribuzione platicurtica (g2 positivo),

F) una distribuzione leptocurtica (g2 negativo).

 

Il test proposto da H. Lilliefors nel 1967 (vedi l’articolo On the Kolmogorov-Smirnov test for normality with mean and variance unknown, pubblicato su Journal of the American Statistical Association Vol. 62, pp.: 399-402) è particolarmente utile in campioni di dimensioni minime. I suoi valori critici (vedi tabella nella pagina successiva) iniziano da  = 4.

Come scrive Lilliefors, è una modificazione del test di Kolmogorov-Smirnov: ne segue la procedura, ma utilizza una tavola di valori critici differente. Come in tutti i test di normalità, l’ipotesi nulla è che la popolazione dalla quale è stato estratto il campione non sia troppo differente dalla famiglia di distribuzioni che seguono la legge di Gauss, quindi che sia N (m, s2) con m e s qualsiasi ma g1 = 0 e g2 = 0, contro l’ipotesi alternativa che sia diversa dalla normale a causa di asimmetria e/o curtosi

 

Dopo aver stimato la funzione di ripartizione della legge normale ridotta N (0, 1), si calcolano

-   la cumulata delle frequenze attese, nell’ipotesi che la distribuzione sia normale,

-   la cumulata delle frequenze osservate,

-   lo scarto massimo tra le due distribuzioni.

 

La distribuzione dei valori critici è differente da quella di Kolmogorov-Smirnov, poiché la distribuzione normale è calcolata a partire dalla media e dalla varianza campionarie. Oltre al numero di dati, uguale sia nella distribuzione osservata che in quella attesa, sono introdotti due vincoli ulteriori di similarità tra le due distribuzioni a confronto.


 

Quantili della statistica di Lilliefors

per verificare la normalità di una distribuzione campionaria

 

N

a

0.20

0.15

0.10

0.05

0.01

4

0,300

0,319

0,352

0,381

0,417

5

0,285

0,299

0,315

0,337

0,405

6

0,265

0,277

0,294

0,319

0,364

7

0,247

0,258

0,276

0,300

0,348

8

0,233

0,244

0,261

0,285

0,331

9

0,223

0,233

0,249

0,271

0,311

10

0,215

0,224

0,239

0,258

0,294

11

0,206

0,217

0,230

0,249

0,284

12

0,199

0,212

0,223

0,242

0,275

13

0,190

0,202

0,214

0,234

0,268

14

0,183

0,194

0,207

0,227

0,261

15

0,177

0,187

0,201

0,220

0,257

16

0,173

0,182

0,195

0,213

0,250

17

0,169

0,177

0,189

0,206

0,245

18

0,166

0,173

0,184

0,200

0,239

19

0,163

0,169

0,179

0,195

0,235

20

0,160

0,166

0,174

0,190

0,231

25

0,142

0,147

0,158

0,173

0,200

30

0,131

0,136

0,144

0,161

0,187

>30

0,736/Ön

0,768/Ön

0,805/Ön

0,886/Ön

1,031/Ön

 


 

Si ricorre quindi alla tavola dei quantili di Lilliefors.

Se lo scarto massimo calcolato è superiore a quello riportato nella tabella, si rifiuta l’ipotesi nulla: il campione non è stato estratto da una popolazione distribuita secondo la legge di Gauss, ma ha distrosioni dovure ad asimmetria e/o curtosi.

 

ESEMPIO.  Prima di applicare un test inferenziale sulla media delle seguenti 10 misure, si vuole verificare se esse siano state estratte da una popolazione distribuita in modo normale.

Per facilitare la procedura, fondata come il test di Kolmogorov-Smirnov (di cui rappresenta una evoluzione) sulla cumulata della distribuzione di frequenza, i valori sono già ordinati per rango

 

 

Individui

a

B

c

d

e

f

g

H

i

L

Dimensioni  Xi

10

11

12

12

13

15

15

16

17

19

 

 

Dopo aver calcolato la media () del campione e la deviazione standard (), ottenendo

-    = 14

-    = 2,87

 per ogni misura campionaria () si stimano

- i valori di Z corrispondenti (riportati nella seconda colonna della tabella successiva)

 

 

-  la ripartizione delle probabilità della normale ridotta corrispondente

 

Di

10

-1,39

0,083

0,000

0,083

11

-1,05

0,147

0,100

0,047

12, 12

-0,70

0,242

0,200

0,042

13

-0,35

0,363

0,400

-0,037

15, 15

0,35

0,637

0,500

0,137

16

0,70

0,758

0,700

0,058

17

1,05

0,853

0,800

0,053

19

1,74

0,959

0,900

0,059

---

---

---

1,000

---

 

 

(vedi: . riportati nella terza colonna, che rappresenta la cumulata delle frequenze in una distribuzione normale, procedendo dai valori bassi verso quelli alti)

 

Successivamente,  si calcolano

-   la cumulata delle probabilità per i valori osservati  (vedi  riportata nella 4 colonna: poiché i valori sono 10, ognuno di essi ha una probabilità pari a 1/10 = 0.1 e la loro cumulata è la somma delle frequenze fino a quel valore); nelle righe 3 e 5, nelle quali sono presenti due valori identici, la cumulata delle probabilità include un solo valore; se i dati per ogni classe fossero numerosi, si cumulerebbero le frequenze fino al valore medio della classe;

-  e differenze  (quinta colonna). 

 

Per esempio,

-  la prima D (0,083) è data da 0,083 - 0,000;

-  la quarta D  (-0,037) da 0,363 – 0,400 

La differenza massima tra le due distribuzioni è D = 0,137 (nella quinta riga).

 

Nella tabella dei valori critici di Lilliefors, per n = 10

-  alla probabilità a = 0.05 il valore riportato è 0,258

-  alla probabilità a = 0.20 è uguale a 0,215.

Il valore D calcolato è inferiore anche a questo ultimo. Non è possibile rifiutare l’ipotesi nulla. Inoltre, poiché la probabilità a è maggiore di 0.20, è possibile affermare che lo scostamento della distribuzione campionaria da quella normale; con stessa media e stessa varianza, è trascurabile.

 

Il test di Lilliefors utilizza la metodologia di Kolgorov-Smirnov. I vincoli, cioè i parametri stimati dal campione sulla base dei quali sono stati calcolati i valori attesi, sono tre

-  il numero totale di osservazioni,

-  la media,

-  la deviazione standard.

Non potendo ridurre i gdl come nel c2, si ricorre a valori critici differenti.

 

Per  = 10 (il caso dell’esempio), il semplice confronto tra le due serie di valori critici alle stesse probabilità a  mostra come il valore di Lilliefors sia minore di quello corrispondente di Kolmogorov-Smirnov.


 

Valori critici per

  = 10

a

0.20

0.15

0.10

0.05

0.01

Kolmogorov-Smirnov

0,322

0,342

0,368

0,410

0,490

Lilliefors

0,215

0,224

0,239

0,258

0,294

 

 

Il test proposto da Ralph D’Agostino nel 1971 (vedi articolo An omnibus test of normality for moderate and large size sample, pubblicato su Biometrika, vol. 58, pp.: 341-348), chiamato anche test di D’Agostino–Pearson, per l’articolo di Ralph D’Agostino e E. S. Pearson del 1973 (vedi Test for departure from normality. Empirical results for the distributions of b2 and Öb1, pubblicato su Biometrika, vol. 60, pp. 613-622), appare uno dei test più potenti. (E. S. Perason non deve essere confuso con il più famoso Karl Pearson, che pubblicò nei primi decenni del Novecento)

Per l’illustrazione di questo metodo, è stato seguito l’esempio riportato nel volume di Jarrold Zar del 1999 Biostatistical Analysis (4th ed. Prentice Hall, Upper Saddle River, Nee Jersey), uno dei testi classici più diffusi; ad esso si rimanda per approfondimenti.

L’ipotesi nulla bilaterale sulla normalità di un campione può essere verificata

mediante la statistica

 dove

-     e   sono ricavati rispettivamente dall’indice di simmetria g1 e di curtosi g2

(poiché possono essere sia positivi che negativi, permettono di sommare i diversi tipi di asimmetria e curtosi solo se elevati al quadrato).

-   K2 è un c2 con 2 gradi di libertà, ricordando la relazione

 

Il valore di K2 deve quindi essere confrontato con la tabella

 

.25

.10

.05

.025

.01

.005

2.773

4.605

5.991

7.378

9.210

10.597

 


 

 che riporta i valori critici del c2 per df = 2 nella coda destra della distribuzione (vedi cap. 3).

La procedura di D’Agostino, a partire da una distribuzione di dati, permette di

-  calcolare g1 e g2,

-  ricavare da essi Öb1 e b2

-  valutare la normalitàsia in complesso, sia indipendentemente gli indici di simmetria e curtosi.

 

Per illustrare la procedura proposta nel testo di Zar in tutti i suoi passaggi, è stata ripresa la distribuzione di frequenza già utilizzata per la rappresentazione grafica, nella quale non si evidenziava un particolare scostamento dalla normale.

 

Dai valori delle classi () e dalle loro frequenze osservate ()

 

 

Altezza

Freq. Oss.

63

2

126

7.938

500.094

31.505.922

64

2

128

8.192

524.288

33.554.432

65

3

195

12.675

823.875

53.551.875

66

5

330

21.780

1.437.480

94.873.680

67

4

268

17.956

1.203.052

80.604.484

68

6

408

27.744

1.886.592

128.288.256

69

5

345

23.805

1.642.545

113.335.605

70

8

560

39.200

2.744.000

192.080.000

71

7

497

35.287

2.505.377

177.881.767

72

7

504

36.288

2.612.736

188.116.992

73

10

730

53.290

3.890.170

283.982.410

74

6

444

32.856

2.431.344

179.919.456

75

3

225

16.875

1.265.625

94.921.875

76

2

152

11.552

877.952

66.724.352

 

Totale

 

70

 

4.912

 

345.438

 

24.345.130

 

1.719.341.106

 

 

-  si ricavano i totali di colonna

 

 = 70         = 4.912         = 345.438

 = 24.345.130        = 1.719.341.106

 

Da essi si ottengono:

-  la devianza (SQ) che con la formula abbreviata

 

 = 755,9429

 risulta uguale a 755,9429;

 

-  la varianza ()

 

 = 10,9557

 che risulta uguale a 10,9557;

 

-  il momento terzo intorno alla media (qui indicato con ,  utile per calcolare direttamente g1; è analogo a , che serve per ricavare direttamente Öb1); per una distribuzione campionaria

 è

 

 e con la formula abbreviata è calcolato con

 

 

 risultando con i dati dell’esempio

 

\

 

 

  = -12,519;


 

-   il momento quarto intorno alla media (indicato con , utile per calcolare direttamente g2; è analogo a  che serve per ricavare b2); per una distribuzione campionaria

 è

 

 e con la formula abbreviata diventa

 dove

 

 

 

 risultando con i dati dell’esempio

 

 

 

 

  = -86,221.


Infine si ricavano g1 e g2

 con

 e

 

 ottenendo  = -0,3452    e     = -0,7183.

 

Da queste stime si possono ricavare Öb1  e  b2, (che sarebbe stato possibile ricavare direttamente dai dati attraverso m3 e m4).

-  Da g1 mediante

  e con i dati dell’esempio

 

 

  si ottiene  Öb1 = - 0,3378.

-   Da g2 mediante

  e con i dati dell’esempio

 

 

 

 si ottiene b2 = 2,2475.


 

TAVOLA DEI VALORI CRITICI DI SIMMETRIA

APPROSSIMATI ALLA NORMALE PER IL TEST DI D’AGOSTINO

 

 

a bil.

0.20

0.10

0.05

0.02

0.01

0.005

0.002

a uni.

0.10

0.05

0.025

0.01

0.005

0.0025

0.001

9

 

0,907

1,176

1,416

1,705

1,909

2,103

2,351

10

0,866

1,125

1,359

1,643

1,846

2,041

2,290

11

0,830

1,081

1,309

1,587

1,787

1,981

2,230

12

0,799

1,042

1,264

1,536

1,733

1,924

2,171

13

0,771

1,007

1,223

1,490

1,682

1,871

2,115

14

0,747

0,976

1,186

1,447

1,636

1,820

2,061

15

0,724

0,948

1,153

1,407

1,592

1,773

2,010

16

0,704

0,922

1,122

1,370

1,551

1,729

1,961

17

0,685

0,898

1,093

1,336

1,513

1,687

1,915

18

0,668

0,875

1,066

1,304

1,477

1,648

1,871

19

0,652

0,855

1,041

1,274

1,444

1,611

1,829

20

0,638

0,836

1,018

1,246

1,412

1,576

1,790

21

0,624

0,818

0,997

1,220

1,383

1,543

1,753

22

0,611

0,801

0,976

1,195

1,355

1,512

1,717

23

0,599

0,786

0,957

1,171

1,328

1,482

1,684

24

0,588

0,771

0,939

1,149

1,303

1,454

1,652

25

0,577

0,757

0,922

1,128

1,279

1,427

1,621

26

0,567

0,744

0,906

1,108

1,256

1,401

1,592

27

0,558

0,731

0,891

1,089

1,235

1,377

1,564

28

0,549

0,719

0,876

1,071

1,214

1,354

1,538

29

0,540

0,708

0,862

1,054

1,194

1,332

1,512

30

0,532

0,697

0,849

1,037

1,175

1,311

1,488

40

0,467

0,611

0,742

0,905

1,024

1,140

1,290

50

0,422

0,550

0,668

0,813

0,917

1,019

1,151

60

0,387

0,505

0,612

0,743

0,837

0,929

1,047

70

0,361

0,469

0,568

0,688

0,775

0,858

0,965

80

0,339

0,440

0,532

0,644

0,724

0,801

0,899

90

0,320

0,416

0,502

0,607

0,681

0,753

0,845

100

0,305

0,396

0,477

0,576

0,646

0,713

0,799

120

0,279

0,362

0,436

0,525

0,588

0,649

0,725

140

0,259

0,336

0,404

0,486

0,544

0,599

0,668

160

0,243

0,315

0,378

0,454

0,508

0,558

0,622

180

0,230

0,297

0,357

0,428

0,478

0,525

0,585

200

0,218

0,282

0,339

0,406

0,453

0,497

0,553

300

0,179

0,231

0,277

0,331

0,368

0,404

0,448

400

0,156

0,200

0,240

0,286

0,318

0,348

0,386

500

0,139

0,180

0,215

0,256

0,284

0,311

0,344

600

0,127

0,164

0,196

0,233

0,259

0,283

0,313

700

0,118

0,152

0,181

0,216

0,240

0,262

0,289

800

0,110

0,142

0,170

0,202

0,224

0,245

0,270

900

0,104

0,134

0,160

0,190

0,211

0,231

0,255

1000

0,099

0,127

0,152

0,181

0,200

0,219

0,241

 


 

Il test per la simmetria (symmetry) è bilaterale con ipotesi

H0: g1 = 0        contro        H1: g1 ¹ 0

oppure l’equivalente

H0: Öb1 = 0        contro        H1: Öb1 ¹ 0

quando di vuole verificare se la distribuzione dei dati raccolti è simmetrica, almeno approssimativamente.

 

A questo scopo, è sufficiente il semplice confronto del g1 calcolato con i valori critici riportati nella tabella.

Con   n = 70   e    = -0,3452   il valore critico alla probabilità a = 0.20 per il test bilaterale è 0,723. La stima ottenuta dai dati in valore assoluto è minore; di conseguenza, si può affermare che la distribuzione è in sostanziale accordo con la normale, per quanto riguarda la simmetria

 

Ma per

-   dimensioni campionarie non riportate nella tabella (ma sempre per n ³ 9), sebbene sia possibile un calcolo rapido di interpolazione, e/o

-   per una stima precisa della probabilità a di ottenere casualmente H0, cioè per non limitarsi a verificare se è maggiore o minore di una probabilità a prefissata,

 si deve ricavare Zg1, cioè il valore della normale standizzata Z per il valore di g1 calcolato.

 

A questo scopo, dopo aver ripreso il valore di Öb1 = - 0,337758 già stimato, poiché le formule proposte sono state impostate su di esso, si deve ricorrere a vari passaggi (nei quali è importante avere valori molto precisi, almeno 6 cifre dopo la virgola):

-  da Öb1  e  n si stima A

 

 

 ottenendo A = 1,203833;

-   da n si calcola B

 

 

 ottenendo B = 3,368090;

-   da B si ricava C

 

 

 ottenendo C = 1,176277;

-   da C si ricava D

 

 

 ottenendo D = 3,509806;

-   da A e C si ricava E

 

 

 ottenendo E = -0,357497.

Infine da D e E si ottiene Zg1 con

 

 

 

 ottenendo Zg1 = -1,2294.

Approssimato a Z = -1,23 in una distribuzione normale bilaterale corrisponde ad una probabilità a = 0,219 o 21,9%. E’ una probabilità alta: non solo non permette di rifiutare l’ipotesi nulla, ma autorizza a sostenere ragionevolmente che lo scostamento dalla normale è molto ridotto.


 

 

Il test per la simmetria (symmetry) è unilaterale con ipotesi

H0: g1 ³ 0        contro        H1: g1 < 0

oppure l’equivalente

H0: Öb1 ³ 0        contro        H1: Öb1 < 0

quando si vuole verificare

-   se la distribuzione dei dati raccolti ha una asimmetria sinistra o negativa.

Il calcolo ha una procedura identica a quella prima illustrata; ma per rifiutare l’ipotesi nulla il valore di g1 deve essere negativo e, in valore assoluto, essere superiore a quello critico.

 

Si ricorre a un test unilaterale con ipotesi

H0: g1 £ 0        contro        H1: g1 > 0

oppure l’equivalente

H0: Öb1 £ 0        contro        H1: Öb1 > 0

quando si vuole verificare

-   se la distribuzione dei dati raccolti ha una asimmetria destra o positiva.

Per rifiutare l’ipotesi nulla, il valore di g1 deve essere positivo e, in valore assoluto, essere superiore a quello critico. Se si ricorre al calcolo di Zg1, per rifiutare l’ipotesi nulla la probabilità a stimata in una distribuzione normale unilaterale deve essere minore di quella prefissata.

 

 

Il test per la curtosi (kurtosis) è bilaterale con ipotesi

H0: g2 = 0        contro        H1: g2 ¹ 0

 oppure l’equivalente

H0: b2 = 3        contro        H1: b2 ¹ 3

 quando si vuole verificare

 se il campione è stato estratto da una popolazione mesocurtica (normale).

 

Il metodo più semplice è il confronto con la tabella dei valori critici (pagina successiva). Ad esempio,

 con   n = 70   e      = -0,7183 come stimato in precedenza, non è possibile rifiutare l’ipotesi nulla, poiché il valore è minore di quello critico corrispondente alla probabilità a = 0.05.


 

TAVOLA DEI VALORI CRITICI DI CURTOSI

APPROSSIMATI ALLA NORMALE PER IL TEST DI D’AGOSTINO

 

 

a bil.

0.20

0.10

0.05

0.02

0.01

0.005

0.002

a uni.

0.10

0.05

0.025

0.01

0.005

0.0025

0.001

20

 

1,241

1,850

2,486

3,385

4,121

4,914

6,063

21

1,215

1,812

2,436

3,318

4,040

4,818

5,967

22

1,191

1,776

2,388

3,254

3,963

4,727

5,835

23

1,168

1,743

2,343

3,193

3,889

4,639

5,728

24

1,147

1,711

2,300

3,135

3,818

4,555

5,624

25

1,127

1,681

2,260

3,080

3,751

4,474

5,524

26

1,108

1,653

2,222

3,027

3,686

4,397

5,427

27

1,090

1,626

2,185

2,976

3,624

4,322

5,335

28

1,074

1,601

2,150

2,928

3,565

4,251

5,245

29

1,057

1,576

2,117

2,882

3,508

4,182

5,159

30

1,042

1,553

2,085

2,838

3,453

4,116

5,075

32

1,014

1,509

2,025

2,574

3,350

3,990

4,917

34

0,988

1,469

1,971

2,677

3,254

3,874

4,769

36

0,964

1,432

1,919

2,606

3,165

3,765

4,631

38

0,942

1,398

1,872

2,539

3,081

3,663

4,502

40

0,921

1,366

1,828

2,476

3,003

3,568

4,380

42

0,902

1,337

1,787

2,418

2,930

3,478

4,266

44

0,884

1,309

1,748

2,363

2,861

3,394

4,158

46

0,868

1,282

1,711

2,311

2,796

3,314

4,057

48

0,852

1,258

1,677

2,262

2,735

3,239

3,961

50

0,837

1,234

1,644

2,216

2,677

3,168

3,870

60

0,773

1,135

1,504

2,017

2,428

2,862

3,480

70

0,723

1,055

1,394

1,859

2,230

2,620

3,171

80

0,681

0,990

1,303

1,730

2,069

2,423

2,921

90

0,646

0,935

1,227

1,622

1,934

2,259

2,714

100

0,617

0,889

1,162

1,531

1,820

2,121

2,538

110

0,590

0,848

1,105

1,452

1,722

2,002

2,389

120

0,567

0,813

1,056

1,383

1,637

1,898

2,259

140

0,529

0,753

0,974

1,268

1,494

1,727

2,045

160

0,497

0,704

0,907

1,175

1,380

1,590

1,875

180

0,470

0,663

0,851

1,098

1,287

1,478

1,737

200

0,447

0,628

0,804

1,034

1,208

1,384

1,621

220

0,428

0,599

0,764

0,979

1,141

1,305

1,524

240

0,410

0,572

0,729

0,931

1,083

1,236

1,440

300

0,368

0,510

0,645

0,819

0,948

1,077

1,247

400

0,320

0,439

0,551

0,694

0,798

0,902

1,038

500

0,287

0,391

0,488

0,610

0,700

0,787

0,902

600

0,262

0,355

0,442

0,550

0,629

0,706

0,805

700

0,243

0,328

0,406

0,504

0,575

0,643

0,732

800

0,227

0,305

0,378

0,468

0,532

0,594

0,675

900

0,214

0,287

0,355

0,438

0,497

0,555

0,628

1000

0,203

0,272

0,335

0,412

0,486

0,521

0,590


 

Anzi, poiché il g2 calcolato è minore, in valore assoluto, di quello riportato nella tabella per la probabilità bilaterale  a = 0.20, per quanto rigurda la curtosi si può sostenere che lo scostamento da una perfetta normalità è minimo: la distribuzione è in buon accordo con la normale.

 

Anche in questo caso, per

-  dimensioni campionarie non riportate nella tabella (ma sempre per n ³ 20), sebbene sia possibile un calcolo rapido di interpolazione, e/o

-  per una stima precisa della probabilità a di ottenere casualmente H0, cioè per non limitarsi a verificare se è maggiore o minore di una probabilità prefissata,

 si deve ricavare Zg2, cioè il valore della normale standizzata Z per il valore di g2 calcolato.

A questo scopo, utilizzando n = 70   e      = -0,7183 si deve ricorrere a vari passaggi (nei quali è ancora importante avere valori molto precisi, almeno 6 cifre dopo la virgola):

-   utilizzando n si calcola A

 

 

 ottenendo A = 0,277327;

-   da A e g2 si ricava B

 

 

 ottenendo B = 1,268487;

-   utilizzando n si ricava C

 

 

 

 ottenendo C = 1,440994;


-   da C si ricava D

 

 

 ottenendo D = 23,202508;

-  da B e da D si ricava E

 

 

 

 ottenendo E = 0,648368.

Infine da D e da E si ricava Zg2

 

 

 

 ottenendo Zg2 = 1,2763.

Approssimato a Z = 1,27 in una distribuzione normale bilaterale corrisponde ad una probabilità a = 0,204 o 20,4%. E’ una probabilità alta: non solo non permette di rifiutare l’ipotesi nulla, ma autorizza a sostenere ragionevolmente che lo scostamento dalla normale è molto ridotto.

E’ sempre opportuno che l’arrotondamento del valore di Z a due cifre dopo la virgola, come richiesto dalla tabella dei valori critici, avvenga per difetto. Il valore di a è maggiore e il test risulta più cautelativo.

 

Anche il test per la curtosi può essere unilaterale con ipotesi

H0: g2 £ 0        contro        H1: g2 > 0

oppure l’equivalente

H0: b2 £ 3        contro        H1: b2 > 3

quando si vuole verificare  specificatamente se la distribuzione dei dati raccolti è platicurtica.

Per rifiutare l’ipotesi nulla, il valore di g2 deve essere positivo e, in valore assoluto, essere superiore a quello critico. Con il calcolo di Zg1, per rifiutare l’ipotesi nulla la probabilità a, stimata in una distribuzione normale unilaterale, deve essere minore di quella prefissata.

 

Per verificare l’ipotesi che la curva sia leptocurtica, cioè con ipotesi unilaterale

H0: g2 ³ 0        contro        H1: g2 < 0

oppure l’equivalente

H0: b2 ³ 3        contro        H1: b2 < 3

 il valore di g2 deve essere negativo e, in valore assoluto, essere superiore a quello critico. Se si ricorre al calcolo di Zg1 per rifiutare l’ipotesi nulla, la probabilità a calcolata deve essere minore di quella prefissata.

 

Il test per la normalità, come già presentato all’inizio di questo paragrafo, permette di verificare solo l’ipotesi nulla bilaterale: se il campione è in accordo con la corrispondente distribuzione normale, costruita con stessa media e varianza uguale.

Tale test è fondato sulla statistica

e il valore di K2 calcolato deve essere confrontato con la tabella del tabella c2 con df = 2, qui riportata solo nella coda destra della distribuzione:

 

.25

.10

.05

.025

.01

.005

2.773

4.605

5.991

7.378

9.210

10.597

 

 

Con i dati dell’esempio, in cui

Zg1 = 1,2294     e     Zg2 = 1,2763

 mediante

si ottiene K2 = 3,133.

Il valore calcolato è nettamente inferiore a quello critico per a = 0.10 (uguale a 4,605). Di conseguenza, la probabilità che l’ipotesi nulla sia vera è alta: c’è sostanziale accordo tra la distribuzione osservata e quella normale corrispondente.

 

 

 

 

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007