Services and Training for Six Sigma, Design of Experiments and Industrial Statistics

trasformazionI dei dati;

test per normalita’ e PER OUTLIER

13.7. METODI GRAFICI E ALTRI TEST (LILLIEFORS, D’AGOSTINO-PEARSON) PER NORMALITA’, SIMMETRIA E CURTOSI (CENNI DEI TEST DI GEARY E DI SHAPIRO-WILK)

Per analizzare la normalità di una distribuzione, oltre al test c² i test proposti sono numerosi. Alcuni, ovviamente bilaterali, considerano gli effetti congiunti di asimmetria e curtosi; sono chiamati anche test omnibus (Omnibus test for departure from normality). Attualmente i più utilizzati sono:

- il test di Lilliefors, derivato dal test di Kolmogorov-Smirnov chiamato anche distance test, essendo fondato sulla distanza massima tra la distribuzione cumulata osservata e quella cumulata attesa,

- il test proposto da R. B. D’Agostino e E. S. Pearson.

Altri test, come già visto nel paragrafo precedente, possono prendere in considerazione solo la simmetria e la curtosi, permettendo anche l’ipotesi unilaterale. Tra questi test possono essere brevemente ricordati

- il test di R. C. Geary (vedi gli articoli, entrambi del 1947 e sullo stesso volume, Frequency distribution of Öb₁, pubblicato su Biometrika, Vol. 34, pp.: 68-97 e Testing for normality, su Biometrika, Vol. 34, pp.:209-242),

- il test di S. S. Shapiro & M. B. Wilks (vedi del 1965 l’articolo An analysis of variance test for normality (complete sample), pubblicato su Biometrika, Vol. 52, pp.: 591-611 e del 1968 l’articolo Approximations for the null distribution of the W statistic, pubblicato su Technometrics, Vol. 10, pp.: 861-866).

Essi non utilizzano i momenti di 3° e 4° ordine, ma un indicatore (U per Geary e W per Shapiro & Wilk) fondato sul rapporto tra le due misure della variabilità. Per Geary

U = deviazione media / deviazione standard

Cioè

Calcolato su una popolazione normale, U = 0,7979.

Per lo studio delle curtosi,

- una curtosi positiva (curva platicurtica) produce valori bassi, inferiori a 0,7979

- una curtosi negativa (curva leptocurtica) produce valori alti, superiori a 0,7979.

Il confronto tra i valori di g₂ e di U, ovviamente calcolati sugli stessi dati, dimostrano un buon accordo. Il valore U offre due vantaggi

- è tabulato anche per campioni di piccole dimensioni,

- è più facile e rapido da calcolare.

Come quello di Shapiro & Wilk è comunque un test poco diffuso e fondato su una base teorica meno solida.

L’esempio riportato nel paragrafo percedente ha dimostrato che

- il test con il c² ha poca potenza,

per verificare la bontà dell’adattamento alla normale di una distribuzione osservata.

Questo problema è stato risolto con la richiesta di numero molto alto di osservazioni; ma nella ricerca ambientale e biologica, raramente si raccolgono alcune centinaia di dati.

Il test di Kolmogorov-Smirnov, che può essere applicato alla verifica della normalità per un campione, offre il vantaggio di poter essere utilizzato anche con pochi dati. Inoltre, quando la scala è una variabile continua, gli intervalli di classe possono essere molto piccoli e tra loro differenti: ne deriva un’analisi più sensibile, in particolare quando sono importanti le frequenze verso gli estremi.

Per analizzare la normalità di una distribuzione, con la diffusione dei computer in questi anni sono stati rilanciati i metodi grafici. Tra essi, è diffuso quello che

- sull’asse delle ascisse riporta i valori della scala utilizzata,

- sull’asse delle ordinate riporta le frequenza relative cumulate di ogni classe, espresse in percentuale.

Per illustrare questa metodologia, viene riproposta la distribuzione dell’altezza di 70 studenti universitari, misurata in pollici, tratta dal testo di Jerrold Zar del 1999 (Biostatistical Analysis, 4^th ed. Prentice Hall, Upper Saddle River, New Jersey):

Altezza (X)	Freq. Oss.	% su totale	Cumulata (Y)
63	2	2,9	2,9
64	2	2,9	5,8
65	3	4,2	10,0
66	5	7,1	17,1
67	4	5,7	22,8
68	6	8,6	31,4
69	5	7,1	38,5
70	8	11,5	50,0
71	7	10,0	60,0
72	7	10,0	70,0
73	10	14,3	84,3
74	6	8,6	92,9
75	3	4,2	97,1
76	2	2,9	100,0
Totale	70	100,0	----

I valori della X sono distribuiti in modo approssimativamente normale, i punti della percentuale cumulata (Y) sono distribuiti in modo lineare, utilizzando carte specifiche come quella riportata. La pendenza della retta è inifluente, dipendendo solo dalla scala dalla scala delle ascisse.

Altri grafici sono più complessi da costruire manualmente perché richiedono il calcolo di Z per tutti i valori campionari di X; ma sono altrettanto semplici da ottenere con il computer.

Essi sull’asse delle ordinate riportano il valore di Z, entro un campo di variazione estremamente ampio, che contiene oltre il 99% dei dati. Nelle figure sottostanti, sono riportati schemi grafici in cui il valore di Z varia da –3,72 a +3,72; corrripondono alla percentuali che in ogni coda della distribuzione escludono una frequenza pari a 0.0001 (o 0.01%)

Quando la distribuzione è perfettamente normale (g₁ e g₂ uguali a 0), la cumulata delle frequenze ha una forma esattamente lineare (Fig. A).

I vari tipi di scostamento dalla normalità forniscono curve di forma differente e tipica. Di conseguenza, dalla forma della cumulata è possibile dedurre la probabile forma della distribuzione di frequenza sottostante. Questo metodo risulta più semplice dell’uso della normale, in quanto lo scostamento da una retta risulta visivamente più evidente di quella da una normale, soprattutto quando i dati sono pochi.

Nelle altre cinque figure del grafico precedente, sono rappresentate rispettivamente:

B) una distribuzione bimodale,

C) una distribuzione con asimmetria sinistra (g₁ negativo),

D) una distribuzione con asimmetria destra (g₁ positivo),

E) una distribuzione platicurtica (g₂ positivo),

F) una distribuzione leptocurtica (g₂ negativo).

Il test proposto da H. Lilliefors nel 1967 (vedi l’articolo On the Kolmogorov-Smirnov test for normality with mean and variance unknown, pubblicato su Journal of the American Statistical Association Vol. 62, pp.: 399-402) è particolarmente utile in campioni di dimensioni minime. I suoi valori critici (vedi tabella nella pagina successiva) iniziano da = 4.

Come scrive Lilliefors, è una modificazione del test di Kolmogorov-Smirnov: ne segue la procedura, ma utilizza una tavola di valori critici differente. Come in tutti i test di normalità, l’ipotesi nulla è che la popolazione dalla quale è stato estratto il campione non sia troppo differente dalla famiglia di distribuzioni che seguono la legge di Gauss, quindi che sia N (m, s²) con m e s qualsiasi ma g₁ = 0 e g₂ = 0, contro l’ipotesi alternativa che sia diversa dalla normale a causa di asimmetria e/o curtosi

Dopo aver stimato la funzione di ripartizione della legge normale ridotta N (0, 1), si calcolano

- la cumulata delle frequenze attese, nell’ipotesi che la distribuzione sia normale,

- la cumulata delle frequenze osservate,

- lo scarto massimo tra le due distribuzioni.

La distribuzione dei valori critici è differente da quella di Kolmogorov-Smirnov, poiché la distribuzione normale è calcolata a partire dalla media e dalla varianza campionarie. Oltre al numero di dati, uguale sia nella distribuzione osservata che in quella attesa, sono introdotti due vincoli ulteriori di similarità tra le due distribuzioni a confronto.

Quantili della statistica di Lilliefors

per verificare la normalità di una distribuzione campionaria

N	a
N	0.20	0.15	0.10	0.05	0.01
4	0,300	0,319	0,352	0,381	0,417
5	0,285	0,299	0,315	0,337	0,405
6	0,265	0,277	0,294	0,319	0,364
7	0,247	0,258	0,276	0,300	0,348
8	0,233	0,244	0,261	0,285	0,331
9	0,223	0,233	0,249	0,271	0,311
10	0,215	0,224	0,239	0,258	0,294
11	0,206	0,217	0,230	0,249	0,284
12	0,199	0,212	0,223	0,242	0,275
13	0,190	0,202	0,214	0,234	0,268
14	0,183	0,194	0,207	0,227	0,261
15	0,177	0,187	0,201	0,220	0,257
16	0,173	0,182	0,195	0,213	0,250
17	0,169	0,177	0,189	0,206	0,245
18	0,166	0,173	0,184	0,200	0,239
19	0,163	0,169	0,179	0,195	0,235
20	0,160	0,166	0,174	0,190	0,231
25	0,142	0,147	0,158	0,173	0,200
30	0,131	0,136	0,144	0,161	0,187
>30	0,736/Ön	0,768/Ön	0,805/Ön	0,886/Ön	1,031/Ön

Si ricorre quindi alla tavola dei quantili di Lilliefors.

Se lo scarto massimo calcolato è superiore a quello riportato nella tabella, si rifiuta l’ipotesi nulla: il campione non è stato estratto da una popolazione distribuita secondo la legge di Gauss, ma ha distrosioni dovure ad asimmetria e/o curtosi.

ESEMPIO. Prima di applicare un test inferenziale sulla media delle seguenti 10 misure, si vuole verificare se esse siano state estratte da una popolazione distribuita in modo normale.

Per facilitare la procedura, fondata come il test di Kolmogorov-Smirnov (di cui rappresenta una evoluzione) sulla cumulata della distribuzione di frequenza, i valori sono già ordinati per rango

Individui	a	B	c	d	e	f	g	H	i	L
Dimensioni X_i	10	11	12	12	13	15	15	16	17	19

Dopo aver calcolato la media () del campione e la deviazione standard (), ottenendo

- = 14

- = 2,87

per ogni misura campionaria () si stimano

- i valori di Z corrispondenti (riportati nella seconda colonna della tabella successiva)

- la ripartizione delle probabilità della normale ridotta corrispondente

				Di
10	-1,39	0,083	0,000	0,083
11	-1,05	0,147	0,100	0,047
12, 12	-0,70	0,242	0,200	0,042
13	-0,35	0,363	0,400	-0,037
15, 15	0,35	0,637	0,500	0,137
16	0,70	0,758	0,700	0,058
17	1,05	0,853	0,800	0,053
19	1,74	0,959	0,900	0,059
---	---	---	1,000	---

(vedi: . riportati nella terza colonna, che rappresenta la cumulata delle frequenze in una distribuzione normale, procedendo dai valori bassi verso quelli alti)

Successivamente, si calcolano

- la cumulata delle probabilità per i valori osservati (vedi riportata nella 4 colonna: poiché i valori sono 10, ognuno di essi ha una probabilità pari a 1/10 = 0.1 e la loro cumulata è la somma delle frequenze fino a quel valore); nelle righe 3 e 5, nelle quali sono presenti due valori identici, la cumulata delle probabilità include un solo valore; se i dati per ogni classe fossero numerosi, si cumulerebbero le frequenze fino al valore medio della classe;

- e differenze (quinta colonna).

Per esempio,

- la prima D (0,083) è data da 0,083 - 0,000;

- la quarta D (-0,037) da 0,363 – 0,400

La differenza massima tra le due distribuzioni è D = 0,137 (nella quinta riga).

Nella tabella dei valori critici di Lilliefors, per n = 10

- alla probabilità a = 0.05 il valore riportato è 0,258

- alla probabilità a = 0.20 è uguale a 0,215.

Il valore D calcolato è inferiore anche a questo ultimo. Non è possibile rifiutare l’ipotesi nulla. Inoltre, poiché la probabilità a è maggiore di 0.20, è possibile affermare che lo scostamento della distribuzione campionaria da quella normale; con stessa media e stessa varianza, è trascurabile.

Il test di Lilliefors utilizza la metodologia di Kolgorov-Smirnov. I vincoli, cioè i parametri stimati dal campione sulla base dei quali sono stati calcolati i valori attesi, sono tre

- il numero totale di osservazioni,

- la media,

- la deviazione standard.

Non potendo ridurre i gdl come nel c², si ricorre a valori critici differenti.

Per = 10 (il caso dell’esempio), il semplice confronto tra le due serie di valori critici alle stesse probabilità a mostra come il valore di Lilliefors sia minore di quello corrispondente di Kolmogorov-Smirnov.

Valori critici per = 10	a
Valori critici per = 10	0.20	0.15	0.10	0.05	0.01
Kolmogorov-Smirnov	0,322	0,342	0,368	0,410	0,490
Lilliefors	0,215	0,224	0,239	0,258	0,294

Il test proposto da Ralph D’Agostino nel 1971 (vedi articolo An omnibus test of normality for moderate and large size sample, pubblicato su Biometrika, vol. 58, pp.: 341-348), chiamato anche test di D’Agostino–Pearson, per l’articolo di Ralph D’Agostino e E. S. Pearson del 1973 (vedi Test for departure from normality. Empirical results for the distributions of b₂ and Öb₁, pubblicato su Biometrika, vol. 60, pp. 613-622), appare uno dei test più potenti. (E. S. Perason non deve essere confuso con il più famoso Karl Pearson, che pubblicò nei primi decenni del Novecento)

Per l’illustrazione di questo metodo, è stato seguito l’esempio riportato nel volume di Jarrold Zar del 1999 Biostatistical Analysis (4^th ed. Prentice Hall, Upper Saddle River, Nee Jersey), uno dei testi classici più diffusi; ad esso si rimanda per approfondimenti.

L’ipotesi nulla bilaterale sulla normalità di un campione può essere verificata

mediante la statistica

dove

- e sono ricavati rispettivamente dall’indice di simmetria g₁ e di curtosi g₂

(poiché possono essere sia positivi che negativi, permettono di sommare i diversi tipi di asimmetria e curtosi solo se elevati al quadrato).

- K² è un c² con 2 gradi di libertà, ricordando la relazione

Il valore di K² deve quindi essere confrontato con la tabella


.25	.10	.05	.025	.01	.005
2.773	4.605	5.991	7.378	9.210	10.597

che riporta i valori critici del c₂ per df = 2 nella coda destra della distribuzione (vedi cap. 3).

La procedura di D’Agostino, a partire da una distribuzione di dati, permette di

- calcolare g₁ e g₂,

- ricavare da essi Öb₁ e b₂

- valutare la normalitàsia in complesso, sia indipendentemente gli indici di simmetria e curtosi.

Per illustrare la procedura proposta nel testo di Zar in tutti i suoi passaggi, è stata ripresa la distribuzione di frequenza già utilizzata per la rappresentazione grafica, nella quale non si evidenziava un particolare scostamento dalla normale.

Dai valori delle classi () e dalle loro frequenze osservate ()

Altezza	Freq. Oss.
63	2	126	7.938	500.094	31.505.922
64	2	128	8.192	524.288	33.554.432
65	3	195	12.675	823.875	53.551.875
66	5	330	21.780	1.437.480	94.873.680
67	4	268	17.956	1.203.052	80.604.484
68	6	408	27.744	1.886.592	128.288.256
69	5	345	23.805	1.642.545	113.335.605
70	8	560	39.200	2.744.000	192.080.000
71	7	497	35.287	2.505.377	177.881.767
72	7	504	36.288	2.612.736	188.116.992
73	10	730	53.290	3.890.170	283.982.410
74	6	444	32.856	2.431.344	179.919.456
75	3	225	16.875	1.265.625	94.921.875
76	2	152	11.552	877.952	66.724.352
Totale	70	4.912	345.438	24.345.130	1.719.341.106

- si ricavano i totali di colonna

= 70 = 4.912 = 345.438

= 24.345.130 = 1.719.341.106

Da essi si ottengono:

- la devianza (SQ) che con la formula abbreviata

= 755,9429

risulta uguale a 755,9429;

- la varianza ()

= 10,9557

che risulta uguale a 10,9557;

- il momento terzo intorno alla media (qui indicato con , utile per calcolare direttamente g₁; è analogo a , che serve per ricavare direttamente Öb₁); per una distribuzione campionaria

e con la formula abbreviata è calcolato con

risultando con i dati dell’esempio

= -12,519;

- il momento quarto intorno alla media (indicato con , utile per calcolare direttamente g₂; è analogo a che serve per ricavare b₂); per una distribuzione campionaria

e con la formula abbreviata diventa

dove

risultando con i dati dell’esempio

= -86,221.

Infine si ricavano g₁ e g₂

con

ottenendo = -0,3452 e = -0,7183.

Da queste stime si possono ricavare Öb₁ e b₂, (che sarebbe stato possibile ricavare direttamente dai dati attraverso m₃ e m₄).

- Da g₁ mediante

e con i dati dell’esempio

si ottiene Öb₁ = - 0,3378.

- Da g₂ mediante

e con i dati dell’esempio

si ottiene b₂ = 2,2475.

TAVOLA DEI VALORI CRITICI DI SIMMETRIA

APPROSSIMATI ALLA NORMALE PER IL TEST DI D’AGOSTINO

	a bil.	0.20	0.10	0.05	0.02	0.01	0.005	0.002
	a uni.	0.10	0.05	0.025	0.01	0.005	0.0025	0.001
9		0,907	1,176	1,416	1,705	1,909	2,103	2,351
10		0,866	1,125	1,359	1,643	1,846	2,041	2,290
11		0,830	1,081	1,309	1,587	1,787	1,981	2,230
12		0,799	1,042	1,264	1,536	1,733	1,924	2,171
13		0,771	1,007	1,223	1,490	1,682	1,871	2,115
14		0,747	0,976	1,186	1,447	1,636	1,820	2,061
15		0,724	0,948	1,153	1,407	1,592	1,773	2,010
16		0,704	0,922	1,122	1,370	1,551	1,729	1,961
17		0,685	0,898	1,093	1,336	1,513	1,687	1,915
18		0,668	0,875	1,066	1,304	1,477	1,648	1,871
19		0,652	0,855	1,041	1,274	1,444	1,611	1,829
20		0,638	0,836	1,018	1,246	1,412	1,576	1,790
21		0,624	0,818	0,997	1,220	1,383	1,543	1,753
22		0,611	0,801	0,976	1,195	1,355	1,512	1,717
23		0,599	0,786	0,957	1,171	1,328	1,482	1,684
24		0,588	0,771	0,939	1,149	1,303	1,454	1,652
25		0,577	0,757	0,922	1,128	1,279	1,427	1,621
26		0,567	0,744	0,906	1,108	1,256	1,401	1,592
27		0,558	0,731	0,891	1,089	1,235	1,377	1,564
28		0,549	0,719	0,876	1,071	1,214	1,354	1,538
29		0,540	0,708	0,862	1,054	1,194	1,332	1,512
30		0,532	0,697	0,849	1,037	1,175	1,311	1,488
40		0,467	0,611	0,742	0,905	1,024	1,140	1,290
50		0,422	0,550	0,668	0,813	0,917	1,019	1,151
60		0,387	0,505	0,612	0,743	0,837	0,929	1,047
70		0,361	0,469	0,568	0,688	0,775	0,858	0,965
80		0,339	0,440	0,532	0,644	0,724	0,801	0,899
90		0,320	0,416	0,502	0,607	0,681	0,753	0,845
100		0,305	0,396	0,477	0,576	0,646	0,713	0,799
120		0,279	0,362	0,436	0,525	0,588	0,649	0,725
140		0,259	0,336	0,404	0,486	0,544	0,599	0,668
160		0,243	0,315	0,378	0,454	0,508	0,558	0,622
180		0,230	0,297	0,357	0,428	0,478	0,525	0,585
200		0,218	0,282	0,339	0,406	0,453	0,497	0,553
300		0,179	0,231	0,277	0,331	0,368	0,404	0,448
400		0,156	0,200	0,240	0,286	0,318	0,348	0,386
500		0,139	0,180	0,215	0,256	0,284	0,311	0,344
600		0,127	0,164	0,196	0,233	0,259	0,283	0,313
700		0,118	0,152	0,181	0,216	0,240	0,262	0,289
800		0,110	0,142	0,170	0,202	0,224	0,245	0,270
900		0,104	0,134	0,160	0,190	0,211	0,231	0,255
1000		0,099	0,127	0,152	0,181	0,200	0,219	0,241

Il test per la simmetria (symmetry) è bilaterale con ipotesi

H₀: g₁ = 0 contro H₁: g₁ ¹ 0

oppure l’equivalente

H₀: Öb₁ = 0 contro H₁: Öb₁ ¹ 0

quando di vuole verificare se la distribuzione dei dati raccolti è simmetrica, almeno approssimativamente.

A questo scopo, è sufficiente il semplice confronto del g₁ calcolato con i valori critici riportati nella tabella.

Con n = 70 e = -0,3452 il valore critico alla probabilità a = 0.20 per il test bilaterale è 0,723. La stima ottenuta dai dati in valore assoluto è minore; di conseguenza, si può affermare che la distribuzione è in sostanziale accordo con la normale, per quanto riguarda la simmetria

Ma per

- dimensioni campionarie non riportate nella tabella (ma sempre per n ³ 9), sebbene sia possibile un calcolo rapido di interpolazione, e/o

- per una stima precisa della probabilità a di ottenere casualmente H₀, cioè per non limitarsi a verificare se è maggiore o minore di una probabilità a prefissata,

si deve ricavare Zg₁, cioè il valore della normale standizzata Z per il valore di g₁ calcolato.

A questo scopo, dopo aver ripreso il valore di Öb₁ = - 0,337758 già stimato, poiché le formule proposte sono state impostate su di esso, si deve ricorrere a vari passaggi (nei quali è importante avere valori molto precisi, almeno 6 cifre dopo la virgola):

- da Öb₁ e n si stima A

ottenendo A = 1,203833;

- da n si calcola B

ottenendo B = 3,368090;

- da B si ricava C

ottenendo C = 1,176277;

- da C si ricava D

ottenendo D = 3,509806;

- da A e C si ricava E

ottenendo E = -0,357497.

Infine da D e E si ottiene Z_g1 con

ottenendo Z_g1 = -1,2294.

Approssimato a Z = -1,23 in una distribuzione normale bilaterale corrisponde ad una probabilità a = 0,219 o 21,9%. E’ una probabilità alta: non solo non permette di rifiutare l’ipotesi nulla, ma autorizza a sostenere ragionevolmente che lo scostamento dalla normale è molto ridotto.

Il test per la simmetria (symmetry) è unilaterale con ipotesi

H₀: g₁ ³ 0 contro H₁: g₁ < 0

oppure l’equivalente

H₀: Öb₁ ³ 0 contro H₁: Öb₁ < 0

quando si vuole verificare

- se la distribuzione dei dati raccolti ha una asimmetria sinistra o negativa.

Il calcolo ha una procedura identica a quella prima illustrata; ma per rifiutare l’ipotesi nulla il valore di g₁ deve essere negativo e, in valore assoluto, essere superiore a quello critico.

Si ricorre a un test unilaterale con ipotesi

H₀: g₁ £ 0 contro H₁: g₁ > 0

oppure l’equivalente

H₀: Öb₁ £ 0 contro H₁: Öb₁ > 0

quando si vuole verificare

- se la distribuzione dei dati raccolti ha una asimmetria destra o positiva.

Per rifiutare l’ipotesi nulla, il valore di g₁ deve essere positivo e, in valore assoluto, essere superiore a quello critico. Se si ricorre al calcolo di Z_g1, per rifiutare l’ipotesi nulla la probabilità a stimata in una distribuzione normale unilaterale deve essere minore di quella prefissata.

Il test per la curtosi (kurtosis) è bilaterale con ipotesi

H₀: g₂ = 0 contro H₁: g₂ ¹ 0

oppure l’equivalente

H₀: b₂ = 3 contro H₁: b₂ ¹ 3

quando si vuole verificare

- se il campione è stato estratto da una popolazione mesocurtica (normale).

Il metodo più semplice è il confronto con la tabella dei valori critici (pagina successiva). Ad esempio,

con n = 70 e = -0,7183 come stimato in precedenza, non è possibile rifiutare l’ipotesi nulla, poiché il valore è minore di quello critico corrispondente alla probabilità a = 0.05.

TAVOLA DEI VALORI CRITICI DI CURTOSI

APPROSSIMATI ALLA NORMALE PER IL TEST DI D’AGOSTINO

	a bil.	0.20	0.10	0.05	0.02	0.01	0.005	0.002
	a uni.	0.10	0.05	0.025	0.01	0.005	0.0025	0.001
20		1,241	1,850	2,486	3,385	4,121	4,914	6,063
21		1,215	1,812	2,436	3,318	4,040	4,818	5,967
22		1,191	1,776	2,388	3,254	3,963	4,727	5,835
23		1,168	1,743	2,343	3,193	3,889	4,639	5,728
24		1,147	1,711	2,300	3,135	3,818	4,555	5,624
25		1,127	1,681	2,260	3,080	3,751	4,474	5,524
26		1,108	1,653	2,222	3,027	3,686	4,397	5,427
27		1,090	1,626	2,185	2,976	3,624	4,322	5,335
28		1,074	1,601	2,150	2,928	3,565	4,251	5,245
29		1,057	1,576	2,117	2,882	3,508	4,182	5,159
30		1,042	1,553	2,085	2,838	3,453	4,116	5,075
32		1,014	1,509	2,025	2,574	3,350	3,990	4,917
34		0,988	1,469	1,971	2,677	3,254	3,874	4,769
36		0,964	1,432	1,919	2,606	3,165	3,765	4,631
38		0,942	1,398	1,872	2,539	3,081	3,663	4,502
40		0,921	1,366	1,828	2,476	3,003	3,568	4,380
42		0,902	1,337	1,787	2,418	2,930	3,478	4,266
44		0,884	1,309	1,748	2,363	2,861	3,394	4,158
46		0,868	1,282	1,711	2,311	2,796	3,314	4,057
48		0,852	1,258	1,677	2,262	2,735	3,239	3,961
50		0,837	1,234	1,644	2,216	2,677	3,168	3,870
60		0,773	1,135	1,504	2,017	2,428	2,862	3,480
70		0,723	1,055	1,394	1,859	2,230	2,620	3,171
80		0,681	0,990	1,303	1,730	2,069	2,423	2,921
90		0,646	0,935	1,227	1,622	1,934	2,259	2,714
100		0,617	0,889	1,162	1,531	1,820	2,121	2,538
110		0,590	0,848	1,105	1,452	1,722	2,002	2,389
120		0,567	0,813	1,056	1,383	1,637	1,898	2,259
140		0,529	0,753	0,974	1,268	1,494	1,727	2,045
160		0,497	0,704	0,907	1,175	1,380	1,590	1,875
180		0,470	0,663	0,851	1,098	1,287	1,478	1,737
200		0,447	0,628	0,804	1,034	1,208	1,384	1,621
220		0,428	0,599	0,764	0,979	1,141	1,305	1,524
240		0,410	0,572	0,729	0,931	1,083	1,236	1,440
300		0,368	0,510	0,645	0,819	0,948	1,077	1,247
400		0,320	0,439	0,551	0,694	0,798	0,902	1,038
500		0,287	0,391	0,488	0,610	0,700	0,787	0,902
600		0,262	0,355	0,442	0,550	0,629	0,706	0,805
700		0,243	0,328	0,406	0,504	0,575	0,643	0,732
800		0,227	0,305	0,378	0,468	0,532	0,594	0,675
900		0,214	0,287	0,355	0,438	0,497	0,555	0,628
1000		0,203	0,272	0,335	0,412	0,486	0,521	0,590

Anzi, poiché il g₂ calcolato è minore, in valore assoluto, di quello riportato nella tabella per la probabilità bilaterale a = 0.20, per quanto rigurda la curtosi si può sostenere che lo scostamento da una perfetta normalità è minimo: la distribuzione è in buon accordo con la normale.

Anche in questo caso, per

- dimensioni campionarie non riportate nella tabella (ma sempre per n ³ 20), sebbene sia possibile un calcolo rapido di interpolazione, e/o

- per una stima precisa della probabilità a di ottenere casualmente H₀, cioè per non limitarsi a verificare se è maggiore o minore di una probabilità prefissata,

si deve ricavare Zg₂, cioè il valore della normale standizzata Z per il valore di g₂ calcolato.

A questo scopo, utilizzando n = 70 e = -0,7183 si deve ricorrere a vari passaggi (nei quali è ancora importante avere valori molto precisi, almeno 6 cifre dopo la virgola):

- utilizzando n si calcola A

ottenendo A = 0,277327;

- da A e g₂ si ricava B

ottenendo B = 1,268487;

- utilizzando n si ricava C

ottenendo C = 1,440994;

- da C si ricava D

ottenendo D = 23,202508;

- da B e da D si ricava E

ottenendo E = 0,648368.

Infine da D e da E si ricava Z_g2

ottenendo Z_g2 = 1,2763.

Approssimato a Z = 1,27 in una distribuzione normale bilaterale corrisponde ad una probabilità a = 0,204 o 20,4%. E’ una probabilità alta: non solo non permette di rifiutare l’ipotesi nulla, ma autorizza a sostenere ragionevolmente che lo scostamento dalla normale è molto ridotto.

E’ sempre opportuno che l’arrotondamento del valore di Z a due cifre dopo la virgola, come richiesto dalla tabella dei valori critici, avvenga per difetto. Il valore di a è maggiore e il test risulta più cautelativo.

Anche il test per la curtosi può essere unilaterale con ipotesi

H₀: g₂ £ 0 contro H₁: g₂ > 0

oppure l’equivalente

H₀: b₂ £ 3 contro H₁: b₂ > 3

quando si vuole verificare specificatamente se la distribuzione dei dati raccolti è platicurtica.

Per rifiutare l’ipotesi nulla, il valore di g₂ deve essere positivo e, in valore assoluto, essere superiore a quello critico. Con il calcolo di Z_g1, per rifiutare l’ipotesi nulla la probabilità a, stimata in una distribuzione normale unilaterale, deve essere minore di quella prefissata.

Per verificare l’ipotesi che la curva sia leptocurtica, cioè con ipotesi unilaterale

H₀: g₂ ³ 0 contro H₁: g₂ < 0

oppure l’equivalente

H₀: b₂ ³ 3 contro H₁: b₂ < 3

il valore di g₂ deve essere negativo e, in valore assoluto, essere superiore a quello critico. Se si ricorre al calcolo di Z_g1 per rifiutare l’ipotesi nulla, la probabilità a calcolata deve essere minore di quella prefissata.

Il test per la normalità, come già presentato all’inizio di questo paragrafo, permette di verificare solo l’ipotesi nulla bilaterale: se il campione è in accordo con la corrispondente distribuzione normale, costruita con stessa media e varianza uguale.

Tale test è fondato sulla statistica

e il valore di K² calcolato deve essere confrontato con la tabella del tabella c² con df = 2, qui riportata solo nella coda destra della distribuzione:


.25	.10	.05	.025	.01	.005
2.773	4.605	5.991	7.378	9.210	10.597

Con i dati dell’esempio, in cui

Z_g1 = 1,2294 e Z_g2 = 1,2763

mediante

si ottiene K² = 3,133.

Il valore calcolato è nettamente inferiore a quello critico per a = 0.10 (uguale a 4,605). Di conseguenza, la probabilità che l’ipotesi nulla sia vera è alta: c’è sostanziale accordo tra la distribuzione osservata e quella normale corrispondente.