trasformazionI dei dati;

test per normalita’ e PER OUTLIER

 

 

13.6.  TEST PER LA VERIFICA DI NORMALITA’, SIMMETRIA E CURTOSI, CON I METODI PROPOSTI DA SNEDECOR-COCHRAN

 

 

Prima e dopo la trasformazione dei dati, occorre misurare e verificare le caratteristiche fondamentali della loro distribuzione, per verificare se esiste  normalità,  simmetria , curtosi.

Il confronto di queste due serie di indici, quelli prima della trasformazione e quelli dopo, permette di valutarne l’effetto.

Inoltre, la scelta del test, soprattutto se parametrico o non parametrico, dipende in larga misura da queste risposte.

I metodi proposti in letteratura sono numerosi. Disponendo di una distribuzione di frequenza, è possibile ricorrere a tre test differenti per verificare:

-   la normalità (normality),

-   la simmetria (skewness),

-   la curtosi (kurtosis).

 

Tra essi, per campioni sufficientemente grandi, possono essere ricordati quelli proposti da George W. Snedecor e William G. Cochran nel loro testo (Statistical Methods, 6th ed. The Iowa State University Press, Ames Iowa, U.S.A.). Nelle varie ristampe, dalla metà del Novecento e per oltre un trentennio è stato uno dei testi di riferimento più importanti per gli studiosi di statistica applicata.

I metodi da essi proposti  e qui ripresi sono parte della impostazione classica, che è bene conoscere anche quando gli attuali programmi informatici ricorrono a procedure differenti, ritenute più potenti o più precise.

 

Per valutare la normalità di una distribuzione di dati sperimentali Snedecor e Cochran propongono di ricorre al test c2, chiamato appunto test per la bontà dell’adattamento (goodness of fit test), confrontando

- la distribuzione osservata

- con quella attesa, costruita mediante la media e la varianza del campione applicate alla normale.

 L’ipotesi nulla è che non esistano differenze significative tra la distribuzione dei dati raccolti e quella normale corrispondente, con stessa media e stessa varianza.

L’ipotesi alternativa è che la distribuzione osservata se ne discosti in modo significativo, per un effetto combinato di asimmetria e curtosi.

Per presentare in modo dettagliato la procedura di verifica, si supponga di avere raccolto 500 misure di una scala continua e che la loro distribuzione di frequenza sia quella riportata nelle prime due colonne della tabella seguente.


 

 

Classe

Freq. Osservate

Freq. Attese

c2

< 130

9

20,30

6,29

130 – 139

35

30,80

0,57

140 – 149

68

55,70

2,72

150 – 159

94

80,65

2,21

160 – 169

90

93,55

0,13

170 – 179

76

87,00

1,39

180 – 189

62

64,80

0,12

190 – 199

28

38,70

2,96

200 – 209

27

15,85

3,85

210 – 219

4

7,10

1,35

220 – 229

5

2,20

0,50

0,15

 

6,04

 

230 – 239

1

240 +

1

Totale

500

500,00

27,63

 

 

Partendo dai dati campionari, è necessario:

-  stimare le frequenze attese (riportate nella terza colonna),

-  calcolare il valore del c2,

con i seguenti passaggi logici.

 

1 – Si individuano i valori centrali () di ogni classe (ad esempio, per la classe 130-139 è 135); per le due classi estreme, occorre ipotizzare che esse abbiano la stessa ampiezza e quindi i due valori centrali siano rispettivamente 125 e 245 (come già evidenziato nel primo capitolo, dedicato alla statistica descrittiva, è sempre conveniente non fare classi aperte, appunto per favorire l’esatta individuazione del valore centrale).

 

2 -  Si calcola la media generale () della distribuzione osservata,

con

 dove

-    è il numero di classi (nell’esempio k = 13),

-    è il numero di osservazioni della classe ,

-    è il numero totale di osservazioni (nell’esempio n = 500).

 

3  –  Si calcola la deviazione standard () della distribuzione osservata,

con

 

4 – Si stima il valore di Z per gli estremi di ogni classe (); per le ultime due classi deve essere calcolato solo per il valore più vicino alla media generale; il valore di Z è calcolato mediante

la relazione

 

 5 – Dal valore Z di ogni estremo di classe si ricava, attraverso la tavola della distribuzione normale, la frequenza relativa corrispondente (già illustrato negli esempi del primo capitolo); per differenza, si stima la  frequenza relativa di ogni classe.

 

6 – Rapportando a  (uguale a 500 nell’esempio) queste frequenze relative, si ottiene la frequenza attesa di ogni classe, come riportato nella terza colonna.

 

7 – Per ogni classe si stima il c2, mediante

la formula classica

 

8 – Poiché è condizione di validità di questo test che ogni frequenza attesa non sia inferiore a 5, nel caso dell’esempio le ultime tre classi devono essere raggruppate in una sola, riducendo così il numero totale di classi da 13 a 11.

 

9 – La somma degli 11 valori c2 fornisce il valore del c2 totale (uguale a 27,63), che ha 8 gdl.

 

10 – Infatti, benché esso sia stato ottenuto dalla somma di 11 valori, la distribuzione attesa è stata calcolata sulla base di tre quantità ricavate da quella osservata: la media, la deviazione standard e il numero totale di osservazioni. Di conseguenza, i gdl di questo c2 sono 11-3 = 8.

 

11 – Il valore critico per 8 gdl alla probabilità a = 0.005 è c2 = 21,96.

Poiché il valore calcolato (27,63) è superiore a quello critico, si rifiuta l’ipotesi nulla alla probabilità specificata: la distribuzione osservata è significativamente differente da una distribuzione normale, che abbia la stessa media e la stessa varianza.

 

Già il semplice confronto tabellare tra la distribuzione osservata e quella attesa evidenziava alcune differenze: ma il test permette di valutare tale scostamento in modo oggettivo. Il chi quadrato per la normalità è un test generalista: somma gli effetti di tutti gli scostamenti dalla normalità e non è diretto ad evidenziare gli effetti di una causa specifica. Nei dati della tabella precedente, appare evidente che la distribuzione osservata è asimmetrica; ma occorre essere in grado di fornirne un indice numerico e valutarne la significatività con test specifici.

 

 

Il test per la skewness (termine introdotto da Karl Pearson nel 1985, con la funzione b) di una popolazione di dati è fondato sul valore medio della quantità

 dove X è ogni singolo valore e m è la media della popolazione.

La misura fondamentale della skewness, in una popolazione di n dati,

è indicata con m3

 

 e è chiamata momento terzo intorno alla media (third moment about the mean) o momento di terzo ordine.

Il suo valore

-   è uguale a 0 (zero) quando la distribuzione dei dati è perfettamente simmetrica,

-   è positivo quando la distribuzione è caratterizzata da una asimmetria destra (i valori oltre la media sono più frequenti),

-   è negativo quando la distribuzione ha una asimmetria sinistra (i valori oltre la media sono meno frequenti).

Ma il valore assoluto di questo indice è fortemente dipendente dalla scala utilizzata (una distribuzione di lunghezze misurata in millimetri ha un valore di asimmetria maggiore della stessa distribuzione misurata in metri).

 

Per rendere questa misura adimensionale, cioè indipendente dal tipo di scala e uguale per tutte le distribuzioni che hanno la stessa forma, occorre dividere il momento di terzo ordine (m3) per .

 

Da questo concetto sono derivati i due indici più diffusi, tra loro collegati da una relazione matematica semplice:

-   l’indice b1 di Pearson

-   l’indice g1 di Fisher

 

Quando calcolati su una distribuzione sperimentale, essi sono indicati rispettivamente con b1 e g1

Di conseguenza, il valore della skewness di una distribuzione sperimentale è 

 

dove  è

 e  è

 

Nel calcolo del momento di secondo ordine, cioè della varianza, anche il testo di Snedecor-Cochran indica , al posto del consueto , corrispondente ai gradi di libertà: offre il vantaggio pratico di semplificare i calcoli e per campioni grandi determina una differenza minima.

 

Riprendendo la stessa distribuzione di frequenza gia utilizzata in precendenza per la verifica della normalità mediante il test c2,


 

Classe

Limite Inf.

U

U2

U3

U4

< 130

120-

9

-4

-36

16

144

-64

-576

256

2.304

130 – 139

130-

35

-3

-105

9

315

-27

-945

81

2.835

140 – 149

140-

68

-2

-136

4

272

-8

-544

16

1.088

150 – 159

150-

94

-1

-94

1

94

-1

-94

1

94

160 – 169

160-

90

0

0

0

0

0

0

0

0

170 – 179

170-

76

1

76

1

76

1

76

1

76

180 – 189

180-

62

2

124

4

248

8

496

16

992

190 – 199

190-

28

3

84

9

252

27

756

81

2.268

200 – 209

200-

27

4

108

16

432

64

1.728

256

6.912

210 – 219

210-

4

5

20

25

100

125

500

625

2.500

220 – 229

220-

5

6

30

36

180

216

1.080

1.296

6.480

230 – 239

230-

1

7

7

49

49

343

343

2.401

2.401

240 +

240-

1

8

8

64

64

512

512

4.096

4.096

Totale

---

500

---

+86

---

2.226

---

+3.332

---

32.046

 

 

i calcoli possono essere semplificati, rispetto alla formula presentata con i momenti, indicando le classi con valori prestabiliti.

 

Poiché l’indice è adimensionale e quindi le classi possono avere valori convenzionali, diversi da quelli effettivamente rilevati, è conveniente modificare la scala delle classi: si indica con 0 (zero) la classe centrale (più frequente), con interi negativi quelle inferiori e con interi positivi quelle superiori (vedi quarta colonna, indicata con U, dove le classi sono state fatte variare da –4 a 8, ma potevano ugualemente variare da –6 a 6 o qualsiasi altra serie di valori convenzionali).

La metodologia abbreviata, utile per i calcoli manuali, richiede che questo valore sia elevato al quadrato (vedi colonna U2) e al cubo (vedi colonna U3).

L’elevamento alla quarta (U4) è richiesto nel test successivo, utile per la verifica della significatività del grado di curtosi.

 

Dopo aver ottenuto le somme

                  

si ricavano h1, h2 e h3

 con

 

 

Infine da essi m2 con

 

 =

 

 e m3 con

 =

 

I momenti di secondo ordine (m2) e di terzo ordine (m3) intorno alla media, per i dati sperimentali raccolti, sono

m2 = 4,4224     e     m3 = 4,376977.

 

Infine con

 

 si ottiene l’indice di skewness

.

 

In campioni grandi (in alcuni testi n > 150; in altri, più rigorosi, n ³ 500) estratti casualmente da una popolazione normale,

- questi indici sono distribuiti in modo approssimativamente normale,

-  con media  

m = 0

- e deviazione standard

 s =


 

TAVOLA DEI VALORI CRITICI

DELL’INDICE DI SKEWNESS

(in valore assoluto)

 

s

Test bilaterale   a = 0.10

Test bilaterale   a = 0.02

Test unilaterale   a = 0.05

Test unilaterale   a = 0.01

25

0,4354

0,711

1,061

30

0,4052

0,662

0,986

35

0,3804

0,621

0,923

40

0,3596

0,587

0,870

45

0,3418

0,558

0,825

50

0,3264

0,534

0,787

60

0,3009

0,492

0,723

70

0,2806

0,459

0,673

80

0,2638

0,432

0,631

90

0,2498

0,409

0,596

100

0,2377

0,389

0,567

125

0,2139

0,350

0,508

150

0,1961

0,321

0,464

175

0,1820

0,298

0,430

200

0,1706

0,280

0,403

250

0,1531

0,251

0,360

300

0,1400

0,230

0,329

350

0,1298

0,213

0,305

400

0,1216

0,200

0,285

450

0,1147

0,188

0,269

500

0,1089

0,179

0,255

 


 

Nell’esempio (n = 500),

la deviazione standard (s) dell’indice di skewness è

s =  = 0,1095

 

E’ quindi possibile valutare,

-  con un test bilaterale se l’asimmetria è diversa da 0

H0: g1 = 0      contro      H1: g1 ¹ 0

 

-  oppure con un test unilaterale se esiste asimmetria destra

H0: g1 £ 0      contro      H1: g1 > 0

o se essa è sinistra

H0: g1 ³ 0      contro      H1: g1 < 0

 

Nel caso di campioni grandi (in alcuni testi n > 150; in altri, più rigorosi, n ³ 500), utilizzando l’indice di skewness calcolato ( o g1), si valuta la sua significatività

 ricavando Z con la formula

derivata dalla formula generale

 

Con i dati dell’esempio

 

 risulta un valore di Z (4,29) molto alto, al quale nella tavola della distribuzione normale corrisponde una probabilità a < 0.0001 sia per un test a una coda sia per un test a due code. In conclusione, si può affermare che nella distribuzione osservata è presente una asimmetria destra altamente significativa.

 

Nel caso di campioni piccoli (n £ 150), occorre utilizzare una distribuzione specifica che fornisce una approssimazione più accurata. E’ possibile ricorrere alla tabella dei valori critici riportata in precedenza, tratta dal testo di Snedecor e Cochran e valida sia per  sia per g1.

Alla probabilità a prefissata sono significativi gli indici   o  g1 che, in valore assoluto, sono maggiori di quelli riportati nella tabella.

 

Il test per la kurtosis (raramente chiamata anche peakedness o tailed-ness) di una popolazione di dati è fondato sul valore medio della quantità

 diviso per .

In una popolazione distribuita in modo normale risulta uguale a 3.

Gli indici di curtosi b2 di Pearson e  g2 di Fisher sono ricavati da

 

 dove

 

Per stimare b2 da una distribuzione di frequenza (utilizzando la stessa impiegata per l’asimmetria) dopo aver calcolato oltre ai parametri precedenti

 anche

 = 32.046

 e

 con

 si ricava

 m4 = 60,2948.

Infine si ottengono b2

 e g2

 

In campioni grandi (in alcuni testi n > 1.000; in altri, più rigorosi, n ³ 2.000), il valore g2 è distribuito in modo approssimativamente normale

con

m = 0     e     s =

Nell’esempio (n = 500),

la deviazione standard (s) dell’indice di kurtosis è (molto) approssimativamente

s =  = 0,2191

 

E’ quindi possibile valutare,

-  con un test bilaterale se l’indice di curtosi g2 è diversa da 0

H0: g2 = 0      contro      H1: g2 ¹ 0

 

-  oppure con un test unilaterale se la curva è platicurtica

H0: g2 £ 0      contro      H1: g2 > 0

 o se essa è leptocurtica

H0: g2 ³ 0      contro      H1: g2 < 0

 

Nel caso di campioni grandi,  utilizzando l’indice di curtosi calcolato (b2–3 oppure g2), si valuta la sua significatività

 ricavando Z con la formula

derivata dalla formula generale


 

 

VALORI CRITICI SUPERIORI E INFERIORI DI b2

PER IL TEST DI KURTOSIS ALLE PROBABILITA’  a = 0.05   E   a = 0.01

 

 

a = 0.05

a = 0.01

Superiore

Inferiore

Superiore

Inferiore

50

3,99

2,15

4,88

1,95

75

3,87

2,27

4,59

2,08

100

3,77

2,35

4,39

2,18

125

3,71

2,40

4,24

2,24

150

3,65

2,45

4,13

2,29

200

3,57

2,51

3,98

2,37

250

3,52

2,55

3,87

2,42

300

3,47

2,59

3,79

2,46

350

3,44

2,62

3,72

2,50

400

3,41

2,64

3,67

2,52

450

3,39

2,66

3,63

2,55

500

3,37

2,67

3,60

2,57

550

3,35

2,69

3,57

2,58

600

3,34

2,70

3,54

2,60

650

3,33

2,71

3,52

2,61

700

3,31

2,72

3,50

2,62

750

3,30

2,73

3,48

2,64

800

3,29

2,74

3,46

2,65

850

3,28

2,74

3,45

2,66

900

3,28

2,75

3,43

2,66

950

3,27

2,76

3,42

2,67

1.000

3,26

2,76

3,41

2,68

1.200

3,24

2,78

3,37

2,71

1.400

3,22

2,80

3,34

2,72

1.600

3,21

2,81

3,32

2,74

1.800

3,20

2,82

3,30

2,76

2.000

3,18

2,83

3,28

2,77

 

 

 


Con i dati dell’esempio, anche se in realtà il campione è troppo piccolo per questo test,

 

 

 risulta un valore di Z (0,38) piccolo.

Ad esso corrisponde una probabilità

-   a = 0,3620 in un test bilaterale,

-   a = 0,1810 in un test unilaterale.

Sono probabilità comunque molto alte, che non solo non rifiutano l’ipotesi nulla ma permettono di affermare cha la distribuzione è molto simile alla normale, per quanto riguarda la curtosi.

 

Per campioni piccoli, (n < 2.000) il testo di Snedecor-Cochran riporta i valori critici di b2 alla probabilità a = 0.05   e   a = 0.01 stimati da Pearson.

Dalla loro lettura, è semplice osservare che non sono distribuiti in modo simmetrico intorno a 3.

Per n = 500, alla probabilità a = 0.05 il limite superiore è +0,37 rispetto al valore centrale, mentre il limite inferiore è –0,33. I due scarti diventano molto simili, alla seconda cifra decimale, solo quando n = 2.000.

Alla probabilità a prescelta, sono significativi tutti i valori di b2 esterni a questo intervallo.

Per la significatività di  g2 è sufficiente sottrarre 3 ai valori della tabella.

 

Durante i primi decenni del Novecento, sono state utilizzate le quantità g1 e g2 per stimare la distribuzione di dati in popolazioni non normali, caratterizzate dai parametri g1 e g2. E’ stato dimostrato, come afferma il Teorema del Limite Centrale, che in una distribuzione di medie campionarie () le misure di skewness e kurtosis tendono entrambe a zero con l’aumento delle dimensioni (n) del campione

 

Un altro aspetto interessante è che la curtosi(g2) aumenta la varianza di un campione() rispetto al valore reale della popolazione (),

 attraverso la relazione

 dove n sono i gdl del campione.

 

Se in una popolazione con varianza  l’indice di curtosi è , la varianza del campione ( è 1,5 volte più ampia di quella risultante in una distribuzione normale (quindi con g2 = 0). Se la curtosi è  la varianza del campione è circa il doppio di quella corrispondente in una popolazione normale.

 

 

 

 

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007