VERIFICA DELLE IPOTESI

TEST PER UN CAMPIONE SULLA TENDENZA CENTRALE CON VARIANZA NOTA

E TEST SULLA VARIANZA

CON INTERVALLI DI CONFIDENZA

 

 

4.15.  intervallo di confidenza o di fiducia di una varianza, con equal tail method  E  shortest unbiased confidence intervals

 

 

Il calcolo dell’intervallo di confidenza di una varianza richiede una procedura più complessa di quella illustrata per l’intervallo di confidenza della media. A differenza della distribuzione Z (utilizzata nei paragrafi precedenti) e della distribuzione t di Student (il cui impiego sarà illustrato nel capitolo relativo) che servono per test sulla media e hanno forma simmetrica, la distribuzione c2, alla quale si ricorre per test sulla varianza, non è simmetrica, quando i campioni non sono grandi.

Approssimativamente, poiché varia in funzione dei gradi di libertà e quindi delle dimensioni del campione, ha la forma illustrata nella figura successiva.

E’ ovvio che le probabilità collocate ai due estremi dovranno essere stimate separatamente.

 

DISTRIBUZIONE  DEI  VALORI  DEL

CON UN NUMERO MEDIO DI GRADI DI LIBERTA’


 

I concetti illustrati nel paragrafo sul confronto tra una varianza campionaria e una attesa hanno dimostrato che

- il rapporto tra le devianza del campione  e la varianza della popolazione  da cui il campione è estratto

- segue la distribuzione  con gdl

 

Da questa legge di distribuzione, si può dedurre che

 con probabilità  il rapporto  sarà compreso

  tra i due valori estremi

       e       

 che rappresentano rispettivamente quello inferiore (a sinistra) e quello superiore (a destra).

Tale equazione può essere scritta come

 da cui si ricava che

l'intervallo di confidenza della varianza (s2) della popolazione, stimata a partire da una varianza campionaria ()

 è compreso entro i valori

 oppure, ancor meglio per i calcoli,

 

Di conseguenza, per la relazione esistente tra devianza e deviazione standard, è possibile anche scrivere che l'intervallo di confidenza della deviazione standard () della popolazione

 è delimitato dai valori estremi

 

Questo metodo, sia per la varianza  che per la deviazione standard  è chiamato equal tails method, poiché ai due estremi è collocata una quantità uguale di probabilità , come nella figura precedente.

 

ESEMPIO 1.   Si vuole conoscere l'intervallo di confidenza al 99% della varianza relativa alla presenza di solventi clorurati totali nell'atmosfera di una città.

Da un campione di 16 osservazioni, è stata misurata la quantità media d’inquinamento (in mg/m3 a 0° C e a 1013 mbar) e si è calcolata la varianza campionaria  = 82

Entro quali valori può trovarsi la varianza reale s2 con probabilità del 99% di affermare il vero?

 

Risposta.   Dalla tabella del c2, si devono rilevare i valori critici con gradi di libertà  = 15:

-  per  a = 0.995 (1 - 0.005) il valore è  = 4,605

-  per  a = 0.005. il valore è   = 32,85

L’intervallo di confidenza della varianza reale s2

 stimato con

 < s2 <

 risulta

37,44 < s2 < 267,10

In altri termini, con probabilità P = 0,99 è compreso tra

-  il limite inferiore L1 = 37,44

-  il limite superiore L2 = 267,10.

E' da mettere in evidenza come, rispetto al valore centrale ( = 82), i due estremi non siano simmetrici.

 

ESEMPIO 2.   Calcolare l'intervallo di confidenza al 95% della varianza reale s2 del  carapace della specie Heterocypris incongruens. La varianza di un campione di 41 individui, (misurati in mm), è risultata uguale a 0,0412.

 

Risposta.   Dapprima si devono individuare i valori critici del c2 con gradi di libertà   = 40:

-  per  a = 0.975 il valore è  = 24,44

-  per  a = 0.025. il valore è   = 59,20.

 

Successivamente si calcola l’intervallo

 

 e

0,0278 < s2 < 0,0674

ricavando che come valori estremi esso ha 

-  L1 = 0,0278

-  L2 = 0,0674.

 

Per ottenere una stima corretta della varianza e del suo intervallo di confidenza, è sempre importante ricordare che

-  è condizione essenziale di validità che i dati siano distribuiti in modo normale.

La presenza di un solo valore anomalo è sufficiente per determinare una varianza campionaria molto maggiore di quella reale. Ma la normalità di una distribuzione campionaria è difficile da dimostrare, in particolare quando  è piccolo. Di conseguenza, quando la normalità della distribuzione campionaria non è certa, l'intervallo fiduciale di una varianza (quindi anche della deviazione standard) deve essere considerato con molta cautela.

Come già per la media, anche nel caso della varianza l’intervallo fiduciale può essere utilizzato per

-  valutare se un’altra stima campionaria s2 si differenzia in modo significativo dal valore utilizzato per costruire l’intervallo di confidenza.

 

Il test con ipotesi nulla H0:  e ipotesi alternativa H1:

 alla  probabilità a

-  risulterà non significativo quando la varianza del secondo campione è compresa

-  mentre risulterà non  significativo quando  la varianza del secondo campione  non è compresa,

 nell’intervallo costruito intorno alla prima .

La proprietà è simmetrica e le due varianze possono esser scambiate: è possibile fondare l'analisi calcolando l’intervallo di confidenza dell’una oppure dell’altra (non di entrambe e vedere se hanno una zona di sovrapposizione).

 

Oltre

-  all’equal tails method qui illustrato, che rappresenta la procedura classica per calcolare l’intervallo di confidenza della varianza vera , è utilizzato anche un altro metodo seppure con una diffusione molto minore. E’ chiamato

shortest unbiased confidence intervals e è stato proposto da R. F. Tate e G. W. Klett nel 1959 con l’articolo Optimal confidence intervals for the variance of a normal distribution (pubblicato su Journal of the American Statistical Association Vol. 54, pp. 674 - 682).

Con questo metodo, si ottiene

-  l’intervallo di confidenza più breve (shortest), nel senso che il rapporto tra i due valori estremi

 è il minore possibile.

Per questo calcolo, si utilizzano i valori riportati nella tabella successiva

Essi sono costruiti in modo tale che

-  nel rapporto

- la quantità è un valore aggiustato di  oppure di

- che permette di ricavare l’intervallo di confidenza di  più breve possibile.

 

I valori della tabella sono stati pubblicati da D. V. Lindley, D. A. East e P. A. Hamilton nel 1960 sulla rivista Biometrika (Vol. 47 pp. 433-437). Per un uso ancora più semplice e immediato, sono stati rielaborati (divisi per i gradi di libertà )  da F. James Rohlf e Robert R. Sokal per le loro Statistical Tables (3rd ed. W. H. Freeman and Company, New York, 1995, XIV + 199 p.).

Nella tabella successiva, dopo aver scelto

-  la riga , corrispondente ai gradi di libertà  della varianza campionaria ,

-  e la colonna corrispondente alla probabilità P (nella tabella sono riportate solo 95% e 99%)

 si identificano i due valori   e  .

I limiti dell’intervallo di confidenza sono:

-  il limite inferiore (lower limit)

-  il limite superiore (upper limit)


 

COEFFICIENTI PER DETERMINARE

I  SHORTEST UNBIASED CONFIDENCE LIMITS FOR THE VARIANCE

 

 

 

 

 

 

 

2

0,2099

23,605

0,1505

114,489

2

3

0,2681

10,127

0,1983

29,689

3

4

0,3125

6,590

0,2367

15,154

4

5

0,3480

5,054

0,2685

10,076

5

6

0,3774

4,211

0,2956

7,637

6

7

0,4025

3,679

0,3192

6,238

7

8

0,4242

3,314

0,3400

5,341

8

9

0,4432

3,048

0,3585

4,720

9

10

0,4602

2,884

0,3752

4,265

10

11

0,4755

2,683

0,3904

3,919

11

12

0,4893

2,553

0,4043

3,646

12

13

0,5019

2,445

0,4171

3,426

13

14

0,5135

2,354

0,4289

3,244

14

15

0,5242

2,276

0,4399

3,091

15

16

0,5341

2,208

0,4502

2,961

16

17

0,5433

2,149

0,4598

2,848

17

18

0,5520

2,097

0,4689

2,750

18

19

0,5601

2,050

0,4774

2,664

19

20

0,5677

2,008

0,4855

2,588

20

21

0,5749

1,971

0,4931

2,519

21

22

0,5817

1,936

0,5004

2,458

22

23

0,5882

1,905

0,5073

2,402

23

24

0,5943

1,876

0,5139

2,351

24

25

0,6001

1,850

0,5201

2,305

25

26

0,6057

1,825

0,5261

2,262

26

27

0,6110

1,802

0,5319

2,223

27

28

0,6160

1,782

0,5374

2,187

28

29

0,6209

1,762

0,5427

2,153

29

30

0,6255

1,744

0,5478

2,122

30

40

0,6636

1,608

0,5900

1,896

40

50

0,6913

1,523

0,6213

1,760

50

60

0,7128

1,464

0,6458

1,668

60

70

0,7300

1,421

0,6657

1,607

70

80

0,7443

1,387

0,6824

1,549

80

90

0,7564

1,360

0,6966

1,508

90

100

0,7669

1,338

0,7090

1,475

100


 

ESEMPIO 3. (STESSI DATI DELL’ESEMPIO 1, PER UN CONFRONTO DEI RISULTATI).  Si vuole conoscere l'intervallo di confidenza al 99% della varianza relativa alla presenza di solventi clorurati totali nell'atmosfera di una città.

Da un campione di 16 osservazioni, è stata misurata la quantità media d’inquinamento (in mg/m3 a 0° C e a 1013 mbar) e si è calcolata la varianza campionaria  = 82

Entro quali valori può trovarsi la varianza reale s2 con probabilità del 99% di affermare il vero?

 

Risposta.   Dalla tabella, per  con gradi di libertà  = 15 si rilevano i coefficienti

    e   

L’intervallo di confidenza della varianza reale s2 come limiti ha

-  il limite inferiore (lower limit)

- il limite superiore (upper limit)

 

Il rapporto  di questo intervallo

 risulta  uguale a 7,03

 mentre con il metodo classico o equal tails method si erano ottenuti

-  il limite inferiore L1 = 37,44

-  il limite superiore L2 = 267,10.

 e quindi

 un rapporto   = 7,13.

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007