IL DISEGNO SPERIMENTALE:

CAMPIONAMENTO, PROGRAMMAZIONE DELL’ESPERIMENTO E POTENZA

 

 

23.3.  L’ERRORE DI STIMA NEL CAMPIONAMENTO, PER LA SCELTA DI QUELLO PIU’ ADEGUATO: L’ESEMPIO DI SNEDECOR-COCHRAN

 

 

Le differenti metodologie, che sono state proposte in letteratura per scegliere il campione e impostare il piano sperimentale, possono determinare analisi statistiche con risultati differenti. In particolare, il parametro che maggiormente risente del tipo di campionamento è la varianza.

Il campionamento più adeguato è quello che ha varianza minore.

Quindi è importante fornirne una valutazione statistica, in rapporto alle diverse soluzioni ipotizzate. Un approccio semplice a questi concetti è presentato nel testo di George W. Snedecor e William G. Cochran  del 1968 (Statistical Methods, The Iowa State University Press, Ames, Iowa, U,S.A., 6th ed. 2nd printing, pp. 593). In esso è sviluppato un esempio, che qui è ripreso, completato e discusso.

 

Si supponga, per semplicità di calcolo, di avere per motivi didattici una popolazione molto piccola, composta solamente da 6 individui (indicati dalle lettere da A a F) e con i valori riportati nella tabella:

 

Lettere

A

B

C

D

E

F

Totale

Valori

1

2

4

6

7

16

36

 

 

Il totale della popolazione è 36. Il problema che si vuole affrontare come pervenire alla stima di  questo totale (T = 36), attraverso un campione di 3 soli individui.

 

La risposta può essere fornita attraverso modelli differenti di campionamento, cioè di estrazione del campione dalla popolazione. Sarà migliore quello che fornirà una stima del totale della popolazione che sia corretta (coincidente con il valore vero) e con la varianza minore. Sono presentati i risultati di due differenti modelli di campionamento.

 

A)   Come prima prova, supponiamo di utilizzare il campionamento casuale semplice (simple random sampling, random sampling without replacement). I campioni di 3 individui che possono essere estratti casualmente da una popolazione di 6 unità

 =  = 20

 

 sono 20, come si ottiene con  il calcolo combinatorio.

 

L’elenco completo di tutte le combinazioni, riportato nelle due tabelle successive, mostra

 

 

(1)

(2)

(3)

(4)

 

(1)

(2)

(3)

(4)

Campione

Totale

Stima

Errore

Campione

Totale

Stima

Errore

1)   ABC

7

14

-22

11)   BCD

12

24

-12

2)   ABD

9

18

-18

12)   BCE

13

26

-10

3)   ABE

10

20

-16

13)   BCF

22

44

+8

4)   ABF

19

38

+2

14)   BDE

15

30

-6

5)   ACD

11

22

-14

15)   BDF

24

48

+12

6)   ACE

12

24

-12

16)   BEF

25

50

+14

7)   ACF

21

42

+6

17)   CDE

17

34

-2

8)   ADE

14

28

-8

18)   CDF

26

52

+16

9)   ADF

23

46

+10

19)   CEF

27

54

+18

10)   AEF

24

48

+12

20)   DEF

29

58

+22

 

Media

18

36

0

 

- il totale di ogni estrazione (colonna 2),

- la stima del totale della popolazione (colonna 3 = colonna 2 x 2)

- l’errore commesso in tale stima, rispetto al valore reale (36) totale (colonna 4 = colonna 3 – 36).

La media (18) di tutte le combinazioni campionarie (riportata nell’ultima riga della seconda tabella) evidenzia come essa rappresenti una stima corretta del totale della popolazione (36).

E’ la dimostrazione empirica che il piano di campionamento utilizzato (il campionamento casuale semplice) fornisce una stima corretta (unbiased estimate) del totale della popolazione.

Se questo totale fosse stato differente da quello reale, si parlerebbe di bias della stima o di bias del piano di campionamento (sampling plan).

Ma occorre considerare anche l’accuratezza del piano di campionamento, che è calcolata attraverso la varianza delle stime () oppure con il coefficiente di variazione, che ne rappresenta la standardizzazione rispetto alla media.

Con i dati dell’esempio,

() =

 si ottiene  = 175,2

(Per ottenere la varianza dell’errore di stima, la devianza è stata divisa per 20 e non per 19, poiché gli errori sono misurati a partire di valori di tutta la popolazione).

La deviazione standard () è 13,24

e il coefficiente di variazione (C.V.)

C. V. =

è il 36,8% del totale vero della popolazione.

Come già illustrato nel primo capitolo, è un valore giudicato alto.

Snedecor e Cochran concludono che “evidentemente il piano di campionamento utilizzato non è molto accurato, per questa popolazione”.

 

Infatti, essa non è distribuita in modo normale, poiché

- l’analisi dettagliata dei dati mostra la presenza di un valore anomalo (F = 16)

- e l’elenco degli errori evidenzia che essi sono sempre positivi quando nel campione è compreso il valore anomalo (F = 16), mentre essi sono sempre negativi quando il valore anomalo è escluso.

Di conseguenza, è vantaggioso utilizzare un tipo di campionamento differente dal precedente, in modo da eliminare la variazione imputabile alla presenza-assenza campionaria di F = 16.

 

Con un nuovo piano di campionamento, quello stratificato, è possibile formare un campione che abbia sempre 3 dati, ma formati da due strati:

-  il primo gruppo (Strato I) che contiene il solo valore 16 con probabilità 1 (quindi sempre e solo 16),

- un secondo gruppo di 2 dati, estratti casualmente dai rimanenti 5, per cui ogni valore della popolazione appartenente a questo gruppo (Strato II) ha probabilità 2/5 di essere compreso nel campione.

Questo secondo strato può essere formato in 10 modi differenti

 =  = 10

 come mostra il calcolo combinatorio

 e con i risultati riportati nella tabella

 

(1)

(2)

(3)

(4)

Campione

Totale Strato II

Stima

Errore

1)  ABF

3

23,5

-12,5

2)  ACF

5

28,5

-7,5

3)  ADF

7

33,5

-2,5

4)  AEF

8

36,0

0,0

5)  BCF

6

31,0

-5,0

6)  BDF

8

36,0

0,0

7)  BEF

9

38,5

+2,5

8)  CDE

10

41,0

+5,0

9)  CEF

11

43,5

+7,5

10) DEF

13

48,5

+12,5

Media

8

36,0

0,0

 

In essa è riportato:

- il totale di ogni estrazione per il solo strato II (colonna 2),

- la stima del totale della popolazione (colonna 3 = 16 + colonna 2 x 5/2)

- l’errore commesso in tale stima, rispetto al valore reale (36) totale (colonna 4 = colonna 3 – 36).

La media (8) di tutte le combinazioni campionarie (riportata nell’ultima riga) evidenzia come essa permetta una stima corretta del totale della popolazione, fornendo un totale di 36 (ottenuto dal calcolo 16 + (8 x 5/2) = 36).

Anche questo tipo di campionamento, il campionamento casuale stratificato con frazioni di campionamento ineguale (stratified random sampling with unequal sampling fractions), fornisce una stima corretta (unbiased estimates) del totale della popolazione.

 

L’accuratezza di questo nuovo piano di campionamento, calcolato attraverso

 la varianza delle stime,

() =

 risulta  =  48,75.

 

La deviazione standard () è 6,98

e il coefficiente di variazione (C.V.)

C. V. =

 è il 19,4% del totale vero della popolazione.

 

E’ un valore di C.V. notevolmente inferiore a quello ottenuto con il campionamento precedente.

Questi due differenti risultati dimostrano che con questo secondo metodo si ottiene un risultato nettamente migliore del precedente, con questi dati della popolazione.

In generale, il campionamento stratificato è vantaggioso quando la popolazione è formata da gruppi di dati notevolmente differenti, per il carattere preso in esame.

Snedecor e Cochran fanno notare che non è necessario che la probabilità di campionamento sia uguale per tutti i membri della popolazione: è sufficiente che queste probabilità siano note.


 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007