IL DISEGNO SPERIMENTALE: CAMPIONAMENTO, PROGRAMMAZIONE DELL’ESPERIMENTO E POTENZA
23.3. L’ERRORE DI STIMA NEL CAMPIONAMENTO, PER LA SCELTA DI QUELLO PIU’ ADEGUATO: L’ESEMPIO DI SNEDECOR-COCHRAN
Le differenti metodologie, che sono state proposte in letteratura per scegliere il campione e impostare il piano sperimentale, possono determinare analisi statistiche con risultati differenti. In particolare, il parametro che maggiormente risente del tipo di campionamento è la varianza. Il campionamento più adeguato è quello che ha varianza minore. Quindi è importante fornirne una valutazione statistica, in rapporto alle diverse soluzioni ipotizzate. Un approccio semplice a questi concetti è presentato nel testo di George W. Snedecor e William G. Cochran del 1968 (Statistical Methods, The Iowa State University Press, Ames, Iowa, U,S.A., 6th ed. 2nd printing, pp. 593). In esso è sviluppato un esempio, che qui è ripreso, completato e discusso.
Si supponga, per semplicità di calcolo, di avere per motivi didattici una popolazione molto piccola, composta solamente da 6 individui (indicati dalle lettere da A a F) e con i valori riportati nella tabella:
Il totale della popolazione è 36. Il problema che si vuole affrontare come pervenire alla stima di questo totale (T = 36), attraverso un campione di 3 soli individui.
La risposta può essere fornita attraverso modelli differenti di campionamento, cioè di estrazione del campione dalla popolazione. Sarà migliore quello che fornirà una stima del totale della popolazione che sia corretta (coincidente con il valore vero) e con la varianza minore. Sono presentati i risultati di due differenti modelli di campionamento.
A) Come prima prova, supponiamo di utilizzare il campionamento casuale semplice (simple random sampling, random sampling without replacement). I campioni di 3 individui che possono essere estratti casualmente da una popolazione di 6 unità = = 20
sono 20, come si ottiene con il calcolo combinatorio.
L’elenco completo di tutte le combinazioni, riportato nelle due tabelle successive, mostra
- il totale di ogni estrazione (colonna 2), - la stima del totale della popolazione (colonna 3 = colonna 2 x 2) - l’errore commesso in tale stima, rispetto al valore reale (36) totale (colonna 4 = colonna 3 – 36). La media (18) di tutte le combinazioni campionarie (riportata nell’ultima riga della seconda tabella) evidenzia come essa rappresenti una stima corretta del totale della popolazione (36). E’ la dimostrazione empirica che il piano di campionamento utilizzato (il campionamento casuale semplice) fornisce una stima corretta (unbiased estimate) del totale della popolazione. Se questo totale fosse stato differente da quello reale, si parlerebbe di bias della stima o di bias del piano di campionamento (sampling plan). Ma occorre considerare anche l’accuratezza del piano di campionamento, che è calcolata attraverso la varianza delle stime () oppure con il coefficiente di variazione, che ne rappresenta la standardizzazione rispetto alla media. Con i dati dell’esempio, () = si ottiene = 175,2 (Per ottenere la varianza dell’errore di stima, la devianza è stata divisa per 20 e non per 19, poiché gli errori sono misurati a partire di valori di tutta la popolazione). La deviazione standard () è 13,24
e il coefficiente di variazione (C.V.) C. V. = è il 36,8% del totale vero della popolazione. Come già illustrato nel primo capitolo, è un valore giudicato alto. Snedecor e Cochran concludono che “evidentemente il piano di campionamento utilizzato non è molto accurato, per questa popolazione”.
Infatti, essa non è distribuita in modo normale, poiché - l’analisi dettagliata dei dati mostra la presenza di un valore anomalo (F = 16) - e l’elenco degli errori evidenzia che essi sono sempre positivi quando nel campione è compreso il valore anomalo (F = 16), mentre essi sono sempre negativi quando il valore anomalo è escluso. Di conseguenza, è vantaggioso utilizzare un tipo di campionamento differente dal precedente, in modo da eliminare la variazione imputabile alla presenza-assenza campionaria di F = 16.
Con un nuovo piano di campionamento, quello stratificato, è possibile formare un campione che abbia sempre 3 dati, ma formati da due strati: - il primo gruppo (Strato I) che contiene il solo valore 16 con probabilità 1 (quindi sempre e solo 16), - un secondo gruppo di 2 dati, estratti casualmente dai rimanenti 5, per cui ogni valore della popolazione appartenente a questo gruppo (Strato II) ha probabilità 2/5 di essere compreso nel campione. Questo secondo strato può essere formato in 10 modi differenti = = 10 come mostra il calcolo combinatorio e con i risultati riportati nella tabella
In essa è riportato: - il totale di ogni estrazione per il solo strato II (colonna 2), - la stima del totale della popolazione (colonna 3 = 16 + colonna 2 x 5/2) - l’errore commesso in tale stima, rispetto al valore reale (36) totale (colonna 4 = colonna 3 – 36). La media (8) di tutte le combinazioni campionarie (riportata nell’ultima riga) evidenzia come essa permetta una stima corretta del totale della popolazione, fornendo un totale di 36 (ottenuto dal calcolo 16 + (8 x 5/2) = 36). Anche questo tipo di campionamento, il campionamento casuale stratificato con frazioni di campionamento ineguale (stratified random sampling with unequal sampling fractions), fornisce una stima corretta (unbiased estimates) del totale della popolazione.
L’accuratezza di questo nuovo piano di campionamento, calcolato attraverso la varianza delle stime, () = risulta = 48,75.
La deviazione standard () è 6,98
e il coefficiente di variazione (C.V.) C. V. = è il 19,4% del totale vero della popolazione.
E’ un valore di C.V. notevolmente inferiore a quello ottenuto con il campionamento precedente. Questi due differenti risultati dimostrano che con questo secondo metodo si ottiene un risultato nettamente migliore del precedente, con questi dati della popolazione. In generale, il campionamento stratificato è vantaggioso quando la popolazione è formata da gruppi di dati notevolmente differenti, per il carattere preso in esame. Snedecor e Cochran fanno notare che non è necessario che la probabilità di campionamento sia uguale per tutti i membri della popolazione: è sufficiente che queste probabilità siano note.
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |