PROPORZIONI E PERCENTUALI, RISCHI, ODDS E TASSI
5.3. PERCHE’ LA VARIANZA DI P E’ PQ E SUE CONSEGUENZE; VARIANZA E ERRORE STANDARD DI UNA FREQUENZA RELATIVA O ASSOLUTA, IN UNA POPOLAZIONE INFINITA E FINITA
Dopo la presentazione di alcuni termini del linguaggio tecnico, per l’analisi statistica di una proporzione è necessario riprendere i concetti presentati nella distribuzione binomiale. Nei fenomeni binari, quindi con risposte Si-No, Vivo-Morto, che per l’analisi statistica sono tradotti in numeri con 1 – 0, in una popolazione di N individui nella quale X presentano la caratteristica A (indicata con 1), per essa la proporzione p nella popolazione è
Quando da questa
popolazione si estrae un campione di dimensione
la proporzione campionaria p è
e la proporzione q della caratteristica alternativa B (indicata con 0) è
All’infuori dei
due casi estremi, in cui
- se dalla
popolazione si estraggono casualmente vari campioni di dimensione
- si hanno
altrettante stime campionarie
La proporzione
La sua varianza è la varianza di una media e può essere ricavata rapidamente con le due formule abbreviate seguenti: - per la
popolazione di
- per un
campione di
Quando
Per comprendere in modo semplice che queste formule sono equivalenti a quelle classiche per il calcolo della varianza, è utile una dimostrazione elementare. Si supponga di avere somministrato un tossico ad un gruppo di 20 cavie e che tra esse 5 abbiano presentato sintomi di intossicazione. La proporzione di individui intossicati
è
e con la formula abbreviata la sua varianza
è
(sono utilizzati più decimali, solo per dimostrare empiricamente l'uguaglianza dei due risultati).
Se a ognuno dei 5 soggetti intossicati si attribuisce convenzionalmente valore 1 e a ognuno degli altri 15 non intossicati valore 0, - la media
è uguale a 0,25 - la sua devianza SQ
è uguale a 3,75 - e, da questa, la sua varianza
è uguale a 0,197368. Ma questa è la varianza dei dati (0 e 1), mentre nel caso della proporzione p la varianza prima calcolata con la formula abbreviata è riferita alla media. Poiché la deviazione standard della media (quindi l'errore standard), è
e la varianza di una media
con i dati del problema, si ottiene che la varianza della proporzione media p
è
Il risultato ( Evidenziando nuovamente i concetti principali, questo risultato mostra che - la varianza
è la varianza di una media p. Nello stesso modo, - la sua deviazione standard (
in realtà è l'errore standard di p e misura la
dispersione delle medie
Questi stessi concetti sono dimostrati in modo più scolastico, con una serie di passaggi logici e matematici da George W. Snedecor e William G. Cochran nel loro testo del 1974 Statistical Methods (6th ed., The Iowa State University Press, Ames, Iowa, XIV + 593, vedi pag. 208).
La loro successione può essere schematizzata in 6 punti, riportati nelle colonne. 1) In una scala a intervalli o di rapporti la misura è continua e viene indicata con X; in una classificazione binaria in cui si misura la assenza - presenza del fattore, i valori possono essere tradotti in numeri con 0 e 1.
2)
Raggruppando i dati per gli stessi valori, la frequenza relativa per la
variabile continua
3) La
media
Quindi la prima
conclusione è che
4) Per calcolare
la varianza, si deve partire dagli scarti: per la variabile continua sono
5) Questi valori devono essere elevati al quadrato, ottenendo rispettivamente - per la variabile continua
- per la variabile binaria
6)
Considerato che
E’ la seconda conclusione, che si voleva dimostrare.
La varianza
della popolazione e quella campionaria della proporzione q
(con
sono identiche a quelle di p
Ne deriva che anche la deviazione standard di una proporzione p o q,
è totalmente determinata dal suo valore medio. I calcoli sono semplici:
In una rappresentazione grafica, la corrispondenza risulta visivamente molto chiara. Se in un diagramma cartesiano si riportano - la media p sull’asse delle ascisse - la sua
deviazione standard s =
è evidente
il loro rapporto in campioni costanti di dimensioni
Questa relazione
pone problemi rilevanti, quando alle proporzioni o percentuali sono applicati
test parametrici per il confronto tra le medie quali
- i vari gruppi a confronto devono avere la stessa varianza, anche quando le loro medie sono differenti. Per confrontare la significatività della differenza tra medie diverse, si dovrà quindi - nella statistica parametrica, ricorrere a trasformazioni dei dati, come quella in arcoseno; - in altri casi, che saranno discussi in seguito, sarà più conveniente utilizzare test non parametrici;
Più recentemente, diffusi in particolare dai programmi informatici, ma spesso criticati nella letteratura statistica, sono proposti test t tra due medie e test ANOVA tra due o più medie, che possono essere utilizzati anche quando le varianze sono differenti, sulla base della proposta di Beherens-Fisher.
Un’altra conseguenza molto importante di questa relazione nelle proporzioni o frequenze relative -
tra la media
-
e la sua varianza
che nel caso di conteggi o frequenze assolute diventa la relazione -
tra la media
-
e la sua varianza
è che non è necessario avere misure ripetute per calcolare la varianza di un campione, ma è sufficiente conoscere la sua media.
CORREZIONE PER UNA POPOLAZIONE FINITA Già diffusa da W. G. Cochran nel 1977 nel volume Sampling Techniques (3rd ed., John Wiley, New York, p. 428) e, fra i testi internazionali di statistica applicata a maggior diffusione, riportata da Jerrold H. Zar nel volume del 1999 Biostatistical Analysis (4th ed., Prentice Hall, Upper Saddle River, New Jersey, XII + 663 p. + App. 212 ) - quando la proporzione è stimata con un campione, che è una parte non trascurabile della popolazione intera, la varianza deve essere corretta utilizzando 1 - per la frequenza relativa p - la varianza
- l’errore standard
2 – per la frequenza assoluta F con
- la varianza
- l’errore standard
dove -
-
Il concetto è semplice: -
Se si calcola una proporzione
- utilizzando tutti gli elementi di una popolazione finita (quindi p), - non esiste l’errore di campionamento. Ad
esempio, se una popolazione è composta solo di
La
varianza della proporzione
Ma
se, per stimare la proporzione
Nella formule precedenti, -
-
Dalle
formule precedenti è ovvio dedurre che, quando
- la varianza e l’errore standard diventano uguali a 0, - sia nella frequenza relativa che nella frequenza assoluta.
ESEMPIO 1. In una popolazione di 350 pazienti sottoposti a una operazione all'anca presso la stessa clinica, si vuole valutare dopo 6 mesi dall'operazione quale è la proporzione di individui che presentano ancora difficoltà di deambulazione. Dato il costo dell’indagine, è stato utilizzato un campione più ridotto. Dall’elenco completo, sono stati estratti casualmente 160 individui e sottoposti a controllo; tra essi 28 presentavano ancora difficoltà. Calcolare la varianza e l’errore standard - (a) della proporzione
- (b) della frequenza
assoluta
Risposta. Prima di tutto,
con
ottenendo
Con i dati dell’esperimento, si stima che nella popolazione di 350 pazienti - la frequenza
relativa di persone ancora non guarite è
- la frequenza
assoluta di persone ancora non guarite è
Sono stime; quindi hanno un errore o meglio una variabilità, che dipende da chi erano i 160 individui controllati.
A) Per la frequenza
relativa stimata
- la varianza è
- l’errore standard è
(B) Per la frequenza
assoluta stimata
- la varianza è
- l’errore standard è
Nel caso di conteggi e proporzioni, la
distribuzione
normale è un approssimazione asintotica (per
-
della distribuzione
binomiale, quando
- della distribuzione
poissoniana, quando
-
della distribuzione
ipergeometrica che, come in questo caso, si applica
a una popolazione di dimensione
|
|||||||||||||||||||||||||||||||||||||||||
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |