PROPORZIONI E PERCENTUALI, RISCHI, ODDS E TASSI
5.4. INTERVALLO DI CONFIDENZA DI UNA FREQUENZA RELATIVA O ASSOLUTA CON LA NORMALE, IN UNA POPOLAZIONE INFINITA O FINITA; METODI GRAFICI PER L’INTERVALLO FIDUCIALE E LA STIMA DEL NUMERO DI DATI.
Per stimare i limiti
di confidenza di una proporzione o frequenza relativa
- l’errore
standard di
Nella ricerca
statistica, qualche volta è nota la proporzione vera o reale,
detta più tecnicamente anche proporzione della popolazione (p). Ad esempio, in
un processo industriale di selezione della frutta per scartare quella troppo
piccola o immatura, può essere nota quale sia la proporzione di scarti di
quella annata almeno a grandi linee. Ma con una macchina o un gruppo di
operai che selezionano
Conoscendo la
proporzione reale p di una popolazione, è possibile stimare la
distribuzione della proporzione campionaria
mediante la relazione
P
Essa significa che, - con una
probabilità di affermare il vero uguale a
- il valore
della proporzione campionaria
- si trova
tra la proporzione vera
Per la probabilità del 95% (a = 0.05) può essere scritta come
P
Gli stessi
concetti sull’intervallo di confidenza della proporzione
dove, in una distribuzione normale bilaterale (quindi a/2 in ogni coda), il valore di Z - per la probabilità del 95% è Z = 1,96 - per la probabilità del 99% è Z = 2,576 (spesso arrotondato nei testi in 2,58).
ESEMPIO 1 (DALLA POPOLAZIONE AL CAMPIONE). Con numerose ricerche è stato dimostrato che un tossico diluito in acqua alla concentrazione standard determina mediamente la morte del 30% degli individui della specie A. Alla probabilità del 95% entro quali limiti sarà compresa la frequenza relativa dei decessi in un esperimento con 80 individui?
Risposta. Con Z = 1,96 associata alla probabilità a = 0.05, con p = 0,3 e n = 80 come risulta dai dati dell’esempio
si ottiene - una
proporzione
- come limite inferiore ha L1 = 0,2 - come limite superiore ha L2 = 0,4.
ESEMPIO 2 (DALLA POPOLAZIONE AL CAMPIONE). Il tossico X determina la morte del 4% delle cavie utilizzate. Entro quali limiti alla probabilità del 99% sarà compresa la percentuale di decessi in un esperimento con 500 individui?
Risposta. Con Z = 2,58 associata alla probabilità bilaterale a = 0.01 e con p = 0,04 e n = 500
per il
valore campionario di frequenza relativa - si stima un intervallo che al 99% di probabilità è compreso tra - il limite inferiore L1 = 0,017 - il limite superiore L2 = 0,063.
Per un uso più immediato, sovente i testi di statistica applicata riportano, in forma grafica oppure in tabelle, il campo di variazione (alla probabilità 1-a prefissata) di una percentuale campionaria p, estratta da una popolazione con percentuale vera p. Un esempio dei valori, indicati come proporzioni, sono quelli della tabella successiva.
Intervallo di variazione di
della popolazione e alla dimensione
alla probabilità del 95 % .
La sua lettura è semplice. Per esempio, estraendo da una popolazione che ha una proporzione p = 0.30 un campione di 20 individui, la percentuale campionaria p con probabilità del 95% è compresa nell’intervallo tra .099 e .501. E’ un intervallo obiettivamente molto grande. Ma deriva dal fatto che una classificazione qualitativa fa perdere molta informazione, rispetto a una misura quantitativa, come utilizzata nel capitolo precedente. Mantenendo costante la probabilità a di un errore di I Tipo, all’aumentare del numero di osservazioni (n) il campo di variazione della stessa percentuale campionaria p si riduce. Continuando l’esempio sempre per p = 0.30 e a = 0.05, - con 50 osservazioni p è compresa tra 0,173 e 0,427; - con 100 osservazioni tra 0,210 e 0,390; - con 200 osservazioni tra 0,236 e 0,364; - con 500 osservazioni tra 0,260 e 340; - con 1000 osservazioni tra 0,272 e 0,328.
La tabella mostra anche che, alla stessa probabilità di affermare il vero del 95% e con lo stesso numero (n) di osservazioni, - il campo di variazione di p è massimo quando p= 0,50 - e minimo verso gli estremi 0 e 1, in modo simmetrico.
Nella tabella, è utile osservare che non sono stati riportati i valori dell’intervallo fiduciale o di confidenza per le proporzioni p vicine a 0 né per quelle vicine a 1, con dimensioni campionarie (n) ridotte. Il motivo è che - quando i campioni sono piccoli e p è vicino agli estremi, - la distribuzione non può essere approssimata alla normale standardizzata. Nella stima
dell’intervallo di confidenza, essa potrebbe fornire estremi L1
e L2 negativi oppure superiori a 1, che sono valori
privi di significato per una proporzione. Questa anomalia deriva dal
fatto che con valori vicino agli estremi, la distribuzione delle probabilità
Molto spesso, negli esperimenti in laboratorio e nella raccolta dei dati in natura, la situazione è opposta a quella appena illustrata: con un esperimento, - è frequente ottenere la stima di una proporzione campionaria p (r/n), - dalla quale si vuole ricavare la stima della frequenza relativa p, chiamata proporzione vera oppure proporzione della popolazione.
Come suggerito da vari autori di testi di statistica, tra i quali W. G. Cochran (vedi del 1977 il testo Sampling Techniques, 3rd ed. John Wiley, New York, 428 pp.), il modo più semplice - per stimare l’intervallo di confidenza di una proporzione campionaria p, - che sia stata calcolata su n dati, - estratti casualmente da una popolazione teoricamente infinita e con proporzione reale p, utilizza la distribuzione normale e la sua deviazione standard:
dove - per la probabilità del 95% (a = 0.95) il valore di Z è 1,96 - per una probabilità del 99% (a = 0.99) il valore di Z è 2,58.
Scritto in modo più formale, P
ESEMPIO 3 (DAL CAMPIONE ALLA POPOLAZIONE). In un campione di 80 fumatori, il 35% ha presentato sintomi di polmonite. Quali sono i limiti entro i quali alla probabilità del 95% e del 99% si troverà la media reale (p) di individui con sintomi di polmonite, nella popolazione dei fumatori?
Risposta. Dopo aver individuato i termini della domanda
si calcola
entro quale intervallo si troverà la proporzione vera
1 – Con probabilità di affermare il vero
del 95% ( la proporzione vera p si troverà tra
- il limite inferiore L1 = 0,2448 - il limite superiore L2 = 0,4552.
2 - Con probabilità di affermare il vero
del 99% ( la proporzione vera p si troverà tra
- il limite inferiore L1 = 0,2115 - il limite superiore L2 = 0,4885.
La probabilità di errore a o di I Tipo che è associata all’intervallo fiduciale di p ha un significato identico a quello della probabilità a per l’intervallo di confidenza della media vera m: - se dalla popolazione si estraessero tutti i possibili campioni e si costruissero tutti i possibili intervalli di confidenza, - una frazione uguale a 1-a comprenderebbe il valore reale di p, - mentre la rimanente frazione a non lo comprenderebbe.
ESEMPIO 4 (DAL CAMPIONE ALLA POPOLAZIONE). Su un campione di 148 individui che vivono in un’area ad alto inquinamento atmosferico, 31 hanno presentato sintomi di malattie dell’apparato respiratorio. Stimare l’intervallo di confidenza della proporzione p, detta proporzione vera o della popolazione, al 95% di probabilità.
Risposta. Per utilizzare la formula appena presentata, il calcolo dell’intervallo, entro il quale si troverà la proporzione reale p con una probabilità del 5% di errare, richiede di conoscere - p = proporzione del campione, che è 31/148 = 0,209 - n = numero di dati del campione, che è 148 - Z per la probabilità a = 0.05 bilaterale, che è 1,96
Da essi, si stima l’intervallo
fiduciale o intervallo di confidenza (confidence
interval) di
- per limite inferiore
è L1 = 0,142 - per limite superiore
è L2 = 0,276.
UN METODO GRAFICO In modo molto più rapido, seppure più approssimato, è possibile ottenere gli stessi risultati sull’intervallo confidenza di p ricorrendo a tabelle, come quella illustrata in precedenza. In altro metodo simile alle tabelle, operativamente più lungo ma concettualmente altrettanto semplice, è l’uso di grafici, come i due riportati nelle pagine seguenti. Tratti dall’articolo di C. J. Clopper e E. S. Pearson del 1934 The Use of Confidence or Fiducial Limits Illustrated in the Case of the Binomial (pubblicate su Biometrika Vol. 26, pp.: 404-413) sono riportati anche nel manuale del Dipartimento di ricerca della Marina militare Americana, pubblicato nel 1960, dal titolo Statistical Manual (by Edwin L. Crow, Frances A. Davis, Margaret W. Maxfield, Research Department U. S: Naval Ordnance Test Station, Dover Pubblications, Inc., New York, XVII + 288 p.).
E’ un metodo che ora è superato dall’uso dei computer, con i quali è possibile una stima sia rapida, sia precisa. Ma è sempre utile una conoscenza dei vari metodi storici, seppure a volte obsoleti, per giustificare in modo più completo la scelta del test. Queste curve
di confidenza delle proporzioni (confidence belts for proportions),
delle quali sono state riportate solamente i grafici di uso più frequente (a = 0.05 e a = 0.01), sono valide
per campioni abbastanza grandi. In questo caso, gli autori del testo
definiscono tale limite quando
L’uso delle curve di confidenza è semplice.
a = 0.05 Strisce di
confidenza per le proporzioni campionarie
a = 0.01 Strisce di
confidenza per le proporzioni campionarie
Calcolata la proporzione
campionaria
e dopo aver scelto il grafico per la probabilità a desiderata, esse servono: 1 - per trovare i limiti
l’intervallo di confidenza di
2 – per valutare
quale sia la dimensione campionaria
Ovviamente si ottengono misure approssimate, - sia per la natura stessa del metodo grafico, - sia per
la natura discreta dei dati originali, i conteggi
L’uso del grafico è illustrato nei due esempi successivi, con la presentazione di due situazioni classiche della ricerca applicata: 1 – (esempio 5)
dopo aver trovato una proporzione
2 –
(esempio 6) stimare quale deve essere la dimensione
ESEMPIO 5 (DAL CAMPIONE ALLA POPOLAZIONE) L’analisi di un campione di 250 sacche di plastica per la conservazione del sangue ha rilevato che, dopo un mese di custodia in frigo, quelle degradate erano esattamente 30, corrispondenti al 12% del campione analizzato. Con una probabilità del 95% di affermare il vero, indicare quale è la proporzione vera di scarti con quel metodo di conservazione.
Risposta. Dopo aver scelto la figura per a = 0,05 - sull’asse
delle ascisse si individua il punto che identifica
- salendo
verticalmente, si incontra la curva per
- la prima in un punto che sull’asse delle ordinate corrisponde alla proporzione p = 0.08, - la seconda in un punto che sull’asse delle ordinate corrisponde alla proporzione p = 0.17. In conclusione, nella popolazione la percentuale di sacche degradate è compreso tra l’8% e il 17%. Questa affermazione ha una probabilità a = 0,05 di essere errata (o del 95% di essere vera). E’ importante
osservare che, a differenza di quanto succede con la distribuzione normale, i
due limiti dell’intervallo di confidenza non sono simmetrici rispetto alla
proporzione
ESEMPIO 6
(STIMARE
Risposta.
Non avendo alcuna idea sul valore che è possibile trovare, per il
principio di cautela occorre mettersi nella condizione meno favorevole.
Con le proporzioni, è quando il campione è
Scelto il grafico
per a = 0.05 e salendo
verticalmente da
- per le
due curve
- per le
due curve
Il primo
intervallo (0,14) è troppo grande, rispetto al valore massimo desiderato di
0,10; quindi un campione di dimensioni
Il secondo
intervallo (0,06) è piccolo, rispetto al valore massimo desiderato di 0,10;
quindi un campione di dimensioni
Si deve ricavare una stima, utilizzando l’interpolazione lineare.
Poiché la dimensione massima individuata
mediante le curve è
Dopo aver valutato che le dimensioni del campione variano tra 250 e 1000, - si calcola che, nell’unità di
misura
- la quantità minore
- per cui la distanza tra i due rapporti è: 3 = 4-1.
Successivamente, per la lunghezza degli intervalli, si stima la distanza: 0,14 - 0,10 = 0,04 - e la distanza 0,14 – 0,06 = 0,08
Dalla relazione lineare
si ricava che il valore
Da questo rapporto si perviene alla stima conclusiva:
Il campione deve avere
In un paragrafo successivo, questa stima è effettuata con l’uso della distribuzione normale. Per una sua presentazione dettagliata si rimanda ad esso. Tuttavia per un confronto dei risultati, con essa
si ottiene una
stima abbastanza simile sulla dimensione del campione richiesto con l’uso
del grafico e l’interpolazione lineare:
Nell’ultima formula, -
Quando a
priori, almeno in modo approssimato, la proporzione
Ad esempio (usando la distribuzione normale), se il tecnico avesse avuto una indicazione esterna, come aver letto su un rapporto oppure aver ricavato da un esperimento preliminare che la quantità di sacche degradate approssimativamente era del 12%, mantenendo costanti Z = 1,96 e d = 0.05 avrebbe ricavato
una stima
FORMULE PER UNA FREQUENZA ASSOLUTA O CONTEGGIO L’intervallo di confidenza può essere calcolato anche per la frequenza assoluta o conteggio, con una formula più complessa di quella utilizzata per la frequenza relativa, ma sulla base di concetti del tutto uguali. E’ sufficiente illustrare la metodologia con un esempio. Riprendendo i dati dell’esempio 5, nell’analisi di un lotto di 250 sacche di plastica per la conservazione del sangue si ipotizzi di voler stimare il numero o frequenza assoluta di quelle che saranno quelle da scartare, in lotti di 250 sacche, sempre alla probabilità a = 0.05 che tale affermazione sia errata. Nel Manuale della Marina Americana, già citato, è proposta la formula
dove -
-
Nel caso di una popolazione finita, come può essere un
lotto di
tale formula diventa
dove, - rispetto al prima formula, la quantità
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |