PROPORZIONI E PERCENTUALI, RISCHI, ODDS E TASSI

5.4. INTERVALLO DI CONFIDENZA DI UNA FREQUENZA RELATIVA O ASSOLUTA CON LA NORMALE, IN UNA POPOLAZIONE INFINITA O FINITA; METODI GRAFICI PER L’INTERVALLO FIDUCIALE E LA STIMA DEL NUMERO DI DATI.

Per stimare i limiti di confidenza di una proporzione o frequenza relativa , la procedura è analoga a quella per la media. La differenza fondamentale deriva dal fatto che dalla media si ricava direttamente l’errore standard: non è necessario calcolarlo su una serie di proporzioni. Con un campione di dimensioni

- l’errore standard di è

Nella ricerca statistica, qualche volta è nota la proporzione vera o reale, detta più tecnicamente anche proporzione della popolazione (p). Ad esempio, in un processo industriale di selezione della frutta per scartare quella troppo piccola o immatura, può essere nota quale sia la proporzione di scarti di quella annata almeno a grandi linee. Ma con una macchina o un gruppo di operai che selezionano oggetti ogni ora, la proporzione oraria di scarti non è sempre uguale.

Conoscendo la proporzione reale p di una popolazione, è possibile stimare la distribuzione della proporzione campionaria , in un gruppo di oggetti,

mediante la relazione

P = 1-a

Essa significa che,

- con una probabilità di affermare il vero uguale a ,

- il valore della proporzione campionaria

- si trova tra la proporzione vera più e meno il valore di Z per l’errore standard di p.

Per la probabilità del 95% (a = 0.05) può essere scritta come

P = 0,95

Gli stessi concetti sull’intervallo di confidenza della proporzione sono definiti più rapidamente con la formula seguente

dove,

in una distribuzione normale bilaterale (quindi a/2 in ogni coda), il valore di Z

- per la probabilità del 95% è Z = 1,96

- per la probabilità del 99% è Z = 2,576 (spesso arrotondato nei testi in 2,58).

ESEMPIO 1 (DALLA POPOLAZIONE AL CAMPIONE). Con numerose ricerche è stato dimostrato che un tossico diluito in acqua alla concentrazione standard determina mediamente la morte del 30% degli individui della specie A.

Alla probabilità del 95% entro quali limiti sarà compresa la frequenza relativa dei decessi in un esperimento con 80 individui?

Risposta. Con Z = 1,96 associata alla probabilità a = 0.05, con p = 0,3 e n = 80 come risulta dai dati dell’esempio

= 0,3 ±1,96× = 0,3 ± 1,96 × 0,051 = 0,3 ± 0,10

si ottiene

- una proporzione di decessi che, con una probabilità del 95%, sarà compreso nell’intervallo che

- come limite inferiore ha L₁ = 0,2

- come limite superiore ha L₂ = 0,4.

ESEMPIO 2 (DALLA POPOLAZIONE AL CAMPIONE). Il tossico X determina la morte del 4% delle cavie utilizzate. Entro quali limiti alla probabilità del 99% sarà compresa la percentuale di decessi in un esperimento con 500 individui?

Risposta. Con Z = 2,58 associata alla probabilità bilaterale a = 0.01 e con p = 0,04 e n = 500

= 0,04 ± 2,58× = 0,04 ± 2,58×0,0088 = 0,04 ± 0,023

per il valore campionario di frequenza relativa

- si stima un intervallo che al 99% di probabilità è compreso tra

- il limite inferiore L₁ = 0,017

- il limite superiore L₂ = 0,063.

Per un uso più immediato, sovente i testi di statistica applicata riportano, in forma grafica oppure in tabelle, il campo di variazione (alla probabilità 1-a prefissata) di una percentuale campionaria p, estratta da una popolazione con percentuale vera p. Un esempio dei valori, indicati come proporzioni, sono quelli della tabella successiva.

Intervallo di variazione di in rapporto alla proporzione p

della popolazione e alla dimensione del campione,

alla probabilità del 95 % .

DIMENSIONI (n) DEL CAMPIONE
p	20	50	100	200	500	1000
0.050	--- ---	--- ---	.007 - .093	.020 - .080	.031 - .069	.036 - .064
0.100	--- ---	.017 - .183	.041 - .159	.058 - .142	.074 - .126	.081 - .119
0.200	.025 - .375	.089 -.311	.122 - .278	.145 - .255	.165 - .235	.175 - .225
0.300	.099 - .501	.173 - .427	.210 -.390	.236 - .364	.260 - .340	.272 - .328
0.400	.185 – 615	.264 - .536	.304 - .496	.332 - .468	.357 - .443	.370 - .430
0.500	.281 – 719	.361 – 639	.402 - .598	.431 – 569	.456 - .544	.469 - .531
0.600	.385 - .815	.464 – 736	.504 - .696	.532 - .668	.557 - .643	.570 - .630
0.700	.499 - .901	.573 – 827	.610 - .790	.636 - .764	.660 – 740	.672 - .728
0.800	.625 - .975	.689 - .911	.722 - .878	.745 - .855	.765 - .835	.775 - .825
0.900	--- ---	.817 – 983	.841 - .959	.858 - .942	.874 - .926	.881 - .919
0.950	--- ---	--- ---	.907 - .993	.920 - .980	.931 - .969	.936 - .964

La sua lettura è semplice.

Per esempio, estraendo da una popolazione che ha una proporzione p = 0.30 un campione di 20 individui, la percentuale campionaria p con probabilità del 95% è compresa nell’intervallo tra .099 e .501. E’ un intervallo obiettivamente molto grande. Ma deriva dal fatto che una classificazione qualitativa fa perdere molta informazione, rispetto a una misura quantitativa, come utilizzata nel capitolo precedente.

Mantenendo costante la probabilità a di un errore di I Tipo, all’aumentare del numero di osservazioni (n) il campo di variazione della stessa percentuale campionaria p si riduce.

Continuando l’esempio sempre per p = 0.30 e a = 0.05,

- con 50 osservazioni p è compresa tra 0,173 e 0,427;

- con 100 osservazioni tra 0,210 e 0,390;

- con 200 osservazioni tra 0,236 e 0,364;

- con 500 osservazioni tra 0,260 e 340;

- con 1000 osservazioni tra 0,272 e 0,328.

La tabella mostra anche che, alla stessa probabilità di affermare il vero del 95% e con lo stesso numero (n) di osservazioni,

- il campo di variazione di p è massimo quando p= 0,50

- e minimo verso gli estremi 0 e 1, in modo simmetrico.

Nella tabella, è utile osservare che non sono stati riportati i valori dell’intervallo fiduciale o di confidenza per le proporzioni p vicine a 0 né per quelle vicine a 1, con dimensioni campionarie (n) ridotte.

Il motivo è che

- quando i campioni sono piccoli e p è vicino agli estremi,

- la distribuzione non può essere approssimata alla normale standardizzata.

Nella stima dell’intervallo di confidenza, essa potrebbe fornire estremi L₁ e L₂ negativi oppure superiori a 1, che sono valori privi di significato per una proporzione. Questa anomalia deriva dal fatto che con valori vicino agli estremi, la distribuzione delle probabilità non è simmetrica. Di conseguenza, si deve ricorrere alla distribuzione binomiale, già illustrata nel Capitolo 2 sulle distribuzioni teoriche e riportata anche in una paragrafo successivo per questo uso specifico.

Molto spesso, negli esperimenti in laboratorio e nella raccolta dei dati in natura, la situazione è opposta a quella appena illustrata: con un esperimento,

- è frequente ottenere la stima di una proporzione campionaria p (r/n),

- dalla quale si vuole ricavare la stima della frequenza relativa p, chiamata proporzione vera oppure proporzione della popolazione.

Come suggerito da vari autori di testi di statistica, tra i quali W. G. Cochran (vedi del 1977 il testo Sampling Techniques, 3^rd ed. John Wiley, New York, 428 pp.), il modo più semplice

- per stimare l’intervallo di confidenza di una proporzione campionaria p,

- che sia stata calcolata su n dati,

- estratti casualmente da una popolazione teoricamente infinita e con proporzione reale p,

utilizza la distribuzione normale e la sua deviazione standard:

dove

- per la probabilità del 95% (a = 0.95) il valore di Z è 1,96

- per una probabilità del 99% (a = 0.99) il valore di Z è 2,58.

Scritto in modo più formale,

P = 1-a

ESEMPIO 3 (DAL CAMPIONE ALLA POPOLAZIONE). In un campione di 80 fumatori, il 35% ha presentato sintomi di polmonite. Quali sono i limiti entro i quali alla probabilità del 95% e del 99% si troverà la media reale (p) di individui con sintomi di polmonite, nella popolazione dei fumatori?

Risposta. Dopo aver individuato i termini della domanda

= 80 bilaterale = 1,96 bilaterale = 2,58

si calcola entro quale intervallo si troverà la proporzione vera .

1 – Con probabilità di affermare il vero del 95% ()

la proporzione vera p si troverà tra

- il limite inferiore L₁ = 0,2448

- il limite superiore L₂ = 0,4552.

2 - Con probabilità di affermare il vero del 99% ()

la proporzione vera p si troverà tra

- il limite inferiore L₁ = 0,2115

- il limite superiore L₂ = 0,4885.

La probabilità di errore a o di I Tipo che è associata all’intervallo fiduciale di p ha un significato identico a quello della probabilità a per l’intervallo di confidenza della media vera m:

- se dalla popolazione si estraessero tutti i possibili campioni e si costruissero tutti i possibili intervalli di confidenza,

- una frazione uguale a 1-a comprenderebbe il valore reale di p,

- mentre la rimanente frazione a non lo comprenderebbe.

ESEMPIO 4 (DAL CAMPIONE ALLA POPOLAZIONE). Su un campione di 148 individui che vivono in un’area ad alto inquinamento atmosferico, 31 hanno presentato sintomi di malattie dell’apparato respiratorio.

Stimare l’intervallo di confidenza della proporzione p, detta proporzione vera o della popolazione, al 95% di probabilità.

Risposta. Per utilizzare la formula appena presentata, il calcolo dell’intervallo, entro il quale si troverà la proporzione reale p con una probabilità del 5% di errare, richiede di conoscere

- p = proporzione del campione, che è 31/148 = 0,209

- n = numero di dati del campione, che è 148

- Z per la probabilità a = 0.05 bilaterale, che è 1,96

Da essi, si stima l’intervallo fiduciale o intervallo di confidenza (confidence interval) di :

- per limite inferiore

è L₁ = 0,142

- per limite superiore

è L₂ = 0,276.

UN METODO GRAFICO

In modo molto più rapido, seppure più approssimato, è possibile ottenere gli stessi risultati sull’intervallo confidenza di p ricorrendo a tabelle, come quella illustrata in precedenza. In altro metodo simile alle tabelle, operativamente più lungo ma concettualmente altrettanto semplice, è l’uso di grafici, come i due riportati nelle pagine seguenti.

Tratti dall’articolo di C. J. Clopper e E. S. Pearson del 1934 The Use of Confidence or Fiducial Limits Illustrated in the Case of the Binomial (pubblicate su Biometrika Vol. 26, pp.: 404-413) sono riportati anche nel manuale del Dipartimento di ricerca della Marina militare Americana, pubblicato nel 1960, dal titolo Statistical Manual (by Edwin L. Crow, Frances A. Davis, Margaret W. Maxfield, Research Department U. S: Naval Ordnance Test Station, Dover Pubblications, Inc., New York, XVII + 288 p.).

E’ un metodo che ora è superato dall’uso dei computer, con i quali è possibile una stima sia rapida, sia precisa. Ma è sempre utile una conoscenza dei vari metodi storici, seppure a volte obsoleti, per giustificare in modo più completo la scelta del test.

Queste curve di confidenza delle proporzioni (confidence belts for proportions), delle quali sono state riportate solamente i grafici di uso più frequente (a = 0.05 e a = 0.01), sono valide per campioni abbastanza grandi. In questo caso, gli autori del testo definiscono tale limite quando > 30.

L’uso delle curve di confidenza è semplice.

a = 0.05

Strisce di confidenza per le proporzioni campionarie

a = 0.01

Strisce di confidenza per le proporzioni campionarie

Calcolata la proporzione campionaria (il cui valore può variare da 0 a 1.0)

e dopo aver scelto il grafico per la probabilità a desiderata, esse servono:

1 - per trovare i limiti l’intervallo di confidenza di , quando sia nota la dimensione campionaria ,

2 – per valutare quale sia la dimensione campionaria , dopo che sia stata scelta l’ampiezza massima possibile dell’intervallo di confidenza.

Ovviamente si ottengono misure approssimate,

- sia per la natura stessa del metodo grafico,

- sia per la natura discreta dei dati originali, i conteggi e la dimensione del campione.

L’uso del grafico è illustrato nei due esempi successivi, con la presentazione di due situazioni classiche della ricerca applicata:

1 – (esempio 5) dopo aver trovato una proporzione con un campione di dimensioni , calcolare l’intervallo di confidenza della proporzione della popolazione, con probabilità di errare;

2 – (esempio 6) stimare quale deve essere la dimensione del campione da raccogliere, per ottenere una proporzione vera con un intervallo fiduciale di ampiezza massima prestabilita, senza avere alcuna idea di quello che sarà il valore della proporzione del campione;

ESEMPIO 5 (DAL CAMPIONE ALLA POPOLAZIONE) L’analisi di un campione di 250 sacche di plastica per la conservazione del sangue ha rilevato che, dopo un mese di custodia in frigo, quelle degradate erano esattamente 30, corrispondenti al 12% del campione analizzato. Con una probabilità del 95% di affermare il vero, indicare quale è la proporzione vera di scarti con quel metodo di conservazione.

Risposta. Dopo aver scelto la figura per a = 0,05

- sull’asse delle ascisse si individua il punto che identifica = 0.12;

- salendo verticalmente, si incontra la curva per = 250 due volte:

- la prima in un punto che sull’asse delle ordinate corrisponde alla proporzione p = 0.08,

- la seconda in un punto che sull’asse delle ordinate corrisponde alla proporzione p = 0.17.

In conclusione, nella popolazione la percentuale di sacche degradate è compreso tra l’8% e il 17%. Questa affermazione ha una probabilità a = 0,05 di essere errata (o del 95% di essere vera).

E’ importante osservare che, a differenza di quanto succede con la distribuzione normale, i due limiti dell’intervallo di confidenza non sono simmetrici rispetto alla proporzione del campione. E’ quindi più rispettosa della forma reale di distribuzione delle probabilità: lontano dal valore centrale = 0,5 l’intervallo di confidenza della proporzione p è sempre più asimmetrica.

ESEMPIO 6 (STIMARE CON IGNOTA E CONFRONTO CON NORMALE). Prima di effettuare il controllo, il responsabile della conservazione del sangue non aveva alcuna idea su quale sarebbe stata la proporzione di sacche degradate, che avrebbe potuto trovare. Ma gli era stata chiesta una misura abbastanza precisa di ; più esattamente che l’intervallo tra il limite inferiore e il limite superiore non superasse il valore di 0,10 con una probabilità del 95% di affermare il vero.

Risposta. Non avendo alcuna idea sul valore che è possibile trovare, per il principio di cautela occorre mettersi nella condizione meno favorevole. Con le proporzioni, è quando il campione è = 0,5 poiché ha la varianza () massima.

Scelto il grafico per a = 0.05 e salendo verticalmente da = 0,5 si trova che,

- per le due curve = 250, l’intervallo massimo è 0,14 (infatti incontra la prima curva per una proporzione della popolazione pari a 43 e la seconda per una proporzione pari a 57);

- per le due curve = 1000, l’intervallo massimo è 0,06 (infatti incontra la prima curva per una proporzione della popolazione pari a 47 e la seconda per una proporzione pari a 53).

Il primo intervallo (0,14) è troppo grande, rispetto al valore massimo desiderato di 0,10; quindi un campione di dimensioni = 250 è troppo piccolo.

Il secondo intervallo (0,06) è piccolo, rispetto al valore massimo desiderato di 0,10; quindi un campione di dimensioni = 1000 è troppo grande.

Si deve ricavare una stima, utilizzando l’interpolazione lineare.

Poiché la dimensione massima individuata mediante le curve è = 1000, l’interpolazione è fatta rispetto a con i seguenti calcoli:

Dopo aver valutato che le dimensioni del campione variano tra 250 e 1000,

- si calcola che, nell’unità di misura ,

- la quantità minore = 250 equivale a 4 e la quantità maggiore = 250 equivale a 1;

- per cui la distanza tra i due rapporti è: 3 = 4-1.

Successivamente, per la lunghezza degli intervalli, si stima la distanza: 0,14 - 0,10 = 0,04

- e la distanza 0,14 – 0,06 = 0,08

		Distanza 4-1	Intervallo Massimo	Distanza 0,14-0,10	Distanza 0,14-0,06
250	4	3	0,14	0,04	0,08
*400*	*2,5*		0,10	0,04
1000	1		0,06

Dalla relazione lineare

si ricava che il valore è uguale a 2,5.

Da questo rapporto si perviene

alla stima conclusiva:

Il campione deve avere = 400 osservazioni.

In un paragrafo successivo, questa stima è effettuata con l’uso della distribuzione normale. Per una sua presentazione dettagliata si rimanda ad esso. Tuttavia per un confronto dei risultati,

con essa

si ottiene una stima abbastanza simile sulla dimensione del campione richiesto con l’uso del grafico e l’interpolazione lineare: = 384,2, arrotondato a 385 unità.

Nell’ultima formula,

- è il valore di Z per il rischio a bilaterale, che la differenza tra p campionario e p reale non sia superiore a d.

Quando a priori, almeno in modo approssimato, la proporzione che presumibilmente verrà rilevata nel campione è nota, la metodologia è del tutto identica a quella appena presentata per una proporzione ignota. Ma (con la sola eccezione del caso in cui = 0,5) si ha una varianza minore e quindi si determina un numero di osservazioni che risulta minore.

Ad esempio (usando la distribuzione normale), se il tecnico avesse avuto una indicazione esterna, come aver letto su un rapporto oppure aver ricavato da un esperimento preliminare che la quantità di sacche degradate approssimativamente era del 12%, mantenendo costanti Z = 1,96 e d = 0.05

avrebbe ricavato

una stima = 163.

FORMULE PER UNA FREQUENZA ASSOLUTA O CONTEGGIO

L’intervallo di confidenza può essere calcolato anche per la frequenza assoluta o conteggio, con una formula più complessa di quella utilizzata per la frequenza relativa, ma sulla base di concetti del tutto uguali.

E’ sufficiente illustrare la metodologia con un esempio.

Riprendendo i dati dell’esempio 5, nell’analisi di un lotto di 250 sacche di plastica per la conservazione del sangue si ipotizzi di voler stimare il numero o frequenza assoluta di quelle che saranno quelle da scartare, in lotti di 250 sacche, sempre alla probabilità a = 0.05 che tale affermazione sia errata.

Nel Manuale della Marina Americana, già citato,

è proposta la formula

dove

- = conteggio o frequenza assoluta di sacche difettose

- = numero di unità che formano il campione.

Nel caso di una popolazione finita, come può essere un lotto di = 600 unità per il quale si disponga solo dell’analisi di un campione di = 250 unità,

tale formula diventa

dove,

- rispetto al prima formula, la quantità è sostituita da