PROPORZIONI  E  PERCENTUALI,  RISCHI,  ODDS  E  TASSI

 

 

5.4.   INTERVALLO DI CONFIDENZA DI UNA FREQUENZA RELATIVA O ASSOLUTA CON LA NORMALE, IN UNA POPOLAZIONE INFINITA O FINITA; METODI GRAFICI PER L’INTERVALLO FIDUCIALE E LA STIMA DEL NUMERO DI DATI.

 

 

Per stimare i limiti di confidenza di una proporzione o frequenza relativa , la procedura è analoga a quella per la media. La differenza fondamentale deriva dal fatto che dalla media  si ricava direttamente l’errore standard: non è necessario calcolarlo su una serie di proporzioni.  Con un campione di dimensioni

- l’errore standard di  è

 

Nella ricerca statistica, qualche volta è nota la proporzione vera o reale, detta più tecnicamente anche proporzione della popolazione (p). Ad esempio, in un processo industriale di selezione della frutta per scartare quella troppo piccola o immatura, può essere nota quale sia la proporzione di scarti di quella annata almeno a grandi linee. Ma con una macchina o un gruppo di operai che selezionano  oggetti ogni ora, la proporzione  oraria di scarti non è sempre uguale.

Conoscendo la proporzione reale p di una popolazione, è possibile stimare la distribuzione della proporzione campionaria , in un gruppo di  oggetti,

mediante la relazione

 

P = 1-a

 

Essa significa che,

-  con una probabilità di affermare il vero uguale a ,

-  il valore della proporzione campionaria

-  si trova tra la proporzione vera  più e meno il valore di Z per l’errore standard di p.

Per la probabilità del 95% (a = 0.05) può essere scritta come

 

P = 0,95

 

Gli stessi concetti sull’intervallo di confidenza della proporzione  sono definiti più rapidamente con la formula seguente

 dove,

 in una distribuzione normale bilaterale (quindi a/2 in ogni coda), il valore di Z

-  per la probabilità del 95%  è  Z =  1,96

-  per la probabilità del 99% è  Z =  2,576 (spesso arrotondato nei testi in 2,58).

 

ESEMPIO 1 (DALLA POPOLAZIONE AL CAMPIONE).   Con numerose ricerche è stato dimostrato che un tossico diluito in acqua alla concentrazione standard determina mediamente la morte del 30% degli individui della specie A.

Alla probabilità del 95% entro quali limiti sarà compresa la frequenza relativa dei decessi in un esperimento con 80 individui?

 

Risposta.  Con  Z = 1,96 associata alla probabilità a = 0.05, con   p = 0,3   e   n = 80  come risulta dai dati dell’esempio

 = 0,3 ±1,96×  =   0,3 ± 1,96 × 0,051  =  0,3 ± 0,10

 si ottiene

-   una proporzione  di decessi che, con una probabilità del 95%, sarà compreso nell’intervallo che

-  come limite inferiore ha L1 = 0,2

-  come limite superiore ha L2 = 0,4.

 

ESEMPIO 2 (DALLA POPOLAZIONE AL CAMPIONE).   Il tossico X determina la morte del 4% delle cavie utilizzate. Entro quali limiti alla probabilità del 99% sarà compresa la percentuale di decessi in un esperimento con 500 individui?


 

Risposta.  Con Z = 2,58 associata alla probabilità bilaterale a = 0.01  e con    p = 0,04    e    n = 500

 

 =  0,04 ± 2,58×  =   0,04 ± 2,58×0,0088 = 0,04 ± 0,023

 

 per il valore campionario di frequenza relativa

-  si stima un intervallo che al 99% di probabilità è compreso tra

-  il limite inferiore L1 =  0,017

-  il limite superiore L2 =  0,063.

 

Per un uso più immediato, sovente i testi di statistica applicata riportano, in forma grafica oppure in tabelle, il campo di variazione (alla probabilità 1-a prefissata) di una percentuale campionaria p, estratta da una popolazione con percentuale vera  p. Un esempio dei valori, indicati come proporzioni, sono quelli della tabella successiva.

 

 

Intervallo di variazione di    in rapporto alla proporzione  p

della popolazione e alla dimensione   del campione,

alla probabilità del 95 % .

 

DIMENSIONI (n) DEL CAMPIONE

p

20

50

100

200

500

1000

 

0.050

---       ---

---       ---

.007 - .093

.020 - .080

.031 - .069

.036 - .064

 

0.100

---       ---

.017 - .183

.041 - .159

.058 - .142

.074 - .126

.081 - .119

 

0.200

.025 - .375

.089 -.311

.122 - .278

.145 - .255

.165 - .235

.175 - .225

 

0.300

.099 - .501

.173 - .427

.210 -.390

.236 - .364

.260 - .340

.272 - .328

 

0.400

.185 – 615

.264 - .536

.304 - .496

.332 - .468

.357 - .443

.370 - .430

 

0.500

.281 – 719

.361 – 639

.402 - .598

.431 – 569

.456 - .544

.469 - .531

 

0.600

.385 - .815

.464 – 736

.504 - .696

.532 - .668

.557 - .643

.570 - .630

 

0.700

.499 - .901

.573 – 827

.610 - .790

.636 - .764

.660 – 740

.672 - .728

 

0.800

.625 - .975

.689 - .911

.722 - .878

.745 - .855

.765 - .835

.775 - .825

 

0.900

---       ---

.817 – 983

.841 - .959

.858 - .942

.874 - .926

.881 - .919

 

0.950

---       ---

---       ---

.907 - .993

.920 - .980

.931 - .969

.936 - .964

 


 

La sua lettura è semplice.

Per esempio, estraendo da una popolazione che ha una proporzione p = 0.30 un campione di 20 individui, la percentuale campionaria p con probabilità del 95% è compresa nell’intervallo tra .099 e .501. E’ un intervallo obiettivamente molto grande. Ma deriva dal fatto che una classificazione qualitativa fa perdere molta informazione, rispetto a una misura quantitativa, come utilizzata nel capitolo precedente.

Mantenendo costante la probabilità a di un errore di I Tipo, all’aumentare del numero di osservazioni (n) il campo di variazione della stessa percentuale campionaria p si riduce.

Continuando l’esempio sempre per p = 0.30  e  a = 0.05,

-   con 50 osservazioni p è compresa tra  0,173  e  0,427;

-   con 100 osservazioni tra  0,210  e  0,390;

-   con 200 osservazioni tra  0,236  e  0,364;

-   con 500 osservazioni tra  0,260  e  340;

-   con 1000 osservazioni tra  0,272  e  0,328.

 

La tabella mostra anche che, alla stessa probabilità di affermare il vero del 95% e con lo stesso numero (n) di osservazioni,

-  il campo di variazione di p è massimo quando p= 0,50 

-  e minimo verso gli estremi 0 e 1, in modo simmetrico.

 

Nella tabella, è utile osservare che non sono stati riportati i valori dell’intervallo fiduciale o di confidenza per le proporzioni p vicine a 0 né per quelle vicine a 1, con dimensioni campionarie (n) ridotte.

Il motivo è che

-  quando i campioni sono piccoli e p è vicino agli estremi,

-  la distribuzione non può essere approssimata alla normale standardizzata.

Nella stima dell’intervallo di confidenza, essa potrebbe fornire estremi L1 e L2 negativi oppure superiori a 1, che sono valori privi di significato per una proporzione. Questa anomalia deriva dal fatto che con valori vicino agli estremi, la distribuzione delle probabilità  non è simmetrica. Di conseguenza, si deve ricorrere alla distribuzione binomiale, già illustrata nel Capitolo 2 sulle distribuzioni teoriche e riportata anche in una paragrafo successivo per questo uso specifico.


 

Molto spesso, negli esperimenti in laboratorio e nella raccolta dei dati in natura, la situazione è opposta a quella appena illustrata: con un esperimento,

-  è frequente ottenere la stima di una proporzione campionaria p (r/n),

-  dalla  quale si vuole ricavare la stima della frequenza relativa p, chiamata proporzione vera oppure proporzione della popolazione.

 

Come suggerito da vari autori di testi di statistica, tra i quali W. G. Cochran (vedi del 1977 il testo Sampling Techniques, 3rd ed. John Wiley, New York, 428 pp.), il modo più semplice

-  per stimare l’intervallo di confidenza di una proporzione campionaria p,

-  che sia stata calcolata su n dati,

-  estratti casualmente da una popolazione teoricamente infinita e con proporzione reale p,

 utilizza la distribuzione normale e la sua deviazione standard:

 

 dove

-   per la probabilità del 95% (a = 0.95) il valore di Z è 1,96 

-   per una probabilità del 99% (a = 0.99) il valore di Z è 2,58.

 

Scritto in modo più formale,

P = 1-a

 

ESEMPIO 3 (DAL CAMPIONE ALLA POPOLAZIONE).   In un campione di 80 fumatori, il 35%  ha presentato sintomi di polmonite. Quali sono i limiti entro i quali alla probabilità del 95% e del 99%  si troverà la media reale (p) di individui con sintomi di polmonite, nella popolazione dei fumatori?

 

Risposta.  Dopo aver individuato i termini della domanda

      = 80       bilaterale = 1,96       bilaterale = 2,58

 si calcola entro quale intervallo si troverà la proporzione vera .

1 – Con probabilità di affermare il vero del 95% ()

 la proporzione vera p si troverà tra


 

-  il limite inferiore L1 = 0,2448

-  il limite superiore L2 = 0,4552.

 

2 - Con probabilità di affermare il vero del 99% ()

la proporzione vera p si troverà tra

 

 

-  il limite inferiore L1 = 0,2115

-  il limite superiore L2 = 0,4885.

 

La probabilità di errore a o di I Tipo che è associata all’intervallo fiduciale di p ha un significato identico a quello della probabilità a per l’intervallo di confidenza della media vera m:

- se dalla popolazione si estraessero tutti i possibili campioni e si costruissero tutti i possibili intervalli di confidenza,

- una frazione uguale a 1-a comprenderebbe il valore reale di p,

- mentre la rimanente frazione a non lo comprenderebbe.

 

ESEMPIO 4 (DAL CAMPIONE ALLA POPOLAZIONE).   Su un campione di 148 individui che vivono in un’area ad alto inquinamento atmosferico, 31 hanno presentato sintomi di malattie dell’apparato respiratorio.

Stimare l’intervallo di confidenza della proporzione p, detta proporzione vera o della popolazione, al 95% di probabilità.

 

Risposta.  Per utilizzare la formula appena presentata, il calcolo dell’intervallo, entro il quale si troverà la proporzione reale p con una probabilità del 5% di errare, richiede di conoscere

-  p  =  proporzione del campione, che è 31/148 = 0,209

-  n  =  numero di dati del campione, che è 148

-  Z per la probabilità a = 0.05 bilaterale, che è 1,96

 

Da essi, si stima l’intervallo fiduciale  o intervallo di confidenza (confidence interval) di :

-  per limite inferiore

 

  è L1 =  0,142

-  per limite superiore

 

  è L2 =  0,276.

 

 

UN METODO GRAFICO

In modo molto più rapido, seppure più approssimato, è possibile ottenere gli stessi risultati sull’intervallo confidenza di p ricorrendo a tabelle, come quella illustrata in precedenza. In altro metodo simile alle tabelle, operativamente più lungo ma concettualmente altrettanto semplice, è l’uso di grafici, come i due riportati nelle pagine seguenti.

Tratti dall’articolo di C. J. Clopper e E. S. Pearson del 1934 The Use of Confidence or Fiducial Limits Illustrated in the Case of the Binomial (pubblicate su Biometrika Vol. 26, pp.: 404-413) sono riportati anche nel manuale del Dipartimento di ricerca della Marina militare Americana, pubblicato nel 1960, dal titolo Statistical Manual (by Edwin L. Crow, Frances A. Davis, Margaret W. Maxfield, Research Department U. S: Naval Ordnance Test Station, Dover Pubblications, Inc., New York, XVII + 288 p.).

 

E’ un metodo che ora è superato dall’uso dei computer, con i quali è possibile una stima sia rapida, sia precisa. Ma è sempre utile una conoscenza dei vari metodi storici, seppure a volte obsoleti, per giustificare in modo più completo la scelta del test.

Queste curve di confidenza delle proporzioni (confidence belts for proportions), delle quali sono state riportate solamente i grafici di uso più frequente (a = 0.05 e a = 0.01), sono valide per campioni abbastanza grandi. In questo caso, gli autori del testo definiscono tale limite quando  > 30.

 

L’uso delle curve di confidenza è semplice.


 


a = 0.05

Strisce di confidenza per le proporzioni campionarie

 


 

a = 0.01

Strisce di confidenza per le proporzioni campionarie


 

Calcolata la proporzione campionaria   (il cui valore può variare da 0 a 1.0)

e dopo aver scelto il grafico per la probabilità a desiderata, esse servono:

1 -  per trovare i limiti l’intervallo di confidenza di , quando sia nota la dimensione campionaria ,

2 – per valutare quale sia la dimensione campionaria , dopo che sia stata scelta l’ampiezza massima possibile dell’intervallo di confidenza.

 

Ovviamente si ottengono misure approssimate,

-  sia per la natura stessa del metodo grafico,

-  sia per la natura discreta dei dati originali, i conteggi  e la dimensione  del campione.

 

L’uso del grafico è illustrato nei due esempi successivi, con la presentazione di due situazioni classiche della ricerca applicata:

1 – (esempio 5) dopo aver trovato una proporzione  con un campione di dimensioni , calcolare l’intervallo di confidenza della proporzione  della popolazione, con probabilità  di errare;

 

2 –  (esempio 6) stimare quale deve essere la dimensione  del campione da raccogliere, per ottenere una proporzione vera  con un intervallo fiduciale di ampiezza massima prestabilita, senza avere alcuna idea di quello che sarà il valore  della proporzione  del campione;

 

ESEMPIO 5  (DAL CAMPIONE ALLA POPOLAZIONE)  L’analisi di un campione di 250 sacche di plastica per la conservazione del sangue ha rilevato che, dopo un mese di custodia in frigo, quelle degradate erano esattamente 30, corrispondenti al 12% del campione analizzato. Con una probabilità del 95% di affermare il vero, indicare quale è la proporzione vera di scarti con quel metodo di conservazione.

 

Risposta. Dopo aver scelto la figura per a = 0,05

-  sull’asse delle ascisse si individua il punto che identifica  = 0.12;

- salendo verticalmente, si incontra la curva per  = 250 due volte:

- la prima in un punto che sull’asse delle ordinate corrisponde alla proporzione  p = 0.08,

- la seconda in un punto che sull’asse delle ordinate corrisponde alla proporzione  p = 0.17.

In conclusione, nella popolazione la percentuale di sacche degradate è compreso tra l’8% e il 17%. Questa affermazione ha una probabilità  a = 0,05 di essere errata (o del 95% di essere vera).

E’ importante osservare che, a differenza di quanto succede con la distribuzione normale, i due limiti dell’intervallo di confidenza non sono simmetrici rispetto alla proporzione  del campione. E’ quindi più rispettosa della forma reale di distribuzione delle probabilità: lontano dal valore centrale  = 0,5 l’intervallo di confidenza della proporzione p è sempre più asimmetrica.

 

ESEMPIO 6 (STIMARE  CON  IGNOTA E CONFRONTO CON NORMALE).   Prima di effettuare il controllo, il responsabile della conservazione del sangue non aveva alcuna idea su quale sarebbe stata la proporzione  di sacche degradate, che avrebbe potuto trovare. Ma gli era stata chiesta una misura abbastanza precisa di ; più esattamente che l’intervallo tra il limite inferiore e il limite superiore non superasse il valore di 0,10 con una probabilità del 95% di affermare il vero.

 

Risposta.  Non avendo alcuna idea sul valore che è possibile trovare, per il principio di cautela occorre mettersi nella condizione meno favorevole. Con le proporzioni, è quando il campione è  = 0,5 poiché ha la varianza () massima.

Scelto il grafico per a = 0.05 e salendo verticalmente da   = 0,5 si trova che,

-  per le due curve  = 250, l’intervallo massimo è 0,14 (infatti incontra la prima curva per una proporzione della popolazione pari a 43 e la seconda per una proporzione pari a 57);

-  per le due curve  = 1000, l’intervallo massimo è 0,06 (infatti incontra la prima curva per una proporzione della popolazione pari a 47 e la seconda per una proporzione pari a 53).

Il primo intervallo (0,14) è troppo grande, rispetto al valore massimo desiderato di 0,10; quindi un campione di dimensioni  = 250 è troppo piccolo.

Il secondo intervallo (0,06) è piccolo, rispetto al valore massimo desiderato di 0,10; quindi un campione di dimensioni  = 1000 è troppo grande.

Si deve ricavare una stima, utilizzando l’interpolazione lineare.

 

Poiché la dimensione massima individuata mediante le curve è  = 1000, l’interpolazione è fatta rispetto a  con i seguenti calcoli:

Dopo aver valutato che le dimensioni del campione variano tra 250 e 1000,

-  si calcola che, nell’unità di misura ,

- la quantità minore   = 250 equivale a 4 e la quantità maggiore   = 250 equivale a 1;

- per cui la distanza tra i due rapporti è:  3 = 4-1.

 

Successivamente, per la lunghezza degli intervalli, si stima la distanza:  0,14 - 0,10 = 0,04

- e la distanza 0,14 – 0,06 = 0,08

 

 

 

 

 

Distanza 4-1

Intervallo

Massimo

Distanza

0,14-0,10

Distanza

0,14-0,06

250

4

 

3

0,14

0,04

 

0,08

400

2,5

0,10

1000

1

0,06

 

 

 

Dalla relazione lineare

 si ricava che il valore  è uguale a 2,5.

Da questo rapporto si perviene

 alla stima conclusiva:

 Il campione deve avere  = 400 osservazioni.

 

In un paragrafo successivo, questa stima è effettuata con l’uso della distribuzione normale. Per una sua presentazione dettagliata si rimanda ad esso. Tuttavia per un confronto dei risultati,

con essa

 

si ottiene una stima abbastanza simile sulla dimensione del campione richiesto con l’uso del grafico e l’interpolazione lineare:  = 384,2, arrotondato a 385 unità.

Nell’ultima formula,

 è il valore di Z per il rischio a bilaterale, che la differenza tra p campionario e p reale non sia superiore a d.

 

Quando a priori, almeno in modo approssimato, la proporzione  che presumibilmente verrà rilevata nel campione è nota, la metodologia è del tutto identica a quella appena presentata per una proporzione  ignota. Ma (con la sola eccezione del caso in cui = 0,5) si ha una varianza minore e quindi si determina un numero  di osservazioni che risulta minore.

Ad esempio (usando la distribuzione normale), se il tecnico avesse avuto una indicazione esterna, come aver letto su un rapporto oppure aver ricavato da un esperimento preliminare che la quantità di sacche degradate approssimativamente era del 12%, mantenendo costanti  Z = 1,96  e  d = 0.05

 avrebbe ricavato

 una stima  = 163.

 

FORMULE PER  UNA FREQUENZA ASSOLUTA O CONTEGGIO

L’intervallo di confidenza può essere calcolato anche per la frequenza assoluta o conteggio, con una formula più complessa di quella utilizzata per la frequenza relativa, ma sulla base di concetti del tutto uguali.

E’ sufficiente illustrare la metodologia con un esempio.

Riprendendo i dati dell’esempio 5, nell’analisi di un lotto di 250 sacche di plastica per la conservazione del sangue si ipotizzi di voler stimare il numero  o frequenza assoluta di quelle che saranno quelle da scartare, in lotti di 250 sacche, sempre alla probabilità a = 0.05 che tale affermazione sia errata.

Nel Manuale della Marina Americana, già citato,

 è proposta la formula

 dove

 = conteggio o frequenza assoluta di sacche difettose

 = numero di unità che formano il campione.

Nel caso di una popolazione finita, come può essere un lotto di  = 600 unità per il quale si disponga solo dell’analisi di un campione di  = 250 unità,

 tale formula diventa

 

 dove,

- rispetto al prima formula, la quantità  è sostituita da  

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007