PROPORZIONI E PERCENTUALI, RISCHI, ODDS E TASSI

5.6. CALCOLO DEL CAMPIONE MINIMO NECESSARIO, PER LA STIMA DI UNA PROPORZIONE CAMPIONARIA CON UN ERRORE MASSIMO PREFISSATO

Quando p e q sono non troppo vicini a 0 oppure a 1, è possibile utilizzare la distribuzione normale anche per calcolare il numero n di osservazioni, che è necessario per ottenere una stima p (quindi anche q) con un errore inferiore alla quantità d prefissata.

A tale scopo, W. G. Cochran (nel testo già citato del 1977 Sampling Techniques, 3^rd ed. John Wiley, New York, 428 pp.) propone

dove

- è il valore di Z per il rischio a bilaterale; in altri termini, è la probabilità che la differenza tra p campionario e p reale sia superiore alla quantità d prefissata.

Quando, ovviamente in una popolazione finita di dimensione N, il numero n del campione ne rappresenta una frazione non trascurabile, si può pervenire ad una stima corretta n’,

con

ESEMPIO 1. Nella popolazione, la proporzione di individui affetti da allergie è p = 0,12. La presenza di sostanze inquinanti aumenta tale proporzione. Quanti individui occorre analizzare, per ottenere una stima di p che abbia un errore massimo di 0,06 con un rischio di sbagliare a = 0.05?

Risposta. Con

p = 0,12 (quindi q = 0,88) d = 0,06 Z = 1,96 per a = 0.05 bilaterale

è richiesto

un campione di almeno = 113 persone (ovviamente arrotondato all'unità superiore per il principio di cautela).

Nell’utilizzo di queste formule per il calcolo di , occorrono almeno quattro avvertenze.

1 - Il valore d, cioè l’errore massimo accettabile, deve essere espresso in proporzione come il valore della media . La quantità d non è l’errore in percentuale della media, ma la differenza massima che può esistere in ognuna delle due code. Vale a dire che

- se = 0,25 e = 0,06

si indica che il valore reale alla probabilità a deve essere compreso tra

- il limite inferiore L₁= 0,19 (0,25 - 0,006)

- il limite superiore L₂ = 0,31 (0,25 + 0,06).

2 - Un altro aspetto importante del valore d da tenere in considerazione è il suo effetto sulla dimensione del campione. Poiché al denominatore si ha ,

- un dimezzamento dell’errore d massimo accettato

- comporta che le dimensioni del campione siano moltiplicate per 4.

Ad esempio

con d = 0,03 al posto di d = 0,06 precedente

si ricava = 451.

Quindi attenzione a non diminuire eccessivamente il valore d, poiché la quantità aumenta in modo eccessivo. La quantità d, come già illustrato nel capitolo precedente per le scale a intervalli o di rapporti, dovrebbe essere scelta sulla base dei suoi effetti biologici o ambientali.

3 - Il valore d tuttavia è legata al valore Infatti può avere senso un errore di più o meno 0,06 quando la proporzione media è = 0,25, ma non quando la media è = 0,04. In questo ultimo caso, ovviamente si deve diminuire l'errore massimo accettabile d.

Diminuire d quando diventa piccolo ha un effetto minore sulla crescita il numero minimo di dati . Infatti abbassando diminuisce anche la varianza .

Ad esempio

con d = 0,02 e p = 0,04

si ricava = 369.

Gli effetti sono simmetrici, per cui il discorso è ugualmente valido per la proporzione p = 0,96.

4 – Ha un peso non trascurabile, seppure inferiore, anche la scelta dell’errore . Quando è molto basso, ha ricadute non trascurabili sui costi dell’esperimento. Con gli stessi dati dell’esempio 1, ma con = 0.01 al posto di = 0.05 e quindi

con Z = 2,576

si ricava = 194,6 invece delle 112,7 unità precedenti: è un aumento del 73%.

ESEMPIO 2. In piccolo centro abitato nel quale vivono 450 persone adulte, è presente un’azienda che scarica fumi ritenuti tossici. Nella popolazione, la proporzione di individui affetti da allergie è p = 0,12. La presenza di sostanze inquinanti aumenta tale proporzione. Quanti individui occorre analizzare, per ottenere una stima di p che abbia un errore massimo di 0,06 con un rischio di sbagliare a = 0.05?

Nel caso di una popolazione infinita, si era stimato n = 113. Nel caso di una popolazione con N = 450, quanti individui occorrerà sottoporre a visita di controllo?

Risposta. Con n = 113 e N = 450, il numero minimo di individui da sottoporre a visita per mantenere gli stessi parametri dell’esempio precedente

n’ = 91.

Il numero di individui da controllare è minore: scende da 113 a 91.

Nella prassi della ricerca, è frequente il caso in cui a priori non è possibile indicare il valore di p, neppure in modo approssimato. Quando si analizzano gli effetti di una nuova sostanza tossica, somministrata in dose elevata a cavie, non sempre è possibile stimare quale sarà la proporzione p di individui che risulteranno positivi, neppure in modo largamente approssimato: potrebbe essere solamente p = 0,03 ma anche p = 0,41.

Anche in questa condizione, è possibile stimare il numero n di dati minimo per misurare p con un errore che non superi la quantità d prefissata alla probabilità a. Ma occorre porsi nella situazione sperimentale peggiore, cioè quella con la varianza massima.

Poiché la varianza è massima quando p = 0,5

la formula precedente

diventa

Essa può essere semplificata in

Anche in questo caso, se la popolazione è finita e n è una quota non trascurabile di N, si può pervenire ad una stima corretta n’,

utilizzando la formula già presentata:

ESEMPIO 3. Riprendendo i dati dell’esempio 1, quanti individui occorre analizzare per ottenere con un rischio di sbagliare a = 0.05 una stima campionaria della proporzione p di individui affetti da allergie, che abbia una differenza massima d = 0,06 rispetto al valore ignoto della popolazione?

Risposta. Nell’ipotesi peggiore per le dimensioni del campione e quindi

- con p = 0,5

- per una differenza massima d = 0,06

- e alla probabilità a = 0.05 bilaterale quindi con Z = 1,96

è richiesto

un campione di almeno 267 persone.

Nell’esempio 1 (con p = 0,12), si era stimato = 113.

ESEMPIO 4. Se la popolazione complessiva N è di 450 individui e il campione stimato n = 267, quante persone occorrerà sottoporre a visita di controllo?

Risposta. Con n = 267 e N = 450, il numero minimo di individui da sottoporre a visita

n’ = 168.

Nell’esempio 2 (con p = 0,12), si era ottenuto = 91.

Le due ultime conclusioni sono due dimostrazioni empiriche dell’importanza e della convenienza di analizzare seriamente il problema, prima di effettuare un campionamento. Avere un’idea su quale sarà la proporzione campionaria che presumibilmente verrà calcolata, permette un risparmio non trascurabile in tempo e denaro.

Nella ricerca applicata, è quanto si richiede quasi sempre a uno statistico professionale. Da alcuni anni, con una sempre maggiore richiesta di cultura statistica, per ogni progetto serio di ricerca si richiede sempre che venga espressa la dimensione del campione da raccogliere, per rispettare i parametri fissati. Un errore in queste ipotesi può determinare conseguenze gravi, tali da annullare buona parte della validità della ricerca. E’ semplice dedurre che, per esempio, se si ipotizza una proporzione p = 0,12 e poi nell’esperimento a posteriori si trova p = 0,47 la stima della proporzione reale p avrà un errore a o un intervallo d maggiori di quanto richiesto nella ricerca.

L’impostazione di una ricerca richiede anche una competenza elevata nel settore, non solamente buone conoscenze statistiche.