PROPORZIONI E PERCENTUALI, RISCHI, ODDS E TASSI
5.5. INTERVALLO DI CONFIDENZA DI UNA PROPORZIONE, MEDIANTE LA DISTRIBUZIONE F
Ritornando al metodo di calcolo dell’intervallo di confidenza di p che utilizza la distribuzione normale, è necessario evidenziare che tale metodo perde accuratezza, - sia quando n è piccolo, - sia quando p è vicino a 0 oppure a 1 Ovviamente la perdita di accuratezza è maggiore, quando si verificano entrambe queste condizioni.
Per stime più accurate di quelle che sono permesse dall’uso della distribuzione normale, illustrate nella prima parte del paragrafo precedente, si può ricorrere - alla distribuzione binomiale, il cui intervallo di confidenza è presentato in un paragrafo successivo e tra i test per un campione di statistica non parametrica - alla distribuzione F, che richiede la conoscenza dei gradi di libertà e quindi al numero di osservazioni sulle quali p è calcolato. Già nel 1963 - R. A. Fisher e F. Yates (nel volume Statistical Tables for Biological, Agricultural and Medical Research, 6th ed. Hafner, New York, 146 pp.) avevano evidenziato le relazioni tra distribuzione F e distribuzione binomiale. Per questa stima più accurata rispetto alla distribuzione normale, da utilizzare nei casi estremi per valori di e/o piccolo, è possibile fare uso del metodo riportato da - C. I. Bliss nel 1967 nel testo Statistics in Biology (Vol. 1 McGraw-Hill, New York, 558 pp.) e riproposto più recentemente da - Jerrold H. Zar nel 1999 nel testo Biostatistical Analysis (4th ed. Prentice Hall, New Jersey, 663 pp.).
In un campione di individui, dei quali un numero presentano la caratteristica in oggetto, - i limiti di confidenza (L1 e L2) della proporzione possono essere determinati con le due formule seguenti: - per il limite inferiore L1
dove i df n1 e n2 sono e
- per il limite superiore L2
dove i df ‘n1 e ‘n2 sono e
ESEMPIO 1. Determinare l’intervallo di confidenza al 95% di probabilità della proporzione p, stimata su un campione casuale di 200 individui, dei quali 4 presentano la caratteristica in esame. La domanda potrebbe essere posta anche con un linguaggio differente, più tecnico: - calcolare i limiti dell’intervallo entro il quale si trova la proporzione reale p con probabilità del 95% (oppure con una probabilità a = 0.05).
Risposta. Con n = 200 e X = 4 la proporzione campionaria p di individui con la caratteristica in esame risulta
uguale a 0,02. Per il limite inferiore L1 alla probabilità P = 0.95 dapprima si stimano n1 e n2
che permettono di individuare il valore di F; ma poiché è raro disporre di tabelle della distribuzione F con gdl n1 = 394 si può utilizzare n1 = ¥ (cioè F = 3,67) che se ne discosta per una quantità minima; successivamente con
si ottiene
L1 = 0,0055.
Per il limite superiore L2 , sempre alla probabilità P = 0.95, dapprima si stimano n1 e n2 oppure oppure che permettono di individuare il valore di F; ma ugualmente è raro disporre di tabelle della distribuzione F con gdl n2 = 392. Per n2, le tabelle riportate nei testi solitamente sono più dettagliate, seppure senza il valore esatto qui richiesto; si può quindi adoperare n2 = 300 oppure 400. Poiché per il principio di cautela è preferibile errare stimando un intervallo di confidenza maggiore, è conveniente scegliere F con n2 = 300; successivamente con
si ottiene
L2 = 0,0506. Al 95 % di probabilità, la proporzione reale p si trova tra il limite inferiore 0,0055 e il limite superiore 0,0506. In modo convenzionale, si scrive
Per la proporzione q, l’intervallo di confidenza può essere stimato utilizzando la differenza a 1 ed invertendo L1 e L2. Pertanto, quando p = 0,02 e l’intervallo fiduciale è compreso tra L1 = 0,0055 e L2 = 0,0506 - si ha che la proporzione q = 1 - 0,02 = 0,98 e il suo intervallo fiduciale è compreso tra - L1(di q) = 1 - L2 (di p)= 1- 0,0506 = 0,9494 - L2 (di q) = 1 – L1 (di p) = 1- 0,0055 = 0,9945
In questa stima dell’intervallo di confidenza, come già evidenziato la difficoltà maggiore consiste nel poter disporre di una tabella completa e molto dettagliata dei valori di F, comprendente anche i gradi di libertà grandi sia al numeratore che al denominatore. E' una tavola molto più analitica di quella che solitamente si usa per il suo impiego più frequente nella statistica applicata, il test ANOVA per il confronto tra più medie. Ma ora esistono programmi informatici che li possono generare. Anche per calcolare l'intervallo di confidenza con il test F, è vantaggioso disporre di un programma informatico. Questa presentazione serve solamente per esporre i concetti sui quali è fondata.
Nella ricerca ambientale avviene, forse con frequenza più alta rispetto ad altre discipline, che la popolazione sia formata di un numero limitato di soggetti. I grandi laghi di una provincia, i pozzi che alimentano un acquedotto, le aziende che emettono certi fumi possono essere poche decine. Nella produzione industriale, i prodotti sono inscatolati in lotti, formati a volte da poche centinaia o poche decine di oggetti. Ma, per questione di costi, l’analisi delle caratteristiche di un lotto avviene analizzandone solamente poche decine o poche unità. Per stimare la proporzione di quelli che rispettano i limiti di legge, non è necessario avere una valutazione di tutti. E’ possibile analizzare solo un campione. Ma, trattandosi di un campione estratto da una popolazione finita, la varianza effettiva è minore di quella stimata con le formule precedenti.
I limiti di confidenza della proporzione p - in un campione di dimensione n, - estratto da una popolazione finita di N individui, sono minori di quelli per una proporzione di un campione estratto da una popolazione infinita. Come proposto da H. Burstein nel 1975 (vedi articolo Finite population correction for binomial confidence limits in Journal Amer.Statist. Assoc. vol 70, pp. 67-69) possono essere stimati apportando una correzione alla formula fondata sulla distribuzione binomiale e la distribuzione F. Con l’uso della distribuzione F 1 - per il limite inferiore , - dopo aver calcolato L1 con
si ottiene il valore corretto L1(corretto) con
2 - per il limite superiore, - dopo aver calcolato L2 con
si ottiene il valore corretto L2(corretto) con
dove
ESEMPIO 2. Gli organismi di controllo della qualità dei prodotti, quasi sempre devono verificare un numero di soggetti che non è infinito. Le aziende o gli artigiani che producono rifiuti particolari (quali batterie o gomme) in una provincia, il numero di cassonetti per la raccolta differenziata di carta o erba dei giardini collocati da un'azienda, i negozi di alimentari in un distretto sanitario sono quantità limitate, spesso formato solamente da poche decine. Una verifica raramente è estesa a tutti. Spesso, per limitare i costi o il tempo richiesto, viene campionata una frazione importante, ma compresa fra il 10 e il 20 percento dell’universo considerato. Successivamente, nella presentazione dei risultati, per il confronto tra realtà territoriali differenti o per evidenziare più correttamente l’evoluzione temporale, è utile riportare anche l’intervallo di confidenza della proporzione vera , oltre alla proporzione di casi trovati. Riprendendo l’esempio 1, in cui su un campione di 200 verifiche sono stati trovati 4 casi positivi, si stimi l’intervallo di confidenza alla stessa probabilità del 95%, se la popolazione totale è composta da 750 unità.
Risposta. Con 4 casi positivi su un campione di 200 (X = 4 e n = 200) la proporzione campionaria p
è uguale a 0,02. Alla probabilità del 95% l’intervallo di confidenza per una popolazione infinita è risultato compreso tra - il limite inferiore L1 = 0,0055 - il limite superiore L2 = 0,0506.
Trattandosi di un universo composto da 750 (N) casi, in cui la frazione campionata (n = 200) rappresenta una quota non trascurabile, i valori corretti dell’intervallo di confidenza sono: - per il limite inferiore (dove era uguale a 0,0055) il valore L1(corretto) diventa
uguale a 0,0072;
- per il limite superiore (dove era uguale a 0,0506) il valore L2(corretto) dopo aver stimato
diventa
uguale a 0,0462. Come già evidenziava la formula, con il campionamento in una popolazione finita l’intervallo fiduciale diventa minore, fino ad annullarsi quando n = N.
Il confronto tra i risultati ottenuti con la distribuzione F e quelli con la distribuzione normale Z, effettuato con un campione estratto da una popolazione infinita, nel quale = 200 = 0,02 = 1,96 per = 0.05 evidenzia
un valore p che varia tra - il minimo L1 = 0,0005 - il massimo L2 = 0,0395. Presentano una simmetria rispetto al valore centrale campionario che è errata, in quanto non esiste quando la proporzione è vicino a un suo valore limite (0 e 1).
|
|
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |