PROPORZIONI  E  PERCENTUALI,  RISCHI,  ODDS  E  TASSI

 

 

5.9.  TEST PER UNA PROPORZIONE: LA BINOMIALE PER CAMPIONI PICCOLI E L'INTERVALLO DI CONFIDENZA CON F PER CAMPIONI GRANDI.

 

 

Calcolata una proporzione sperimentale , si pone il problema di

-  verificare se essa si discosta significativamente da una proporzione teorica od attesa p0,

- ricorrendo a un test bilaterale oppure unilaterale.

 Ma quando il campione è piccolo,

 cioè quando

 

 secondo alcuni autori di testi di statistica non si possono utilizzare le metodologie precedenti fondate su distribuzioni continue, neppure con la correzione, ma

-  si deve si ricorrere alla distribuzione binomiale, che è discreta.

 

La distribuzione binomiale, che si deve utilizzare appunto

quando  è grande e  è piccolo,

 è già stata illustrata nel capitolo II dedicato alle distribuzioni teoriche più importanti per le applicazioni della statistica nella ricerca biologica e ambientale.

E' da ricorda tuttavia che, sotto l'aspetto teorico, i metodi per le proporzioni  e  di due campioni indipendenti quali


 

-  il test chi-quadrato, il metodo esatto di Fisher e il metodo G, si rifanno alla distribuzione poissoniana,  che è

- valida quando  è piccolo e  è grande.

 

In questo paragrafo, l’ulteriore esposizione è limitata a un esempio sull'utilizzo della distribuzione binomiale, per un test sulla significatività di una proporzione campionaria .

 

 

ESEMPIO 1 (TEST UNILATERALE CON LA BINOMIALE, PER UN CAMPIONE PICCOLO). In un’area altamente inquinata, esattamente il 50% dei numerosi campioni prelevati nei corsi d’acqua superava i limiti di legge.

Dopo un’azione di risanamento, è stata condotta una prima verifica con un campione molto piccolo: su 12 prelievi, effettuati in zone scelte con estrazione casuale, solo 2 superano i limiti di legge.

Con questi pochi dati, si può affermare che la proporzione di aree inquinate si è abbassata in modo significativo?

 

Risposta.   In termini più formali, indicando con

p0 = 0,5 la proporzione reale del primo periodo,

p = la proporzione reale della nuova situazione, per la quale si ha solo il campione di 12 dati categoriali (classificati in due gruppi, in funzione del fatto che il valore rilevato è superiore o inferiore ai limiti di legge) con p = 2 / 12 = 0,167

 il problema richiede di verificare  l’ipotesi nulla H0: p ³ p0

 contro l’ipotesi alternativa unilaterale    H1: p < p0

 

A questo scopo, attraverso la distribuzione binomiale

 dove  varia da 0 a 12,  si deve

 

1 - stimare

-  la probabilità complessiva di trovare solo 2 casi positivi su 12

- oppure una situazione ancora più estrema (un solo caso positivo e zero casi positivi),

  nella condizione che l’ipotesi nulla sia vera (quindi, con i dati del problema, p = 0.5 in quanto è il valore di p0).

Nella formula della distribuzione binomiale appena citata, variando  da 0 a 12, si ottiene la seguente serie di probabilità:

 

 

Risposte positive (i)

P(i)

0

0,00024

1

0,00293

2

0,01611

3

0,05371

4

0,12085

5

0,19336

6

0,22559

7

0,19336

8

0,12085

9

0,05371

10

0,01611

11

0,00293

12

0,00024

 

 

2 – Successivamente, di devono sommare le tre probabilità relative ai tre valori minori di , ottenendo

 

P0

P1

P2

Totale

0,00024

0,00293

0,01611

0,01928

 

 una probabilità complessiva P = 0,01928.

Il valore totale rappresenta la probabilità complessiva di

- trovare per caso due campioni positivi o un solo campione oppure nessun campione positivo,

- nella ipotesi che la proporzione reale di p (cioè p) sia uguale a 0,5.

 

3 - Poiché la probabilità P di questo evento è piccola (in percentuale, esattamente P = 1,928%), si può rifiutare l’ipotesi nulla, accettando implicitamente l’ipotesi alternativa.

In conclusione, la nuova proporzione p di zone con inquinamento superiore ai limiti di legge è significativamente minore del precedente p0 = 0,5.

 

Se l’ipotesi alternativa fosse stata bilaterale (vale a dire chiedersi se esiste differenza tra la situazione attuale e quella precedente, senza sapere se è migliorata o peggiorata),

- alla probabilità calcolata in una coda della distribuzione

-  si sarebbe dovuto sommare la probabilità nell’altra coda.

Trattandosi di una distribuzione simmetrica, come evidenzia la tabella precedente che riporta tutte le 13 probabilità esatte, la probabilità complessiva sarebbe stata esattamente il doppio (3,856%).

Anche in questo caso si sarebbe pervenuti al rifiuto dell’ipotesi nulla, con una significatività a < 0.05.

 

Un metodo alternativo (più complesso ma che utilizza concetti già illustrati nei paragrafi precedenti) per rispondere a questa ultima domanda bilaterale è

-   calcolare l’intervallo di confidenza della nuova proporzione p = 2/12 = 0,167.

In questo caso, poiché la proporzione campionaria è inferiore a quella dell'ipotesi nulla, è possibile limitare il calcolo al solo

-  limite superiore L2

 

 utilizzando le modalità già illustrate in un altro paragrafo di questo capitolo.

 

Se L2 risulta inferiore a p0 (in questo caso 0,5) si può concludere,

- con la probabilità di errare uguale ad a scelta per il valore di F,

- che la nuova proporzione p è significativamente minore dalla precedente proporzione p0.

 

Teoricamente, la distribuzione binomiale potrebbe essere utilizzata anche per grandi campioni.

Ma è un metodo che diventa praticamente inapplicabile, se svolto manualmente. Per questo, con grandi campioni, nella prassi della statistica che risale ai primi decenni del ‘900, si ricorre alla distribuzione normale ridotta.

Il problema di quando il campione di dati raccolti sia abbastanza grande e come comportarsi di conseguenza, è affrontato dagli autori di testi di statistica non sempre nello stesso modo. Pertanto è utile, nella pratica della ricerca e nell’uso dei test statistici, conoscere anche queste idee, che differiscono da quanto riportato nel paragrafo precedente e che rappresentano la prassi più diffusa.

 

Nel caso di campioni grandi (n > 12  in altri testi più cautelativi  n > 20), per i motivi pratici derivanti dalla difficoltà dei calcoli e dal tempo richiesto dall’uso della distribuzione binomiale, è conveniente utilizzare l’approssimazione alla distribuzione normale.


Ma il test Z è sempre meno potente di quello che ricorre alla distribuzione binomiale, come dimostrano P. H. Ramsey e P. P. Ramsey nel 1988 (vedi articolo Evaluating the normal approximation to the binomial test, pubblicato su Journal Educ. Statist. Vol. 13, pp.: 264 – 282).

 

Quindi oltre al problema della validità del test, si pone quello della sua potenza.

Per risolvere il problema della validità, si sceglie un comportamento cautelativo. In inglese è detto anche comportamento conservatore e è contrapposto al comportamento liberale, che cerca la maggior potenza del test.

Come già presentato, per un comportamento cautelativo vari testi consigliano

-  la correzione per la continuità, riducendo lo scarto tra osservato ed atteso () di 0,5.

 Si ottiene

-  un risultato più prudenziale;

- ma, come Ramsey e Ramsey dimostrano, la potenza del test diminuisce e quindi a questo scopo (poter rifiutare l'ipotesi nulla) sarebbe preferibile il valore di Z non corretto.

Nella situazione più comune di p = 0,5 

- che ha applicazione in molti test non parametrici, tra i quali uno dei più diffusi è il test dei segni, (presentato nel capitolo dei test non parametrici per un campione) si ha buona approssimazione della binomiale alla normale

-  per a = 0.05 e p = 0,5   se   n ³ 27,

-  per a = 0.01 e p = 0,5   se   n ³ 19.

 

Un altro indicatore sintetico utilizzato per affermare la bontà dell’approssimazione della normale alla binomiale

-  è fornito dal valore di  .

In modo più dettagliato, si ottiene una buona approssimazione quando

-  per a = 0.05  se né pq sono inferiori a 0,01  ³ 10;

-  per a = 0.01 se né pq sono inferiori a 0,10  ³ 35.

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007