PROPORZIONI  E  PERCENTUALI,  RISCHI,  ODDS  E  TASSI

 

 

5.11. TEST PER LA BONTA’ DELL’ADATTAMENTO DI UNA DISTRIBUZIONE OSSERVATA E LA DISTRIBUZIONE BINOMIALE, COSTRUITA CON UNA PROPORZIONE NOTA E CON UNA PROPORZIONE IGNOTA

 

Nel precedente capitolo III è già stato affrontato il problema, frequente nella ricerca biologica e ambientale, del

confronto di una distribuzione campionaria con una distribuzione attesa o nota. che può essere La distribuzione attesa può essere di qualsiasi natura, vale a dire che può essere costruita su una legge matematica oppure una legge biologica. Ad esempio, nel capitolo III è stato presentato il confronto tra il risultato di un esperimento sulla segregazione di un diibrido e la legge di Mendel.


Disponendo delle 4 classi fenotipiche, ottenute dall’incrocio tra due diibridi ,

 

315

101

108

32

 

 

-   si è verificato se esse possono essere ritenute statisticamente in accordo con la legge di Mendel, secondo la quale le quattro classi dovrebbero seguire i rapporti  di

 

9

3

3

1

 

 

Con il test si è voluto rispondere alla domanda

-  se le differenze riscontrate tra la distribuzione osservata e quella attesa sono imputabili al caso

- oppure se quella osservata è troppo distante dall’attesa e quindi probabilmente segue una legge differente.

 

La medesima procedura può essere applicata alle frequenze di un fenomeno binario, per il quale la distribuzione teorica delle frequenze attese è fornita dalla distribuzione binomiale.

Quando il numero di classi o categorie è superiore a due, non si utilizza il metodo presentato nei paragrafi precedenti che utilizzavano una sola frequenza, ma

- il confronto tra una distribuzione osservata e la corrispondente distribuzione binomiale attesa è esteso a tutta le classi.

 

Con la distribuzione binomiale

 è possibile stimare una serie di frequenze attese,

- sia quando la proporzione  è nota, sulla base di una ipotesi, legge o teoria di qualsiasi natura,

-  sia quando la proporzione  è ignota a priori e quindi è calcolata sui dati campionari.

La differenza fondamentale è che

-  nel primo caso, la distribuzione osservata e quella attesa possono avere una  differente,

-  nel secondo caso, le due distribuzioni hanno la stessa , per costruzione di quella teorica.

 

Ad esempio, in molte specie animali con differenze tra i due cromosomi sessuali, il rapporto tra i sessi è di 1:1

-  quindi la proporzione di femmine è p = 0.5 come atteso dalla proporzione di spermi con il cromosoma X.

In nidiate di  figli, la frequenza attesa di quelle con un numero  di femmine (con  che varia da  a ) può essere stimata con

 dove p = 0,5 è la probabilità attesa o teorica che ogni figlio sia femmina (e dove ovviamente q = 0,5 che sia maschio).

 

Per nidiate di 6 figli, sviluppando la formula precedente della binomiale, la probabilità di avere 0 femmine, 1 femmina, 2 femmine, ecc. …  è riportata nella tabella successiva

 

Femmine ()

0

1

2

3

4

5

6

Totale

 teoriche

0,0156

0,0937

0,2344

0,3126

0,2344

0,0937

0,0156

1,00

 

 

Ora si supponga che una ricerca condotta su 68 casi (68 nidiate di 6 figli) abbia dato il seguente risultato

 

Femmine ()

0

1

2

3

4

5

6

Totale

Freq.(osservate)

0

6

14

19

17

8

4

68

 

 

E’ possibile chiedersi: “Le frequenze osservate sono complessivamente in accordo con le probabilità stimate nella tabella precedente?”

 

E’ un esempio di

-  verifica della bontà di adattamento di una distribuzione osservata a una distribuzione binomiale attesa o teorica (goodness of fit for the binomial distribution) in cui la  è nota a priori.

Essa (vedi tabella sottostante) richiede

-   dapprima, la stima delle probabilità attese (seconda riga) avendo prefissato  = 0,5,

-   rapportate alla dimensione totale del campione sperimentale (terza riga);

 

Femmine ()

0

1

2

3

4

5

6

Totale

 attese

0,0156

0,0937

0,2344

0,3126

0,2344

0,0937

0,0156

1,00

Freq.(attese)

1,06

6,37

15,94

21,26

15,94

6,37

1,06

68,00

 

 

-   Successivamente, si deve effettuare il confronto tra le frequenze osservate (seconda riga) e le frequenze attese (terza riga)

 

Femmine ()

0

1

2

3

4

5

6

Totale

Freq. (osservate)

0

6

14

19

17

8

4

68

Freq. (attese)

1,06

6,37

15,94

21,26

15,94

6,37

1,06

68,00

 

 

 ricorrendo al test di Kolmogorov-Smirnov (presentato nei capitoli di statistica non parametrica per uno e per due campioni), oppure al test c2 o al test G.

Tra i tre, il test più potente in questo caso è il test di Kolmogorov-Smirnov. Inoltre, con questi dati caratterizzati da un totale inferiore a 100 e con valori attesi nelle classi estreme molto piccoli, il test G appare preferibile al c2.

 

Utilizzando il test c2  e/o il test G occorre ricordare che hanno gdl = k-1, poiché alle frequenze attese è stato posto il solo vincolo di avere lo stesso totale della distribuzione osservata.

 

In altre situazioni sperimentali, la probabilità p dell’evento è ignota e viene quindi stimata utilizzando i risultati dell’esperimento. Per esempio, nell’uomo la probabilità che alla nascita un bambino sia maschio o femmina non è esattamente  = 0,5 nonostante quanto atteso sulla base della segregazione dei cromosomi sessuali. In realtà, in tutte le popolazioni nascono più maschi che femmine. I dati raccolti su grandi popolazioni dimostrano che la probabilità che un figlio sia maschio è  = 0,515 e pertanto che sia femmina è  = 0,485.

Riprendendo l’esempio precedente condotto su 68 casi di nidiate di 6 figli,


 

Femmine ()

0

1

2

3

4

5

6

Totale

Freq. (osservate)

0

6

14

19

17

8

4

68

Femmine (totali)

0

6

28

57

68

40

24

223

 

 

è semplice osservare che

-  la proporzione di maschi e di femmine non è esattamente  = 0,5 ma che

-  su 408 figli (68 x 6), il numero di femmine è 223.

Quindi,

-  la media del numero di femmine non è 3,0 ma in realtà è 3,28 (223/68) e, mantenendo la stessa legge,

-  la probabilità che un neonato sia femmina non è p = 0,5  ma è p = 0,547 (3,28/6 oppure 223/408).

 

Con p = 0,547 (noto sulla base del risultato dell’esperimento), è possibile chiedersi se tutta la distribuzione, cioè ogni classe della distribuzione osservata, è in accordo con le frequenze teoriche di una distribuzione binomiale fondata sulla probabilità p = 0,547. Potrebbe infatti avvenire che,

-  pure rispettando questo vincolo della proporzione media,

-  la distribuzione osservata non sia in accordo con la distribuzione binomiale.

 

Ad esempio potrebbe avvenire che

-  con frequenza nettamente maggiore dell’atteso alcune coppie abbiano solo figlie femmine e altre tutti figli maschi,

- oppure che tutte le coppie abbiano un numero equilibrato di maschi e di femmine, e quindi che le coppie con 0 e 1 femmina e quelle con 5 e 6 femmine siano pochissime o addirittura assenti.

 

Per risolvere questo problema,

-  dopo aver stimato p = 0,547

1 -  si calcola la probabilità che ogni nidiate di 6 figli sia formata da un numero  di femmine che varia da 0 a 6, attraverso lo sviluppo della binomiale

 

Si ottiene la serie seguente di probabilità P(i):


 

Femmine (i)

P(i)

0

0,0085

1

0,0627

2

0,1889

3

0,3045

4

0,2755

5

0,1332

6

0,0267

Totale di tutte le probabilità

1,0000

 

 

2 -  Successivamente, sulla base di queste probabilità stimate, si calcolano le frequenze attese, rapportate allo stesso ammontare totale (terza riga della tabella successiva)

 

Femmine ()

0

1

2

3

4

5

6

Totale

0,0085

0,0627

0,1889

0,3045

0,2755

0,1332

0,0267

1,00

Freq. (attese)

0,58

4,26

12,85

20,70

18,73

9,06

1,82

68,00

 

 

3 -  Infine, il confronto avviene tra le frequenze osservate e le nuove frequenze attese (seconda e terza riga della tabella successiva)

 

Femmine ()

0

1

2

3

4

5

6

Totale

Freq. (osservate)

0

6

14

19

17

8

4

68

Freq. (attese)

0,58

4,26

12,85

20,70

18,73

9,06

1,82

68,00

 

 

Anche ad occhio, è possibile evidenziare come le nuove frequenze attese siano più vicine a quelle osservate  nel caso precedente, in cui le frequenze attese erano state calcolate utilizzando la probabilità teorica p = 0,5.

In questo caso, per valutare se esiste una differenza significativa il test G appare preferibile al c2 , che richiede valori attesi maggiori nelle classi estreme.

Un altro aspetto distintivo importante di questo test rispetto al caso della p nota a priori, dove i gdl sono k-1, è che

-  con una proporzione p osservata, il numero di gdl è k-2 (dove k è il numero di gruppi).

Infatti la distribuzione delle frequenza attese in questo caso è stata calcolata tenendo presente due informazioni:

-   il numero totale di dati n (68),

-   la proporzione reale p (0,547).

Il test di Kolmogorov-Smirnov, che non considera i gdl ma solo le dimensioni del campione, non permette di utilizzare un valore critico inferiore a quello del caso precedente, come qui viene richiesto; di conseguenza, può risultare meno potente del test G.

 

Per l’uso del test G,

1 - dopo aver aggregato la prima classe estrema perché formata da una frequenza troppo piccola, addirittura con 0 nella classe osservata per 0 figlie femmine che con il test G impedisce i calcoli,

 

 

Femmine ()

0-1

2

3

4

5

6

Totale

Freq. (osservate)

6

14

19

17

8

4

68

Freq. (attese)

4,84

12,85

20,70

18,73

9,06

1,82

68,00

 

 

2 – si stima il valore di G con

 

 

 

 e sommando tra loro positivi e negativi

 si ottiene G = 2,7356.

 

 3 – Il valore è molto piccolo e quindi le frequenze osservate e le frequenze attese nelle singole classi hanno complessivamente differenze piccole. Tuttavia per una presentazione più completa del metodo in tutti i passaggi logici, trattandosi di un numero di osservazioni non elevato (in totale 68 casi), è possibile apportare la correzione di Williams, cioè il valore q

 stimato con la formula

 dove

 k = 5   e   N = 68

 risulta q =  1,0147

 

4 -  Quindi il valore corretto di G  (Gadj)

 risulta Gadj = 2,696.

Poiché il valore critico del c2 con 5 gdl alla probabilità a = 0,05 è uguale a 11,071 non è possibile rifiutare l’ipotesi nulla.

Anzi, con una lettura più particolareggiata della tabella dei valori critici del chi-quadrato, si può osservare che la probabilità di trovare per solo effetto del caso uno scarto complessivo tra valori osservati e valori attesi simile a quello calcolato è vicino a quello per la probabilità a = 0,75. Pertanto

- si può concludere l’analisi affermando non solo che non è possibile rifiutare l’ipotesi nulla, ma che probabilmente l’ipotesi nulla è vera, poiché

la distribuzione osservata è molto vicina alla distribuzione binomiale teorica, centrata sulla stessa probabilità p = 0.

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007