PROPORZIONI E PERCENTUALI, RISCHI, ODDS E TASSI
5.11. TEST PER LA BONTA’ DELL’ADATTAMENTO DI UNA DISTRIBUZIONE OSSERVATA E LA DISTRIBUZIONE BINOMIALE, COSTRUITA CON UNA PROPORZIONE NOTA E CON UNA PROPORZIONE IGNOTA
Nel precedente capitolo III è già stato affrontato il problema, frequente nella ricerca biologica e ambientale, del - confronto di una distribuzione campionaria con una distribuzione attesa o nota. che può essere La distribuzione attesa può essere di qualsiasi natura, vale a dire che può essere costruita su una legge matematica oppure una legge biologica. Ad esempio, nel capitolo III è stato presentato il confronto tra il risultato di un esperimento sulla segregazione di un diibrido e la legge di Mendel. Disponendo delle 4 classi fenotipiche, ottenute dall’incrocio tra due diibridi ,
- si è verificato se esse possono essere ritenute statisticamente in accordo con la legge di Mendel, secondo la quale le quattro classi dovrebbero seguire i rapporti di
Con il test si è voluto rispondere alla domanda - se le differenze riscontrate tra la distribuzione osservata e quella attesa sono imputabili al caso - oppure se quella osservata è troppo distante dall’attesa e quindi probabilmente segue una legge differente.
La medesima procedura può essere applicata alle frequenze di un fenomeno binario, per il quale la distribuzione teorica delle frequenze attese è fornita dalla distribuzione binomiale. Quando il numero di classi o categorie è superiore a due, non si utilizza il metodo presentato nei paragrafi precedenti che utilizzavano una sola frequenza, ma - il confronto tra una distribuzione osservata e la corrispondente distribuzione binomiale attesa è esteso a tutta le classi.
Con la distribuzione binomiale
è possibile stimare una serie di frequenze attese, - sia quando la proporzione è nota, sulla base di una ipotesi, legge o teoria di qualsiasi natura, - sia quando la proporzione è ignota a priori e quindi è calcolata sui dati campionari. La differenza fondamentale è che - nel primo caso, la distribuzione osservata e quella attesa possono avere una differente, - nel secondo caso, le due distribuzioni hanno la stessa , per costruzione di quella teorica.
Ad esempio, in molte specie animali con differenze tra i due cromosomi sessuali, il rapporto tra i sessi è di 1:1 - quindi la proporzione di femmine è p = 0.5 come atteso dalla proporzione di spermi con il cromosoma X. In nidiate di figli, la frequenza attesa di quelle con un numero di femmine (con che varia da a ) può essere stimata con
dove p = 0,5 è la probabilità attesa o teorica che ogni figlio sia femmina (e dove ovviamente q = 0,5 che sia maschio).
Per nidiate di 6 figli, sviluppando la formula precedente della binomiale, la probabilità di avere 0 femmine, 1 femmina, 2 femmine, ecc. … è riportata nella tabella successiva
Ora si supponga che una ricerca condotta su 68 casi (68 nidiate di 6 figli) abbia dato il seguente risultato
E’ possibile chiedersi: “Le frequenze osservate sono complessivamente in accordo con le probabilità stimate nella tabella precedente?”
E’ un esempio di - verifica della bontà di adattamento di una distribuzione osservata a una distribuzione binomiale attesa o teorica (goodness of fit for the binomial distribution) in cui la è nota a priori. Essa (vedi tabella sottostante) richiede - dapprima, la stima delle probabilità attese (seconda riga) avendo prefissato = 0,5, - rapportate alla dimensione totale del campione sperimentale (terza riga);
- Successivamente, si deve effettuare il confronto tra le frequenze osservate (seconda riga) e le frequenze attese (terza riga)
ricorrendo al test di Kolmogorov-Smirnov (presentato nei capitoli di statistica non parametrica per uno e per due campioni), oppure al test c2 o al test G. Tra i tre, il test più potente in questo caso è il test di Kolmogorov-Smirnov. Inoltre, con questi dati caratterizzati da un totale inferiore a 100 e con valori attesi nelle classi estreme molto piccoli, il test G appare preferibile al c2.
Utilizzando il test c2 e/o il test G occorre ricordare che hanno gdl = k-1, poiché alle frequenze attese è stato posto il solo vincolo di avere lo stesso totale della distribuzione osservata.
In altre situazioni sperimentali, la probabilità p dell’evento è ignota e viene quindi stimata utilizzando i risultati dell’esperimento. Per esempio, nell’uomo la probabilità che alla nascita un bambino sia maschio o femmina non è esattamente = 0,5 nonostante quanto atteso sulla base della segregazione dei cromosomi sessuali. In realtà, in tutte le popolazioni nascono più maschi che femmine. I dati raccolti su grandi popolazioni dimostrano che la probabilità che un figlio sia maschio è = 0,515 e pertanto che sia femmina è = 0,485. Riprendendo l’esempio precedente condotto su 68 casi di nidiate di 6 figli,
è semplice osservare che - la proporzione di maschi e di femmine non è esattamente = 0,5 ma che - su 408 figli (68 x 6), il numero di femmine è 223. Quindi, - la media del numero di femmine non è 3,0 ma in realtà è 3,28 (223/68) e, mantenendo la stessa legge, - la probabilità che un neonato sia femmina non è p = 0,5 ma è p = 0,547 (3,28/6 oppure 223/408).
Con p = 0,547 (noto sulla base del risultato dell’esperimento), è possibile chiedersi se tutta la distribuzione, cioè ogni classe della distribuzione osservata, è in accordo con le frequenze teoriche di una distribuzione binomiale fondata sulla probabilità p = 0,547. Potrebbe infatti avvenire che, - pure rispettando questo vincolo della proporzione media, - la distribuzione osservata non sia in accordo con la distribuzione binomiale.
Ad esempio potrebbe avvenire che - con frequenza nettamente maggiore dell’atteso alcune coppie abbiano solo figlie femmine e altre tutti figli maschi, - oppure che tutte le coppie abbiano un numero equilibrato di maschi e di femmine, e quindi che le coppie con 0 e 1 femmina e quelle con 5 e 6 femmine siano pochissime o addirittura assenti.
Per risolvere questo problema, - dopo aver stimato p = 0,547 1 - si calcola la probabilità che ogni nidiate di 6 figli sia formata da un numero di femmine che varia da 0 a 6, attraverso lo sviluppo della binomiale
Si ottiene la serie seguente di probabilità P(i):
2 - Successivamente, sulla base di queste probabilità stimate, si calcolano le frequenze attese, rapportate allo stesso ammontare totale (terza riga della tabella successiva)
3 - Infine, il confronto avviene tra le frequenze osservate e le nuove frequenze attese (seconda e terza riga della tabella successiva)
Anche ad occhio, è possibile evidenziare come le nuove frequenze attese siano più vicine a quelle osservate nel caso precedente, in cui le frequenze attese erano state calcolate utilizzando la probabilità teorica p = 0,5. In questo caso, per valutare se esiste una differenza significativa il test G appare preferibile al c2 , che richiede valori attesi maggiori nelle classi estreme. Un altro aspetto distintivo importante di questo test rispetto al caso della p nota a priori, dove i gdl sono k-1, è che - con una proporzione p osservata, il numero di gdl è k-2 (dove k è il numero di gruppi). Infatti la distribuzione delle frequenza attese in questo caso è stata calcolata tenendo presente due informazioni: - il numero totale di dati n (68), - la proporzione reale p (0,547). Il test di Kolmogorov-Smirnov, che non considera i gdl ma solo le dimensioni del campione, non permette di utilizzare un valore critico inferiore a quello del caso precedente, come qui viene richiesto; di conseguenza, può risultare meno potente del test G.
Per l’uso del test G, 1 - dopo aver aggregato la prima classe estrema perché formata da una frequenza troppo piccola, addirittura con 0 nella classe osservata per 0 figlie femmine che con il test G impedisce i calcoli,
2 – si stima il valore di G con
e sommando tra loro positivi e negativi
si ottiene G = 2,7356.
3 – Il valore è molto piccolo e quindi le frequenze osservate e le frequenze attese nelle singole classi hanno complessivamente differenze piccole. Tuttavia per una presentazione più completa del metodo in tutti i passaggi logici, trattandosi di un numero di osservazioni non elevato (in totale 68 casi), è possibile apportare la correzione di Williams, cioè il valore q stimato con la formula
dove k = 5 e N = 68
risulta q = 1,0147
4 - Quindi il valore corretto di G (Gadj)
risulta Gadj = 2,696. Poiché il valore critico del c2 con 5 gdl alla probabilità a = 0,05 è uguale a 11,071 non è possibile rifiutare l’ipotesi nulla. Anzi, con una lettura più particolareggiata della tabella dei valori critici del chi-quadrato, si può osservare che la probabilità di trovare per solo effetto del caso uno scarto complessivo tra valori osservati e valori attesi simile a quello calcolato è vicino a quello per la probabilità a = 0,75. Pertanto - si può concludere l’analisi affermando non solo che non è possibile rifiutare l’ipotesi nulla, ma che probabilmente l’ipotesi nulla è vera, poiché - la distribuzione osservata è molto vicina alla distribuzione binomiale teorica, centrata sulla stessa probabilità p = 0.
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |