METODI NON PARAMETRICI PER UN CAMPIONE
7.16. IL T2 DI FREEMAN-TUKEY E CONFRONTO CON IL c2 E IL G2 NEI TEST PER LA BONTA’ DELL’ADATTAMENTO.
Il test più diffuso per la bontà dell’adattamento di una distribuzione campionaria a una qualsiasi distribuzione teorica, di tipo matematico (come la legge dell’uniformità), biologico (come la legge di Mendel o quella di Hardy-Weinberg) oppure di altra natura, è il “chi-square test”
dove la sommatoria è estesa a tutte le caselle. Introdotto da Karl Pearson nel 1900 con l’articolo On the criterion that a given system of deviations from the probable in the case of a correlated system of variables in such that it can be reasonably supposed to have arisen from random sampling (pubblicato su Philosophical Magazine, 5th Series, Vol. 50, pp. 157-175) per il caso di un solo campione, è stato successivamente esteso a tabelle di contingenza a due dimensioni; più tardi, all’analisi di quelle di più dimensioni. Nel caso di un solo campione, secondo la definizione fornita da H. T. David nel 1968 (alla voce Goodness of fit del volume Int. Encyclopedia of the Social Sciences Vol. 6, pp. 199-206), il livello di significatività ottenuto con il test statistico per la bontà dell’adattamento (the goodness-of-fit test statistic) è la probabilità che il valore del test ecceda quello calcolato, se il campione osservato fosse stato estratto casualmente da una popolazione che soddisfi le condizioni ipotizzate nel modello. Con formula differente dalla precedente, il risultato del “chi-square test” è ottenuto con
dove N è la somma di tutte le osservazioni del campione. Benché offra il vantaggio di abbreviare il calcolo del c2 totale, questo metodo ha il grave svantaggio di non calcolare il contributo di ogni cella al valore complessivo. Quindi di non fornire una informazione che nella interpretazione del risultato è sempre importante.
Un metodo alternativo per affrontare la stessa serie di problemi e che utilizza la medesima distribuzione c2, è il likelihood ratio
le cui proprietà sono state descritte da vari autori. Tra le innumerevoli pubblicazioni, sono importanti i lavori di Vassily Hoeffding del 1965 (vedi l’articolo Asymptotically optimal tests for the multinomial distribution, pubblicato su Annals of Mathematical Statistics Vol. 36, pp. 369-401) e quello di R. R. Bahadur del 1967 (l’articolo An optimal property of the likelihood ratio statistic, pubblicato nel volume Proceedings of Fifth Berkeley Symposium on Mathematical Statistics and Probability Vol. 1, pp. 13 – 26).
Un altro metodo che ricorre sempre alla stessa distribuzione c2 è il test c2 di Tukey-Freeman (indicato spesso in letteratura con T2, anche se tale simbolo è usato anche per altri indici)
proposto da M. F. Freeman e John W. Tukey nel 1950 (nell’articolo Transformations related to the angular and the square root, pubblicato su Annals of Mathematical Statistics Vol. 27, pp. 607-611). Successivamente, è stato rilanciato alla fine degli anni ’60, il periodo in cui il dibattito scientifico su come estendere queste analisi a tabelle di più dimensioni è stato maggiormente vivo.
Tra gli autori che successivamente ripropongono il T2, sono da ricordare - M. M. Yvonne Bishop (con l’articolo del 1969 Calculating smoothed contingency tables, pubblicato nel volume The National Halothane Study, ed. John P. Bunker, William H. Forrest Jr., Frederick Mosteller and Leroy D. Vandam, National Institutes of Health, Washington D. C., U. S. Government Printing Office, pp. 273 – 286) - M. M. Yvonne Bishop insieme con Stephen Fienberg e Paul W. Holland per il loro volume del 1975 (Discrete Multivariate Analysis, Cambridge, Mass., M.I.T. Press).
Nel 1978 Kinley Larntz ha fornito un confronto tra i tre metodi, per tabelle a più dimensioni (vedi l’articolo Small-sample comparisons of exact levels for chi-squared goodness-of-fit statistics, su Journal of the American Statistical Association Vol. 73, pp. 253-263).
Per quanto riguarda la loro diffusione nella ricerca applicata, tra questi metodi il test c2 di Pearson è stato quello generalmente utilizzato fino agli anni ’90. Più recentemente, per le sue proprietà additive che saranno illustrate in questo paragrafo e in quelli successivi, il ha avuto una grande diffusione il G2 o log likelihodd ratio. Il test T2 di Tukey-Freeman invece, il più noto tra i numerosi metodi alternativi che sono stati proposti, non compare ancora in nessun programma informatico a grande diffusione e è riportato solo in pochissimi testi per specialisti. Facilmente a motivo del maggior lavoro di calcolo manuale che richiede al ricercatore, della maggiore complessità logica della formula che ne complica la presentazione didattica, senza in compenso offrire vantaggi nella interpretazione del risultato. Riveste quindi un interesse pratico molto limitato. E’ stato utilizzato in qualche lavoro scientifico nelle discipline biologiche e ambientali e pertanto viene presentato in queste dispense.
Benché servano per risolvere lo stesso problema e si applichino agli stessi dati, i tre metodi non forniscono gli stessi risultati. A causa di queste differenti capacità di valutare l’accordo tra la distribuzione osservata e una distribuzione teorica, nella pratica dell’analisi dei dati statistici vari esperti, tra i quali Leo A. Goodman nel 1973 (nell’articolo Guided and Unguided Methods for Selecting Models for a Set of T Multidimensional Contingency Tables, pubblicato su Journal of the American Statistical Association Vol. 68, pp. 165-175), raccomandano di utilizzare più test. Se le probabilità coincidono, le conclusioni risultano rafforzate. Tuttavia non è ancora stata fornita una direttiva condivisa, su come interpretare i risultati, quando le probabilità ottenute con i vari metodi sono molto differenti. Questo problema di sintetizzare risposte divergenti si presenta ora con frequenza maggiore, poiché molti programmi informatici per la stessa analisi riportano non un test solo, ma una intera batteria o serie, lasciando all’utente la scelta tra uno (ma quale?) e la sintesi logica dei vari risultati.
L’illustrazione del metodo T2 e il confronto tra i vari metodi sono ottenuti con la loro applicazione a un esempio.
ESEMPIO. Stimare il valore del “chi-square test” per verificare se le quattro classi fenotipiche, ottenute dalla segregazione di un diibrido, seguono la legge di Mendel (distribuzione attesa 9:3:3:1):
Risposta. 1 - Con la formula
si ottiene
un chi-square uguale a 2,0741 con 3 gdl.
2 - Con la formula
si ottiene
un chi-square uguale a 2,0741 con 3 gdl.
3 - Con la formula
si ottiene
il risultato G2 = 2,024 distribuito come un chi-square con 3 gdl.
4 - Con la formula
calcolando separatamente il contributo delle 4 classi
si ottiene il risultato T2 = 2,0529 distribuito come un chi-square con 3 gdl.
Il confronto fra i tre risultati (considerando che le due formule per il c2 ovviamente forniscono lo stesso valore)
mostra differenze ridotte, sia in totale che per ogni classe (dove ha significato). Vari articoli scientifiche, tra le quali quello di Larntz appena citato, provano che esse sono di dimensioni maggiori - quando il campione è piccolo e/o - i vari gruppi hanno frequenze attese tra loro molto differenti. In altre termini, le differenze tendono a essere minime quando la distribuzione teorica è rettangolare e il campione è grande.
Per interpretare i risultati, è vantaggioso anche distinguere il contributo fornito da ogni classe o gruppo, come riportati nella tabella precedente. In essa si osserva che - il contributo maggiore è fornito dallo scarto tra frequenza osservata e frequenza attesa per la classe , che però è anche quella con la frequenza attesa nettamente minore; - il contributo minore è quella della classe , che è la maggiore per numero di osservazioni attese.
Se il problema (come quello dell’esempio) è di genetica, per la esatta comprensione del risultato è sempre importante fornirne una interpretazione da genetista. Ad esempio, se una classe è meno frequente dell’atteso, spiegare perché questi individui, caratterizzati da un fenotipo specifico, sono “selezionati contro” oppure chiarire il vantaggio in “fitness” della classe con un numero di individui osservati maggiore dell’atteso, ecc. … Nell’applicazione della statistica, è sempre fondamentale la spiegazione disciplinare. L’ipotesi nulla da verificare deve nascere entro una teoria o la riprova di un assunto. Per arricchire il dibattito scientifico e fare crescere la conoscenza, il risultato del test deve essere interpretato sulla base dei fattori che hanno fatto nascere l’ipotesi.
Spesso è utile valutare il contributo di ogni gruppo al risultato complessivo. Per questo scopo, il test G2 o log-likelihood ratio si dimostra inadeguato. Tuttavia, anche nei test per la bontà dell’adattamento, quando si dispone di più gruppi è spesso utile scomporre i gradi di libertà in altrettanti confronti ortogonali. E’ l’applicazione in cui il test G2 dimostra vantaggi importanti. Questa logica della scomposizione dei gradi di libertà nei test per la bontà dell’adattamento è del tutto simile a quella già presentata per i confronti a priori nell’analisi della varianza.
Per richiamarne i concetti fondamentali, è utile una loro applicazione all’esempio precedente.
Con 4 gruppi e 3 gdl, è possibile effettuare 3 confronti ortogonali. Tale numero è più ridotto di quello dei confronti possibili; di conseguenza, si pone il problema della loro scelta. Il concetto fondamentale è che tutti i confronti effettuati devono essere impostati in modo tale che il risultato di un confronto qualsiasi non dia informazioni su quello di un altro. A questo scopo, è sempre richiesta la conoscenza disciplinare delle caratteristiche dei gruppi. Ad esempio, come schematizzato nella tabella,
sono possibili 3 confronti, che tra loro devono essere ortogonali: la somma del prodotto di due coefficienti ortogonali deve dare 0. Ad esempio, il confronto 1° e 3° sono tra loro ortogonali perché (+1/2 x 0) + (1/2 x 0) + (-1/2 x +1) + (-1/2 x –1) = 0 Lo stesso risultato è fornito dalle altre due coppie di confronti, cioè il 1° rispetto al 3°, il 2° rispetto al 3°.
I tre confronti individuati nell’ultima tabella forniscono i seguenti valori del c2 e del G2.
I) Con il primo test, che ha 1 gdl, è possibile chiedersi se il rapporto tra le classi contenenti l’allele e quelle contenenti l’allele segue la legge mendeliana di 3:1
Con il c2 si ottiene
Con il G2 si ottiene
II) Con un secondo test, che ha 1 gdl, è possibile chiedersi se entro il fenotipo il rapporto tra e è 3:1 come atteso
Con il c2 si ottiene
Con il G2 si ottiene
III) Con il terzo test, che ha sempre 1 gdl, è possibile chiedersi se entro il fenotipo il rapporto tra e è ancora 3:1
Con il c2 si ottiene
Con il G2 si ottiene
I risultati dei due metodi, nei tre test di scomposizione dei 3 gdl complessivi, sono tra loro molto vicini:
Ma mentre - la somma dei tre test con 1 gdl del test G2 (2,0240) coincide esattamente con quello ottenuto in precedenza mediante l’analisi simultanea delle 4 quattro classi (2,0240), - la somma dei tre test (2,0486 ) è solo approssimato a quello precedente (2,0741) e non coincide esattamente. La scomposizione dei confronti ortogonali con il test G2 è additiva, come i gdl.; con il test c2 è solo approssimata.
La scomposizione dei 3 gdl avrebbe potuto seguire un percorso differente. Ad esempio, iniziare da B. I tre confronti sarebbero stati
Non è corretto effettuarli entrambi, scegliendo a posteriori la serie più significativa. Come illustrato nei paragrafi dedicati ai confronti multipli a posteriori, si altera la probabilità a experiment-wise o family-wise. Compete al biologo scegliere, sulla base del problema che intende verificare. Ovviamente i confronti effettuati e i risultati ottenuti sono differenti.
Non è necessario arrivare sempre alla scomposizione di tutti i gdl. Alcuni confronti, possono avere più di un solo gdl. A ulteriore dimostrazione delle svariate possibilità di scelta dei confronti che è possibile effettuare sulla stessa serie di gruppi campionari, ne è presentata una ancora differente. Ad esempio, fondato su un problema di genetica quantitativa, con un approccio totalmente diverso si può partire dalla semplice verifica se il gruppo con i due geni recessivi () rispetta il rapporto di 1:15 contro l’insieme degli altri 3 (.
Questo primo confronto ha 1 gdl. Con il c2 si ottiene
Con il G2 si ottiene
Successivamente è possibile utilizzare i 2 gdl rimanenti per verificare se i tre gruppi , , rispettano tra essi i rapporti teorici di 9: 3: 3.
Con il c2 si ottiene
Con il G2 si ottiene
La somma dei due confronti
dimostra ancora una volta che - i risultati ottenuti con i due metodi sono sempre simili anche se non coincidenti: la differenza maggiore è nel primo confronto, dove le classi sono tra loro fortemente sbilanciate, - la somma dei due G2 (2,0240) coincide esattamente sia con quello ottenuto in precedenza mediante l’analisi simultanea delle 4 quattro classi (2,0240), sia con la scomposizione precedente, - il risultato della somma dei due test (2,0914) è solo approssimato a quello precedente, ottenuto con l’analisi simultanea dei 4 gruppi (2,0741) e a quello ricavato con la scomposizione in tre confronti (2,0486).
In sostituzione di questo ultimo calcolo con 3 gruppi e quindi 2 gdl, è possibile effettuare 2 confronti ortogonali con 2 classi ognuno; non entrambi.
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |