L’ANALISI GERARCHICA E LE COMPONENTI DELLA VARIANZA
14.2. NESTED ANOVA I O A EFFETTI FISSI
Il modello, le ipotesi e la metodologia dell'ANOVA nested per il confronto tra le medie, detta analisi ad effetti fissi o ANOVA I, possono essere presentati in modo semplice con un esempio a due fattori (samples within samples). Facilmente estensibile al confronto tra prodotti industriali, l'esempio sottostante è tratto dal volume di George W. Snedecor (al quale si deve la impostazione metodologica attuale dell'analisi della varianza, proposta da Fisher) e William G. Cochran (già citato come autore di vari test) del 1974 e intitolato Statistical Methods (The Iowa State University Press, Ames Iowa, U.S.A., sixth edition, seventh printing, pp. 593). A partire dalla prima edizione del 1937 e per quasi 50 anni, il volume di Snedecor, al quale dopo le prime edizioni si aggiunse Cochran come coautore, è stato uno dei testi internazionali fondamentali, per coloro che hanno affrontato i temi della statistica applicata alla ricerca in biologia e in agricoltura.
Nell’esempio citato, allo scopo di verificare eventuali differenze tra le quantità medie di calcio presente nelle foglie di piante differenti, - sono state scelte a caso quattro piante (A, B, C, D), - per ogni pianta sono state scelte a caso tre foglie (1, 2, 3) - per ogni foglia sono state effettuate due misure, con lo stesso metodo chimico. L’esperimento è analogo al confronto nell’industria tra 4 aziende, con 3 prodotti per ognuna e 2 misure per campione.
Il modello di analisi della varianza utilizzata è a due fattori e può essere rappresentato come
dove - m è la media generale, - è l'effetto della quantità media presente nella pianta (rispetto alla media generale), - è l'effetto della quantità media presente nella foglia rispetto a quella della pianta, - è l'errore di misura della quantità di calcio per ogni foglia entro ogni pianta. Vari testi preferiscono la simbologia
per indicare con - j(i) che sono presenti diversi valori di j "nidificati" in i, - r(ij) che l'indice r è "nidificato" in gruppi identificati dalla combinazione degli indici i e j.
E' una prima differenza importante rispetto all'analisi incrociata dove a e b erano indipendenti. Secondo la formule utilizzate per il calcolo delle devianze, i dati possono essere riportati con calcoli differenti, in funzione delle formule utilizzate: - le medie di ogni livello (tabella precedente), - i totali di ogni livello (tabella successiva)
L'ANOVA I permette di verificare due ipotesi sulle quantità medie presenti nei due livelli. Esse possono essere scritte con le solite modalità: - nel primo livello H0: non vi è differenza tra piante nel determinare la quantità di calcio; in simboli H0: mA = mB = mC = mD H1: esiste differenza tra piante nel determinare la quantità di calcio; cioè H1: le m presenti nelle piante non sono tutte uguali
- nel secondo livello H0: non vi è differenza tra le foglie della stessa pianta nella quantità di calcio; in simboli H0: mI = mII = mIII H1: esiste differenza tra le foglie della stessa pianta nella quantità di calcio; cioè H1: le m presenti nelle foglie non sono tutte uguali
Per rispondere a queste due domande è necessario calcolare 1 - la devianza totale, 2 - la devianza tra piante (o di primo livello), 3 - la devianza tra foglie entro piante (o di secondo livello), 4 - la devianza tra repliche entro foglie (o d'errore).
1 - Per la devianza totale, le formule e il calcolo dei gdl sono identici a quelli precedenti; essa è sempre fondata sullo scarto al quadrato tra ogni misura e la media generale:
con gdl uguale a n-1. Utilizzando i dati dell'esempio, - con la prima formula si ottiene
- con la seconda formula
con df = 23.
2 - Per la devianza tra piante o di I livello la formula e il calcolo dei gdl restano ancora invariati rispetto all’analisi crossed, essendo fondati sulla differenza tra le medie dei gruppi di I livello e la media generale:
con gdl uguale al numero di gruppi meno 1. Utilizzando i dati dell'esempio, - mediante la prima formula si ottiene
- mediante la seconda
con df = 3.
3 - Per la devianza tra foglie entro piante o di II livello entro il I livello, la formula e il calcolo dei gdl differiscono dai precedenti, poiché sono fondati sul concetto nuovo delle differenze tra le medie dei sottogruppi e la media del loro gruppo di appartenenza:
con gdl uguale al numero di sottogruppi (foglie) meno il numero di gruppi (piante). Utilizzando i dati dell'esempio, - mediante la prima formula si ottiene
- mediante la seconda
con df = 8 (12 - 4).
4 - Per la devianza entro foglie entro piante o d'errore oppure di III livello, la formula e il calcolo dei gdl sono identici a quelli dell'errore nell'analisi della varianza a un criterio di classificazione: è la somma dei quadrati degli scarti di ognuna delle r misure campionarie dalla media del sottogruppo (la foglia) al quale appartiene
e i df sono n - p, dove n è il numero di misure e p è il numero di foglie.
Per la proprietà additiva è ottenuto più rapidamente per sottrazione dalla devianza totale delle altre due Devianza entro foglie = 10,2704 - 7,5603 - 2,6302 = 0,0799 Gradi di libertà entro foglie = 23 - 3 - 8 = 12
Riassunti in tabella, per facilitare i calcoli successivi, i risultati sono
Per la verifica delle differenze tra le medie delle foglie entro piante, il rapporto F è
Per la verifica delle differenze tra le piante, il test F si differenzia dal metodo "crossed" ed è
A differenza degli esperimenti crossed, con l'analisi nested la significatività di ogni livello è verificata mediante il rapporto tra la sua varianza e quella del livello immediatamente inferiore. Appare infatti logico che, per quanto riguarda la differenza tra le medie delle piante, come varianza d'errore debba essere considerata quella esistente tra le foglie, non quella stimata sulla base delle differenze tra misure chimiche ripetute per ogni foglia. Questa ultima è appropriata solo per valutare la variabilità tra le foglie della stessa pianta: se fosse vera l'ipotesi nulla (non esiste differenza tra le quantità medie di calcio nelle foglie appartenenti alla stessa pianta), la variabilità tra foglie dipenderebbe solo dagli errori di misura chimica.
Il test nested presentato (due livelli con misure ripetute) può essere considerato un'analisi della varianza a un criterio di classificazione, effettuata due volte (una dentro l'altra), - la prima per calcolare la devianza tra trattamenti e quella entro, - la seconda per scomporre la devianza tra trattamenti nei due livelli considerati.
A - Nel primo caso, si ignorano i gruppi di I livello e quindi si considerano le 24 misure solo in riferimento alle 12 foglie, con 2 repliche per ognuna.
Nell'analisi della varianza corrispondente, si ottiene una tabella come la seguente:
B- Nel secondo caso, si prendono in considerazione solo le dodici medie (delle foglie), come se esse fossero 12 valori singoli, classificati nei quattro gruppi (le piante).
Con l'analisi della varianza a un criterio, si otterrebbe una tabella come la seguente:
che rappresenta la scomposizione della precedente devianza tra trattamenti (foglie).
Ritornando al presentazione della metodologia nested, è importante sottolineare che in alcune situazioni il rapporto tra la varianza del livello inferiore e quella d'errore non risulta significativo. Quindi statisticamente = 1
In questi casi, alcuni autori suggeriscono di stimare una varianza comune, sommando le devianze e i relativi gdl, per ottenere una varianza da utilizzare nel denominatore per il test F del livello superiore: essa - non si discosterà statisticamente dalle due stime precedenti (foglie + errore), ma - avrà un numero di gdl maggiore e quindi - permetterà un test più potente (cioè risulterà significativo con una probabilità maggiore). Nell'esempio, per verificare la differenza tra piante, si avrebbe un test F con df 3 e 20 (12 +8), invece di quello presentato in precedenza con df 3 e 8. Ma non tutti gli autori sono d'accordo con questa procedura.
Il metodo applicato a due livelli con fattori bilanciati può essere - esteso a più livelli, - con un numero di modalità o repliche variabile. Secondo Robert R. Sokal e F. James Rohlf, due autori di un altro testo classico per gli studiosi di statistica applicata, stampato con la prima edizione nel 1969 e giunto alla terza del 1995 (Biometry, 3rd ed., W. H. Freeman &Co., New York, 867 pp.), " i principi basilari di una nested anova sono gli stessi, anche quando le dimensioni del campione sono differenti". Tuttavia si presentano tre problemi pratici non trascurabili: - il simbolismo e le formule diventano più complessi, - i calcoli diventano molto più lunghi, per la necessità di apportare varie correzioni alle varianze, - non esiste un test di significatività esatto e i test approssimati possono essere molto inesatti. Inoltre nell'ANOVA II diventa molto più complessa anche la stima delle componenti della varianza.
Fino a poco tempo fa, con i calcoli manuali il fattore limitante più importante era la lunghezza e complessità dei calcoli, che molto spesso determinavano errori; ora, con la diffusione dei programmi informatici, è diventato quello meno rilevante e l’attenzione può essere rivolta ai concetti e alla correttezza della stima. Per dimostrare come avviene la suddivisione delle devianze e dei relativi gdl, si supponga di avere applicato un disegno sperimentale gerarchico non bilanciato (nested anovas with unequal sample sizes), al fine di confrontare i pesi di cavie neonate di 23 nidiate (generate da altrettante femmine), con un numero variabile di fratelli, per un totale di 106 individui:
L'analisi nested è una procedura necessaria nella ricerca biologica, dove spesso non è possibile "incrociare" ogni femmina con ogni maschio: si allungherebbero i tempi, ma soprattutto si avrebbe una sovrapposizione che genera confusione, al momento dell'interpretazione dei risultati, tra gli effetti dell'ordine del parto (genitori più anziani) e il genotipo del maschio. Con i dati dell'esempio, si vogliono valutare gli effetti medi sul peso delle cavie - dei 3 diversi tipi di alimentazione (indicati con I, II, III) H0: mI = mII = mIII
- delle differenze dovute al genotipo dei 9 maschi (indicati con numeri da 1 a 9) H0: m1 = m2 = … = m9
- delle differenze dovute al genotipo delle 23 madri (indicate con lettere maiuscole da A a Z) H0: mA = mB = … = mZ
Nella impostazione dell’esperimento, è importante evidenziare che - ogni tipo di alimentazione (gruppi) deve essere stato somministrato ad almeno 2 maschi (sottogruppi), - ogni maschio (sottogruppi) deve avere almeno 2 femmine (sotto-sottogruppi), - ogni femmina deve avere almeno 2 figli (repliche entro sotto-sottogruppi).
Poiché la logica e i concetti sono identici a quelli già presentati per due soli livelli con un numero di campioni bilanciato, sotto l'aspetto pratico è utile comprendere i tabulati dei computer, seguendo la suddivisione dei gradi di libertà. E' una procedura che vari testi recenti di statistica applicata consigliano come unico modo per verificare, seppure in modo parziale, se sono state eseguite le analisi desiderate.
In essa, - la significatività complessiva delle differenze tra le nidiate è data dal rapporto F22,83 = 13,54
- la significatività delle differenze tra tipi di alimentazione è ottenuta con F2,6 = 4,80 - la significatività delle differenze dovute al genotipo dei maschi è F6,14 = 1,24 - la significatività delle differenze dovute al genotipo delle femmine è F14,83 = 8,90 Per comprendere questi risultati, è utile ricordare che:
1 - la devianza totale è determinata dagli scarti al quadrato di ognuna delle 106 misure dalla media generale e ha df = 105;
2 - la devianza tra le 23 nidiate è data dagli scarti della media di ognuna di esse dalla media generale e ha df = 22; essa può essere scomposta nelle 3 devianze successive (2a, 2b, 2c):
2a) - la devianza tra i 3 tipi di alimentazione (fattore A o del I livello ed indicati con I, II, III) è data dagli scarti di ognuna delle sue medie dalla media generale e ha df = 2;
2b) - la devianza tra i 9 maschi (fattore B o del II livello e indicati con numeri da 1 a 9) è calcolata entro ogni tipo di alimentazione, come scarto della media dei figli dello stesso maschio rispetto alla media del tipo di alimentazione e ha df = 6, poiché: - il tipo di alimentazione I ha 2 maschi e quindi df = 1, - il tipo di alimentazione II ha 4 maschi e quindi df =3, - il tipo di alimentazione III ha 3 maschi e quindi df = 2;
2c) - la devianza tra le 23 femmine (fattore C o del III livello ed indicate con le lettere da A a Z) è calcolata entro ognuno dei 9 maschi e ha df = 14 (23 - 9); è possibile arrivare alla stessa stima sommando i gradi di libertà dei gruppi di femmine entro lo stesso maschio: 1 + 2 + 2 + 1 + 1 + 3 + 1 + 1 + 2 = 14
3 - la devianza d’errore, calcolata per differenza (devianza totale - devianza tra nidiate) oppure sulla base degli scarti di ogni osservazione dalla media della nidiata (corrispondente alla media della femmina). Nell'interpretazione dei risultati è sempre utile non limitarsi alla sola lettura statistica, ma evidenziarne il significato nella disciplina. Ad esempio, poiché il rapporto tra la varianza dei maschi e quella delle femmine risulta uguale, evidenziare come l'effetto del genotipo dei maschi e quello delle femmine sul peso delle cavie sia uguale, come d'altronde è atteso in genetica. Anche le differenze tra i tipi di alimentazione non risultano significative alla probabilità a = 0.05. Il risultato è imputabile pure al numero limitato di gdl del denominatore (6). A questo problema, secondo alcuni autori, è possibile ovviare. Poiché la varianza dei maschi è uguale a quella delle femmine, appare ragionevole calcolare una varianza comune, uguale a 60,35 e ottenuta dal rapporto tra la somma delle due devianze e dei rispettivi gdl
Con df = 20 il test F F2,20 = 5,58 risulta significativo, con una probabilità a compresa tra 0.025 e 0.01
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |