L’ANALISI GERARCHICA E LE COMPONENTI DELLA VARIANZA
14.8. ANOVA II E LE COMPONENTI DELLA VARIANZA CON UN SOLO FATTORE E CAMPIONI BILANCIATI O INEGUALI.
Nel presentazione dell’analisi a effetti variabili o random effects, è conveniente iniziare dal modello più semplice, quello a un solo criterio di classificazione o totalmente randomizzato. Ad esempio, nel controllo della qualità delle acque minerali vendute in bottiglia, è prassi effettuare analisi chimiche degli elementi che le caratterizzano, di norma espressi in mg./litro. Si supponga di voler verificare se esiste una variabilità significativa nella quantità media di calcio (Ca++), rilevata nei prodotti delle diverse aziende presenti sul mercato. In altri termini, nel modello
si vuole testare l’ipotesi nulla H0: = 0 contro l’ipotesi alternativa H1: > 0
A tale scopo, sono state scelte a caso 4 aziende (A, B, C, D) e per ognuna è stata fatta un’analisi chimica di 7 prodotti.
Con la solita metodologia e possibilmente con l’uso di un programma informatico, si ricava la tabella
Con questi risultati (F = 5,03), è possibile rifiutare l’ipotesi nulla H0: = 0 alla probabilità a < 0.01; infatti il valore di F
è maggiore di quello critico (4,72). Esiste una variabilità significativa, tra le medie delle aziende.
Nell’ANOVA I a questo risultato seguono i confronti multipli, - per verificare tra quali medie specifiche la differenza sia significativa, - alla ricerca del perché un certo livello abbia una media differente da un’altra. Nell’ANOVA II o random, i confronti multipli non vengono effettuati poiché non hanno significato; infatti - i livelli scelti sono solo campioni casuali di tutti quelli possibili; la differenza tra due livelli specifici non interessa e non ha senso, in quanto si chiede solo se esiste variabilità.
Dopo il test F, è utile procedere alla stima delle componenti della varianza, per fornirne una valutazione quantitativa. In questo caso, è possibile calcolare - , la varianza dovuta alla variabilità tra i prodotti della stessa azienda, - , quella dovuta alla variabilità tra aziende. Il rifiuto dell’ipotesi nulla non è richiesto obbligatoriamente, per procedere a questa analisi successiva, come invece avviene nei confronti multipli a posteriori, a causa della probabilità a e dell’errore di Tipo I. Tuttavia l’analisi delle componenti la varianza appare logica solo quando > 0.
La reale varianza entro () trova la sua stima migliore () in quella che caratterizza le misure; con i dati dell’esempio = 71,7 La reale varianza tra () aziende ha la sua stima migliore () risolvendo le equazioni =
dove è il numero di dati in ogni gruppo.
Con i dati dell’esempio, il valore stimato della varianza tra aziende () è ottenuto risolvendo l’equazione 71,7 =
e risulta = 41,33. La sua significatività è determinata mediante il test F realizzato in precedenza.
Nell’analisi della varianza a un solo criterio, è frequente il caso in cui i differenti gruppi non hanno lo stesso numero di osservazioni. Con campioni ineguali, si presenta il problema della stima di , richiesta per la relazione
George W. Snedecor e William G. Cochran nel loro volume del 1974 (Statistical Methods, 6th ed., 7th printing, Iowa State University Press, Ames, Iowa, U.S.A. pp. 593) suggerisce di - utilizzare , cioè un corretto, che è sempre minore della media aritmetica. I due autori propongono due metodi:
oppure l’equivalente
dove - k = il numero di gruppi; ni = numero di dati per gruppo; - N = numero totale di dati; = numero medio .
Riprendendo lo stesso esempio del testo citato, con 6 nidiate e un numero di individui differente in un esperimento di genetica
con l’ANOVA si è ottenuto
un test F significativo, per la verifica dell’ipotesi sulla varianza tra linee.
Trattandosi di gruppi con un numero differente di repliche, prima di stimare le due componenti della varianza si deve calcolare il valore corretto di . Usando le due formule precedenti, per k = 6, N = 35, = 35/6 = 5,83 con la prima formula
e con la seconda formula
si ottiene = 5,67 Infine si ricava = = 248 =
una stima della reale varianza tra linee = 73,4. Come per tutte le stime campionarie, sono stati proposti metodi per il calcolo del suo intervallo di confidenza. Ma essi richiedono approfondimenti ulteriori rispetto al livello di questa presentazione.
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |