L’ANALISI GERARCHICA E

LE COMPONENTI DELLA VARIANZA

 

 

 

14.8.   ANOVA II E LE COMPONENTI DELLA VARIANZA CON UN SOLO FATTORE E CAMPIONI BILANCIATI O INEGUALI.

 

 

Nel presentazione dell’analisi a effetti variabili o random effects, è conveniente iniziare dal modello più semplice, quello a un solo criterio di classificazione o totalmente randomizzato.

Ad esempio, nel controllo della qualità delle acque minerali vendute in bottiglia, è prassi effettuare analisi chimiche degli elementi che le caratterizzano, di norma espressi in mg./litro. Si supponga di voler verificare se esiste una variabilità significativa nella quantità media di calcio (Ca++), rilevata nei prodotti delle diverse aziende presenti sul mercato.

In altri termini, nel modello

 si vuole testare l’ipotesi nulla

H0:  = 0

 contro l’ipotesi alternativa

H1:  > 0

 

A tale scopo, sono state scelte a caso 4 aziende (A, B, C, D)  e per ognuna è stata fatta un’analisi chimica di 7 prodotti.

 

Con la solita metodologia e possibilmente con l’uso di un programma informatico, si ricava la tabella

 

 

Fonte di variazione

Devianza

DF

Varianza

F

Tra aziende

1083

3

361

5,03

Tra prodotti entro aziende

1720

24

71,7

---

Totale

2803

27

---

---

 

 

Con questi risultati (F = 5,03), è possibile rifiutare l’ipotesi nulla

H0:  = 0

 alla probabilità a < 0.01; infatti il valore di F

 

 è maggiore di quello critico (4,72).

Esiste una variabilità significativa, tra le medie delle aziende.

 

Nell’ANOVA I a questo risultato seguono i confronti multipli,

-  per verificare tra quali medie specifiche la differenza sia significativa,

-  alla ricerca del perché un certo livello abbia una media differente da un’altra.


Nell’ANOVA II o random, i confronti multipli non vengono effettuati poiché non hanno significato; infatti

-   i livelli scelti sono solo campioni casuali di tutti quelli possibili; la differenza tra due livelli specifici non interessa e non ha senso, in quanto si chiede solo se esiste variabilità.

 

Dopo il test F, è utile procedere alla stima delle componenti della varianza, per fornirne una valutazione quantitativa. In questo caso, è possibile calcolare

, la varianza dovuta alla variabilità tra i prodotti della stessa azienda,

, quella dovuta alla variabilità tra aziende.

Il rifiuto dell’ipotesi nulla non è richiesto obbligatoriamente, per procedere a questa analisi successiva, come invece avviene nei confronti multipli a posteriori, a causa della probabilità a e dell’errore di Tipo I.

Tuttavia l’analisi delle componenti la varianza appare logica solo quando   > 0.

 

La reale varianza entro  () trova la sua stima migliore () in quella che caratterizza le misure; con i dati dell’esempio

 = 71,7

La reale varianza tra  () aziende ha la sua stima migliore () risolvendo le equazioni

 =

 dove  è il numero di dati in ogni gruppo.

 

Con i dati dell’esempio, il valore stimato della varianza tra aziende () è ottenuto risolvendo l’equazione

71,7 =

 e risulta  = 41,33.

La sua significatività è determinata mediante il test F realizzato in precedenza.

 

Nell’analisi della varianza a un solo criterio, è frequente il caso in cui i differenti gruppi non hanno lo stesso numero di osservazioni. Con campioni ineguali, si presenta il problema della stima di ,  richiesta per la relazione

 

George W. Snedecor e William G. Cochran nel loro volume del 1974 (Statistical Methods, 6th ed., 7th printing, Iowa State University Press, Ames, Iowa, U.S.A. pp. 593) suggerisce di

-   utilizzare , cioè un  corretto, che è sempre minore della media aritmetica.

I due autori propongono due metodi:

 oppure l’equivalente

 dove

- k = il numero di gruppi;   ni = numero di dati per gruppo;

- N = numero totale di dati;    = numero medio .

 

Riprendendo lo stesso esempio del testo citato, con 6 nidiate e un numero di individui differente in un esperimento di genetica

 

 

A

B

C

D

E

F

 

46

70

52

47

42

35

31

59

44

21

64

68

37

---

57

70

50

59

62

---

40

46

69

38

30

---

67

14

77

57

---

---

64

---

81

76

---

---

70

---

87

57

---

---

---

---

---

29

---

---

---

---

---

60

5

2

7

5

7

9

35

 

con l’ANOVA si è ottenuto

 

 

Fonte di variazione

Devianza

DF

Varianza

F

Totale

10522

34

---

---

Tra linee

3322

5

664,4

2,67

Tra repliche entro linee

7200

29

248,3

---

 

un test F significativo, per la verifica dell’ipotesi sulla varianza tra linee.


 

Trattandosi di gruppi con un numero differente di repliche, prima di stimare le due componenti della varianza si deve calcolare  il valore corretto di .

Usando le due formule precedenti, per  k = 6,   N = 35,    = 35/6 = 5,83

 con la prima formula

 

 

 e con la seconda formula

 

 

 

 si ottiene  = 5,67

Infine si ricava

 =  = 248

 =

 

 una stima della reale varianza tra linee  = 73,4.

Come per tutte le stime campionarie, sono stati proposti metodi per il calcolo del suo intervallo di confidenza. Ma essi richiedono approfondimenti ulteriori rispetto al livello di questa presentazione.

 

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007