L’ANALISI GERARCHICA E

LE COMPONENTI DELLA VARIANZA

 

 

 

14.1.   ANALISI GERARCHICA O NESTED IN ANOVA I, II E III.

 

 

Come presentata nei capitoli precedenti, l'analisi della varianza a due o a più criteri di classificazione richiede esperimenti nei quali

-  tutti i livelli di ogni fattore incontrano tutti i livelli degli altri fattori (crossed experiment).

Ma non sempre è possibile programmare un esperimento "incrociato", cosi poco flessibile alle mutevoli situazioni della ricerca sperimentale.

Un secondo concetto importante è che, soprattutto nella ricerca ambientale ed aziendale, in varie situazioni

-  i fattori presi in considerazione non sono tra loro indipendenti.

Non possono essere considerati come la località (spazio) e l'ora (tempo), che influiscono con modalità totalmente differenti sui livelli d'inquinamento; né come il tipo di farmaco somministrato e l'età del paziente, quando si intenda confrontare l'effetto di due o più principi attivi.

Un terzo concetto, che sarà sviluppato nei paragrafi successivi, è che la verifica di differenze tra le medie (o le varianze) non sempre è indirizzata ad un confronto specifico tra due o più livelli dello stesso fattore, identificati in modo preciso; con la ricerca si intende verificare

- l'esistenza di variabilità tra tutti i possibili livelli,

- dei quali quelli prescelti sono solamente un campione random.

Ad esempio, è possibile

- non solo, come nelle analisi precedenti e con esperimenti “crossed”, essere interessati al confronto tra la quantità media di principio attivo inserita nel prodotto da due o più aziende specifiche;

-  ma anche chiedersi semplicemente se tutte le aziende che mettono sul mercato quel prodotto inseriscono la stessa quantità di principio attivo oppure se tra esse esiste una variabilità significativa.

 

Per accertare questa ultima ipotesi, si scelgono alcune aziende a caso e l’elenco delle aziende esaminate potrebbe essere differente; si vuole giungere non ad un confronto specifico ma ad una affermazione generale del tipo: le aziende di questo settore non mettono (oppure mettono) la stessa quantità di principio attivo nel loro prodotto.

 

Il disegno sperimentale gerarchico è utile quando si confrontano i livelli d'inquinamento atmosferico in un'area ampia come una regione:

-  dopo aver scelto alcune città (gruppi o primo livello),

-  si scelgono almeno due quartieri per ogni città (sottogruppi entro gruppi o secondo livello),

-  almeno due vie per ogni quartiere (sotto-sottogruppi entro sottogruppi o terzo livello)

-  almeno due stazioni di rilevazione per via (sotto-sotto-sottogruppi o quarto livello),

-  almeno due repliche per ogni stazione (repliche entro il quarto livello).

Quando si confrontano le quantità di principio attivo presente in farmaci prodotti da aziende diverse,

-  dopo aver scelto le aziende (gruppi o primo livello),

-  con campionamento casuale si prendono due o più campioni del prodotto (esempio fiale o pillole) per ogni azienda (sottogruppi entro gruppi o secondo livello) e

-  si effettuano almeno due analisi chimiche per ogni unità del prodotto, allo scopo di misurare la quantità di principio attivo in essa presente (repliche entro sottogruppi o repliche entro II livello), considerando la loro variabilità e l'errore di ogni misura.

 

Per l’analisi, si deve ricorrere ad una classificazione gerarchica o annidata dei fattori (hierarchic analysis , hierarchial design, nested classification).

In questa programmazione degli esperimenti, sono impliciti due concetti importanti:

-  il livello maggiore influisce su quello minore,

-  il secondo ha significato se analizzato entro il primo.

Ad esempio, i livelli d'inquinamento di un quartiere e delle vie entro esso sono strettamente dipendenti dalla collocazione della città (se in riva al mare, in pianura o ai piedi di una catena montuosa), dalla sua dimensione (quindi dalla distanza dei quartieri dalle aree rurali), dal tipo di sviluppo in essa prevalente (se presenti tante fabbriche con emissioni inquinanti), dall'intensità e dalla direzione dei venti.

 

Nella sua forma più semplice, per l’analisi e l’interpretazione, il disegno sperimentale gerarchico  è bilanciato e quindi prevede

-          un numero di sottogruppi uguale per ogni gruppo,

-          un numero di repliche uguale per ogni sottogruppo.

 

Per evidenziare graficamente in modo adeguato i concetti precedenti, la presentazione dei dati in una tabella è differente da quella illustrata nei capitoli precedenti, dedicati agli esperimenti crossed.

 

Ad esempio, si supponga di considerare

-  due aziende farmaceutiche (A e B, con k = 2),

-  che per ognuna siano stati scelti a caso tre confezioni, per un totale di sei (p = 6),

-  che per ogni confezione siano state fatte quattro misurazioni (r = 4) della quantità di principio attivo presente:


 

Azienda

A

B

Confezione

1

2

3

1

2

3

Misura 1

X111

X121

X131

---

X221

X231

Misura 2

X112

---

---

---

---

X232

Misura 3

---

---

---

---

---

---

Misura 4

X11r

X12r

---

---

X22r

Xijr

Media della fiala

---

---

---

---

ij

Medie della azienda

i

Media generale

 

 

E' una tabella che, oltre alle repliche, evidenzia soprattutto l’annidamento (nested) del fattore di II livello (la confezione) entro quello di I livello (l'azienda) e in cui

- Xijr   è una generica osservazione o misura,

- ij   è la media del sottogruppo j-esimo entro il gruppo i-esimo (con nij dati),

- i   è la media del gruppo i-esimo (con ni dati),

-    è la media generale (con n dati).

 

L'analisi nested o hierarchial è stato applicata inizialmente in agraria, in disegni sperimentali chiamati split-plot (dalla suddivisione dell’appezzamento) o disegni split-unit (dalla suddivisione dell’unità principale di analisi). Per verificare l’effetto di 2 fattori a vari livelli, in essi si deve

-  scegliere tanti appezzamenti di terreno quanti sono i livelli del fattore più importante e procedere ad una attribuzione casuale di ogni appezzamento ad una specifica modalità del fattore;

-  successivamente, ogni appezzamento deve essere suddiviso in tanti lotti, tra loro uguali, quante sono le modalità del secondo fattore, procedendo alla loro attribuzione casuale.

 

Oltre a rispondere alle differenti esigenze del ricercatore nell'impostazione dell'esperimento, la nested ANOVA offre l'opportunità di analizzare e confrontare le varianze ai differenti livelli. In altri termini, ha favorito lo sviluppo di tecniche, chiamate componenti della varianza, che permettono appunto di stimare quanto della variabilità presente tra le varie misure derivi dalle caratteristiche di ogni livello. Queste tecniche successivamente sono state estese anche agli altri disegni sperimentali incrociati. Combinate con i metodi per verificare le ipotesi sulle medie, hanno dato origine a tre gruppi di ANOVA, chiamate

-   ANOVA I o a effetti fissi (fixed effects): è l'analisi classica, nella quale l'ipotesi da verificare è riferita alle medie di ogni livello ed eventualmente alle loro interazioni;

-   ANOVA II o a effetti casuali (random effects): verifica ipotesi sulla varianza, per valutare se essa differisce ai diversi livelli;

-   ANOVA III o a modello misto (mixed model): è utilizzata quando per un livello il confronto riguarda le medie e per un altro livello l'analisi è riferita alle varianze.

 

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007