ANALISI DELLA VARIANZA a piu’ criteri di classificazione

 

 

11.7.   EFFETTO TRATTAMENTO NELL’ANALISI DELLA VARIANZA: R2,  E

 

 

L’indice R2 è un indice per valutare se l’esperimento è stato condotto in modo efficace, per quanto riguarda la scelta dei fattori presi in considerazione. Esso permette di misurare quanto i fattori presi in considerazione incidono sulla variabilità presente nei dati. In altri termini,

-  se nella programmazione dell’esperimento sono stati scelti i fattori effettivamente più importanti

-  oppure se sono stati ignorati aspetti fondamentali,

per ottenere la significatività delle differenze tra le medie del fattore di importanza maggiore.

Molti testi di statistica applicata, anche quelli a maggior diffusione internazionale, ignorano questo indice. Esso invece è riportato in quasi tutti i programmi informatici.

L’indice R2, che può essere espresso

-  come un rapporto variabile da 0 a 1

- oppure come percentuale, da 0 a 100

 nel caso del rapporto è dato da

R2 =

 mentre nel caso della percentuale tale rapporto è moltiplicato per 100.

Ad esempio, nell’analisi della varianza a un criterio che aveva fornito il seguente risultato

 

Devianza

gdl

F

Totale

1,69

14

----

---

Tra trattamenti (between)

0,50

2

0,25

2,53

Entro trattamenti (within)

1,19

12

0,099

---

 

 

 la devianza spiegata dal solo fattore preso in considerazione (trattamenti)


 

R2 =  = 0,296

  è R2 =  0,296.

Significa che, di tutta la variabilità presente nei dati, il solo fattore preso in considerazione è in grado di spiegarne meno del 30%. Se ne deve dedurre che nella fase di programmazione dell’esperimento sono stati dimenticati altri fattori importanti, per cui la varianza d’errore è rimasta il 70% di quella totale.

In letteratura, l’indice R2 è stato indicato sovente con il simbolo  (eta quadro).

In quanto misurati come rapporto tra due devianze, R2 e  sono considerati stime non corrette della variabilità presente in una popolazione (biased estimates of population variability).

 

Nel 1987 R. B. Darlington e P. M. Carlson nel volume Behavioral statistics: Logic and methods (New York, The Free Press) per l’analisi della varianza a un criterio hanno proposto una misura aggiusta  di  ( chiamato adjusted ) con

 dove

Ad esempio, con i dati dell’esempio

 

Devianza

gdl

F

Totale

1,69

14

0,121

---

Tra trattamenti (between)

0,50

2

0,25

2,53

Entro trattamenti (within)

1,19

12

0,099

---

 

 dove  = 0,121 e   = 0,099

 1- 0,82 = 0,18

 diventa adjusted = 0,18

 

Un altro indice dell’effetto del trattamento è il valore   

 definito come

 dove k = numero di trattamenti e quindi k-1 = gdl tra trattamenti.

Con i soliti dati

 si ottiene  = 0,504.

Generalmente  varia da 0 a 1.

Ma quando F è minore di 1, quindi è minore di  può assumere un valore negativo. Quando   è piccolo o addirittura negativo, significa che la variabilità entro i gruppi è grande mentre le differenze tra le medie dei gruppi sono piccole.

Quando  ha un valore alto, la variabilità complessiva dipende in larga misura dalla differenza tra le medie dei gruppi. Si può quindi affermare che le misure entro i due gruppi hanno una variabilità molto limitata.

Il valore  è  è fortemente dipendente anche dalla disciplina nel quale l’esperimento viene effettuato. Ad esempio, come G. Keppel nel 1991 sottolinea nel suo volume Design and Analysis: a researcher’s handbook (3rd ed. Englewood Cliffs, N. J., Prentice Hall), nelle scienze comportamentali che sono caratterizzate da un’alta variabilità tra individui, molto raramente  è alto, vicino a 1.

 

Gli indici  e sono quasi sempre limitati ad analisi a un solo criterio, mentre R2 è ancor più utile in esperimenti a due o a più criteri di classificazione

Nell’esperimento a due fattori che ha fornito i risultati seguenti

 

 

DEVIANZA

GDL

VARIANZA

Totale

683,0

19

----

Tra trattamenti (zone)

128,5 

4

32,1

Tra blocchi (ore)

525,8

3

175,3

Errore

28,7

12

2,39

 

 

  la devianza spiegata dai due fattori presi in considerazione (tra zone e tra ore)

R2 =  = 0,958

 è R2 =  0,958.

Significa che di tutta la variabilità presente nei dati, i due fattori presi in considerazione sono in grado di spiegarne quasi il 96%. Pertanto si può affermare che

- nella fase di programmazione dell’esperimento sono stati presi in considerazione i due fattori più importanti

- e che tutti i fattori non considerati globalmente hanno un peso trascurabile, pari a circa il 4%.

Questo risultato è in qualche modo legato al risultato del test F, perché se R2 è grande la varianza d’errore tendenzialmente è piccola.

Ma il significato di R2 e  il suo uso sono totalmente differenti.

 

David J. Sheskin nel suo testo del 2000 Handbook of Parametric and Nonparametric Statistical Procedures (2nd ed. Chapman & Hall/CRC, London, 982 p.) nel caso di due campioni indipendenti, che ovviamente possono essere analizzati con il tetst t e l’anova a un criterio, presenta le relazioni che esistono tra il coefficiente di correlazione punto-biseriale (point-biserial correlation coefficient), il coefficiente di determinazione (coefficient of determination) e gli indici  (omega squared statistic) e  (eta squared statistic).

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007