CORRELAZIONE  E  COVARIANZA

 

 

 

18.12.  ANALISI DELLA COVARIANZA PER K GRUPPI (ANCOVA) E RIDUZIONE PROPORZIONALE DELLA VARIANZA D’ERRORE

 

 

Con k gruppi, il caso più semplice è quello di un disegno sperimentale completamente randomizzato. Ricorrendo alla simbologia consueta, mentre nell’analisi della varianza a un criterio di classificazione il modello è

Yij = m + ai + eij

 nell’analisi della covarianza diviene

Yij = m + ai + b(xij -) + eij

 

Nell’analisi della covarianza è possibile utilizzare una variabile concomitante X, chiamata covariata, che spiega parte della variabilità della variabile dipendente Y. Consente un calcolo più preciso degli effetti dei trattamenti, riducendo la variabilità casuale, cioè non controllata.

Per esempio, si supponga di voler stimare l’effetto di tre tossici (ai) sul peso (Yi) delle cavie. L’analisi della varianza ad un solo criterio di classificazione richiede che si formino tre gruppi, inizialmente identici per caratteristiche degli individui; dopo un periodo di somministrazione del principio attivo, le differenze tra i pesi medi dei tre gruppi permettono di valutare l’effetto dei tossici sulla crescita ponderale delle cavie. Ma avere tre gruppi di cavie con le stesse dimensioni iniziali spesso è difficile, soprattutto se l’esperimento non avviene in laboratorio ma in natura, con animali catturati.

 

Un altro caso sovente citato nei testi di statistica applicata è il confronto tra il peso (Yi) di organi di animali sottoposti a trattamenti (ai) diversi, in cui il peso dell’organo dipende sia dall’effetto del trattamento che dalle dimensioni (Xi) dell’animale. E’ possibile eliminare dal peso dell’organo quella quantità che dipende delle dimensioni dell’animale [b(xij -)], per valutare in modo più preciso la quota che può essere attribuita al trattamento.

Si parla di analisi after the fact, che permette di valutare quale sarebbe stato il risultato, se la variabile concomitante X fosse stata costante per tutti i gruppi.

 

Attualmente, poiché i calcoli vengono eseguiti dai programmi informatici, è diventato importante capire più che eseguire. Il test richiede alcuni passaggi logici, che possono essere riassunti in 5 punti.


 

1  - Si applica l’analisi della varianza alle Y, per verificare l’ipotesi nulla

H0m1 = m2 = m3 =... = mk

 se le medie delle popolazioni dalle quali sono estratti i k campioni a confronto sono uguali,

 con ipotesi alternativa

H1 che non tutte le m sono uguali.

 

 Con le formule abbreviate abituali si calcolano:

- la devianza totale delle Y

         con df   n - 1

 

- la devianza tra trattamenti delle Y

         con df   k - 1

 

- e, per differenza, la devianza d’errore delle Y

Dev. Y totale - Dev. Y tra tratt.         con df   n - k

dove

 = numero totale di dati,

 = numero di dati di ogni gruppo, 

 = numero di gruppi a confronto.

 

Stimata la varianza tra trattamenti e la varianza d’errore, si perviene al test F

F(k-1, n-k) =

 

che raramente risulta significativo, se l’effetto della regressione di Y su X è elevato.

 

2  - Per correggere i dati calcolati, si valuta l’effetto della regressione ricordando che è la sua devianza è stimata dal rapporto

A questo scopo si devono calcolare:

-  la codevianza XY totale

 

 

-  la codevianza XY tra trattamenti

 

 

-  e, per differenza, la codevianza XY d’errore

Cod. XY totale - Cod. XY tra trattamenti

 

(A questo proposito, è importante ricordare che le Codevianze possono risultare sia positive che negative. Per esempio, con una Codevianza XY totale positiva si può ottenere anche una Codevianza XY tra trattamenti che risulti negativa; di conseguenza, la Codevianza XY d’errore può risultare maggiore di quella totale.)

 

3  - Sempre per stimare l’effetto della regressione, è preliminare effettuare il calcolo delle devianze delle X, con le stesse modalità seguite per la Y:

- la devianza totale delle X

 

 

- la devianza tra trattamenti delle X

 

 

- e, per differenza, la devianza d’errore delle X

Dev. X totale - Dev. X tra tratt.

 

4  - Con i valori calcolati al punto 2 e al punto 3, si stimano le Devianze dovute alla regressione del coefficiente b comune; servono solo la devianza totale e quella d’errore, ottenute da:

- devianza totale dovuta alla regressione

 

 

- e la devianza d’errore dovuta alla regressione

 

 

- la devianza tra trattamenti dovuta alla regressione non serve, per il motivo che spiegato nel passaggio successivo

 

5  - E’ così possibile ottenere le devianze delle Y ridotte o devianze dovute alle deviazioni della regressione, sottraendo alla devianza totale e alla devianza d’errore delle Y, calcolate al punto 1, quelle rispettive calcolate al punto 4.

Si stimano:

- la devianza totale delle Y ridotte

Dev. Y totale - Dev. Y totale della regressione        con df   (n - 1) - 1

 (In questa operazione, che trasferisce il confronto dei singoli valori della Y dalla media generale alla retta di regressione comune, si perde un altro df)

 

- e la devianza d’errore delle Y ridotte

Dev. Y d’errore - Dev. Y d’errore della regressione         con df   (n - k) - 1

 (Come in precedenza, rispetto alla devianza d’errore delle Y, calcolata al punto 1, ha 1 df in meno)

 

La devianza tra trattamenti delle Y ridotte è ottenuta per differenza tra queste due immediatamente precedenti:

Dev. delle Y ridotte totale - Dev. delle Y ridotte d’errore         con df   k - 1

 che mantiene i suoi df  = k - 1.

Questa stima della devianza tra trattamenti è ottenuta per differenza e non più per semplice sottrazione della devianza tra trattamenti che poteva essere calcolata al punto 4, in modo analogo, da quella tra trattamenti calcolata al punto 1 perché ne avrebbe stimato solamente una parte: infatti essa deve comprendere

-   sia gli scostamenti delle medie di gruppo intorno a una retta di regressione calcolata per la variabilità tra i gruppi, cioè interpolate per le medie dei gruppi,

-   sia la differenza tra le pendenze delle rette di regressione parallele, calcolate entro gruppi, con la pendenza della retta di regressione interpolata tra le medie di gruppo.

 

 

6  - Calcolate la varianza tra trattamenti e la varianza d’errore sulle Y ridotte, il test F, che considera l’effetto della regressione sui valori delle Y, è dato dal loro rapporto

 

F (k-1, n-k-1) =       con df   k - 1   e   (n - k) - 1.

 

 

ESEMPIO 1.   A tre gruppi di cavie sono state somministrate tre sostanze tossiche (A, B, C) che, alterando il metabolismo, determinano un forte aumento ponderale.

Poiché sono stati utilizzati animali di dimensioni diverse, per valutare correttamente gli effetti sul peso (Y) deve essere considerata anche la lunghezza (X) delle cavie.

 

TRATTAMENTI

A

B

C

X

Y

X

Y

X

Y

25

18

15

18

19

16

23

16

12

15

21

19

19

13

17

20

18

18

24

16

11

12

17

15

21

14

19

22

19

17

---

---

16

18

---

---

 

 

 (Il metodo non richiede che i tre gruppi abbiano lo stesso numero di osservazioni, essendo del tutto analogo all’analisi della varianza a un criterio di classificazione. Per facilitare il calcolo manuale, pesi ed altezze sono stati riportati in valori trasformati, che non modificano i risultati; inoltre, sempre per facilitare i calcoli, sono state scelti campioni molto piccoli, spesso insufficienti per un esperimento reale).

 

Con questi dati, effettuare l’analisi della varianza e della covarianza, per valutare compiutamente l’effetto delle tre sostanze sul peso finale delle cavie.

 

Risposta.  Prima di procedere alle analisi, è sempre di elevata utilità una rappresentazione grafica dei dati e delle medie a confronto.

 

Il diagramma di dispersione dei 3 gruppi mostra che le differenze tra le tre medie dei valori campionari di Y sono ridotte e che la regressione lineare tra lunghezza X e peso Y per ogni gruppo è evidente, con coefficienti angolari simili.

Per l’interpretazione dei risultati e per i calcoli successivi con le formule abbreviate, è utile determinare preliminarmente le seguenti serie di somme e medie:


 

Somma XA = 112        Somma XB = 90          Somma XC = 94           Somma X = 296

Somma YA = 77          Somma YB = 105        Somma YC = 85           Somma Y = 267

              nA= 5                          nB = 6                          nC = 5                          n = 16

 

  media XA = 22,40         media XB = 15,00        media XC = 18,80         media X = 18,50

  media YA = 15,40         media YB =  17,50       media YC = 17,00         media Y = 16,6875

 

Somma X2A = 2532        Somma X2B = 1396        Somma X2C = 1776       Somma X2 = 5704

Somma Y2A = 1201        Somma X2B = 1901        Somma X2C = 1445       Somma X2 = 4557

 

Somma XYA = 1743       Somma XYB = 1628      Somma XYC = 1605      Somma XY = 4976

 

 

 

 

Seguendo lo stesso schema precedentemente descritto, i calcoli da effettuare possono essere raggruppati in 5 fasi.


 

1  - Per l’analisi della varianza ad 1 criterio di classificazione sui valori di Y (peso), si devono stimare i valori di

- la devianza Y totale

4557 -   =  4557 - 4455,56  =  101,56

 

 che risulta uguale a 101,56 ed ha 15 df,

- la devianza Y tra trattamenti

 

  = 1185,8 + 1837,5 + 1445 - 4455,56 = 12,74

 

 che è uguale a 12,74 ed ha 2 df

- la devianza Y d’errore

101,44 - 12,74 = 88,7

 che è uguale a 88,7 ed ha 13 df (15-2).

I risultati possono essere presentati in una tabella

 

 

Devianze Y

DF

Varianze

F

Prob.

Totale

101,44

15

---

---

---

Tra Tratt.

12,74

2

6,37

<1

Non stimata

Errore

88,70

13

6,823

---

---

 

 

 dalla quale risulta evidente che il valore di F è inferiore a 1; pertanto, le differenze tra le medie campionarie non sono assolutamente significative.

 

 

2  - Per tenere in considerazione l’effetto della regressione, occorre calcolare le codevianze tra X e Y; quindi:

-  la codevianza XY totale

4976 -   =  4976 - 4939,5  =  36,5

 che risulta uguale a 36,5

-  la codevianza XY tra trattamenti

 

  = 1724,8 + 1575 + 1598 - 4939,5  =  -41,7

 

 che ha un valore negativo (- 41,7)

- la codevianza XY d’errore

36,5 - (-41,7) = 78,2

 che risulta maggiore di quella totale (78,2).

 

 

3  - Per procedere alle stime richieste è necessario calcolare anche le devianze di X:

- la devianza X totale

  = 5704 - 5476  = 228

 che è uguale a 228

-  la devianza X tra trattamenti

 

  = 2508,8 + 1350 + 1767,2 - 5476  = 150

 

 risulta uguale a 150,

- la devianza X d’errore

228 - 150  =  78

 uguale a 78.

 

 

4  - Le devianze dovute alla regressione b comune, necessarie alla stima della Y ridotte, sono:

- la devianza totale della regressione

  = 5,84

 che risulta uguale a 5,84,

- la devianza d’errore della regressione

  = 78,4

 che risulta uguale a 78,4.


 

5  - In conclusione, le devianze dovute alle deviazioni dalla regressione o devianze delle Y corrette sono:

- la devianza totale delle Y corrette

101,44 - 5,84 = 95,6

 uguale a 95,6 con 14 df a causa della perdita di un altro df dovuto alla correzione per la regressione (16 - 1 - 1),

- la devianza d’errore delle Y corrette

88,7 - 78,4 = 10,3

 uguale a 10,3 con df 12 (anch’esso perde un altro df, poiché diventa l’errore intorno alla retta),

e, per differenza,

- la devianza tra trattamenti delle Y corrette

95,6 - 10,3 = 85,3

 che risulta uguale a 85,3 con 2 df.

 

6  - Con questi ultimi dati, è possibile applicare l’analisi della varianza dei valori di Y che considerano l’effetto di regressione sulla X

 

 

 

Devianze Y ridotte

DF

Varianze

F

Prob.

Totale

95,6

14

---

---

---

Tra tratt.

85,3

2

42,65

49,69

<0.0001

Errore

10,3

12

0,85833

---

---

 

 

 e permettono un test F

F(2,12)  = 49,69

 che risulta altamente significativo.

 

ESEMPIO 2.  Riprendendo i dati presentati da William L. Hays nel suo testo del 1994 (Statistics, 5th ed. Holt, Rinehart and Winston, Fort Worth, Texas), si assuma di confrontare cinque differenti modalità (A, B, C, D, E) di trasformazione farmacologica di un prodotto naturale di base (X), dal quale viene derivato il prodotto industriale finito (Y).


La tabella riporta la concentrazione della sostanza nel prodotto da trasformare (X) e in quello trasformato (Y)

 

A

B

C

D

D

X

Y

X

Y

X

Y

X

Y

X

Y

10

20

15

12

18

17

23

66

22

31

16

17

40

22

28

31

30

31

18

22

38

40

41

40

35

37

41

30

25

45

50

51

11

16

19

25

15

17

20

23

57

77

86

121

101

159

143

171

71

75

 

 

Si vuole valutare se la produzione media del prodotto finito () nelle 5 aziende è significativamente differente, tenendo in considerazione le differenze presenti nella materia prima ().

 

Risposta.   Presentando solo i calcoli da effettuare, i passaggi possono essere schematizzati in 4 punti.

 

1)   Come nell’analisi della varianza a un criterio di classificazione o completamente randomizzata, si calcolano le devianze e i loro gdl, ovviamente per le Y.

Oltre ai totali di gruppo riportati nella tabella, dapprima si stimano

 = 20.851       = 603       = 20

 

Con le solite formule delle devianze si ricavano:

 

-  Dev. Y Totale                    =                             2.670,55     con gdl = 19

 

-  Dev. Y Tra       =  1998,80       con gdl = 4

 

-  Dev. Y errore          2.670,55 – 1.988,80 =                                  671,75       con gdl = 15

 

 

2)   Con le stesse modalità si calcolano le devianze delle X, poiché servono successivamente per correggere le devianze delle Y appena stimate.

Oltre ai totali di gruppo riportati nella tabella, si eseguono le somme

 = 12.066       = 458       = 20

 e da essi si ricavano:

 

-  Dev. X Totale                    =                             1.577,8 

 

-  Dev. X Tra       =     1095,8  

 

-  Dev. X errore          1.577,8 – 1.095,8 =                                      482,0

 

 

3)   Per lo stesso scopo si stimano le codevianze; oltre ai totali di gruppo riportati nella tabella, si stimano

 = 15.140       = 458       = 603         = 20

 e da essi si ricavano:

 

-  Codev. XY Totale                    =                             1.331,30 

 

-  Codev. XY Tra   = 1349,3

 

-  Codev. XY errore          1.3321,30 – 1.349,30 =                                          -18,0

(Osservare che con le codevianze, che possono essere negative, si mantiene la proprietà additiva; di conseguenza, quella tra trattamenti può essere maggiore di quella totale e quindi la codevianza d’errore risultare negativa)

 

 

4)   Infine si ricavano le devianze delle Y aggiustate

 

Dev. Y aggiustate =

 

 ottenendo

-  Dev. Y aggiustate Totale         =          1.547,24   con gdl = 18

(perde un altro gdl)

 

-  Dev. Y aggiustate errore       =                           671,08   con gdl = 14

(perde anch’esso un altro gdl)

 

Da queste due, per differenza, si stima

-  Dev. Y aggiustate Tra               1.547,24 – 671, 08 =                  876, 16   con gdl = 4

 

E’ utile riportare questi dati conclusivi delle devianze aggiustate nella solita tabella dell’ANOVA

 

 

Fonte di variazione

Dev. Agg.

DF

F

P

Totale

1547,24

18

---

---

---

Tra

876,16

4

219,04

4,57

< 0,025

Errore

671,08

14

47,93

---

---

 

 In essa sono stati aggiunti il valore di F

 e la probabilità P < 0.025 che permette di rifiutare l’ipotesi nulla.

Infatti con DF 4 e 14 i valori critici riportati nelle tabelle sono

-   F = 3,89 alla probabilità a = 0.025

-   F = 5,04 alla probabilità a = 0.01

 

Allo scopo di valutare il vantaggio apportato dall’analisi della covarianza alla significatività delle differenze tra le medie della Y è utile fornire la stima della riduzione proporzionale della varianza d’errore, dovuta alla correzione per la regressione comune:


 

 

Nell’ultimo esempio, con  i dati

Codev. Errore  di XY = -18       Dev. Errore della X = 482,0       Dev. Errore della Y = 671,75

 si ottiene

 

 

 che la correzione relativa è stata minore di 0.001, quindi totalmente trascurabile.

 

Nell’esempio 1, con

Codev. Errore di XY = 78,2      Dev. Errore della X = 78      Dev. Errore della Y = 88,7

si ottiene

 

 una correzione relativa che è superiore all’88 per cento. E’ molto importante, tale da rendere significativo il test F sull’uguaglianza delle medie di Y, mentre prima non lo era.

 

A conclusione della dimostrazione sperimentale del metodo, è utile rivedere i concetti di base della regressione e le sue condizioni di validità.

Il caso presentato è il modello dell’analisi della Covarianza per un solo fattore (Single-Factor Covariance Model) del tutto simile all’analisi della varianza ad effetti fissi.

Con una simbologia leggermente modificata da quella sempre utilizzata, al solo scopo di rendere più facilmente leggibile la figura successiva, questo modello può essere scritto

 come

 dove

 = media generale di tutte le Y,

 = effetto fisso del trattamento : è la differenza tra la media del trattamento () e la media generale (); pertanto deve esistere la relazione

 = coefficiente angolare della retta di regressione, per la relazione generale esistente tra  e

Il valore di , detta variabile concomitante, è assunta come costante.

Gli errori () sono indipendenti  e devono determinare una varianza costante lungo tutta la retta.

 

L’analisi della covarianza ha come ipotesi nulla

H0:

 contro l’ipotesi alternativa

H1: non tutte le sono uguali a 0

 

In una analisi della covarianza con 3 trattamenti, i vari concetti possono essere rappresentati graficamente come nella figura prossima:

 


 

 


 

In essa sono evidenziati gli aspetti più importanti dell’analisi della covarianza.

 

A)   I valori delle Y nei tre trattamenti sono rappresentate lungo altrettante rette, tra loro parallele, che esprimono la relazione con la variabile concomitante X. Vale a dire, riprendendo l’esempio sulla relazione tra capacità respiratoria espressa in litri () e età () di ogni individuo, la perdita in funzione dell’età () deve essere uguale in ogni gruppo.

 

B)   I vari gruppi a confronto possono avere medie delle X differenti (); il confronto viene attuato rispetto alla media generale (), in modo tale che  = 0;

 

Le condizioni di validità sono cinque:

1)  la normalità degli errori,

2)  l’uguaglianza della varianza per i vari trattamenti,

3)  l’uguaglianza del coefficiente angolare delle rette di regressione dei vari trattamenti,

4)  la relazione di regressione tra la variabile X e la variabile Y deve essere lineare,

5)  gli errori non devono essere correlati.

 

La terza assunzione, quella che tutti i trattamenti devono avere lo stesso coefficiente angolare (nel testo sempre indicato con , per segnalare che si tratta di quello della popolazione e quindi non considera le piccole differenze campionarie tra i ) è cruciale.

Se i coefficienti angolari sono differenti, nell’analisi statistica occorre separare i trattamenti. Per ottenere questo risultato, il metodo più semplice è quello illustrato per il caso di due campioni, nel paragrafo precedente.

 

Con un approccio differente dai metodi esposti, l’analisi della covarianza può essere affrontata anche con il calcolo matriciale. E’ un argomento che rientra nella statistica multivariata, per la quale è necessaria una impostazione differente e più complessa di quella qui esposta. Ad essa si rimanda per approfondimenti ulteriori.

 

L’analisi della covarianza ha avuto ampi sviluppi, in due direzioni diverse.

-   Da una parte, in analogia con l’analisi della varianza, permette di considerare contemporaneamente vari fattori e le loro interazioni, in riferimento a una sola covariata. Se l’analisi è limitata a due sole variabili, con la consueta simbologia il modello additivo è


 

Yijkm + ai gj + agij + b(Xijk - ) + eijk

 

-   Dall’altra, con la covarianza multipla si possono seguire più covariate (X1 , X2 ,…, Xn). Il modello più semplice, due covariate in una analisi della varianza ad 1 solo criterio, è

Yijk = m + ai + b1(X1ij - 1 ) + b2(X2ij - 2 ) + eijk

 

Dalla loro combinazione, più variabili e più covariate, si ottengono modelli additivi che appaiono molto complessi. Superati con l’informatica i problemi di calcolo, attualmente i limiti alla complessità del disegno sperimentale sono posti solamente dall’interpretazione dei risultati, particolarmente difficile nel caso di più interazioni.

 

Per la trattazione dell’analisi della covarianza a disegni complessi, più variabili e più covariate con eventuale interazione, si invia a testi specifici.

 

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007