CORRELAZIONE  E  COVARIANZA

 

 

18.11.   ANALISI DELLA COVARIANZA PER DUE GRUPPI, CON TEST t DI STUDENT PER RETTE PARALLELE E PER RETTE NON PARALLELE

 

Per confrontare due medie, si ricorre al test t di Student. Per due o più, all’ANOVA.

L’uso del test t e dell’ANOVA richiedono che i due o più gruppi abbiano medie uguali prima dell’esperimento. Solamente se questa condizione è vera, gli effetti dei trattamenti possono essere misurati dalle differenze riscontrate tra le medie dei due o più gruppi dopo l’esperimento.

Per esempio, se si vogliono confrontare gli effetti di due o più farmaci sulla capacità respiratoria di cavie, i gruppi devono essere costruiti in modo tale da essere simili e quindi dare la stessa risposta media, prima della somministrazione del principio attivo. Pertanto, assegnare gli individui in modo casuale ai vari trattamenti, come richiede l’analisi totalmente randomizzata, ha lo scopo specifico di rendere uguali gli effetti di tutti gli altri fattori che possono determinare differenze nei valori della capacità respiratoria oltre al farmaco, quali il sesso, l’età e/o la malattia.

 

In varie condizioni sperimentali, questo metodo non è possibile. Soprattutto per dati raccolti sul campo o per confronti tra popolazioni reali.

Per far risaltare il concetto con un esempio, si assuma di voler verificare se esiste una differenza significativa nella capacità respiratoria (Y espressa in litri) tra un gruppo di persone affette da malattie polmonari e uno di persone sane, che vivano nelle stesse condizioni. E’ ovvio attendersi che i primi abbiano una media significativamente minore. Ma la capacità respiratoria è fortemente influenzata anche dall’età (X espressa in anni) e in persone adulte diminuisce con l’invecchiamento. Può quindi succedere che il gruppo di persone sane, scelte per il confronto in un gruppo ristretto, abbia un’età sensibilmente più avanzata di quella del gruppo degli ammalati. Ne deriverebbe, per l’effetto dell’età, che questi ultimi potrebbero avere una media di Y maggiore di quella dei primi; cioè che la capacità respiratoria media dei malati risulti significativamente maggiore di quella dei sani, contrariamente all’atteso e alla logica medica. Se invece il gruppo di sani fosse più giovane, la differenza tra la loro media e quella degli ammalati risulterebbe maggiore di quella realmente dovuta alla malattia.

 

Il confronto tra le medie dei volumi respiratori dei due o più gruppi deve quindi tenere in considerazione le età degli individui che li compongono: è l’analisi della covarianza (ANCOVA).

 

In quasi tutti i testi di statistica, questo argomento è trattato subito dopo il confronto tra due o più rette, poiché utilizza in buona parte gli stessi concetti e le stesse formule. In questo corso, è stato posto alla fine della parte dedicata alla statistica parametrica, come sua logica conclusione concettuale e metodologica. Infatti utilizza in modo congiunto

-  sia il test t per il confronto tra due medie o il test F per in confronto tra k medie,

-  sia la regressione lineare, per eliminare l’effetto del fattore di perturbazione o, con un concetto del tutto simile, per aggiustare i dati in funzione dell’altro effetto.

 

L’analisi della covarianza applicata a due gruppi può utilizzare il test t di Student o il test F. Il loro risultato è del tutto identico, come ripetutamente evidenziato nei capitoli precedenti, per la nota relazione

 

Il test t offre il vantaggio di permettere confronti unilaterali, oltre a quelli bilaterali.


 

Il test può essere utilizzato sia quando le due rette sono parallele, sia quando esse non lo sono. Nell’applicazione successiva, che illustra contemporaneamente i concetti e i metodi applicati ad un esempio riportato da un testo internazionale (Armitage e Berry), è trattato prima il caso di due rette parallele poi quello di due rette non parallele.

 

Per illustrare, in modo semplice e nei minimi dettagli, tutti i passaggi logici e metodologici dell’analisi della covarianza nel caso di due gruppi, si supponga di voler confrontare la capacità respiratoria media

-   di un gruppo di individui affetti da asma (campione 1) formato da 40 persone,

-   con quella di un gruppo di controllo (campione 2), formato da 44 persone sane che vivono nelle stesse condizioni.

 

DUE RETTE PARALLELE

 

1)   Dalle due distribuzioni campionarie di Y (capacità respiratoria espressa in litri) e di X (età in anni), devono essere ricavati i valori indicati nella prima colonna; con i dati raccolti, sono quelli riportati nelle altre tre colonne (Campione 1, Campione 2, Totale):

 

 

Calcoli preliminari

Campione 1

Campione 2

Totale

4.397

6.197

10594

26,58

20,61

47,19

-236,39

-189,71

426,10

41,38

39,80

---

3,92

4,46

---

40

44

---

 

 

2)   Da essi si ricavano i due coefficienti angolari, con le loro intercetta:


 

 

Rette

Campione 1

Campione 2

 

 

3)   Se, con il test di confronto già illustrato nel capitolo dedicato alla regressione, i due coefficienti angolari risultano uguali (cioè non significativamente differenti),  si può stimare

il coefficiente angolare comune

 

 ottenendo  = -0,0402.

 

 

4)   Da esso è possibile

-  ricavare la differenza () tra le due medie di Y (),

-  considerando l’effetto della differente età media dei due gruppi (), come evidenziato nel grafico sottostante.

La distanza  tra le medie delle due Y (vedi sull’asse delle ordinate )

-  è aggiustata o ridotta della quantità dovuta alla differenza tra le due medie di X (vedi sull’asse delle ascisse ),

corretta per il coefficiente angolare comune ,

cioè della quantità

 

 come evidenziato nella parte centrale del grafico successivo:


 


 

 

 

5)   Di conseguenza questa distanza  determinata con formula generale che tiene i considerazione tutti i fattori enunciati  mediante

 

 

 risulta uguale a  - 0,476

Per comprendere in modo chiaro l’operazione svolta, è utile confrontare semplicemente le medie dei due gruppi riportate nella tabella introduttiva e ragionare su di esse. Si evidenzia che

-   la capacità respiratoria del gruppo 1, gli ammalati, è minore di quella del gruppo 2, cioè dei sani, di 0,54 litri (da 3,92 – 4,46);

-   ma il gruppo di ammalati ha un’età media maggiore di 1,58 anni (da 41,38 –39,80 );

-   l’effetto sulla capacità respiratoria di questa maggiore età media è la perdita di litri 0,064 (come sono stimati da –0,0402 x 1,58  e dove –0,0402 è la perdita annuale);

-  di conseguenza, la differenza reale nella capacità respiratoria del gruppo degli ammalati è 0,476 litri (derivando da 0,540 – 0,064).

 

 

6)   Per le stime successive, è necessario calcolare


 

 

 

Con i dati preliminari riportati nella tabella iniziale, la formula appare più semplice:

 

 soprattutto con i totali

 

 e si perviene al risultato  = 0,371

 

 

7)   Infine, per verificare la significatività della differenza nella capacità respiratoria media tra i due gruppi, ridotta della differenza media tra le età, si calcola il valore del t di Student

 

 

 che con i dati dell’esempio

 

 

 

 

 risulta t = - 3,579 con gdl = 81.

Le tabelle del t di Student difficilmente riporta il valore critici del t con gdl = 81.

Si sceglie il valore inferiore riportato, come gdl = 80 per il quale in un test bilaterale il valore critico riportato con a = 0.005 è 3,416.

Il valore calcolato è superiore e quindi si rifiuta l’ipotesi nulla, alla probabilità stimata.

 

 

8)   Nella scelta del valore critico e nella formulazione dell’ipotesi, anche in questo tipo di test t occorre porre attenzione alla direzione dell’ipotesi alternativa. Tutto il problema ha voluto evidenziare non genericamente se le due medie sono differenti; ma se effettivamente, come logica medica vuole, la capacità respiratoria degli ammalati, a parità di età, è affettivamente minore di quella dei sani. E’ quindi un test unilaterale: più logico e più potente, in quando dimezza la probabilità calcolata  rispetto al test a due code. Si rifiuta l’ipotesi nulla, con probabilità P minore.

 

 

DUE RETTE NON PARALLELE

Il metodo precedente è valido quando le due rette sono parallele. Tradotto in termini di fisiologia, cioè con una lettura disciplinare come sempre occorrerebbe fare nell’analisi statistica, questa assunzione significa che la differenza nella capacità respiratoria dei sani e di quella degli ammalati si mantiene costante al variare dell’età. In realtà l’esperienza, in questo caso confermata da una lettura attenta dei dati, evidenzia che

-   il coefficiente angolare degli ammalati (Campione 1) è  = - 0,0538

-   il coefficiente angolare dei sani (Campione 2) è  = - 0,0306.

Con l’avanzare dell’età, la perdita di capacità respiratoria annuale degli ammalati (0,0538) è maggiore di quella dei sani (0,0306).

 

Sotto l’aspetto medico può apparire un risultato più logico dell’assunzione di parallelismo, anche se l’analisi statistica può non risultare significativa, a causa dei vari fattori aleatori che possono incidere su di essa, come un campione troppo piccolo, una grande variabilità tra gli individui che formano i due campioni, uno squilibrio per fattori non presi in considerazione in questa analisi quale il sesso, ecc. …


 

Può quindi essere utile effettuare il confronto non più tra le età medie ma tra età differenti, più giovani oppure più anziane. E’ utile spesso fare il confronto per valori specifici della covariata. Per esempio si assuma di voler eseguire il confronto tra persone di 60 anni.

 

1)   Definita l’età del confronto  = 60

 la differenza  nella capacità respiratoria a quell’età

 è

 

Con i dati dell’esempio

 = 3,92      = 4,46       = 41,38       = 39,80       = -0,0538       = -0,0306

 si ottiene

 che la differenza da 0,54 è salita a litri 0,92 sempre a svantaggio degli ammalati:  = -0,92

 

2)   Si modifica anche l’errore standard di questa differenza.

Invece della formula con la quale si impiegano le due età medie

 

 

 in questo caso si deve utilizzare

 

 

Con i dati dell’esempio precedente ai quali vanno aggiunti quelli delle due devianze di X


 

Calcoli preliminari

Campione 1

Campione 2

4.397

6.197

 

 

 si ottiene

 

 

 

 un errore standard uguale a 0,267

 

3)   Infine si stima il valore t

  che risulta t = - 3,445 con gdl = 81.

Si può ugualmente rifiutare l’ipotesi nulla alla probabilità P < 0.005 soprattutto se il confronto è unilaterale.

 

4)   Per meglio comprendere il metodo, quindi ai fini di un suo uso corretto ed utile, è importante sottolineare che:

-   la scelta dell’età di confronto non deve uscire dal campo di variazione sperimentale delle X, poiché entrerebbe in discussione la validità della retta stimata;

-   come era logico attendersi, all’aumentare dell’età è aumenta la differenza tra le due capacità respiratorie medie;

-   ma, allontanandosi dalla media, è aumentato anche l’errore standard della differenza, come bene evidenzia la formula ();

-   ne consegue che la differenza è risultata meno significativa del semplice confronto tra le due medie; considerato in valore assoluto il valore di t con le due medie è stato t81 = 3,579 mentre confrontando la capacità media stimata per l’età di 60 anni è stato t81 = 3,445

Non sempre si ottiene questo peggioramento. Oltre che dalla distanza dalla media, dipende dal segno del coefficiente angolare, dal suo valore in modulo, dalla distanza dell’età scelta per il confronto rispetto alla media dei due gruppi.

 

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007