CONFRONTI TRA RETTE,

CALCOLO DELLA RETTA CON Y RIPETUTE, CON VERIFICA DI LINEARITA’ E

INTRODUZIONE ALLA REGRESSIONE LINEARE MULTIPLA

 

 

17.3.  CONFRONTO TRA PIU’ RETTE DI REGRESSIONE CON IL TEST F, CALCOLO DELLA RETTA COMUNE E INTERVALLI DI CONFIDENZA

 

 

Tutti i test attuati nei due paragrafi precedenti su due campioni indipendenti possono essere estesi al caso di più campioni. Come nel confronto tra medie, si passa dall’uso del t di Student al test F di Fisher.

 

La significatività delle differenze tra più coefficienti di regressione può essere verificata mediante l’analisi della varianza,

 con ipotesi nulla

 ed ipotesi alternativa

  non sono tutti uguali

 nella condizione che

- le varianze d’errore dei vari gruppi siano omogenee.

I passaggi logici sono:

 

1)  Se si assume come vera l'ipotesi nulla che sono tra loro tutti uguali, i vari coefficienti angolari calcolati () rappresentano variazioni casuali dell'unico vero coefficiente angolare (), la cui stima migliore è fornita dal coefficiente di regressione comune  (), calcolato come rapporto tra la sommatoria delle codevianze e quella delle devianze totali di X:

 

 

2)  A questo coefficiente angolare comune è associata una quota di devianza della Y (Dev.c = devianza comune) pari a

 

3)  Per ogni j-esimo gruppo la retta di regressione è data da


 

 

 

Se le varie rette a confronto possono essere considerate tra loro parallele, nello stesso modo la stima del valore medio comune della Y () per Xi è data da

 

4 )  Come riportato nel grafico precedente,

 lo scostamento di ogni singola osservazione  dalla media del proprio gruppo  

 può essere diviso in tre quote:

-   del punto dalla retta del suo gruppo  (),

-   della retta del gruppo da quella comune (),

-   della retta comune dalla media generale ()

 


5)  Le rispettive devianze, ossia la somma dei quadrati di questi scarti, con k gruppi o rette a confronto e con un numero totale di osservazioni pari a N possono essere ripartite in modo del tutto simile a quanto già fatto nell’ANOVA a un criterio:

 

I - devianza totale entro gruppi                                   con  gdl    N-k 

 corrispondente alla somma  delle devianze totali di ogni gruppo,

 

II - devianza residua intorno alle rette separate          con gdl    N-2k 

 corrispondente alla somma delle devianze d’errore di ogni retta,

 

III - devianza della regressione di ogni retta                     con gdl        

 ottenuta sottraendo la 2 alla 1,

 

IV - devianza dovuta alla retta comune,                          con  gdl        1   

 o di parallelismo, data dal rapporto tra il quadrato della somma delle codevianze e le devianze di X,

 

V - devianza dovuta alle differenze tra rette,                 con   gdl    k-1 

 o di scostamento dal parallelismo, ottenuta sottraendo la 4 alla 3.

 

6)  Indicando

- la somma dei quadrati degli scarti di Xij  rispetto alla sua media  nel gruppo j-esimo con

 

- la somma dei quadrati degli scarti di Yij rispetto alla sua media  con

 

- la somma dei prodotti degli scarti di X e Y rispetto alle loro medie con

il calcolo delle devianze è mostrato con semplicità.

 

Utilizzando, per semplicità di calcolo, le formule abbreviate si ottiene

- la devianza entro gruppi con

 con gdl N-k (dove k è il numero di gruppi o rette)

 

- la devianza dovuta alla retta comune o al coefficiente angolare comune con

 con gdl = 1

 

-  la devianza dovuta alle differenze tra coefficienti o alle differenze tra rette:

 con gdl k – 1.

Dal loro rapporto si ricava la varianza dovuta alle differenze tra i coefficienti angolari ()

 

- la devianza residua intorno alle rette separate:

 con gdl N – 2k.

Dal loro rapporto si ottiene la varianza d’errore intorno alle rette separate ()

 

7) L'analisi della varianza per verificare la significatività delle differenze tra i coefficienti di regressione è un test F con gdl k-1 e N-2k.

E’ ottenuto mediante il rapporto tra

-   la varianza  delle differenze tra coefficienti di regressione lineare  detta anche varianza di scostamento dalla regressione

-   la varianza del residuo intorno alle rette separate  o varianza d’errore.

 

ESEMPIO. Sviluppando un esempio riportato in un testo a grande diffusione internazionale (Armitage e Berry ripetutamente citato come testo di riferimento), si supponga di voler verificare se esiste una differenza significativa tra i coefficienti angolari di tre rette differenti, stimate nella relazione tra capacità respiratoria (in litri) e età (in anni in tre gruppi (non bilanciati) di persone diversamente esposte a fattori di rischio.

 

Risposta.  1)   Per verificare l’ipotesi  nulla       

 contro l’ipotesi alternativa                non sono tutti uguali

 dalla distribuzione dei dati

 

 

 

Gruppi

 

1

2

3

Ind.

1

Y1

2

Y2

3

Y3

1

X11

y11

x12

x13

y13

2

X21

y21

x22

x23

y23

---

...

...

...

...

...

...

Xm1

ym1

xm3

Ym3

Medie

 

 sono stati ricavati i seguenti valori

 

Stime preliminari dai dati

Campione 1

Campione 2

Campione 3

 

912

2.282

6.197

 

11,74

12,55

20,61

-77,64

-106,22

-189,71

= -0,0851

= -0,0465

= -0,0306

12

28

44


 

2)  Da essi, per semplice somma delle devianze e delle codevianze dei vari gruppi, si ottengono i valori totali e il coefficiente angolare comune

 

Somme di Devianze e Codevianze dei k gruppi

Valori e Totali

 

912 + 2.282 + 6.197 = 9.391

11,74 + 12,55 + 21,61 = 44,90

(-77,64)+ (-106,22) + (-189.71) = -373,57

= - 0,0398

84

 

  evidenziando che

 la devianza d’errore totale è  = 44,90 e ha gdl = N - k  cioè  84 – 3 = 81

 

 

4)  Da questi Totali dei k gruppi si ricavano:

 

 I - La devianza dovuta alla retta comune o al coefficiente angolare comune ();

 con

 = 14,86

 è  = 14,86   e ha   gdl = 1

 

II – La devianza d’errore per le rette separate ();

 con


 

Campione

CALCOLI

1

5,13

2

7,61

3

14,80

TOTALE

-------------

27,54

 

 

 è  = 27,54  e ha  gdl =  N – 2k   cioè   84 – 6 = 78

 

III – La devianza dovuta alla differenza tra i coefficienti angolari  può essere ottenuta in due modi differenti:

a) per sottrazione da quella d’errore totale delle due dovuta alla regressione comune e alle singole rette di regressione

 -  -  =

44,90 – 14,86 – 27,54 = 2,50

 con gdl uguali a

(N – k) – 1 – (N – 2k )   =    k - 1

81 – 1 – 78 = 2    cioè   3 – 1 = 2

 

b) dai singoli valori delle codevianze dei k coefficienti angolari e quello comune

 

 

 

5)  Allo scopo di avere una visione generale e per meglio comprendere i successivi test F, è sempre utile costruire la tabella dell’ANOVA


 

 

Fonte di variazione

Devianze

DF

F

P

Entro gruppi

44,90

81

---

---

---

Coeff. Ang. Comune

14,86

1

14,86

42,09

< 0.001

Fra Coeff. Ang.

2,50

2

1,25

3,54

>  0.05

Errore per Coefficiente

27,54

78

0,353

---

---

 

 

Si verifica

-   la significatività del coefficiente angolare comune  

 mediante il test F

Poiché il valore critico con df 1 e 70 (78 è riportato in poche tabelle) alla probabilità a = 0.001 bilaterale è 13,3 si rifiuta l’ipotesi nulla: esiste una tendenza comune altamente significativa, nella relazione tra età e capacità respiratoria.

 

-   la significatività della differenza tra i k coefficienti angolari  

 mediante il test F

Poiché il valore critico con df 2 e 70 (78 è riportato in poche tabelle)

-  alla probabilità a = 0.10 bilaterale è 3,13

-  alla probabilità a = 0.05 bilaterale è 3,89

 non si può rifiutare l’ipotesi nulla, anche se la probabilità abbastanza vicina al 5%. Si può affermare, appunto perché è collocato tra il 55% e il 10%,  che

- non è dimostrata ma potrebbe esistere una tendenziale differenza tra i coefficienti angolari a confronto.

 

E’ sempre importante osservare attentamente il grafico: la non significatività della retta potrebbe suggerire che esista una relazione di tipo curvilineo.

Se questo metodo fosse stato applicato al caso precedente di due soli campioni, si sarebbe ottenuto un valore di F uguale a t2.


Il confronto tra i tre coefficienti angolari è avvenuto senza calcolarli e senza stimare né rappresentare graficamente le tre rette. In varie situazioni, può essere utile pervenire anche alla stima delle rette. Per questo dalla distribuzione dei dati e dalle stime precedenti  si ricavano

 

 

Stime preliminari dai dati

Campione 1

Campione 2

Campione 3

Totale

3,95

4,47

4,46

4,39

49,75

37,79

39,80

40,55

- 0,0851

- 0,0465

- 0,0306

- 0,0398

12

28

44

84

 

  e con la formula generale

 si stimano prima

 

Campione

CALCOLI

1

3,95 – (-0,0851)×49,75

8,18

2

4,47 – (-0,0465)×37,79

6,23

3

4,46 – (-0,0306)×39,80

5,68

Comune

4,39- (-0,0398)×40,55

6,00

 

e infine le rette

 

Campione

Retta

1

2

3

Comune


 

Un ulteriore aspetto importante per meglio comprendere e interpretare i risultati è il calcolo dell’intervallo di confidenza dei coefficienti angolari stimati.

A questo scopo si utilizza

-  la varianza d’errore 0,353 con i suoi 78 gdl

-  il valore di t che, scelto dalla tabella con gdl = 78 e per a = 0.05 bilaterale, è uguale a 1,991

-  la devianza della X del gruppo in oggetto

 ottenendo per ogni gruppo e in comune

 

 

Campione

Limiti di confidenza di  per a = 0.05

1

- 0,1242

- 0,0851

- 0,0460

2

- 0,713

- 0,0465

- 0,0217

3

- 0,0456

- 0,0306

- 0,0156

Comune

- 0,0437

- 0,0398

- 0,0359

 

 

 il limite inferiore  e quello superiore  dei rispettivi coefficiente angolare .

 

Una lettura attenta degli intervalli di confidenza mostra che il coefficiente angolare del campione 3 è fuori dell’intervallo di confidenza di quello del campione 1. Ma trattandosi di confronti tra k valori, non è corretto dedurne una differenza significativa, peraltro non dimostrata con l’analisi della varianza.

Per valutare tra quali coefficienti angolari la differenza campionaria sia significativa, è necessario

-  prima rifiutare l’ipotesi nulla con il test F tra tutti i k campioni,

-  successivamente ricorre ai confronti multipli, illustrati nel paragrafo successivo.

 

La lettura delle età medie ( = 49,75;    = 37,79;    =  39,80) evidenzia un forte effetto della diversa età media nei tre gruppi sulla capacità respiratoria. Per confrontare le medie delle Y eliminando l’effetto delle età, si deve ricorrere all’analisi della covarianza, riporta nella parte finale del capitolo dedicato alla regressione. E’ la parte conclusiva dei test parametrici: abbina l’analisi della regressione a quella dell’ANOVA.

 

Come mostrato nel caso di due campioni, anche in quello con k campioni l’analisi statistica può essere estesa a altre caratteristiche della retta. E’ possibile confrontare

-  oltre ai coefficienti angolari,

-  le intercette o posizioni (elevations),

-  il valore medio atteso su rette diverse, per la stesso valore della ,

-  e valutare se sono complessivamente uguali (test for coincidental regressions) oppure no.

Per questi approfondimenti si rinvia a altri testi, tra i quali

-  Zar Jerrold H., 1999, Biostatistical Analysis, (fourth ed., Prentice Hall, Englewood Cliffs, New Jersey, USA, pp.663 + 203app)

 


 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007