LA REGRESSIONE LINEARE SEMPLICE

 

 

16.17.  LA REGRESSIONE PER L’ORIGINE: retta, INTERVALLo DI CONFIDENZA E PREDIZIONE INVERSA; VANTAGGI, LIMITI E ALTERNATiVe.

 

 

Nella ricerca applicata si presentano situazioni nelle quali

la relazione tra due variabili è lineare, almeno in modo approssimato, e

-  è logicamente atteso che la retta passi per l’origine,

-  cioè per il punto di coordinate  = 0   e    = 0, detto appunto origine.

 

In biologia e in medicina, è di scarsa utilità e pertanto è usata molto raramente. Negli esempi precedenti, che riguardano la relazione tra altezza e peso in giovani donne, addirittura è priva di significato reale anche il valore dell’intercetta . Come è stato banalmente evidenziato, non può esistere nessun caso in cui l’altezza sia  = 0.

Piùin generale, una retta che passa per l’origine non sempre ha un significato disciplinare. A. F. Bissel nel 1992 (con l’articolo Lines through the origin-isNO INT the answer?, pubblicato su Journal of Applied Statistics, Vol. 19, No. 2, pp. 193 – 210) ha presentato in grafico alcuni casi in cui essa è priva di senso logico e altri nei quali può essere utile.

In chimica, in fisica e in ingegneria, in molti casi in cui si confrontano due quantità e la prima è un indicatore della seconda, può appunto succedere che la retta debba logicamente passare attraverso l’origine. In altre situazioni, tale presunzione è ritenuta logica, anche quando sperimentalmente non potrà mai essere osservata: è il caso di due metodi equivalenti per la stessa analisi, quando il valore non può mai raggiungere lo zero, come in medicina il confronto tra due metodologie per determinare il livello di colesterolo o dei trigliceridi nel sangue.

 

La regressione attraverso l’origine (regression through the origin) è utile pure nel confronto tra indici o misure differenti, entrambi dipendenti dallo stesso fenomeno, come in chimica la quantità assoluta (X) di sostanza sciolta e una misura (Y) della sua concentrazione, in economia il numero di oggetti (X) e il loro costo totale (Y).

 

Nella pagina successiva, le cinque figure evidenziano come nelle prime tre situazioni (a, b, c) imporre alla retta di passare per l’origine determini una forte distorsione della relazione reale che intuitivamente esiste tra la variabile X e la variabile Y.

In queste figure, l’imposizione di passare per l’origine può essere adeguata per le relazioni lineari rappresentate negli ultimi due diagrammi cartesiani (figure d, e), anche se in esse si evidenzia per la collocazione della retta una leggera forzatura, rispetto alla disposizione sperimentale dei dati.


 


 

Il vantaggio di una retta passante per l’origine spesso è solo pratico:  semplifica e riduce i calcoli per

-  stimare la retta,

-  valutare la sua significatività,

-  calcolare gli intervalli di confidenza,

-  ricavare la regressione inversa.

 

Nella regressione attraverso l’origine, quindi con  = 0,

 l’equazione della retta diventa

 dove, con un campione di  coppie di dati,

 è ottenuto dalla relazione

 

Nella successiva analisi per la significatività del coefficiente angolare (),

 con ipotesi

H0: b = 0         contro            H1: b ¹ 0

 si deve stimare

-   la Devianza Totale =  che ha gdl =  

 (non è misurata come al solito mediante gli scarti degli Yi dalla loro media),

 

-   la Devianza dovuta alla regressione  che ha gdl = 1

 

-   la Devianza d’errore ()  che concettualmente è  e ha gdl = n-1

 ma che, con formula abbreviata, è calcolata

 con

 

 

La perdita di un solo gdl (n-1) nella devianza e varianza d’errore è importante.

Essa è dovuta al fatto che il valore dell’intercetta  non è stimato dai dati, ma imposto (uguale a 0) dalle caratteristiche (vere o supposte) della popolazione.

 

Dalla devianza d’errore si ricava la varianza d’errore =

 

ESEMPIO 1. Filtrando i metri cubi di acqua () riportata nella colonna 1, sono stati estratti i Kg di deposito () riportati nella colonna 2:

 

(1)

(2)

(3)

(4)

(5)

31

14,0

  434,0

  961

196,00

33

17,1

  564,3

1089

292,41

37

21,3

  788,1

1369

453,69

40

20,4

  816,0

1600

416,16

45

27,4

1233,0

2025

750,76

49

27,2

1332,8

2401

739,84

52

28,4

1476,8

2704

806,56

 

= 6645,0

= 12149

= 3655,42

 

 

Calcolare la retta passante per l’origine e la sua significatività.

 

Risposta. Per calcolare la retta passante per l’origine

 

 il valore di  è ricavato (vedi colonna 3 e colonna 4)

 con


 

 

 e risulta = 0,547.

 

Per la verifica della sua significatività, cioè dell’ipotesi

H0: b = 0         contro            H1: b ¹ 0

 si calcolano

-   la Devianza dovuta alla regressione 

  che risulta   = 3634,54 e ha gdl = 1

 

-   la Devianza d’errore ()  che concettualmente è

 ma che con formula abbreviata (vedi colonne 3, 4 e 5) è calcolata

con

 

 e risulta  = 20,88  con ha gdl = 6

 

Riportati in tabella con la stima del rapporto F e della probabilità P ad esso associata

 

 

Fonte di variazione

DF

F

P

Regressione

3634,54

1

3634,54

1044

0.000

Errore

20,88

6

3,48

----

---


 

 evidenziano la altissima significatività della regressione lineare.

 

La retta di regressione passante per l’origine ha alcune caratteristiche distintive:

-   è obbligata a passare dal punto  = 0   e    = 0

-   ma non necessariamente passa per il baricentro della distribuzione (, );

-   i residui () abitualmente non sono bilanciati intorno allo zero;

-  la somma dei quadrati dei residui  può essere maggiore

 della devianza totale ;

-  di conseguenza, il coefficiente di determinazione  può essere negativo;

-  da tale osservazione deriva anche che in questo modello statistico il coefficiente di determinazione  non ha un significato chiaro.

 

Sono una serie di conseguenze che

-  la rendono molto diversa dalla retta least-squares classica,

-  ne riducono la possibilità di fornire la stessa interpretazione.

Pertanto è da evitare, quando è possibile.

 

L’intervallo di confidenza della retta di regressione passante per l’origine può essere stimato

-  sia per tutta la retta b

 

 

-   sia per il valore medio di un  determinato da un  prescelto

 

 

-   sia per un singolo valore di un determinato da un  aggiuntivo


 

 

-   sia per un singolo valore di un determinato a partire dalla media  di  valori aggiuntivo

 

 

ricordando

-  che serve il valore del t di Student alla probabilità a/2 prestabilita, per un test bilaterale,

- e che esso ha gdl  uguali a n-1.

 

 

ESEMPIO 2. Stimare i tre intervalli di confidenza alla probabilità del 95% con retta passante per l’origine calcolata nell’esempio precedente.

 

Risposta. Poiché

-   con gdl = 6 e alla probabilità a = 0.05 bilaterale il t di Student è uguale a 2,447

 = 0,547       = 3,48       = 12149

 si stimano i seguenti intervalli di confidenza:

 

1 -   per tutta la retta b

 

 dove

-  il limite inferiore è L1 = 0,506 (0,547 – 0,041)

-  il limite superiore è L2 = 0,588 (0,547 + 0,041)


 

2 -   per il valore medio  determinato da = 40 (scelto entro il campo di variazione sperimentale) dopo aver stimato

 

 che risulta uguale a 21,88

 

 

 si ottengono

- il limite inferiore L1 = 20,22 (21,88 – 1,66)

 - il limite superiore L2 = 23,55 (21,88 + 1,66)

 

3 -    per un singolo valore di determinato per= 40

 

 

 si ottengono

-  il limite inferiore L1 = 19,90 (21,88 – 1,98)

-  il limite superiore L2 = 23,86 (21,88 + 1,98).

 

 

In molti casi in cui si stima la retta di regressione attraverso l’origine, può essere utile anche

-  la predizione inversa.

Nel caso di un farmaco, si parte dall’effetto Yh.

 

 

 e da esso si stima la dose  che lo causa.

L’intervallo di confidenza di tale valore  ha come limiti L1 e L2 determinati


 

 mediante

 

 

dove

-   oltre alla simbologia consueta,

-   è il valore predetto o stimato per un dato prescelto,

 è un valore che dipende dalla probabilità a e dai df della varianza d’errore.

Pertanto, L’intervallo di confidenza di tale valore   può essere stimato con il valore critico t alla probabilità a bilaterale e con df n= n-1

 

 

     oppure con il valore critico F alla stessa probabilità a e con df  n1 = 1  e  n= n-1

 

 

 dove

 

 

Per valutare se

-  il metodo della regressione per l’origine offre vantaggi effettivi

rispetto ad altri metodi che

-  rappresentano approssimativamente tale relazione lineare passante per l’origine o almeno vicino a essa,

 A. F. Bissel nel 1992 (con l’articolo Lines through the origin-isNO INT the answer?, pubblicato su Journal of Applied Statistics, Vol. 19, No. 2, pp. 193 – 210) ha presentato il confronto tra 4 metodi riportato nella tabella successiva


 

 

Valori osservati

Valori Y predetti ()

X

Y

(1)

Regress.

Lineare

(2)

Reg. per

Origine

(3)

Rapporto

Costante

(4)

Errore

Proporz.

310

14,0

13,45

20,15

18,70

14,68

330

17,1

14,95

21,45

19,90

16,13

370

21,3

17,96

24,05

22,31

19,02

400

20,4

20,22

26,00

24,12

21,19

450

27,4

23,99

29,25

27,14

24,80

490

27,2

27,00

31,85

29,55

27,70

520

28,4

29,26

33,80

31,36

29,86

560

32,5

32,27

36,40

33,77

32,76

580

31,9

33,78

37,70

34,98

34,20

650

34,1

39,05

42,25

39,20

39,26

650

38,5

39,05

42,25

39,20

39,26

650

39,8

39,05

42,25

39,20

39,26

760

50,4

47,33

49,40

45,83

47,21

800

43,8

50,34

52,00

48,25

50,10

810

50,4

51,10

52,65

48,25

50,83

910

53,5

58,63

59,15

54,88

58,06

1020

64,3

66,91

66,30

61,51

66,01

1020

71,3

66,91

66,30

61,51

66,01

1160

79,6

77,45

75,40

69,96

76,13

1200

80,8

80,46

78,00

72,37

79,02

1230

78,5

82,72

79,95

74,18

81,19

1380

98,9

94,02

89,70

83,25

92,03

1460

105,6

100,04

94,90

88,05

97,82

1490

98,6

102,30

96,85

89,86

99,98

 

 dove

-   X sono i Kg di liquido che passa sopra un letto di assorbimento e

-   Y sono i Kg della quantità assorbita.

In questo esperimento è ovvio che per X = 0 necessariamente anche Y = 0.

 

Per predire i valori di Y, l’autore utilizza 4 metodi:

 

1 - la regressione lineare

 

2 – la regressione lineare attraverso l’origine


 

3 – il rapporto costante (Y/X = b)

 

 

4 – l’errore proporzionale (Y/X = a/X + b)

 

 

 

La semplice osservazione evidenzia l’accordo esistente tra i 4 metodi: ad occhio, le differenze risultano minime. Per una interpretazione corretta, è tuttavia importante fornire sia una risposta disciplinare sul significato reale delle differenze, sia una risposta statistic.

 

Criteri più oggettivi possono essere

-   l’indice di correlazione r di Pearson tra  osservato e  stimato (r(,))

-  l’errore proporzionale determinato come la radice del quadrato medio (root mean square  o rms)

 di

 

I risultati sono stati

 

 

 

Modello

(,)

1 – Regressione lineare

0,99289

0,08067

2 – Regressione lineare per l’origine

0,99289

0,13176

3 – Rapporto costante

0,99289

0,11774

4 – Errore proporzionale

0,99289

0,06978


 

 

 

 

Nel grafico,

-   la linea continua rappresenta la retta di regressione, che non passa per l’origine;

-   il tratteggio di due linee lunghe e una breve rappresenta la retta attraverso l’origine;

-  il tratteggio di due linee brevi e una lunga rappresenta la retta ottenuta con il metodo del rapporto costante; essa passa per l’origine;

-   il tratteggio con linee brevi rappresenta la retta calcolata con il metodo dell’errore proporzionale;  essa non passa per l’origine.

 

L’autore conclude affermando che ovviamente esistono altri metodi

-  sia per predire il valore di Y (coefficienti polinomiali di ordine superiore, curva di Gompertz, ecc.) con la possibilità di utilizzare i valori o loro trasformazioni, tra cui è frequente il log della dose o la duplice trasformazione log X e log Y,

-   sia per stimare l’accordo tra  gli Y osservati e quelli Y attesi (plots dei residui, studi delle differenze per valori spaziati con regolarità, ecc.).

 

Tuttavia, a suo parere, si può affermare che il valore della correlazione, che resta costante a causa della collocazione lineare dei valori, non è di alcun aiuto nella scelta. Inoltre, poiché l’errore cresce in valore assoluto all’aumentare del valore dei dati,

- l’errore proporzionale sembra essere non solo la misura più logica, ma anche quella che complessivamente riesce a prevedere in modo più accurato i valori osservati.

 

Il criterio di scelta tra i differenti metodi, come in quasi tutti i problemi di statistica, è la

-   interpretabilità entro la disciplina.

Si ritorna al problema generale: la scelta dei metodi non è solo questione di tecnica statistica, a causa della inscindibilità tra la logica statistica e la conoscenza del campo scientifico al quale viene applicata.

 

Il dibattito sui vantaggi dell’uso della retta attraverso l’origine e di eventuali metodi alternativi è sintetizzato nel testo di Peter Armitage e Geoffry Berry del 1996 (vedi la traduzione italiana curata da Mario Bolzan Statistica Medica. Metodi statistici per la ricerca in Medicina, terza ed. McGraw-Hill Libri Italia, Milano).

 

Anche nella retta attraverso l’origine, come in tutti i metodi fondati sui minimi quadrati, è condizione essenziale di validità che

-  la variabilità dell’errore sia indipendente dal valore della variabile X.

 

Ma, in particolare quando la Y assume solamente valori positivi, avviene che essa abbia varianza crescente all’aumentare della X: le soluzioni alternative più frequenti sono due.

1)  Stimare  con il rapporto tra i due totali o le due medie

 

 

 appare la stima migliore, quando la varianza () d’errore (ovviamente calcolata sulla Y) è proporzionale al valore di X.


 

Di solito avviene in conteggi, in cui X è il tempo (di durate differenti) e Y le quantità (come la radioattività) corrispondenti. I valori di Y seguono la legge di distribuzione di Poisson: a tempi (X) maggiori corrispondono quantità (Y) maggiori, che hanno varianze maggiori poiché spesso non sono costanti ma proporzionali al valore medio.

Con il rapporto indicato, si ottiene il conteggio medio per unità di tempo che elimina l’effetto evidenziato.

 

2)  Stimare  come media dei rapporti tra tutte le coppie Y/X

 

 

 appare la stima migliore, quando è

- la deviazione standard () dell’errore (ovviamente calcolata sulla Y) ad essere proporzionale al valore di X.

 

A causa dei problemi evidenziati in questa ultima parte e in precedenza, prima di utilizzare la retta attraverso l’origine è sempre utile chiedersi se essa sia realmente necessaria e se non sia possibile ricorrere a altre relazioni funzionali. Il suo uso appare ragionevole e motivato solo quando si confrontano due metodi, in campioni ripetuti, con una relazione chiara:

-   Yi è la misura ottenuta il metodo storico o classico, attendibile ma più costoso,

-   Xi è la misura ottenuta con il metodo nuovo, meno attendibile ma rapido e economico.

(Tuttavia per affrontare il problema del confronto tra due metodi analitici sono stati proposti recentemente altri metodi, come quelli di Bland e Altman, che sono illustrati in un capitolo successivo).

Quando invece si vogliano analizzare solamente le discrepanze tra due metodi di misurazione, non vi è motivo di preferire la regressione di Y su X piuttosto che quella di X su Y e spesso è vantaggioso ricorrere a altri tipi di relazione o a trasformazione dei dati,

 quale

 

Sono approfondimenti ulteriori, per i quali si rimanda a pubblicazioni specialistiche.


 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007