LA REGRESSIONE LINEARE SEMPLICE

 

 

16.10.   INTERVALLI DI CONFIDENZA DEI PARAMETRI b E a

 

 

L’uso della retta di regressione a fini predittivi richiede che possa essere stimato l’intervallo di previsione (prediction interval)

-  del coefficiente angolare b

-   dell’intercetta a.

 

I limiti di confidenza sono utili anche per eventuali confronti con un parametro prefissato e quindi ai fini dell’inferenza, come già illustrato per la media campionaria .


 

Un qualsiasi valore campionario  e un valore  di una popolazione

-   quando non sono compresi entro i limiti di limiti di confidenza di un  coefficiente angolare ,

 -  sono significativamente differenti da esso.

Questa analisi è del tutto analoga a quella del test  bilaterale, alla stessa probabilità .

Come per la media,

-  conoscendo  e la sua deviazione standard  

-  è possibile determinare l’intervallo di confidenza dei valori campionari  alla probabilità ,

 attraverso la distribuzione normale ridotta .

 

In realtà, nella ricerca quasi sempre il procedimento logico è effettuato nella direzione opposta: si cerca di stimare il parametro della popolazione ( oppure ) che di solito è ignoto, a partire dalle statistiche ( oppure ) calcolate su  dati campionari.

Ricavato un valore , il coefficiente angolare della popolazione (b) con probabilità P si trova entro 

-  i limiti dell’intervallo di confidenza tra il limite inferiore  L1 e il limite superiore L2

 con

L1 =

L2 =

 spesso scritto più rapidamente come

b =

 dove

 è l’errore standard di

 

Per l'intercetta campionaria (), il valore reale o della popolazione (a)

 si trova entro l’intervallo

a =

 dove

  è l'errore standard di


 

 con

-  che in entrambi i casi indica la varianza d’errore, stimata con il test F

 

ESEMPIO 1. Ricorrendo agli stessi dati su altezza e peso, con i quali sono stati calcolati la retta e la sua significatività, si è ottenuto

    = 0,796          = 7         = 16,42           = 510

 

t(5,0.025) = 2,571          t(5, 0.005) = 4,032          a = -73,36           

 

Stimare

A)  l’intervallo di confidenza del coefficiente angolare b

B)  l’intervallo di confidenza dell’intercetta a.

 alla probabilità a = 0.05 e a quella a = 0.01

 

Risposta.

 A) L'intervallo di confidenza del coefficiente angolare b

 con la formula

1 -   alla probabilità del 95% è

 

 

cioè

-  il limite inferiore è  = 0,335

-  il limite superiore è  = 1,257.

 

2 -  probabilità del 99% è

 

cioè

-  il limite inferiore è  = 0,073

-  il limite superiore è  = 1,519.

 

B) L'intervallo di confidenza per l'intercetta a

con la formula

1 -   alla probabilità del 95% è

 

 

cioè

-  il limite inferiore è  = -152,77

-  il limite superiore è  = + 6,05.

 

2 -  probabilità del 99% è

 

 

cioè

-  il limite inferiore è  = -197,95

-  il limite superiore è  = +51,23.


 

Anche in queste applicazioni, come già evidenziato per la media della popolazione (m) rispetto alla media campionaria (), l’intervallo di confidenza costruito attorno al valore campionario cresce, quando si aumenta la probabilità che esso comprenda il valore reale.

Per semplicità didattica e come aiuto ai calcoli richiesti dalle formule, è stato utilizzato un numero di dati molto limitato, nettamente inferiore a quello che si usa nella ricerca. Di conseguenza, i parametri della retta hanno intervalli molto ampi; tale risultato è particolarmente evidente per l’intercetta .

Inoltre, come in molte variabili biologiche, la varianza è grande e quindi l’intervallo di confidenza dell’intercetta  diventa talmente ampio da escludere raramente il valore 0.

 

 

ESEMPIO 2. Ricorrendo ai dati sulla concentrazione e l’intensità della fluorescenza, con i quali è stata calcolata la retta e verificata la sua significatività nei paragrafi precedenti, stimare

A)  l’intervallo di confidenza del coefficiente angolare b

B)  l’intervallo di confidenza dell’intercetta a.

 alla probabilità a = 0.05.

 

Risposta. Dai paragrafi precedenti, si rileva

 = 1,93           = 7            = 0,188            = 112

 

t(5,0.025) = 2,571          a = 1,5           = 6

 

A) L'intervallo di confidenza del coefficiente angolare b

 con la formula

 

  alla probabilità del 95% è

 

 


cioè

-  il limite inferiore è  = 1,825

-  il limite superiore è  = 2,035.

 

B) L'intervallo di confidenza per l'intercetta a

con la formula

  alla probabilità del 95% è

 

 

cioè

-  il limite inferiore è  = 1,276

-  il limite superiore è  = 1,724.

 

Anche nell’intervallo di confidenza si evidenzia come impiegando misure chimiche, che hanno una variabilità molto bassa, gli intervalli di confidenza forniscano stime molto precise dei parametri della regressione.

Per capire esattamente il significato dell’intervallo di confidenza del coefficiente angolare b (confidence interval for the regression coefficient; confidence limits for the slope of the regression line),

è utile osservare la figura seguente.

Essa non è riferita a nessuno degli esempi precedenti, ma evidenzia come

i vari possibili  passino tutti attraverso in baricentro della distribuzione, ognuno con una rotazione diversa rispetto agli assi X e Y.

 

E’ importante ricordare un altro aspetto: in questo intervallo è in discussione solamente il valore reale di , a partire dal valore campionario . Non è tenuto in considerazione il fatto che una rotazione differente dovrebbe determinare anche una intercetta  differente.


 

L’intervallo di confidenza di tutta la retta, che ovviamente considera simultaneamente l’intervallo di confidenza di  e quello di , è discusso nel paragrafo successivo.


 

 

Un altro concetto importante è

- il significato esatto dell’intervallo di confidenza del coefficiente angolare .

Può essere spiegato con semplicità, attraverso un esempio.

L’intervallo di confidenza al 95% significa che vi è

- una probabilità non maggiore del 5% che il coefficiente angolare reale  non sia compreso nell’intervallo stimato.

 

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007