LA REGRESSIONE LINEARE SEMPLICE

 

 

16.11. INTERVALLO DI CONFIDENZA della retta di regressione E per un singolo , stimato CON I DATI DEL CAMPIONE.

 

 

Nell’analisi della retta di regressione, oltre all’intervallo di confidenza calcolato separatamente

-  per il coefficiente angolare  e  per l’intercetta  (presentati nel paragrafo precedente),

 si può porre anche il problema di stimare

-  l’intervallo di confidenza del valore medio di Y stimato (), per un dato valore  di X.


Nel paragrafo successivo, sarà discusso il caso dell’intervallo di confidenza per

- un dato e quello per un gruppo di dati, aggiuntivi al campione raccolto e sul quale è stata calcolata la retta di regressione.

 

Nella prima parte di questo paragrafo, è presentato l’intervallo di confidenza del valore  per un solo valore , appartenente ai dati del campione.

Nella seconda parte, sarà discusso il caso in cui il calcolo è effettuato per ogni valore  riferito al campione. Ne rappresenta l’estensione, ma assume un significato diverso, poiché l’insieme di questi punti stimati  individua

-  l’intervallo di confidenza della retta (infatti è la stima dell’intervallo di ogni punto collocato sulla retta). Pertanto, in esso

- sono considerati congiuntamente gli effetti dell’intervallo del coefficiente angolare  e  quello dell’intercetta  sulla retta di regressione.

 

Il valore medio di  ovviamente è calcolato attraverso la funzione

 

Più rapidamente, conoscendo i valori medi  e , spesso è conveniente utilizzare la formula equivalente

 

ESEMPIO 1. Calcolare il valore medio  previsto per = 180, con  i dati sull’altezza delle 7 ragazze.

 

Risposta. Con

= -73,35       = 0,796       = 63,57       = 172,0

 per  un altezza  di  = 180 cm.

 

- con la prima formula si ricava

 

 - e con la seconda

ottenendo sempre  = 69,93 Kg.

 

L’intervallo di confidenza di questo valore medio o valore atteso   può essere ottenuto mediante la formula

 dove

  è il valore previsto o medio di ,  per un dato valore  della variabile ,

 è la varianza d’errore della regressione,

  è la dimensione del campione,

 è il  valore di , del quale si calcola la risposta media ,

è la devianza della .

 e

 

rappresenta l’errore standard di , cioè dell’Y stimato per un certo valore .

 

In questa formula, che mostra i fattori utilizzati nella stima, risulta con evidenza come ognuno influisca sull'ampiezza dell'intervallo di confidenza della retta.

Per una data probabilità P (1-a), l’ampiezza dell’intervallo

1 -  aumenta al crescere della varianza d'errore ,

2 -  diminuisce all'aumentare del numero  di osservazioni, per l'effetto congiunto del valore di  e del rapporto ,

3 -  diminuisce al crescere della devianza della variabile ,

4 -  varia in funzione della dimensione di , con valori minimi quando  è vicino alla media  e valori massimi quando  ha distanza massima dalla media.

 

E’ importante sottolineare in particolare questa ultima (quarta) caratteristica.

Il valore

è detto valore di leva (leverage) dell’osservazione , sul valore della retta.

Significa che, a differenza di quanto succede per l’intervallo del coefficiente angolare,

l'intervallo di confidenza della retta o valore medio atteso  non è costante, ma varia con una funzione iperbolica in rapporto alla vicinanza del punto  alla sua media

I valori di  corrispondenti a valori di  più distanti dalla loro media hanno una influenza maggiore nella determinazione dei parametri della retta.

 

Un secondo aspetto importante della formula appena riportata riguarda l’intervallo di confidenza dell’intercetta . Come è facile dedurre matematicamente dalla sua lettura,

-  quando  la formula diventa uguale a quella (presentata in un paragrafo precedente) che stima l’intervallo di confidenza dell’intercetta :

 

 

Riprendendo il concetto di leverage, si comprende come

-   l’intervallo di confidenza di a sia sempre grande, quando la media è un valore elevato: la distanza di = 0  dal valore medio è massima e quindi ()2 oppure  sono valori molto grandi.

 

ESEMPIO 2 (CALCOLO DELL’INTERVALLO PER UN PUNTO PREVISTO, CON DATI BIOLOGICI).   Con i dati dell’esempio sulla regressione tra altezza e peso

 

 

 Individui

 1

 2

 3

 4

 5

 6

 7

 Peso (Y) in Kg.

 52

 68

 75

 71

 63

 59

 57

 Altezza (X) in cm.

 160

 178

 183

 180

 166

 175

 162

 

 

 sui quali sono state calcolate il punto medio per  = 180

stimare alla probabilità a = 0.05

-  il suo intervallo di confidenza.

 

Risposta. Dalla formula

 

 

 dove, sempre ricavati dai paragrafi precedenti,

t(5,0.025) = 2,571          = 7            = 16,42            = 510                 = 172,0

 si ottiene che per = 180  i limiti dell’intervallo di confidenza del valore  = 69,93

sono dati da

 

Pertanto,

-  il limite inferiore è  = 64,54

-  il limite superiore è  = 75,32.

 

 

ESEMPIO 3 (CALCOLO DELL’INTERVALLO PER UN PUNTO PREVISTO, CON DATI CHIMICI).  Con i dati dell’esempio su concentrazione e intensità della fluorescenza,

 

 

Concentrazione

0

2

4

6

8

10

12

Fluorescenza     

2,1

5,0

9,0

12,6

17,3

21,0

24,7


 

 per i quali (nei paragrafi precedenti) sono state calcolate

sia la retta

 sia  la sua significatività,

- stimare alla probabilità a = 0.05 l’intervallo di confidenza del valore medio , per  = 11.

 

Risposta. Dapprima dalla formula della retta si ricava che

 per = 11

il valore di  = 22,73.

Successivamente dalla formula

 

 

 dove, sempre ricavati dai paragrafi precedenti,

t(5,0.025) = 2,571          = 7            = 0,188            = 112                 = 6

 si ottiene che per = 11 i limiti dell’intervallo di confidenza

sono dati da

 

Pertanto,

-  il limite inferiore è  = 22,06

-  il limite superiore è  = 23,40.

Ancora una volta si dimostra come, con dati chimici, si possano ottenere intervalli di confidenza molto stretti. Quindi, la stima della relazione lineare tra le due variabili è molto precisa.


 

Impiegando sempre i 7 dati dell'esempio sulla relazione tra peso e altezza

 

 

 Individui

 1

 2

 3

 4

 5

 6

 7

 Peso (Y) in Kg.

 52

 68

 75

 71

 63

 59

 57

 Altezza (X) in cm.

 160

 178

 183

 180

 166

 175

 162

 

 

 con le modalità seguite negli ultimi due esempi, è stato calcolato l’intervallo di confidenza dei 7 .

Si è ottenuta la tabella

 

 

 

Valori attesi  con il loro intervallo di confidenza

Altezza

Peso

X

Y

L1

L2

L1

L2

160

52

162

57

166

63

175

59

178

68

180

71

183

75

 

 

In essa sono riportati

-  i valori medi di  (al centro) 

-  gli intervalli di confidenza (L1, L2)

 alla probabilità a = 0.05 e a = 0.01, per alcuni valori di .

E’ possibile osservare come gli intervalli per i valori collocati più vicino alla media  = 172 siano minori di quelli stimati per punti più distanti dalla media. Ad esempio, per a = 0.05 con

 = 175   il valore dell’intervallo è

 = 183   il valore dell’intervallo è .


 

Quando da un campione di punti, dei quali sia stata calcolata la retta di regressione

 è stimato successivamente l’intervallo di confidenza per ogni punto , mediante le formule presentate, si ricava

- un intervallo di confidenza delle rette probabili (confidence bands)che ha forma curva, come evidenziano la tabella precedente e i due grafici successivi.

 

 


 

Ciò non significa che le rette diventano curve, ma (come evidenzia la seconda figura) che l’insieme di tutte le rette probabili al rischio  predeterminato (confidence bands) che si ottengono

- considerando congiuntamente l’intervallo di confidenza di  e quello di  assume questa forma.

 

Nella prima figura, si osserva la posizione dei punti intorno alla retta e l’intervallo di confidenza (curve tratteggiate) della retta. Questo confronto dei punti con l’intervallo di confidenza spesso genera un concetto errato, che è necessario evitare per una interpretazione e un uso corretti del risultato:

- l’intervallo è riferito alla retta, non ai punti. (Infatti il nome tecnico è confidence bands).

Ad esempio, un intervallo di confidenza calcolato per = 0.05

-  assicura di avere una probabilità P del 95%  di contenere la retta di regressione vera

- non di contenere il 95% dei punti campionati.

 

Ritornando al discorso precedente sull’intervallo di confidenza della retta e a ulteriore conferma di quanto già sottolineato, i valori di L1 e L2 riportati nella tabella e rappresentati nelle due figure evidenziano

-  la minore dispersione del valore medio di  quando il valore di Xk è prossimo alla sua media.

-  che le rette non passano più per il baricentro  per effetto dell’intervallo di .

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007