LA REGRESSIONE LINEARE SEMPLICE

 

 

16.12.  INTERVALLO DI CONFIDENZA O DI PREVISIONE DI , STIMATO per un valore  o la media di valori aggiuntivi al campione.

 

 

Costruita una retta con  dati campionari, può essere richiesta

- la stima per un valore aggiuntivo (additional measurement) al campione.

Un’esigenza frequente nella ricerca è il successivo calcolo

- dell'intervallo di previsione (detto anche intervallo di confidenza, seppure in modo meno corretto) di questo valore , stimato per un valore  aggiuntivo al campione raccolto.

 

Anche in questo caso, il valore medio collocato sulla retta  può essere stimato mediante la formula classica della regressione lineare

 oppure con la formula equivalente

 con modalità del tutto identiche a quelle illustrate nel paragrafo precedente.

Il suo intervallo di previsione (prediction interval) invece cambia e può essere calcolato

 mediante la formula

 

 

 dove

-  la simbologia è quella del paragrafo precedente e

-  la parte sotto radice è l’errore standard del valore  aggiuntivo, del quale si stima l’intervallo.

 

 

ESEMPIO 1 (CALCOLO DELL’INTERVALLO PER UN PUNTO AGGIUNTIVO, CON DATI BIOLOGICI).   Con i dati dell’esempio sulla regressione tra altezza e peso

 

 

 Individui

 1

 2

 3

 4

 5

 6

 7

 Peso (Y) in Kg.

 52

 68

 75

 71

 63

 59

 57

 Altezza (X) in cm.

 160

 178

 183

 180

 166

 175

 162

 

 

 sui quali è stato calcolato il punto medio per il valore aggiuntivo  = 180

-  stimare alla probabilità a = 0.05  il suo intervallo di confidenza.

 

Risposta. Dalla formula prima presentata dove, sempre ricavati dai paragrafi precedenti,

t(5,0.025) = 2,571          = 7            = 16,42            = 510                 = 172,0

 si ottiene che per = 180  i limiti dell’intervallo di confidenza del valore  = 69,93

sono dati da

 

Pertanto,

-  il limite inferiore è  = 58,20

-  il limite superiore è  = 81,66.

 

Nella tabella successiva sono riportati

 

 

 

Valori attesi di Yk con il loro intervallo di confidenza per la seguente serie di valori aggiuntivi.

Altezza

Peso

X

Y

L1

L2

L1

L2

160

52

162

57

166

63

175

59

178

68

180

71

183

75

 

 

-  i valori medi di  (al centro) 

-  gli intervalli di confidenza (L1, L2)

 alla probabilità a = 0.05 e a = 0.01, per gli stessi valori  del paragrafo precedente.

Anche in questo caso, è possibile osservare come gli intervalli per i valori collocati più vicino alla media  = 172,0 cm.  e pertanto anche alla media  = 63,56 Kg.  siano minori di quelli stimati per punti più distanti dalla media.

Ad esempio, per a = 0.05 con

 = 175   il valore dell’intervallo è

 = 183   il valore dell’intervallo è .

(la leggera differenza tra il valore dell’intervallo calcolato nell’esempio 1 e quello riportato nella tabella è imputabile all’uso di un numero diverso di decimali nel calcolo).


 

La rappresentazione grafica di questo intervallo evidenzia la distanza maggiore di questi dati dall’intervallo calcolato per i dati del campione.

 

 

 

 

ESEMPIO 2 (CALCOLO DELL’INTERVALLO PER UN PUNTO PREVISTO, CON DATI CHIMICI).  Con i dati dell’esempio su concentrazione e intensità della fluorescenza,

 

 

Concentrazione

0

2

4

6

8

10

12

Fluorescenza     

2,1

5,0

9,0

12,6

17,3

21,0

24,7

 

 dai quali (nei paragrafi precedenti) è stata calcolata

 la retta

- stimare alla probabilità a = 0.05 l’intervallo di confidenza del valore medio , per il valore aggiuntivo = 11.

 

Risposta. Dapprima dalla formula della retta si ricava che

 per = 11

il valore di  = 22,73.

Successivamente dalla formula

 

 

 

 dove, sempre ricavati dai paragrafi precedenti,

t(5,0.025) = 2,571          = 7            = 0,188            = 112                 = 6

 si ottiene che per = 11 i limiti dell’intervallo di confidenza

sono dati da

 

Pertanto,

-  il limite inferiore è  = 21,43

-  il limite superiore è  = 24,03.

 

In altre condizioni, viene chiesto l’intervallo di previsione (prediction interval) per il valore  stimato corrispondente a un  che è la media di valori aggiuntivi.

La formula da impiegare è

 

dove

 è il numero di osservazioni di cui si cerca la risposta media  per lo specifico valore


 

ESEMPIO 3 (CALCOLO DELL’INTERVALLO DI PREVISIONE DI UN PUNTO  PREVISTO, PER LA MEDIA  DI  DATI AGGIUNTIVI).  Con i dati dell’esempio su concentrazione e intensità della fluorescenza,

 

 

Concentrazione

0

2

4

6

8

10

12

Fluorescenza     

2,1

5,0

9,0

12,6

17,3

21,0

24,7

 

 dai quali (nei paragrafi precedenti) è stata calcolata

 la retta

- stimare alla probabilità a = 0.05 l’intervallo di confidenza del valore medio , per il valore aggiuntivo = 11, calcolato come media di 5 dati.

 

Risposta. Dapprima dalla formula della retta si ricava che

 per = 11

il valore di  = 22,73.

Successivamente dalla formula

 

 

 dove,

t(5,0.025) = 2,571          = 5         = 7          = 0,188           = 112             = 6

 si ottiene che per  = 11 i limiti dell’intervallo di confidenza

sono dati da

 

 e pertanto

-  il limite inferiore è  = 21,89

-  il limite superiore è  = 23,57.

 

E’ importante osservare che l’intervallo calcolato per la media di più dati è minore di quello che si ricava per un singolo valore  aggiuntivo.

Un secondo aspetto importante è che, anche in questo caso, nel calcolo dell’errore standard del valore  è presente il valore

 

 detto valore di leva (leverage) dell’osservazione k sul valore della retta.

Ne deriva che i valori di  corrispondenti a valori di  più distanti dalla media loro media hanno un errore maggiore.

 

Un terzo particolare importante della formula per la media di  valori aggiuntivi

 

 

 è che, quando  è esteso a tutta la popolazione,

 si ottiene la formula

 

 

 che è quella proposta per la stima dell’intervallo di un punto previsto con i dati del campione.


 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007