LA REGRESSIONE LINEARE SEMPLICE
16.12. INTERVALLO DI CONFIDENZA O DI PREVISIONE DI , STIMATO per un valore o la media di valori aggiuntivi al campione.
Costruita una retta con dati campionari, può essere richiesta - la stima per un valore aggiuntivo (additional measurement) al campione. Un’esigenza frequente nella ricerca è il successivo calcolo - dell'intervallo di previsione (detto anche intervallo di confidenza, seppure in modo meno corretto) di questo valore , stimato per un valore aggiuntivo al campione raccolto.
Anche in questo caso, il valore medio collocato sulla retta può essere stimato mediante la formula classica della regressione lineare
oppure con la formula equivalente
con modalità del tutto identiche a quelle illustrate nel paragrafo precedente. Il suo intervallo di previsione (prediction interval) invece cambia e può essere calcolato mediante la formula
dove - la simbologia è quella del paragrafo precedente e - la parte sotto radice è l’errore standard del valore aggiuntivo, del quale si stima l’intervallo.
ESEMPIO 1 (CALCOLO DELL’INTERVALLO PER UN PUNTO AGGIUNTIVO, CON DATI BIOLOGICI). Con i dati dell’esempio sulla regressione tra altezza e peso
sui quali è stato calcolato il punto medio per il valore aggiuntivo = 180
- stimare alla probabilità a = 0.05 il suo intervallo di confidenza.
Risposta. Dalla formula prima presentata dove, sempre ricavati dai paragrafi precedenti, t(5,0.025) = 2,571 = 7 = 16,42 = 510 = 172,0 si ottiene che per = 180 i limiti dell’intervallo di confidenza del valore = 69,93 sono dati da
Pertanto, - il limite inferiore è = 58,20 - il limite superiore è = 81,66.
Nella tabella successiva sono riportati
- i valori medi di (al centro) - gli intervalli di confidenza (L1, L2) alla probabilità a = 0.05 e a = 0.01, per gli stessi valori del paragrafo precedente. Anche in questo caso, è possibile osservare come gli intervalli per i valori collocati più vicino alla media = 172,0 cm. e pertanto anche alla media = 63,56 Kg. siano minori di quelli stimati per punti più distanti dalla media. Ad esempio, per a = 0.05 con - = 175 il valore dell’intervallo è - = 183 il valore dell’intervallo è . (la leggera differenza tra il valore dell’intervallo calcolato nell’esempio 1 e quello riportato nella tabella è imputabile all’uso di un numero diverso di decimali nel calcolo).
La rappresentazione grafica di questo intervallo evidenzia la distanza maggiore di questi dati dall’intervallo calcolato per i dati del campione.
ESEMPIO 2 (CALCOLO DELL’INTERVALLO PER UN PUNTO PREVISTO, CON DATI CHIMICI). Con i dati dell’esempio su concentrazione e intensità della fluorescenza,
dai quali (nei paragrafi precedenti) è stata calcolata la retta
- stimare alla probabilità a = 0.05 l’intervallo di confidenza del valore medio , per il valore aggiuntivo = 11.
Risposta. Dapprima dalla formula della retta si ricava che per = 11
il valore di = 22,73. Successivamente dalla formula
dove, sempre ricavati dai paragrafi precedenti, t(5,0.025) = 2,571 = 7 = 0,188 = 112 = 6 si ottiene che per = 11 i limiti dell’intervallo di confidenza sono dati da
Pertanto, - il limite inferiore è = 21,43 - il limite superiore è = 24,03.
In altre condizioni, viene chiesto l’intervallo di previsione (prediction interval) per il valore stimato corrispondente a un che è la media di valori aggiuntivi. La formula da impiegare è
dove - è il numero di osservazioni di cui si cerca la risposta media per lo specifico valore
ESEMPIO 3 (CALCOLO DELL’INTERVALLO DI PREVISIONE DI UN PUNTO PREVISTO, PER LA MEDIA DI DATI AGGIUNTIVI). Con i dati dell’esempio su concentrazione e intensità della fluorescenza,
dai quali (nei paragrafi precedenti) è stata calcolata la retta
- stimare alla probabilità a = 0.05 l’intervallo di confidenza del valore medio , per il valore aggiuntivo = 11, calcolato come media di 5 dati.
Risposta. Dapprima dalla formula della retta si ricava che per = 11
il valore di = 22,73. Successivamente dalla formula
dove, t(5,0.025) = 2,571 = 5 = 7 = 0,188 = 112 = 6 si ottiene che per = 11 i limiti dell’intervallo di confidenza sono dati da
e pertanto - il limite inferiore è = 21,89 - il limite superiore è = 23,57.
E’ importante osservare che l’intervallo calcolato per la media di più dati è minore di quello che si ricava per un singolo valore aggiuntivo. Un secondo aspetto importante è che, anche in questo caso, nel calcolo dell’errore standard del valore è presente il valore
detto valore di leva (leverage) dell’osservazione k sul valore della retta. Ne deriva che i valori di corrispondenti a valori di più distanti dalla media loro media hanno un errore maggiore.
Un terzo particolare importante della formula per la media di valori aggiuntivi
è che, quando è esteso a tutta la popolazione, si ottiene la formula
che è quella proposta per la stima dell’intervallo di un punto previsto con i dati del campione.
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |