LA REGRESSIONE LINEARE SEMPLICE
16.11. INTERVALLO DI CONFIDENZA della retta di regressione E per un singolo , stimato CON I DATI DEL CAMPIONE.
Nell’analisi della retta di regressione, oltre all’intervallo di confidenza calcolato separatamente - per il coefficiente angolare e per l’intercetta (presentati nel paragrafo precedente), si può porre anche il problema di stimare - l’intervallo di confidenza del valore medio di Y stimato (), per un dato valore di X. Nel paragrafo successivo, sarà discusso il caso dell’intervallo di confidenza per - un dato e quello per un gruppo di dati, aggiuntivi al campione raccolto e sul quale è stata calcolata la retta di regressione.
Nella prima parte di questo paragrafo, è presentato l’intervallo di confidenza del valore per un solo valore , appartenente ai dati del campione. Nella seconda parte, sarà discusso il caso in cui il calcolo è effettuato per ogni valore riferito al campione. Ne rappresenta l’estensione, ma assume un significato diverso, poiché l’insieme di questi punti stimati individua - l’intervallo di confidenza della retta (infatti è la stima dell’intervallo di ogni punto collocato sulla retta). Pertanto, in esso - sono considerati congiuntamente gli effetti dell’intervallo del coefficiente angolare e quello dell’intercetta sulla retta di regressione.
Il valore medio di ovviamente è calcolato attraverso la funzione
Più rapidamente, conoscendo i valori medi e , spesso è conveniente utilizzare la formula equivalente
ESEMPIO 1. Calcolare il valore medio previsto per = 180, con i dati sull’altezza delle 7 ragazze.
Risposta. Con = -73,35 = 0,796 = 63,57 = 172,0 per un altezza di = 180 cm.
- con la prima formula si ricava
- e con la seconda
ottenendo sempre = 69,93 Kg.
L’intervallo di confidenza di questo valore medio o valore atteso può essere ottenuto mediante la formula
dove - è il valore previsto o medio di , per un dato valore della variabile , - è la varianza d’errore della regressione, - è la dimensione del campione, - è il valore di , del quale si calcola la risposta media , - è la devianza della . e
rappresenta l’errore standard di , cioè dell’Y stimato per un certo valore .
In questa formula, che mostra i fattori utilizzati nella stima, risulta con evidenza come ognuno influisca sull'ampiezza dell'intervallo di confidenza della retta. Per una data probabilità P (1-a), l’ampiezza dell’intervallo 1 - aumenta al crescere della varianza d'errore , 2 - diminuisce all'aumentare del numero di osservazioni, per l'effetto congiunto del valore di e del rapporto , 3 - diminuisce al crescere della devianza della variabile , 4 - varia in funzione della dimensione di , con valori minimi quando è vicino alla media e valori massimi quando ha distanza massima dalla media.
E’ importante sottolineare in particolare questa ultima (quarta) caratteristica. Il valore
è detto valore di leva (leverage) dell’osservazione , sul valore della retta. Significa che, a differenza di quanto succede per l’intervallo del coefficiente angolare, - l'intervallo di confidenza della retta o valore medio atteso non è costante, ma varia con una funzione iperbolica in rapporto alla vicinanza del punto alla sua media . I valori di corrispondenti a valori di più distanti dalla loro media hanno una influenza maggiore nella determinazione dei parametri della retta.
Un secondo aspetto importante della formula appena riportata riguarda l’intervallo di confidenza dell’intercetta . Come è facile dedurre matematicamente dalla sua lettura, - quando la formula diventa uguale a quella (presentata in un paragrafo precedente) che stima l’intervallo di confidenza dell’intercetta :
Riprendendo il concetto di leverage, si comprende come - l’intervallo di confidenza di a sia sempre grande, quando la media è un valore elevato: la distanza di = 0 dal valore medio è massima e quindi ()2 oppure sono valori molto grandi.
ESEMPIO 2 (CALCOLO DELL’INTERVALLO PER UN PUNTO PREVISTO, CON DATI BIOLOGICI). Con i dati dell’esempio sulla regressione tra altezza e peso
sui quali sono state calcolate il punto medio per = 180
stimare alla probabilità a = 0.05 - il suo intervallo di confidenza.
Risposta. Dalla formula
dove, sempre ricavati dai paragrafi precedenti, t(5,0.025) = 2,571 = 7 = 16,42 = 510 = 172,0 si ottiene che per = 180 i limiti dell’intervallo di confidenza del valore = 69,93 sono dati da
Pertanto, - il limite inferiore è = 64,54 - il limite superiore è = 75,32.
ESEMPIO 3 (CALCOLO DELL’INTERVALLO PER UN PUNTO PREVISTO, CON DATI CHIMICI). Con i dati dell’esempio su concentrazione e intensità della fluorescenza,
per i quali (nei paragrafi precedenti) sono state calcolate sia la retta
sia la sua significatività, - stimare alla probabilità a = 0.05 l’intervallo di confidenza del valore medio , per = 11.
Risposta. Dapprima dalla formula della retta si ricava che per = 11
il valore di = 22,73. Successivamente dalla formula
dove, sempre ricavati dai paragrafi precedenti, t(5,0.025) = 2,571 = 7 = 0,188 = 112 = 6 si ottiene che per = 11 i limiti dell’intervallo di confidenza sono dati da
Pertanto, - il limite inferiore è = 22,06 - il limite superiore è = 23,40. Ancora una volta si dimostra come, con dati chimici, si possano ottenere intervalli di confidenza molto stretti. Quindi, la stima della relazione lineare tra le due variabili è molto precisa.
Impiegando sempre i 7 dati dell'esempio sulla relazione tra peso e altezza
con le modalità seguite negli ultimi due esempi, è stato calcolato l’intervallo di confidenza dei 7 . Si è ottenuta la tabella
In essa sono riportati - i valori medi di (al centro) - gli intervalli di confidenza (L1, L2) alla probabilità a = 0.05 e a = 0.01, per alcuni valori di . E’ possibile osservare come gli intervalli per i valori collocati più vicino alla media = 172 siano minori di quelli stimati per punti più distanti dalla media. Ad esempio, per a = 0.05 con - = 175 il valore dell’intervallo è - = 183 il valore dell’intervallo è .
Quando da un campione di punti, dei quali sia stata calcolata la retta di regressione
è stimato successivamente l’intervallo di confidenza per ogni punto , mediante le formule presentate, si ricava - un intervallo di confidenza delle rette probabili (confidence bands)che ha forma curva, come evidenziano la tabella precedente e i due grafici successivi.
Ciò non significa che le rette diventano curve, ma (come evidenzia la seconda figura) che l’insieme di tutte le rette probabili al rischio predeterminato (confidence bands) che si ottengono - considerando congiuntamente l’intervallo di confidenza di e quello di assume questa forma.
Nella prima figura, si osserva la posizione dei punti intorno alla retta e l’intervallo di confidenza (curve tratteggiate) della retta. Questo confronto dei punti con l’intervallo di confidenza spesso genera un concetto errato, che è necessario evitare per una interpretazione e un uso corretti del risultato: - l’intervallo è riferito alla retta, non ai punti. (Infatti il nome tecnico è confidence bands). Ad esempio, un intervallo di confidenza calcolato per = 0.05 - assicura di avere una probabilità P del 95% di contenere la retta di regressione vera
- non di contenere il 95% dei punti campionati.
Ritornando al discorso precedente sull’intervallo di confidenza della retta e a ulteriore conferma di quanto già sottolineato, i valori di L1 e L2 riportati nella tabella e rappresentati nelle due figure evidenziano - la minore dispersione del valore medio di quando il valore di Xk è prossimo alla sua media. - che le rette non passano più per il baricentro per effetto dell’intervallo di .
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |