LA REGRESSIONE LINEARE SEMPLICE
16.15. INDICI DELLA CAPACITA’ PREDITTIVA DELLA
REGRESSIONE:
Il test - quantità
d’informazione sulla variabile
Questa valutazione è possibile mediante altri criteri, tra loro differenti e che evidenziano aspetti diversi della regressione. Pertanto, questi indici possono essere utilizzati separatamente. Sono impiegati in modo simultaneo, quando si vuole ottenere una risposta più completa e dettagliata. Nel caso della regressione lineare semplice, gli indici sono: A - il coefficiente
di determinazione (coefficient of determination): B – il coefficiente
di determinazione aggiustato (adjusted R-square): C - l’errore
standard (standard error): D - la PRESS (Predicted Residual Error Sum of Squares).
A - Il coefficiente di determinazione (coefficient of determination) R2 (R-square indicato in alcuni testi e in molti programmi informatici anche con R oppure r2) è la - proporzione di
variazione totale della variabile dipendente Più recentemente, alcuni testi consigliano di distinguere tra - r2 il coefficiente di determinazione semplice, - R2 il coefficiente di determinazione multiplo, anche se tale distinzione è applicata raramente, in particolare nei programmi informatici.
In un campione di - il rapporto tra la devianza dovuta alla regressione e la devianza totale
o, calcolata per differenza, - la differenza da 1 del rapporto tra la devianza d’errore e quella totale
Espresso a volte in percentuale, più spesso con un indice che varia da 0 a 1, - R2 serve per misurare quanto della variabile dipendente Y sia predetto dalla variabile indipendente X; - quindi, per valutare l’utilità dell’equazione di regressione nella previsione dei valori della Y. Il valore del
coefficiente di determinazione - è uguale a 0, quando le due variabili sono completamente indipendenti.
E’ tanto più elevato quanto più la retta passa vicino ai punti osservati, fino a - raggiungere 1 quando tutti i punti sperimentali sono collocati esattamente sulla retta. In questo caso,
infatti, ogni Nella ricerca ambientale e in molti settori delle ricerca biologica, data l’ampia variabilità delle risposte individuali agli stessi stimoli, è prassi diffusa che la determinazione possa essere ritenuta buona (in linguaggio tecnico, il modello ha un buon fitting con in valori sperimentali), - quando R2 supera 0,6 (o 60%). In realtà, è una indicazione molto approssimata, che può generare interpretazioni errate. La valutazione della significatività del valore di R2 calcolato su una regressione, è in stretto rapporto con la disciplina studiata e il settore nel quale è applicata. Ad esempio, i sociologi spesso ritengono alto un valore di R2 = 0,30 mentre i fisici stimano basso un R2 = 0,98.
R2 è una misura che
ha scopi descrittivi del campione raccolto; non è legata ad inferenze
statistiche, ma a scopi pratici, specifici dell'uso della regressione come
metodo per prevedere Per meglio spiegare il concetto, è utile un esempio. In una città, per valutare l’inquinamento atmosferico sono state prese misure della concentrazione di N02 con una serie di rilevatori. Per evitare variazioni indotte dal traffico (quale la sosta prolungata di uno o più automezzi con il motore acceso) e manomissioni da parte dei passanti, tali strumenti di rilevazione sono stati collocati a 12 metri di altezza. All’obiezione che per le persone comunque sono importanti le concentrazioni che respirano, quindi presenti ad un altezza dal suolo tra metri 1 e 1,8 e non certo a 12 metri, con alcune rilevazioni di confronto è stata fatta una regressione lineare. Mediante essa, a partire dal valore dell’inquinamento a 12 metri (X), era stimato il valore presente a 1,5 metri (Y). L’errore di stima appariva trascurabile per una disciplina ambientale, poiché R2 risultava uguale a circa 0,92. Purtroppo, in molte stazioni, il valore stimato risultava intorno a 9,6 quando i limiti di legge, oltre i quali scattano misure di riduzione del traffico, erano posti a 10. Con un errore di 0,08 o 8% nello stimare il valore al suolo (in valore assoluto pari a 0,77 rispetto al valore stimato di 9,6) diventa impossibile decidere se i limiti di legge sono stati effettivamente superati oppure no. In questo caso, il valore di R2, seppure oggettivamente molto alto, era troppo piccolo per ottenere una stima abbastanza precisa, richiesta dalle condizioni sperimentali e dalla interpretazione legale dei risultati. Ovviamente, se i valori stimati fossero stati sensibilmente inferiori o maggiori dei limiti di legge, anche un R2 inferiore a 0,9 sarebbe stato un risultato ottimo.
Il valore di R ha una significatività disciplinare, non statistica. E’ quindi il ricercatore esperto della singola disciplina alla quale è applicata l’analisi statistica che deve valutare se l’errore commesso nel caso specifico è accettabile oppure troppo grande.
Anche in questo caso è valido quanto scritto nel 1988 da James O. Westgard nell’articolo Points of care in using statistics in methods comparisons studies (editoriale della rivista Clinical Chemistry, Vol. 44, No. 11, pp.: 2240-2242, a pag. 2240) sull’importanza da attribuire al risultato statistico: The statistics do not directly tell you whether the method is acceptable; rather they provide estimates of errors that allow you to judge the acceptabilility of a method. You do this by comparing the amount of error observed with the amount of error that be allowable without compromising the medical use and interpretation of the test result. Methods performance is judged acceptable when the observed error is smaller than the defined allowable error. Method performance is not acceptable when the observed error is larger the allowable error. The decision-making process can be facilitated by mathematical criteria or by graphic tools.
B - Benché i testi
di statistica evidenzino la funzione descrittiva dell’indice R2,
riferito limitatamente ai dati del campione, in alcune condizioni ad esso viene
attribuito anche un significato generale di predittività della variabile - capacità predittiva generale della relazione esistente tra le due variabili.
A questo scopo, è
stato proposto un dalla formula generale
dove - -
Nel caso della regressione lineare semplice, quindi con una sola variabile indipendente, la formula semplificata diventa
In altri testi, la formula per il calcolo di R2adj da R2 è riportata come dove, nella regressione lineare semplice, i gdl dell’errore sono N-2 Dalla semplice
lettura della formula si evidenzia che
ESEMPIO. Con le 7 osservazioni su peso ed altezza, il coefficiente di determinazione
è Questo risultato indica che, - noto il valore dell'altezza, - nel caso dei 7 dati utilizzati il valore del peso è stimato mediante la retta di regressione con una approssimazione di circa l'80 per cento (79,7%). Il restante 0,2 (oppure 20% ) è determinato dalla variabilità dei valori sperimentali rispetto alla retta.
Per una applicazione di quella retta a scopi predittivi,
estesa all’universo delle relazioni tra peso ed altezza nella popolazione dalla
quale sono stati estratti i 7 individui del campione, è più corretto utilizzare
- sia con la prima formula
- sia con la seconda
risulta
C – L’errore
standard Seppure sotto forma
di devianza E’ al denominatore
nel test Tanto minore è il valore dell’errore standard o della varianza residua, tanto maggiore è la significatività della regressione e la capacità predittiva della retta.
D – La Predicted
Residual Error Sum of Squares, abbreviata in Questo indice è costruito su un principio simile a quello della distanza di Cook (Cook’s distance statistic) che, discussa nei paragrafi dedicati all’outlier nella statistica bivariata, è una misura normalizzata di - quale sia il peso di una singola coppia di dati sul valore della regressione calcolata su tutti i dati. Per ricavare la - si toglie un
primo punto ( - con questa
retta, si stima il valore di - per differenza si ricava il prediction
error o PRESS residual che è
Il procedimento è
ripetuto un secondo punto ( - si stima il
valore di - per differenza si ricava il prediction
error o PRESS residual che è
Con tutti gli si ottiene la Press statistic
Ha capacità predittiva migliore la retta
che ha la
| |
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |