CONFRONTI TRA RETTE,

CALCOLO DELLA RETTA CON Y RIPETUTE, CON VERIFICA DI LINEARITA’ E

INTRODUZIONE ALLA REGRESSIONE LINEARE MULTIPLA

 

 

 

17.10. CONDIZIONI DI VALIDITA’ DELLA REGRESSIONE CON l’ANALISI DEI RESIDUI; TEST PER LA COSTANZA DELLA VARIANZA D’ERRORE

             (levene modificato e breusch-pagan O COOK-WEISBERG),

             TRASFORMAZIONI PER LA RETTA

 

 

Le condizioni di validità dell'analisi della regressione sono analoghe a quelle già evidenziate per il test t di Student e il test F nel confronto tra due e più medie: normalità, omoschedasticità, indipendenza dell'errore.

La condizione di normalità richiede che il valore di Y sia normalmente distribuito per ogni valore di X.

E' un’ipotesi già illustrata quando si è discusso della variabilità delle Y e che è facilmente comprensibile nel caso delle Y ripetute per lo stesso valore di X. Come il test t, al quale è molto simile, anche l'analisi della regressione è robusta, nel caso di deviazione dalla normalità: fino a quando la distribuzione dei valori di Y per lo stesso valore di X non si differenzia in modo estremo dalla normale, le probabilità calcolate non sono eccessivamente distorte e le inferenze sono ritenute valide. Tale ipotesi di distribuzione normale dei dati coincide con quella di normalità degli errori, cioè degli scarti dal valore medio.

 

 

Rappresentazione grafica delle condizioni di validità dell'analisi della regressione

 

 

 

La rappresentazione grafica precedente illustra il concetto di omoschedasticità, mostrando la stessa forma di distribuzione delle Y per le 3 serie di valori di X.

 

La condizione di omoschedasticità richiede che la varianza sia costante per tutti i valori di X, da quelli minori a quelli maggiori raccolti con il campione. Sovente succede che all'aumentare delle X si abbia un aumento della varianza delle Y; come già esposto ampiamente in precedenza, le trasformazioni dei dati possono ricostruire la condizione di validità per l’inferenza. Alla fine del paragrafo saranno proposte quelle che sono più utili in questo caso.

 

L’analisi grafica dei residui permette di evidenziare in modo semplice se il modello di regressione è adeguato ai dati sperimentali e se esistono violazioni delle ipotesi di validità. Sono tecniche elementari, che richiedono un numero di dati non troppo limitato. Di conseguenza, comportano molto tempo per il calcolo e hanno potuto diventare di ampia applicazione con la diffusione dei computer e l’uso di programmi informatici.

I valori residui ei

dati dalla differenza tra valori osservati (  ) e valori previsti sulla retta (  ) sono posti su un asse orizzontale, da non confondere con la media anche se coincidente, che rappresenta la retta di regressione per b = 0.

Dopo standardizzazione, ma è possibile anche utilizzare il valore calcolato, i residui ( ei ) sono collocati in un diagramma cartesiano in cui l’ordinata riporta gli scarti rispetto alla retta e l’ascissa indica il valore corrispondente della variabile indipendente X.

 

L'ipotesi di omoschedasticità è realizzata quando i punti che li rappresentano occupano un'area omogenea lungo tutta la retta; al contrario, si parla di varianze eterogenee quando i punti si allontanano dalla retta in modo non costante. Di norma, si parla di effetto a ventaglio: la variabilità dei residui cresce all'aumentare della X.

 

Nella pagina successiva,

-  la figura A rappresenta la situazione corretta, attesa quando le condizioni di validità sono pienamente rispettate;

-  la figura D evidenzia un progressivo aumento della varianza: per ottenere una inferenza attendibile, occorre trasformare le Y con formule che riducano i valori elevati (logaritmica, in radice quadrata, reciproco, ...).


 

L'ipotesi di normalità è realizzata quando i residui hanno una distribuzione che può essere approssimata alla distribuzione normale: gli scarti grandi e piccoli, quelli positivi e i negativi dovrebbero essere

-  all'incirca uguali come numero,

-  simmetrici per posizione e

-  in successione casuale,

-  senza la presenza di valori anomali (outliers).

 

 

 

                          

 

            

 

 

 

Il grafico rappresenta alcune delle situazioni più diffuse di distribuzione dei residui.

 

-  La figura E rappresenta un caso di mancato rispetto della condizione di normalità degli errori. Purtroppo nel caso delle Y ripetute, un numero limitato di repliche (di solito si raccolgono 4-6 dati) per lo stesso valore di X non permette di verificare compiutamente l'ipotesi. A parere di vari studiosi, si può presumere che l'analisi della regressione sia corretta, quando non si evidenzia una rilevante violazione dell'ipotesi di normalità.

 

L'indipendenza delle osservazioni dipende dal tipo di campionamento, ma è sovente messa in discussione quando i dati sono rilevati in successione cronologica: si può avere un fenomeno di autocorrelazione temporale, a causa dell'inerzia o stabilità dei valori osservati, per cui ogni valore è influenzato da quello precedente e determina in parte rilevante quello successivo. Ad esempio, se nell'arco di una giornata si rileva la temperatura ad intervalli costanti di alcuni minuti, si ottiene una successione di valori crescenti fino al momento in cui viene raggiunta la temperatura massima del giorno e poi una successione di valori decrescenti: ogni valore non è casuale, nell’ambito della variabilità dei valori giornalieri, ma risente del valore precedente.

-  Le figure B e C indicano che la retta calcolata non descrive adeguatamente la dispersione dei dati.

-  Nel caso B, il coefficiente angolare è stimato in modo non corretto per l’influenza di un altro fattore sistematico e lineare.

-  Nel caso C, si evidenzia che una curva di secondo grado sarebbe più adeguata della retta.

 

Riassumendo gli stessi concetti con altri termini, l’analisi dei residui permette di evidenziare sei diversi tipi importanti di allontanamento dal modello di regressione lineare: se

-  la funzione di regressione più adatta ai dati non è lineare;

-  gli errori non hanno varianza costante,

-  gli errori non sono indipendenti,

-  il modello è soddisfacente, ma esistono uno o più valori anomali (outliers),

-  gli errori non sono distribuiti in modo normale,

-  la variabile predittiva non è stata scelta in modo adeguato.

 

-  La normalità della distribuzione può essere verificata con l’uso della

-  distribuzione Z quando il campione è grande.

-  distribuzione t quando il campione è piccolo,

 

Con un campione grande, è utile verificare se

 il 68% degli errori è compreso entro l’intervallo

 e il 90% entro l’intervallo

 

Con un campione piccolo, al posto di Z si usa il valore di t alla stessa probabilità a e con gdl n-2.

 

Il test della regressione lineare è sensibile soprattutto a diversità nella varianza. Per la sua verifica, nei programmi informatici spesso sono indicati

-  il test proposto da H. Levene nel 1960 (vedi l’articolo Robust Test for Equality of Variances, pubblicato sul volume Contributions to Probability and Statistics, ed.I. Olkin. Palo Alto, Calif..: Stanford University Press, pp. 278-292), preferibile nel caso di campioni piccoli,

-  il test di T. S. Breusch e A. R. Pagan del 1979 (A Simple Test for Heteroscedasticity and Random Coefficient Variation, pubblicato sulla rivista Econometrica, vol. 47, pp. 1287-1294), da utilizzare solamente con campioni grandi. Esso è stato sviluppato in modo indipendente anche da R. D. Cook e S. Weisberg nel 1983 (con l’articolo Diagnostics for Heteroscedasticity in Regression, pubblicato su Biometrika vol. 70, pp.1-10), per cui è chiamato anche test di Cook-Weisberg

 

Il test di Levene modificato applica ai residui gli stessi concetti già illustrati per l’omoschedasticità nel test t di Student. E’ fondato sulla variabilità dei residui (ei), considerati in valore assoluto.

Sulla base del valore della variabile indipendente X (alti e bassi rispetto al valore mediano), gli scarti sono suddivisi in due gruppi, con un numero di dati possibilmente uguale poiché in tale situazione il test è più potente.

Se la varianza tende a essere costante al variare di X, i due gruppi di residui dovrebbero avere valori uguali

Se la varianza tende a crescere (o semplicemente variare) all’aumentare di X, i residui del gruppo con X maggiore dovrebbero essere significativamente maggiori (o diversi).

E’ quindi possibile effettuare sia un test bilaterale che un test unilaterale, con il vantaggio per il secondo di essere il caso più frequente e con la potenza maggiore.

 

La procedura richiede che,

-  dopo aver calcolato gli scarti dei due gruppi (ei1 , ei2) e la mediana dei residui sia del gruppo 1 (me1) che del gruppo 2 (me2),

-  si modifichino i valori calcolando le differenze relative  di1 e di2 in valore assoluto di ogni scarto dalla sua mediana,

 cioè

      e     

 

A queste due serie di valori modificati (), dopo aver calcolato la media, si applica

il test t

 

 con varianza pooled uguale a

 

 

Se il test t risulta significativo, le due varianze sono significativamente differenti e quindi non è realizzata la condizione di omoschedasticità lungo la retta.

 

Il test di Breusch-Pagan o test di Cook-Weisberg applica ai residui gli stessi concetti della regressione lineare. Valido per grandi campioni, assume che gli errori (indicati con ei perché teorici od attesi) siano indipendenti e normalmente distribuiti e che la loro varianza () sia funzione lineare del valore di X,

secondo

 

In altri termini, implica che la varianza () aumenti o diminuisca secondo il livello di X, dipendendo dal segno di .

 

Se si ha omoschedaticità, si realizza l’ipotesi nulla

H0: = 0

 contro l’ipotesi alternativa bilaterale

H1: ¹ 0

 

Per la sua verifica, si calcola una nuova regressione lineare, a partire da un diagramma di dispersione che

-  sull’asse delle ascisse riporta il valore  originale,

-  sull’asse delle ordinate il valore corrispondente.

Si ottiene una nuova retta di regressione, la cui devianza totale  (SQR) è in rapporto alla devianza d’errore precedente (SQE) calcolata con i dati Xi e Yi originari,

secondo la relazione quadratica


 

 che è distribuita come un chi-quadrato con 1 gdl.

Se, come nel chi- quadrato,  è abbastanza grande

 ed è vera l’ipotesi nulla

H0: = 0

 il valore  ottenuto deve essere inferiore a quello critico, per la probabilità a prefissata.

Se risulta maggiore, si deduce che nella retta originale (Xi,Yi) la varianza d’errore non è costante.

 

Le trasformazioni di Y

Quando le distribuzioni dei dati non rispettano le condizioni di validità, è possibile ricorrere alle trasformazioni.

Sono già state ampiamente discusse in precedenza con una presentazione generale delle finalità e dei metodi.

Nel caso della regressione, di solito interessano la variabile Y. Quelle più frequenti nella ricerca ambientale sono:

 

1)  la radice quadrata,

Y’ =

 

 quando i dati hanno una distribuzione poissoniana, sono cioè conteggi;

 con frequenze molto basse, a essa, da parte di molti ricercatori, viene preferita

 

Y’ =

 

 cioè l’aggiunta di una costante 0,5 soprattutto, ma non necessariamente, quando si ha la presenza di osservazioni nulle;

 per stabilizzare la varianza, nel caso di crescita moderata all’aumentare di X,

 viene usata anche

 

Y’ =

 oppure

Y’ =

 nel caso in cui Y £ 2


 

2)   l’arcoseno

Y’ = arcsin

 

 quando i valori hanno una distribuzione binomiale, come proporzioni e percentuali (Y è la percentuale);

 con percentuali molto basse o alte (vicine a 0% oppure a 100%) è stata proposta

 la trasformazione

 

 dove

- Y è la frequenza assoluta

- n sono le dimensioni del campione (p = Y/n)

 mentre è stata indicata

 

 

 quando le percentuali sono lontane dai valori estremi;

 

 

3)  la trasformazione logaritmica (con qualsiasi base)

 

 

 soprattutto quando si devono omogeneizzare le varianze, che aumentano molto al crescere di X; con presenza di valori nulli si ricorre a

 

 


 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007