CORRELAZIONE  E  COVARIANZA

 

 

18.3.   SIGNIFICATIVITA’ DELLA RETTA CON R2 ?

 

 

Alla fine del capitolo sono riportati alcuni output di programmi informatici sulla regressione lineare semplice. Insieme con le risposte sulla significatività dei parametri

-   a (intercetta),

-   b (coefficiente angolare),

-   è riportato il valore di R2 (R-square).

Vari ricercatori, per valutare la significatività della retta di regressione utilizzano non il relativo test t o il test F, il cui valore è sempre riportato come illustrato nel capitolo precedente, ma semplicemente riportano il valore di r come

r =

stimandone la significatività.

Il risultato numerico è identico a quello effettuato sulla retta, poiché il valore di F,

-   sia nel test per la retta con coefficiente angolare b,

-   sia in quello per la correlazione r

è dato dal rapporto tra la devianza della regressione e la devianza d’errore,

 

F =

 

 seppure il concetto sovente sia nascosto nelle formule abbreviate, di solito utilizzate.

 

Ad esempio, con le misure di peso ed altezza rilevati su 7 giovani donne

 

 Peso (Y) in Kg.

 52

 68

 75

 71

 63

 59

 57

 Altezza (X) in cm.

 160

 178

 183

 180

 166

 175

 162

 

 

è stata calcolata la retta di regressione

 

La significatività del coefficiente angolare b per verificare l’ipotesi nulla

H0b = 0

con ipotesi alternativa bilaterale

H1b ¹ 0

può essere derivata dalla  tabella riassuntiva (vedi tabulati nell’ultimo paragrafo, diversi dai calcoli manuali riportati nel capitolo precedente, a causa delle le approssimazioni),

 

 

Fonti di variazione

Devianza

Gdl

Varianza

Totale

403,715

6

---

Della Regressione

323,208

1

323,208

Errore

80,506

5

16,101

 

 

che fornisce tutti gli elementi utili al calcolo di F, ottenendo un valore che


 

risulta uguale a 20,07 con df 1 e 5.

 

Utilizzando gli stessi dati (come il precedente fornito dal tabulato del computer nell’ultimo paragrafo), il valore di R2 (R-square) risulta uguale a 0,8006 e R2adj (Adj R-sq) uguale a 0,7607.

La significatività del test F per verificare l’ipotesi nulla

H0: r = 0

 con ipotesi alternativa

H1: r ¹ 0

 mediante la formula

 fornisce un F con df 1 e 5

 = 20,07

 uguale a 20,07.

E' identico al precedente.

 

Ma, nonostante il risultato identico, il due metodi sottendono scopi differenti e hanno condizioni di validità differenti; di conseguenza, usare la significatività di r al posto di b è errato.

Negli ultimi anni, il coefficiente di correlazione ha assunto un ruolo nettamente più limitato rispetto al passato, quando sovente era preferito alla regressione lineare semplice: la sua genericità, cioè il non richiedere specificatamente una relazione di causa-effetto, veniva interpretata come maggiore possibilità di adattamento alla varietà delle condizioni ambientali. Più recentemente, si preferisce la regressione, in quanto dovrebbe indurre il ricercatore a ragionare con attenzione maggiore sui rapporti tra le due variabili, alla ricerca della relazione di causa effetto e alla sua direzione.

 

I fattori principali che attualmente limitano l’uso della correlazione rispetto alla regressione lineare, per cui anche i test di significatività non sono intercambiabili, sono almeno 5:

1 - le differenze nelle condizioni di validità tra correlazione e regressione: nella prima devono essere realizzate in entrambe le variabili X1 e X2, mentre nella seconda solo per la variabile Y;

2 - il diverso significato di relazione tra le due variabili, che nella correlazione è solo di co-variazione lineare e non di causa - effetto;

3 - la quantità di informazione contenute nelle analisi e nei test di significatività: nella correlazione è più ridotto, rispetto all’informazione data da  a, b, r2 della regressione;

4 - la maggiore complessità della verifica di differenze da valori teorici che non siano nulli e dei confronti tra risultati differenti nella correlazione, a causa della sua asimmetria nella distribuzione per valori distanti da zero;

5 - l’assenza di significato ai fini predittivi della correlazione.

Attualmente, la correlazione viene preferita alla regressione solo quando non si vuole dichiarare, in quanto priva di significato, una relazione di causa - effetto tra le due variabili considerate.

 

 

 

 

 

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007