LA REGRESSIONE LINEARE SEMPLICE

 

 

16.1.  LA STATISTICA BIVARIATA: UTILIZZARE LA REGRESSIONE OPPURE LA CORRELAZIONE?

 

 

Nei capitoli precedenti, sono stati trattati i più importanti e diffusi test statistici per una singola variabile quantitativa.  Con il test t di Student e con l'ANOVA a un criterio si sono confrontate le differenze tra le medie di due o più campioni; con l'analisi della varianza a due o a più criteri di classificazione sono state prese in considerazione contemporaneamente più fattori casuali, come i trattamenti e i blocchi, eventualmente con le loro interazioni. Ma la verifica dell’ipotesi è sempre stata limitata alla medesima ed unica variabile rilevata.

Quando si prendono in considerazione congiuntamente due o più variabili quantitative (per quelle qualitative, dette anche categoriali, si ricorre al Chi-quadrato o al test G e alle misure di associazione che sino presentate in un capitolo successivo), oltre alle precedenti analisi sulla media e sulla varianza per ognuna di esse, è possibile

- esaminare anche il tipo e l'intensità delle relazioni che sussistono tra loro.

Per esempio, quando per ogni individuo si misurano contemporaneamente il peso e l'altezza, è possibile verificare statisticamente se queste due variabili cambiano simultaneamente, valutando direzione ed intensità della loro relazione. E’ possibile chiedersi

-  quale relazione matematica (con segno ed intensità) esista tra peso ed altezza nel campione analizzato,

-  se la tendenza calcolata sia significativa, presente anche nella popolazione, oppure debba essere ritenuta solo apparente, effetto probabile di variazioni casuali del campione.

L’analisi congiunta di due variabili può offrire al ricercatore anche l’opportunità di

- predire il valore di una variabile quando l’altra è nota (ad esempio, come determinare in un gruppo d’individui il peso di ognuno sulla base della sua altezza).

 

Per rispondere a questa serie di domande, nel caso della rilevazione congiunta di due variabili, è possibile ricorrere

1 -  all'analisi della regressione,

2 -  all’analisi della correlazione,

 da considerare tra loro concettualmente alternative, seppure fondate su principi e metodi simili.

 

1) Si ricorre all'analisi della regressione quando dai dati campionari si vuole ricavare un modello statistico che

-  predica i valori di una variabile (Y) detta dipendente o più raramente predetta, individuata come effetto,

-  a partire dai valori dell'altra variabile (X), detta indipendente o esplicativa, individuata come causa.

 

2) Si ricorre all'analisi della correlazione quando si vuole

-  misurare l'intensità dell'associazione tra due variabili quantitative (X1 e X2) che variano congiuntamente, senza che tra esse esista una relazione diretta di causa-effetto.

Può avvenire quando entrambe sono legate a una terza variabile. Può essere prodotta anche da un’evoluzione temporale simile o per una differenziazione spaziale analoga.

 

E’ sempre importante saper distinguere tra

1 - casualità o legame di causa-effetto da una parte, che richiedono la regressione,

2 -  associazione o evoluzione temporale simile dall’altra, che richiedono la correlazione,

per applicare l’analisi statistica appropriata al problema da risolvere.

 

Queste relazioni di casualità oppure di evoluzione simile devono trovare i loro motivi e le spiegazioni nella disciplina specifica in cui è posto il problema, non nella statistica. Sia più in generale nella formulazione delle ipotesi e nella scelta dei confronti da effettuare, sia in questo caso di scelta tra regressione e correlazione, non è possibile realizzare un’analisi statistica intelligente, quando si separa la tecnica statistica dalla conoscenza della materia. E’ improduttivo collocare da una parte il ricercatore che conosce il problema disciplinare, ma nulla di statistica, e dall’altra lo statistico, che conosce la tecnica dei confronti ma nulla della disciplina che propone il problema.

Per l’importanza che assumono, questi concetti sulla relazione di causalità tra le due variabili saranno ulteriormente sviluppati nella presentazione della correlazione.

 

Questa netta distinzione sulle finalità dei due metodi statistici rappresenta l’impostazione classica.

In molti testi, attualmente è ritenuta superata e non vincolante. Comunque è ignorata.

Ora, per molti ricercatori, il calcolo e l’analisi della regressione

- non implicano necessariamente l’esistenza di una relazione di causalità tra la X e la Y,

-  né che essa sia nella direzione indicata dalla simbologia.

Si ricorre alla regressione, quando si vuole semplicemente utilizzare la sua capacità predittiva per stimare Y conoscendo X. Si vuole solamente ottenere una descrizione di una relazione empirica oppure un controllo statistico della sua esistenza, senza entrare nella logica disciplinare del suo effettivo significato.


 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007