CONFRONTI TRA RETTE, CALCOLO DELLA RETTA CON Y RIPETUTE, CON VERIFICA DI LINEARITA’ E INTRODUZIONE ALLA REGRESSIONE LINEARE MULTIPLA
17.12. LA REGRESSIONE LINEARE MULTIPLA E IL MODELLO GENERALE DI REGRESSIONE LINEARE.
Negli schemi accademici, un corso di Statistica I di solito termina con la regressione e la correlazione lineare semplice. La regressione multipla e quella curvilenea rappresentano gli argomenti introduttivi in un corso di Statistica II, di norma dedicato alla statistica multivariata. Purtroppo nella preparazione culturale degli operatori e dei ricercatori nel campo ambientale e nelle discipline biologiche non si trattano mai questi argomenti, neppure in corsi di master. Come conclusione degli argomenti trattati, si introducono i concetti fondamentali dei metodi che dovrebbero essere sviluppati.
Il modello di base della regressione lineare multipla è simile a quello della regressione lineare semplice; se ne differenzia per l’aumento del numero di variabili predittive. Al posto di una variabile predetta o dipendente (Y) e una variabile predittiva o indipendente (X), esso ha - sempre una sola variabile predetta o dipendente, indicata con Yi - ma due o più variabili predittive o indipendenti, indicate con Xi1, Xi2, …, Xin
In termini matematici, analogamente all’analisi della varianza questo modello è additivo e può essere rappresentato come Yi = a + b1Xi1+ b2Xi2 + + bnXin + ei oppure Y = b0 + b1Xi1+ b2Xi2 + + bnXin + ei dove - a oppure b0 indicano l’intercetta, - b1, b2, …, bn indicano il coefficiente angolare di ognuna delle n variabili predittive Xi, - l’indice i segnala che la variabile dipendente e quelle predittive sono riferite allo stesso caso o individuo.
L’analisi statistica serve per valutare, - se e quanto le variabili predittive Xn insieme riescono a stimare il valore della Y, - quale è il contributo di ogni variabile Xn. indipendentemente dalle altre.
Questo modello generale di regressione lineare assume forme differenti, in rapporto al numero e al tipo di variabili predittive prese in considerazione. Tra i testi internazionali, per completezza degli argomenti e chiarezza di trattazione una sua presentazione può essere trovata in quello di John Neter, Michael H. Kutner, Chistopher J. Nachtsheim, William Wasserman del 1990 Applied Linear Regression Models (3rd ed. 1990, IRWIN Chicago, X + 720 pp.) e nella sua versione più recente, del 1996, notevolmente ampliata negli argomenti che riguardano l’ANOVA (4rd ed. 1996, WBC McGraw-Hill, XV + 1408 pp.).
L’elenco dei modelli matematici è utile per comprendere la varietà delle applicazioni che si rifanno allo stesso schema di regressione multipla. Tra quelli maggiormente utilizzati, possono essere segnalati i seguenti 8 modelli di regressione.
A) Con due variabili predittive misurate con una scala di rapporti o di intervalli, si ha la forma più semplice, chiamata modello di primo ordine con due variabili predittive quantitive. Il modello matematico è Yi = a + b1Xi1+ b2Xi2 + ei
Sotto l’aspetto grafico, assume genericamente la figura di un piano che attraversa la nuvola di punti sperimentali, riportati in uno spazio tridimensionale.
In modo più specifico, la funzione di regressione della figura riportata è
Nella rappresentazione grafica sono evidenziati: - l’intercetta = 10, (l’altezza di Y per X1 e X2 uguali a 0), - il piano individuato da X1 e X2 (che attraversa la nuvola di punti sperimentali lungo l’asse maggiore), - la pendenza del piano (che lungo l’asse X1 è dato da b1 e lungo l’asse X2 è dato da b2), - l’errore , calcolato sull’asse delle Y (è lo scarto tra il valore osservato (Yi) e quello atteso (), indicato in alcuni testi come Y expected E).
Questo modello con due variabili predittive è chiamato a effetti additivi. I parametri b1 e b2 sono chiamati coefficienti di regressione parziale perché ognuno dei due - riflette l’effetto parziale di una variabile predittiva sulla variabile dipendente, - quando l’altra predittiva è inclusa nel modello ed è mantenuta costante.
Un esempio semplice di regressione di questo tipo è il peso(Yi) di una persona (i), considerando come variabili predittive l’altezza (Xi1) e l’età (Xi2).
B) Con n variabili predittive, che utilizzino sempre valori misurati in una scala di rapporti o di intervalli, si ha il modello di primo ordine con più variabili predittive quantitative: Yi = a + b1Xi1+ b2Xi2 +…+ bnXin + ei
La sua rappresentazione grafica sarebbe un iperpiano, di dimensioni n, cioè quante sono le variabili predittive considerate, in un iperspazio (poiché considera anche la Y), che non è possibile rappresentare graficamente.
C) Una variabile predittiva può essere di tipo qualitativo. Nel modello più semplice a due variabili prima presentato Yi = a + b1Xi1+ b2Xi2 + ei una variabile può essere qualitativa, come il sesso.
Ad esempio, è possibile stimare il peso (Yi) di una persona (i), considerando l’altezza (Xi1) ed il sesso (Xi2). Allora la Xi1 rimane invariata rispetto al modello precedente, mentre è possibile definire che Xi2 sia - uguale a 1 se l’individuo è femmina, - uguale a 0 se l’individuo è maschio.
Ne deriva che la relazione per stimare i valori dipendenti () cioè la funzione
- per un maschio è
- per una femmina è
Questa ultima relazione può anche essere scritta come
In modo generico, le due funzioni rappresentano due linee parallele, con intercette differenti.
D) Mantenendo lo stesso schema, più di una variabile predittiva può essere qualitativa e/o di rango. Nel modello generale prima presentato Yi = a + b1Xi1+ b2Xi2 +…+ bnXin + ei
una variabile predittiva può essere una informazione di rango, come il livello di gravità di una malattia. Ad esempio, è possibile stimare il peso (Yi) di una persona (i), considerando insieme con l’altezza (Xi1) e il sesso (Xi2) se l’individuo è gravemente ammalato, lievemente ammalato oppure sano, ovviamente per una patologia che influisca sul peso. Allora, in aggiunta ai valori attribuiti alle variabili X1 e X2, è possibile utilizzare congiuntamente anche le variabili X3 e X4 attribuendo - X3 = 1, se l’individuo è sano, - X3 = 0, se l’individuo non è sano, e - X4 = 1, se l’individuo è gravemente ammalato, - X4 = 0, se l’individuo non è gravemente ammalato.
In questo caso, si ottiene la funzione
Yi = a + b1Xi1 + b2Xi2 + b3Xi3 + b4Xi4 + ei
che richiede attenzione nella interpretazione del significato di ogni coefficiente angolare. Questa procedura di uso di più variabili è giustificata dal fatto che le informazioni di rango possono essere elaborate con maggiore facilità, quando sono scomposte in risposte binarie.
E) Pure i modelli di regressione polinomiale possono essere interpretati come casi speciali del modello generale di regressione lineare, anche se contengono - termini al quadrato () o elevati a potenze di ordine superiore (), - sia per una sola che per più variabili predittive. Il caso più semplice può essere la quantità di steroidi (Yi) di una persona (i) in funzione dell’età, sapendo che la variabile dipendente prima tende ad aumentare e poi a diminuire.
La sua rappresentano grafica è una funzione curvilinea, che può essere rappresentata come una curva di secondo grado su un piano cartesiano, con le stesse modalità utilizzate per la retta di regressione semplice. In questo caso specifico, il modello è Yi = a + b1Xi + b2X2i+ ei
Anche la funzione curvilinea non si allontana dal modello generale di regressione lineare. Infatti ponendo Xi = Xi1 e X2i = Xi2 si ritorna al modello generale Yi = a + b1Xi1+ b2Xi2 + ei
F) I modelli con variabili trasformate sono utilizzati nel caso di funzioni complesse e di risposte curvilinee di ordine superiore. Ad esempio, quando la risposta (Yi) è di tipo esponenziale, il modello matematico additivo può essere scritto come logYi = a + b1Xi1 + b2Xi2 + b3Xi3 + b4Xi4 + ei
E’ sufficiente la trasformazione
per riscrivere la funzione precedente nella formula generale
Y*i = a + b1Xi1 + b2Xi2 + b3Xi3 + b4Xi4 + ei
Sulla base degli stessi principi e nello stesso modo, un’altra funzione complessa come
può essere riscritta nella formula generale come
dopo aver effettuato la trasformazione
G) I modelli con l’interazione tra due o più variabili predittive, come nell’analisi della varianza, presentano fattori che non sono additivi, ma moltiplicativi. Nel caso più semplice di due variabili predittive (X1 e X2) che siano quantitative e presentino interazione (X1X2), il modello è
Yi = a + b1Xi1+ b2Xi2 + b3Xi1Xi2 + ei
In questo caso, è sufficiente inserire una terza variabile predittiva (X3), tale che
per ritornare al modello generale a tre variabili predittive Yi = a + b1Xi1 + b2Xi2 + b3Xi3 + ei
La rappresentazione grafica di questo ultimo modello è una coppia di rette che non sono parallele, come già presentato nell’analisi della varianza a due fattori.
H) Un modello di regressione può essere molto più complesso di quelli fino ad ora presentati, in quanto costruito come combinazioni di casi.
Ad esempio, in un modello ancora relativamente semplice con due variabili (X1 e X2) quantitative, è possibile prendere in considerazione sia il termine lineare sia quello quadratico, valutando anche l’interazione (X1X2) tra i due termini lineari. Tale modello scritto come
Yi = a + b1Xi1+ b2X2i1 + b3Xi2+ b4X2i2 +b5Xi1Xi2 + ei
dopo le trasformazioni
Zi1 = Xi1 Zi2 = X2i1 Zi3 = Xi2 Zi4 = X2i2 Zi5 = Xi1Xi2
può ancora essere scritto nella forma generale del modello lineare
Yi = a + b1Zi1+ b2Zi2 + b3Zi3+ b4Zi4 +b5Zi5 + ei
Le due figure successive illustrano due differenti risposte complesse, che utilizzano due variabili predittive. Da questo semplice elenco dei vari modelli di riferimento, risulta evidente che il modello generale di regressione lineare non prende in considerazione solamente risposte lineari. Il termine lineare è riferito al fatto che i parametri sono considerati additivi, mentre la risposta può essere di tipo curvilineo.
| ||||||||||||||||
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |