LA REGRESSIONE LINEARE MODELLO II E LEAST-PRODUCTS. IL CONFRONTO TRA DUE METODI QUANTITATIVI.
24.1 I MODELLI I E II NELLA REGRESSIONE LINEARE; IL CASO DI BERKSON
Il modello di regressione lineare semplice fino a ora presentato, fondato sul principio dei minimi quadrati (least-squares method), è di uso abituale. Denominato anche Ordinary Least-Squares Regression (abbreviato in OLR su alcuni testi e OLS in altri), è l’unico riportato su quasi tutti i testi di statistica, anche a diffusione internazionale. Un’altra denominazione della Least-Squares Regression, preferita dai biologi, è Model I Regression - sia per analogia all’ANOVA I nelle assunzioni di validità e nel modello additivo, - sia per distinguerlo dal Model II Regression proposto successivamente, che utilizza un approccio diverso.
La Regression Model I è fondata su quattro assunzioni, più volte ripetute discutendo le condizioni di validità e la trasformazione dei dati.
1 - I campioni lungo la retta di regressione devono essere omoschedastici (avere varianza uguale). In altri termini, la varianza reale lungo la retta deve essere costante e quindi - indipendente dalle dimensioni sia della variabile X sia della variabile Y.
2 - Per ogni valore della variabile X, – i valori della Y sono indipendenti e distribuiti in modo normale, come richiede il modello additivo
dove si assume, altro modo per definire lo stesso concetto, che - i valori siano distribuiti in modo normale e con media zero.
3 - I valori attesi per la variabile Y devono essere in accordo con una funzione lineare. Quindi i valori medi per ogni X devono essere descritti dal modello matematico
4 - La variabile indipendente X è misurata senza errore. In termini più tecnici, si dice che la variabile X è fissa (fixed), è sotto il controllo dello sperimentatore, mentre la variabile dipendente Y è casuale (random), affetta da errori casuali. L’esempio classico è quando - la X indica la dose di un farmaco somministrato a un paziente, - mentre la variabile Y fornisce la quantità della risposta biologica.
Nelle condizioni sperimentali effettive, sovente queste condizioni richieste dal modello statistico - matematico non sono rispettate. In particolare le prime tre. Per applicare correttamente il test della regressione lineare, è allora richiesto di - ricostruirle mediante trasformazione, - di eluderle con l’uso di un test non parametrico, come ampiamente descritto nei paragrafi dedicati alla regressione lineare non parametrica, quali il metodo di Theil e il metodo di Bartlett.
In questo capitolo, l'attenzione soprattutto la condizione 4. Sia nella raccolta dei dati in natura, sia negli esperimenti di laboratorio, in molte situazioni - la variabile X presenta una variazione naturale e/o è sottoposta a errori di misura, non diversamente da quanto avviene per la variabile Y. Non è quindi vero l’assunto che la variabile X è misurata senza errore ed è nota con precisione. Gli esempi possono essere numerosi.
A) Un primo caso tipico è quando la variabile X e la Y sono due variabili continue, che formano una distribuzione normale bivariata, come quando si utilizza la correlazione. Può essere il caso - dell’ampiezza dell’ala sinistra e di quella destra in un campione di uccelli, - dell’altezza in coppie di sposi o di fratelli, - della massa muscolare e della prestazione atletica in un gruppo di individui. Sono tutti casi in cui la variabile X è sottoposta a diversi fattori di variabilità, da quelli genetici e ambientali a quelli culturali (nel caso dell’uomo), oltre a quelli di misura.
B) Un secondo gruppo di casi è quando la distribuzione non è bivariata, per una scelta specifica dello sperimentatore. Per il calcolo della retta di regressione tra altezza e peso nell’uomo, è possibile non utilizzare un campione casuale, ma per motivi tecnici scegliere un campione bilanciato. Accade, ad esempio, quando per ogni gruppo di altezze (variabile X) è stato scelto un campione con lo stesso numero di dati, che - fornisce una informazione con errore standard costante per ogni gruppo di individui, - ma non rispetta certamente la normalità della distribuzione dell’altezza e l’omogeneità della varianza tra i diversi raggruppamenti. In questo caso, non è rispettata soprattutto la condizione di normalità della distribuzione.
C) Un terzo gruppo di casi avviene nelle discipline fisiche e chimiche, più che in quelle biologiche, come nelle misure di conducibilità dello stesso campione di metallo, a diverse temperature. Entrambe le variabili non hanno una variabilità naturale. In questo caso, non è rispetta la condizione richiesta per la variabile Y, poiché la conducibilità (Y) come la temperatura (X) sono entrambe soggette solamente all’errore dello strumento.
D) La regressione lineare parametrica è il metodo comunemente utilizzato fino ad ora, per confrontare i risultati ottenuti con due metodologie differenti, come già illustrato nel problema della calibratura o calibrazione (calibration). (Nell'International Vocabulary of Basic and General Terms in Metrology, ISO, GENEVA, Switzerland, 2nd ed. 1993, dicesi calibration, la sequenza di operazioni necessarie a stabilire, in determinate condizioni sperimentali, la relazione tra i valori forniti da uno strumento o sistema di misurazione (per es. assorbanza) e i valori ad essi corrispondenti di una parametro (per es. concentrazione) di uno o più materiali di riferimento). Secondo un approccio più recente e diffuso nelle metodologie cliniche, assumere che X sia noto senza errore quando si confrontano tra loro due metodi equivalenti è indubbiamente lontano dalla realtà sperimentale, in quanto - il valore della variabile è rilevato con lo stesso errore con il quale è misurata la variabile . Si consideri la somministrazione a un organismo di dosi differenti di un ormone, per valutarne le conseguenze su qualche altro parametro. Come si può affermare che la variabile indipendente X (dose) è applicata senza errore? Nella realtà, esistono molti fattori che per essa determinano tanti tipi di errore, quali - la tecnica di somministrazione, - la lettura strumentale della quantità di sostanza in cui l’ormone è diluito, - la determinazione della sua concentrazione nel diluente. Complessivamente, la somma di questi fattori diventa spesso una quantità importante, rispetto al valore rilevato della X. Essa quindi non è nota con precisione, senza errore.
A questa situazione, pure in un contesto di confronto tra due metodi, fa eccezione il caso di Berkson (Berkson case), citato come un caso di apparente regressione Model II da Robert R. Sokal e F. James Rohlf nel loro testo del 1995 Biometry. The principles and practice of statistics in biological research (3rd ed. W. H. Freeman and Company, New York, XIX, + 887 p.). Secondo il modello descritto da J. Berkson nel 1950 nell’articolo Are there two regression? (su Journal of the Statistical Association Vol. 45, pp.: 164-180), anche quando si confrontano due metodi vi è un caso in cui la variabile esplicativa o indipendente , chiamata variabile controllata (controlled variable), - è sotto la diretta gestione dello sperimentatore ed è nota con precisione, come richiede la regression model I o least–squares regression. Avviene quando il campione che deve essere sottoposto a determinazione, in termini più tecnici l’analita, - ha valori di prefissati oppure prestabiliti con il metodo classico, (ad esempio, l’analita è stato preparato con una certa concentrazione), - e con il metodo di confronto si ricava la stima di , ripetendo eventualmente l’analisi più volte per lo stesso valore di . In questa situazione, secondo Berkson si dovrebbe ugualmente applicare il metodo ordinario di regressione lineare (ordinary least squares), per stimare i coefficienti della retta, in quanto l’errore commesso nella stima di può essere ignorato.
Questi concetti di Berkson nell’espressione matematica diventano: - la misura è data dalla quantità vera più un errore :
- e la misura è determinata attraverso la regressione lineare con
dove - la misura (non importa se stocastica o non stocastica) è controllata dallo sperimentatore, - gli errori sono due sequenze di variabili random. In questo caso, e sono tra loro dipendenti. E' la differenza fondamentale rispetto alla situazione in cui si confrontano due metodi e si misurano le due variabili in modo indipendente.
Il modello può quindi essere scritto come
dove - la misura non è correlata con cioè con l'errore della misura . In questa situazione, secondo Berkson - è possibile utilizzare la retta parametrica fondata sul principio dei minimi quadrati, in quanto l'errore di misura può essere ignorato poiché e sono tra loro dipendenti; - mentre quando e sono tra loro indipendenti, quindi la misura non è controllata dallo sperimentatore, the ordinary least squares method is not appropriate for the estimation of same parameters.
Tuttavia, in molti dei prima casi citati, nei quali le condizioni teoriche di validità chiaramente sono violate almeno sotto l’aspetto teorico, è prassi raramente contesta in biologia - utilizzare ugualmente la procedura classica di regressione Model I.
Quando allora considerare non corretta la regressione Model I e utilizzare la Model II? Le indicazioni di Sokal e Rohlf (a pag. 543), l’unico tra i grandi testi internazionali che affronta il problema, sono molto vaghe: Research on and controversy over Model II regression continues, and definitive recommendations are difficult to make. Much depends on the intentions of the investigator.
In linea generale, se la regressione è effettuata per scopi predittivi, la Model I e senza dubbio sempre corretta, anche se alcuni statistici pongono una ulteriore distinzione scolastica, più fine, tra predizione e relazione funzionale. Quando invece si vuole una interscambialità delle due variabili, sarebbe richiesto il Model II.
I metodi della Model II Regression sono fondati essenzialmente su due approcci: (1) la correlazione e (2) la regressione lineare non parametrica.
1 – I concetti che stanno alla base della correlazione sono appropriati, perché in essa non si distingue tra le due variabili, per quanto attiene le condizioni di validità e la precisione con la quale la variabile è stata misurata. Fondamentalmente esistono due situazioni a) quando le due variabili hanno la stessa unità di misura, si può utilizzare il coefficiente angolare dell’asse maggiore (the slope of the major axis) o dell’asse principale (principal axis); b) quando le due variabili hanno unità di misura differenti, la correlazione come indicatore della regressione diventa priva di significato specifico, poiché essa è indipendente dal tipo di scala e varia sempre tra –1 e +1; il valore della correlazione ritorna a essere una indicazione non banale, quando le scale possono essere differenti, ma sono predeterminate e non arbitrarie e quindi sono noti i rapporti tra esse.
Il metodo del coefficiente angolare dell’asse maggiore utilizza anche scale trasformate. Spesso, una delle due variabili ha una trasformazione logaritmica o in radice. Un altro metodo ancora è la standardizzazione delle due variabili, per cui ognuna assume media zero e deviazione standard uno, prima del calcolo del coefficiente angolare.
L’asse principale di queste variabili standardizzate ha vari nomi: reduced major axis, standard major axis, geometric mean regression, mentre nei testi francesi si trova anche il termine relation d’allometrie, utilizzato soprattutto da G. Teissier nell’articolo del 1948 La relation d’allometrie: sa signification statistique et biologique (pubblicato su Biometrics Vol. 4, pp.: 14-48). Più recentemente, in particolare quando si confrontano due metodi clinici, biologici, chimici o fisici, impiegati per determinare la stessa sostanza o per misurare lo stesso fenomeno, sono proposti i metodi di Deming, di Mantel e di York, illustrati nel prosieguo del capitolo.
2 - La regressione lineare non parametrica può essere utilizzata in quasi tutte le condizioni sperimentali. Come tutti i test fondati sui ranghi e distribution free, non richiede il rispetto dei quattro assunti di validità. Tra i metodi non parametrici, il più noto, diffuso e accettato è il metodo di Theil, la cui significatività è analizzata mediante la correlazione non parametrica t di Kendall. Quindi è chiamato anche metodo di Theil-Kendall oppure metodo robusto di Kendall (Kendall’s robust line-fit method). Tra questi test non parametrici d’inferenza sulla regressione lineare, è sovente citato anche il metodo di Bartlett, detto più estesamente metodo dei tre gruppi di Bartlett (Bartlett’s three-group method). Rispetto al metodo di Theil, presenta il vantaggio di essere ancora più semplice e rapido. Ma ha lo svantaggio di essere più frequentemente criticato nei testi di statistica poiché, utilizzando le medie delle X e delle Y sia del primo sia dell’ultimo terzo dei dati della X, è molto sensibile ai valori anomali, spesso collocati agli estremi.
Tra i grandi testi a diffusione internazionale, il test di Bartlett è riportato solamente nel volume di Robert R. Sokal e F. James Rohlf del 1995 Biometry. The Principles and Practice of Statistics in Biological Research (3rd ed. W. H. Freeman and Company, New York, XIX, + 887 p.). In questi ultimi anni, è citato con frequenza soprattutto nella letteratura chimica e clinica, per il confronto tra metodi. La presentazione di questi due test non parametrici sulla regressione (Theil e Bartlett) è stata effettuata nel capitolo dedicato alla regressione non parametrica.
| |
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |