LA REGRESSIONE LINEARE SEMPLICE

 

 

16.3    LA REGRESSIONE DEI FIGLI VERSO LA MEDIOCRITA’

 

 

Il diagramma di dispersione fornisce una descrizione visiva, completa e dettagliata della relazione esistente tra due variabili. Tuttavia, la sua interpretazione resterebbe soggettiva. Come già spiegato nel primo capitolo del corso, presentando i parametri di una distribuzione univariata, è necessario

-  tradurre le caratteristiche evidenziate dal grafico in valori numerici,

 cioè in quantità che permettano a tutti di giungere alle medesime valutazioni, a partire dagli stessi dati, sia nella stima dei parametri, sia nella applicazione dei test.

La funzione matematica che può esprimere in modo oggettivo la relazione di causa-effetto tra due variabili è chiamata

- equazione di regressione o funzione di regressione della variabile Y sulla variabile X.

 

Le retta di regressione con il metodo dei minimi quadrati (least squares) è una delle tecniche più antiche della statistica moderna. La prima pubblicazione sul metodo least squares fitting è del 1806 ed è dovuta al matematico francese Adrian M. Legendre per il volume Nouvelles Methodes pour la Determination des Orbits des Cometes, (Paris). Nel 1809 il matematico e astronomo tedesco Karl F. Gauss (1777-1855) pubblica una memoria (Werke, Gottingen, 4, 1821, collected works, 1873; vedere anche Theory of the Motion of the Heavenly Bodies Moving about the Sun in Conic Sections, Dover, new York.) in cui afferma che all’età di 24 anni (1801) se ne era servito per calcolare l’orbita dell’asteroide Ceres e che aveva già impiegato questo metodo nel 1795.

Il termine regressione e la sua applicazione a problemi statistici furono introdotti verso la metà dell'ottocento, insieme con i concetti di base della correlazione, dall’inglese Sir Francis Galton (1822-1911). Successivamente, sono stati sviluppati, in contesti differenti, da Karl Pearson (1857-1936) e Ronald Fisher (1890-1962).

 

Diplomatosi in Matematica presso il Trinity College di Cambridge, Galton interruppe gli studi e non raggiunse la laurea. Tuttavia, ebbe una attività scientifica importante (340 tra pubblicazioni e libri), in molti settori della ricerca e della vita sociale inglese:

- esploratore nell’Africa Equatoriale (Namibia) e membro eletto della Royal Geographic Society,

- meteorologo, inventore della prima mappa sulla distribuzione geografica della pressione dell’aria per la teoria meteorologica degli anti-cicloni,

- scopritore delle impronte digitali come indicatore certo dell’identità personale; persuase Scotland Yard ad adottare il sistema della impronte digitali;

-  statistico, dimostrò che la distribuzione di Laplace-Gauss o distribuzione normale può essere applicata agli attributi psicologici dell’uomo, inclusa l’intelligenza; introdusse l’uso dei percentili per misure relative in distribuzioni normali;

-  genetista, coniò il termine Eugenics e la frase Nature versus Nurture; introdusse il metodo del pedigree e quello dello studio dei gemelli, nell’analisi dei caratteri ereditari;

- psicologo, definì l’abilità mentale e il genio in termini di punteggio (il quoziente d’intelligenza I.Q.), con il test d’intelligenza Stanford-Binet; fondò il primo centro mondiale per test mentali, nel quale una persona, dopo aver risolto una batteria di test, poteva ottenere un certificato del punteggio raggiunto.

 

Soprattutto studiò le diversità dell’uomo, con particolare attenzione alle capacità intellettuali e morali, arrivando alla conclusione che il talento e il carattere sono solamente ereditari. Sarà chiamata la teoria del sangue blu: ogni uomo nella sua vita può essere solamente quello che è dalla nascita e per nascita. La conclusione scientifica e politica di questa concezione è che l’uomo può essere migliorato unicamente attraverso incroci selettivi. Galton estese questi concetti dalle caratteristiche individuali alle popolazioni: sulla base delle sue osservazioni in Africa, stimò che, nella distribuzione normale dell’abilità mentale generale, i popoli africani si trovavano di due gradi sotto la posizione degli anglo-sassoni.

Biologo, Psicologo, Statistico ed Educatore, è riconosciuto come il padre della behavioral genetics.

Tra i suoi libri, l’importanza maggiore è attribuita a:

-  F. Galton (1869, 1892), Hereditary Genius: An Inquiry into its Laws and Consequences. Macmillan/Fontana, London;

-  F. Galton (1883, 1907), Inquiries into Human Faculty and its Development. AMS Press, New York.


L’analisi della regressione lineare semplice nasce in questo contesto culturale e politico.

Sviluppando i suoi studi di eugenica, Galton voleva verificare se la statura dei figli potesse essere prevista sulla base di quella dei genitori. Ed esprimere questa corrispondenza in una legge matematica. Il ragionamento era da genetista: nell’uomo esistono fattori ereditari fisici e psicologici?

Come possibile fattore ereditario, che può essere facilmente individuato e misurato senza controversie, è opportuno scegliere l’altezza. Se, conoscendo l’altezza dei genitori, è possibile predire quella dei figli, a maggior ragione (ad abundantiam) è dimostrato che l’altezza è ereditaria. Ma allora sono ereditarie sia le altre caratteristiche biologiche quali il colore dei capelli, sia le caratteristiche psicologiche e morali, quali il talento e l’onesta. Pertanto, il sangue blu esiste.

 


 

Dati originali di Galton, tratti dall’articolo citato, nei quali è mostrata la relazione tra l’altezza di 309 figli e quella media dei loro genitori (in pollici).


 

Tra i tanti esperimenti effettuati raccogliendo dati sulla popolazione inglese, assume particolare importanza l’analisi discussa nell’articolo di  F. Galton del 1886, Regression towards mediocrity in hereditary stature (pubblicato su Journal of the Anthropological  Institute, Vol. 15, pp.: 346 – 263).

 

In 309 casi, misurò l’altezza del figlio adulto e quella dei genitori. Come nella tabella precedente, costruì un diagramma cartesiano con i dati della tabella, riportando

-  sull’asse delle ascisse l’altezza media dei genitori (mid-parent height), che variava da 65 a 71 pollici (in),

-  sull’asse delle ordinate l’altezza dei figli (child height), che variava da 64 a 73 pollici (in).

Successivamente calcolo che l’altezza dei genitori  e quella dei figli avevano medie uguali, entrambe 68,2 pollici (un pollice è uguale a 2,54 cm.). Osservò che il campo di variazione era diverso: i genitori da 65 a 71 pollici, i figli da 64 a 73. Era giustificato dal fatto che per i genitori era riportata la media, mentre per i figli erano riportati i valori individuali.

Ma fu colpito dal fatto che i genitori più alti, quelli con di 70 e 71 pollici (identificati dalle ultime due colonne), avevano figli con una altezza media di 69,5 pollici: erano più bassi dei loro genitori.

Simmetricamente,  considerando i genitori più bassi, quelli con altezza media di 64 e 65 pollici (prime due colonne) trovò che i figli erano mediamente più alti.

Chiamò questo fenomeno, per cui padri alti e bassi hanno figli più vicini alla media del gruppo, regressione verso la mediocrità (regression towards mediocrity) corretta poi dagli statistici, con termini più asettici, in regressione verso la media (regression towards the mean).

 

It is some years since I made an extensive series of experiments on the produce of seeds of different size …

It appared from these experiments that the offspring did not tend to resemble their parent seeds in size, but to be always more mediocre than they – to be smaller than the parents, if parents were large; to be larger than the parents, if the parents were very small ….

The experiments showed further that the filial regression towards mediocrity was directly proportional to the parental deviation from it.

 

Se avesse analizzato l'altezza dei padri in rapporto a quella dei figli, avrebbe simmetricamente trovato che i figli più bassi e quelli più alti hanno genitori con un'altezza più vicina alla media del loro gruppo.

Ad esempio, i figli con altezza 70 e 71 pollici hanno genitori con una altezza media di 69 pollici.

E’ un fenomeno statistico, non genetico.

 

Illustrando il concetto in termini matematici, come sarà possibile comprendere meglio alla fine del capitolo,

- se la variabile X ha deviazione standard  e la variabile Y ha deviazione standard ,

- e la correlazione è pari a ,

- la retta di regressione least-squares può esser scritta come .

Un cambiamento di una deviazione standard in X

- è associata a un cambiamento di  deviazioni standard in Y.

Se X e Y sono collocati esattamente su una retta,  è uguale a 1. Ma questo avviene raramente:  è quasi sempre minore di 1. Ciò determina che la media di Y, predetta sulla base di X, è sempre minore della media di X di una quota che dipende da  e dalla sua deviazione standard.

 

Non cogliendo questo aspetto (anche i figli più alti hanno padri con altezza media inferiore), forse perché secondario nella relazione genetica tra causa ed effetto al quale era interessato, fu colpito dal supposto fenomeno di maggiore omogeneità dei figli rispetto ai genitori.

Per un genetista, o meglio per uno studioso di eugenetica che si poneva il problema di come ottenere individui “migliori”, il fenomeno fu visto come negativo: era una regressione della popolazione verso una uniformità che non permette di selezionare i migliori, una regressione verso quella "mediocrità" (come da lui definita) che ostacola la selezione di una popolazione "migliore".

 

Per ogni gruppo di altezze medie dei genitori calcolo l’altezza media dei figli, unendo i vari punti con una linea continua (come nel grafico). Questa linea è chiamata retta di regressione (regression line) e il processo che permette di calcolare la retta è noto come regressione (regression).

 

Per comprendere esattamente il significato della ricerca statistica nel contesto storico del periodo, ad esemplificazione del legame che spesso esiste tra analisi dei dati e loro interpretazione estesa ai valori sociali e culturali, è importante rileggere alcuni passi sulla biografia di Francis Galton, che tra i suoi allievi ebbe anche  Karl Pearson, a sua volta maestro di Fisher e di Gosset, vero cognome di Student (vedi: Statistica non parametrica, seconda edizione, di Sidney Siegel e John Castellan, McGraw-Hill, Milano, a pag. XXXII e seguenti). 

Sir Francis Galton, di famiglia nobile inglese, nono figlio di un famoso e facoltoso banchiere, era cugino di Darwin. Il libro di Charles Darwin del 1861 (Origin of Species) ebbe su di lui una profonda impressione. L’opera del filosofo Herbert Spencer (Principles of Biology, 1872) alla quale viene attribuito l’inizio del “darvinismo sociale”, asseriva che la selezione naturale avviene attraverso una vera e propria “lotta al coltello”, dalla quale sopravvive solo il più forte, colui che riesce a dominare tutti gli altri. Galton iniziò ad interessarsi della trasmissione dei caratteri da una generazione all’altra.

E’ noto che, a quei tempi, l’opera di Mendel non fosse conosciuta. Anche se il monaco di Brno aveva pubblicato la sua ricerca nel 1865, quella ricerca sul pisum sativum (i piselli da orto) era passata del tutto inosservata nell’ambiente scientifico dell’epoca. La riscoperta avvenne solo nel 1910, quasi contemporaneamente da più studiosi. Fu nell’ambito del darwinismo sociale che nacque la dialettica ereditarietà - ambiente. In quei decenni e per altri ancora, si dibatteva su quanto nell’evoluzione delle “facoltà mentali” fosse dovuto all’ambiente e quanto all’ereditarietà.

Sir Galton era convinto che i “caratteri morali” si ereditassero, così come certe malattie. Cercò quindi di dimostrare che un uomo, “alla nascita e per nascita”, è già tutto quello che sarà in avvenire: cercò di dimostrare una teoria tanto di moda nel suo ambiente, la teoria detta del “sangue blu”, secondo la quale non si ereditano solo i titoli nobiliari e le proprietà, ma anche le caratteristiche fisiche come l’altezza e il colore degli occhi. Nello stesso modo, per le stesse leggi biologiche e di trasmissione lungo l’albero genealogico, si ereditano l’intelligenza e i valori morali, il talento e l’onestà.

Passando dagli individui alle popolazioni, Galton era anche convinto che le “razze umane” e le “classi sociali inferiori” non potessero elevare le loro caratteristiche mentali e morali attraverso l’educazione, in quanto non possedevano le qualità biologiche per attuare tale evoluzione. Esse potevano solo essere “migliorate”, attraverso “incroci” con coloro che già possedevano tali caratteri. Fu quindi tra i fondatori, per gli aspetti concettuali e metodologici, dell’eugenetica, finalizzata a migliorare le “razze e le classi  inferiori” attraverso misure tese ad evitare il diffondersi dei caratteri ereditari indesiderati. Alcune norme sui matrimoni, presupposto all’aver figli nella nostra cultura, e sulle migrazioni risentono di queste convinzioni, diffuse nelle classi economiche, sociali, culturali e politiche dominanti. In vari paesi occidentali, le quote di stranieri ammessi ogni anno sono diverse in rapporto al loro paese d'origine; tali leggi sono state influenzate da queste idee, molto diffuse alla fine dell’Ottocento e all'inizio del secolo XX.

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007