Services and Training for Six Sigma, Design of Experiments and Industrial Statistics

CORRELAZIONE E COVARIANZA

18.13. GLI OUTLIER NELL’ANALISI DI REGRESSIONE E CORRELAZIONE

Nel caso della statistica bivariata, la ricerca degli outlier assume una importanza ancora maggiore di quella che ricopre nella statistica univariata:

- l’individuazione è più complessa, meno evidente alla semplice lettura del dato perché bidimensionale;

- soprattutto gli effetti possono essere molto grandi sui risultati della regressione e della correlazione, fino a invertire il segno della relazione;

- i metodi diventano più sofisticati, meno immediati nell’applicazione e meno intuitivi nei concetti.

Nella statistica univariata, gli outlier aumentano sempre la varianza e quindi riducono la significatività di un test. Nella regressione e nella correlazione, possono avere anche l’effetto opposto di rendere molto significativi i test sulla linearità e sulla correlazione, quando in realtà sulla base di tutti gli altri dati non si sarebbe rifiutata l’ipotesi nulla. Dipende dalla collocazione dell’outlier, rispetto alle altre coppie di valori.

In termini tecnici, oltre al masking effect (descritto nei paragrafi dedicati agli outlier nella statistica univariata), nella statistica bivariata si può avere un importante swamping effect, cioè la capacità di sommergere l’informazione fornita complessivamente da tutte le altre coppie di dati. Un esempio è riportato nell'ultimo paragrafo dedicato alla discussione, nella statistica univariata, se gli outlier debbano essere compresi o esclusi nell’analisi statistica.

Per l'importanza che ricoprono, nella multivariata gli outlier hanno una letteratura molto ampia. Questa presentazione è limitata alle situazioni più semplici, con due variabili continue.

Come nella univariata, quando si sospetta la presenza di un outlier, è preliminare a qualsiasi analisi statistica l’accertamento che non si tratti di un errore, commesso in una delle tante fasi di elaborazione dell’informazione, dalla raccolta al trasferimento dei dati. Molto spesso l’analisi combinata di due parametri ne facilita l’individuazione. Ad esempio, non è possibile una gravidanza o indici fisiologici ad essa correlati, in donne troppo giovani o troppo anziane; richiede chiaramente una verifica, se un peso di 40 Kg è associato a una persona con altezza di 190 cm. Almeno una delle due variabili ha un valore errato, da correggere prima dell’analisi statistica.

Se è impossibile, è necessario eliminare la coppia di valori.

Quando la coppia di dati sono le misure effettivamente ottenute nell’esperimento, per la ricerca dell’outlier si pone il problema di una loro valutazione in rapporto all’ambiente statistico, vale a dire all’informazione fornita dagli altri dati.

Il primo approccio, semplice ma importante, alla verifica della eventuale presenza di uno o più outlier è sempre la rappresentazione grafica. In questo caso, al posto dell’istogramma, si utilizzano i punti in un diagramma cartesiano, detto diagramma di dispersione. L’anomalia di una coppia di dati risulta molto più evidente di quanto appaia alla semplice lettura delle due variabili, poiché

- separatamente sia il valore di X sia quello di Y possono rientrare nella distribuzione degli altri valori,

- ma congiuntamente possono individuare un punto che è nettamente separato.

Ad esempio, in questa serie di 15 coppie di dati

	576	635	558	578	666	580	555	661	651	605	653	575	545	572	594
	3,39	3,30	2,81	3,03	3,44	3,07	3,00	3,43	3,36	3,13	3,12	2,74	2,76	2,88	2,96

che rappresentano la quantità di ammoniaca (X₁) e di solfati (X₂) presenti in altrettanti campioni di acqua inquinata, con una semplice lettura, per quanto attenta, è impossibile individuare il potenziale valore anomalo. La rappresentazione grafica mostra con sufficiente evidenza che il punto che si differenzia maggiormente dagli altri é individuato dalla prima coppia di valori (= 576 e = 3,39), rappresentato con un triangolo (in alto a sinistra) nel grafico.

La lettura di una sola dimensione avrebbe condotto a rilevare unicamente che

- 576 è tra i valori minori della variabile X₁ , ma che ne ha cinque minori,

- 3,39 è tra i valori maggiori della variabile X₂ , ma ne ha due maggiori.

Ma la identificazione di quel punto come outlier, seppure visivamente evidente, sotto l'aspetto statistico non è ovvia. Inoltre è sempre importante, quando si rifiuta l’ipotesi nulla

H₀: il punto non è un outlier contro H₁: il punto è un outlier

e quindi si decide che si tratta di un valore anomalo,

- conoscere la probabilità a di commettere un errore di I tipo, almeno in modo approssimato.

I metodi statistici proposti sono numerosi. Non tutti portano alle stesse conclusioni, quando la situazione non è del tutto palese.

In alcuni casi, possono essere impiegati anche metodi che in realtà hanno altre finalità.

Distribuzione dei 15 pseudo-valori di r calcolati dalle 15 coppie di dati campionari.

(Le ordinate sono state moltiplicate per 3 per motivi grafici.

Ad esempio, una delle tecniche più recenti ed efficaci, quando si devono utilizzare dati che hanno una forma della distribuzione ignota o comunque non normale, è il jackknife.

Come descritto ampiamente nel capitolo in cui è riportato, quando è applicato alla correlazione, calcola tanti valori di correlazione quante sono le coppie di dati, escludendone ogni volta una.

In questo caso, con la sua applicazione ai dati della tabella e come riportato nell’ultimo grafico,

- sono stati calcolati i 15 valori di riportati in ascissa,

- mentre sull'asse delle ordinate è riportata la loro frequenza.

Il valore di correlazione di circa 0,90 è il risultato del jackknife quando nelle coppie di dati non è compreso il punto anomalo già sospettato. Il confronto con l'istogramma, collocato a sinistra della figura e formato da tutti gli altri valori che comprendono quel punto, evidenzia gli effetti del punto outlier sul valore di . Questo cade lontano dalla media degli altri ed è fuori dal loro intervallo di confidenza.

Ma se

- quel valore di correlazione è un outlier, rispetto agli altri ,

- anche il punto , che lo determina è un outlier, rispetto agli altri punti.

Per una analisi statistica ampia e ragionata degli outlier, è utile conoscere l’impostazione classica,

- sia per una maggiore disponibilità di metodologie da applicare alle varie situazioni,

- sia per giustificare scelte differenti, come il metodo jackknife nell’esempio precedente.

Il punto di partenza della metodologia classica o tradizionale distingue se sui dati raccolti si utilizza

- la regressione lineare semplice oppure la correlazione semplice.

Infatti

- nel modello di regressione lineare, gli outlier sono analizzati esclusivamente per la variabile dipendente, spesso indicata con Y,

- mentre nel modello di correlazione lineare, gli outlier sono individuati analizzando congiuntamente le due variabili X₁ e X₂.

In realtà, i due gruppi di metodi sono applicati agli stessi dati, trattandosi sempre di statistica bivariata. Inoltre esistono relazioni strette tra il coefficiente angolare e il coefficiente di regressione lineare .

Nella regressione, dove la variabile X serve per stimare la variabile Y, la tecnica per evidenziare gli outlier è sempre basata sull’analisi dei residui (residuals o raw residuals)

con ,

vale a dire sulle differenze tra ogni osservata e la corrispondente calcolata per la stessa .