CORRELAZIONE E COVARIANZA
18.13. GLI OUTLIER NELL’ANALISI DI REGRESSIONE E CORRELAZIONE
Nel caso della statistica bivariata, la ricerca degli outlier assume una importanza ancora maggiore di quella che ricopre nella statistica univariata: - l’individuazione è più complessa, meno evidente alla semplice lettura del dato perché bidimensionale; - soprattutto gli effetti possono essere molto grandi sui risultati della regressione e della correlazione, fino a invertire il segno della relazione; - i metodi diventano più sofisticati, meno immediati nell’applicazione e meno intuitivi nei concetti.
Nella statistica univariata, gli outlier aumentano sempre la varianza e quindi riducono la significatività di un test. Nella regressione e nella correlazione, possono avere anche l’effetto opposto di rendere molto significativi i test sulla linearità e sulla correlazione, quando in realtà sulla base di tutti gli altri dati non si sarebbe rifiutata l’ipotesi nulla. Dipende dalla collocazione dell’outlier, rispetto alle altre coppie di valori.
In termini tecnici, oltre al masking effect (descritto nei paragrafi dedicati agli outlier nella statistica univariata), nella statistica bivariata si può avere un importante swamping effect, cioè la capacità di sommergere l’informazione fornita complessivamente da tutte le altre coppie di dati. Un esempio è riportato nell'ultimo paragrafo dedicato alla discussione, nella statistica univariata, se gli outlier debbano essere compresi o esclusi nell’analisi statistica. Per l'importanza che ricoprono, nella multivariata gli outlier hanno una letteratura molto ampia. Questa presentazione è limitata alle situazioni più semplici, con due variabili continue.
Come nella univariata, quando si sospetta la presenza di un outlier, è preliminare a qualsiasi analisi statistica l’accertamento che non si tratti di un errore, commesso in una delle tante fasi di elaborazione dell’informazione, dalla raccolta al trasferimento dei dati. Molto spesso l’analisi combinata di due parametri ne facilita l’individuazione. Ad esempio, non è possibile una gravidanza o indici fisiologici ad essa correlati, in donne troppo giovani o troppo anziane; richiede chiaramente una verifica, se un peso di 40 Kg è associato a una persona con altezza di 190 cm. Almeno una delle due variabili ha un valore errato, da correggere prima dell’analisi statistica. Se è impossibile, è necessario eliminare la coppia di valori.
Quando la coppia di dati sono le misure effettivamente ottenute nell’esperimento, per la ricerca dell’outlier si pone il problema di una loro valutazione in rapporto all’ambiente statistico, vale a dire all’informazione fornita dagli altri dati. Il primo approccio, semplice ma importante, alla verifica della eventuale presenza di uno o più outlier è sempre la rappresentazione grafica. In questo caso, al posto dell’istogramma, si utilizzano i punti in un diagramma cartesiano, detto diagramma di dispersione. L’anomalia di una coppia di dati risulta molto più evidente di quanto appaia alla semplice lettura delle due variabili, poiché - separatamente sia il valore di X sia quello di Y possono rientrare nella distribuzione degli altri valori, - ma congiuntamente possono individuare un punto che è nettamente separato. Ad esempio, in questa serie di 15 coppie di dati
che rappresentano la quantità di ammoniaca (X1) e di solfati (X2) presenti in altrettanti campioni di acqua inquinata, con una semplice lettura, per quanto attenta, è impossibile individuare il potenziale valore anomalo. La rappresentazione grafica mostra con sufficiente evidenza che il punto che si differenzia maggiormente dagli altri é individuato dalla prima coppia di valori (= 576 e = 3,39), rappresentato con un triangolo (in alto a sinistra) nel grafico.
La lettura di una sola dimensione avrebbe condotto a rilevare unicamente che - 576 è tra i valori minori della variabile X1 , ma che ne ha cinque minori, - 3,39 è tra i valori maggiori della variabile X2 , ma ne ha due maggiori. Ma la identificazione di quel punto come outlier, seppure visivamente evidente, sotto l'aspetto statistico non è ovvia. Inoltre è sempre importante, quando si rifiuta l’ipotesi nulla H0: il punto non è un outlier contro H1: il punto è un outlier e quindi si decide che si tratta di un valore anomalo, - conoscere la probabilità a di commettere un errore di I tipo, almeno in modo approssimato. I metodi statistici proposti sono numerosi. Non tutti portano alle stesse conclusioni, quando la situazione non è del tutto palese.
In alcuni casi, possono essere impiegati anche metodi che in realtà hanno altre finalità.
(Le ordinate sono state moltiplicate per 3 per motivi grafici.
Ad esempio, una delle tecniche più recenti ed efficaci, quando si devono utilizzare dati che hanno una forma della distribuzione ignota o comunque non normale, è il jackknife.
Come descritto ampiamente nel capitolo in cui è riportato, quando è applicato alla correlazione, calcola tanti valori di correlazione quante sono le coppie di dati, escludendone ogni volta una. Per una analisi statistica ampia e ragionata degli outlier, è utile conoscere l’impostazione classica, - sia per una maggiore disponibilità di metodologie da applicare alle varie situazioni, - sia per giustificare scelte differenti, come il metodo jackknife nell’esempio precedente.
Il punto di partenza della metodologia classica o tradizionale distingue se sui dati raccolti si utilizza - la regressione lineare semplice oppure la correlazione semplice. Infatti - nel modello di regressione lineare, gli outlier sono analizzati esclusivamente per la variabile dipendente, spesso indicata con Y, - mentre nel modello di correlazione lineare, gli outlier sono individuati analizzando congiuntamente le due variabili X1 e X2. Nella regressione, dove la variabile X serve per stimare la variabile Y, la tecnica per evidenziare gli outlier è sempre basata sull’analisi dei residui (residuals o raw residuals) con ,
vale a dire sulle differenze tra ogni osservata e la corrispondente calcolata per la stessa .
| ||||||||||||||||||||||||||||||||||||
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |