CORRELAZIONE  E  COVARIANZA

 

 

18.16. LA DISTANZA EUCLIDEA TRA LE STATISTICHE DELLA RETTA E LA DISTANZA DI COOK; APPLICAZIONI DEL JACKKNIFE.

 

 

Le tecniche che utilizzano i residui sono giudicate non consistenti per valutare la presenza di un outlier quando

1 -  i dati non sono distribuiti in modo normale,

2 - e/o il valore anomalo può influire in modo potenzialmente sproporzionato sia sul coefficiente angolare  e sull’intercetta  della regressione, sia sul valore dell’indice  di correlazione.

 

Esistono altri metodi, fondati su principi differenti dai precedenti, che anche nelle due condizioni precedenti permettono di misurare l’influenza reale di un punto sul risultato complessivo della statistica calcolata. Essi si fondono essenzialmente sul concetto di

-  valutare di quanto cambiano i risultati,

-  quando un punto specifico viene eliminato.

 

Tra le metodologie più diffuse, sono da ricordare:

A -   il metodo grafico che descrive le variazione delle statistiche  (intercetta) e  (coefficiente angolare) della regressione, ottenute eliminando un punto ogni volta, rispetto all’analisi con tutti i dati;

B -  la distanza di Cook (Cook’s distance), che nonostante il nome in realtà è una misura di influenza.

C - varie applicazioni del metodo jackknife, anche se spesso chiamate con nomi diversi, quali DFBETA e SDBETA, DFFIT e SDFIT, che ora sono possibili con i programmi informatici, poiché richiedono lunghi calcoli ripetuti.

 

 

A -  Per il metodo grafico, con i dati dell’esempio A, utilizzando i dati di tutti gli 11 marziani, è stata calcolata

- la retta di regressione

 

Dati dell’esempio A

 

Marz.

Tutti

I

II

III

IV

V

VI

VII

VIII

IX

X

XI

Piede X

---

10

8

13

9

11

14

6

4

12

7

5

Intel. Y

---

8,04

6,95

7,58

8,81

8,33

9,96

7,24

4,26

10,84

4,82

5,68

3,00

3,00

3,01

2,41

2,89

2,99

2,98

2,50

3,54

3,34

3,49

2,90

0,50

0,50

0,50

0,59

0,50

0,50

0,50

0,54

0,45

0,44

0,47

0,51

---

0,1000

0,1000

0,2364

0,0909

0,1273

0,3182

0,1727

0,3182

0,1727

0,1273

0,2364

St.

---

+0,033

-0,043

-1,778

+1,110

-0,148

-0,040

+1,102

-0,724

+1,634

-1,454

+0,166

Cook

---

0,000

0,000

0,489

0,062

0,002

0,000

0,127

0,123

0,279

0,154

0,004

 

 

Per valutare l’effetto dei singoli punti (da I a XI) sulle statistiche della regressione, con le 11 coppie di dati originali   e   si calcolano altrettante rette, togliendo ogni volta uno degli 11 punti.

I valori sono quelli riportati nella tabella precedente. Ad esempio,

-  togliendo il valori del marziano I,

 la retta è uguale

-  mentre togliendo i dati del marziano III,

 la retta diventa

 

E’ evidente il concetto che  quanto più un punto  

 1)  è lontano dal baricentro  del diagramma di dispersione

 2)  non è allineato con gli altri,

- tanto più le statistiche  e  (calcolate senza quel punto) sono lontane dai valori  e  calcolati con tutti i dati.

Nella figura successiva, in un diagramma cartesiano dove

- i valori delle intercette sono riportati sull’asse delle ascisse (in bianco le 11  e in nero );

- i valori dei coefficienti angolari sono riportati in ordinata, (in bianco le 11  e in nero la )

 si evidenzia l’effetto dei punti che si discostano maggiormente dalle due medie.

 

Diagramma di   e   dell’esempio A


 

 

Le informazioni bidimensionali contenute nelle diverse statistiche  e  delle 11 regressioni rispetto a quella calcolata con tutti i dati di coordinate  e  possono essere ridotte a una sola dimensione, sommandole in altrettante distanze cartesiane

 con

 

Le  distanze  misurano la lontananza in uno spazio bidimensionale,

-   tra il punto (in nero) di coordinate ,

-   e ognuno degli altri 11 punti (in bianco e numerati) di coordinate ,.

Dalla lettura del grafico, ad esempio, emerge con evidenza che è maggiore

- la distanza  relativa ai dati del marziano III

 

 

-  rispetto alla distanza  relativa ai dati del marziano IV

 

 

Interessante sotto l’aspetto descrittivo e fondato sullo stesso concetto del jackknife, questo metodo presenta due gravi inconvenienti:

1 - ogni distanza  è la somma di due unità non omogenee, quali i valori dell’intercetta  e del coefficiente angolare , che misurano caratteristiche differenti e pertanto non sommabili della retta;

2 -  come già in precedenza i valori dei raw residuals () sono influenzati dall’unità di misura della variabile Y, queste distanze  risentono dell’unità di misura con le quali sono state rilevate la variabile X e la variabile Y.

 

Se, nell’esempio utilizzato, l’altezza fosse stata misurata in piedi oppure in metri invece che in centimetri, le statistiche   e   sarebbero state differenti e quindi anche le  distanze .

 

Nonostante questi gravi limiti,

- le  permettono ugualmente alcune analisi entro il singolo esperimento,

-  utilizzando gli stessi metodi già illustrati per i residui  (raw residuals).

Ancora una volta, con la serie delle distanze , dai dati bivariati si è ritornati a dati univariati.

Quindi diventano possibili

-  tutte le analisi già presentate per la statistica univariata,

-  a partire dagli istogrammi e dal Box and Wiskers di Tukey.

 

Inoltre, le distanze  possono essere standardizzate e/o studentizzate, utilizzando la varianza d’errore dell’analisi della regressione. Essa può essere stimata sia con tutti i dati, sia eliminando ogni volta i dati del punto di cui si calcola la distanza.

In queste analisi, è indispensabile l’uso di programmi informatici, che spesso usano metodi diversi. Occorre porre attenzione alle istruzioni (quando fornite).

 

B – Un’altra misura molto diffusa e adimensionale della distanza, cioè indipendente dalle unità di misura con le quali sono state rilevate la variabile X e la variabile Y,

 è la distanza  di Cook (Cook’s distance),

 dove

  è la misura del residuo studentizzato (Studentized residual o internally Studentized residual) del punto  e misura la discrepanza (discrepancy),

 è il leverage  o hat value del punto , cioè la sua influenza potenziale.

 

Il valore  è grande, quando il punto  ha un effetto importante sul valore del coefficiente di regressione. Il valore della distanza  di Cook con  abbastanza grande nettamente maggiore di 10, tende a essere distribuito

-   come la distribuzione  di Fisher,

-   con gradi di libertà  al numeratore   e    al denominatore.

 

Pertanto, nella statistica multivariata e in campioni abbastanza grandi, permette l’inferenza per la verifica dell’ipotesi

H0: il punto  non è un outlier         contro        H1: il punto  è un outlier

 

Per la retta di regressione lineare semplice, utilizzando i dati riportati nell’ultima tabella,

- per il marziano III che ha  =0,2364  e    = -1,778

- la distanza di Cook

 

 

è  = 0,4893 (nella tabella, arrotondato in 0,489).

 

Una ulteriore dimostrazione dei concetti che sono implicati nella misura della distanza di Cook è fornita dall’analisi statistica dei dati dell’esempio C.

 

Nel diagramma di dispersione dell’esempio C (vedere la figura precedente con i 4 diagrammi), si evidenzia che un punto è chiaramente lontano dalla sequenza degli altri, collocati lungo una curva.

Quindi la retta di regressione non è adatta, in quanto il modello è diverso dalla linearità.

 

La lettura coordinata

-  del grafico che riporta le distanze  e

-  e della tabella dei valori che conducono al calcolo delle distanze di Cook

 evidenzia che nell’esempio C il marziano 3 ha caratteristiche che lo distinguono più nettamente dal gruppo degli altri dieci, rispetto all’esempio A.

In questo caso, il residuo studentizzato  = 2,999 è un valore che merita attenzione, anche se come outlier non è statisticamente significativo.

In un test t bilaterale (per gradi di libertà  = 9 e alla probabilità a = 0,025) il valore critico è uguale a 2,685. Se fosse analizzato da solo, con una scelta a priori, sarebbe significativo con probabilità P < 0.025.

 

Ma è un punto su 11 complessivi.

Pertanto, secondo vari autori di testi di statistica è necessario applicare il principio del Bonferroni:

-  per essere significativo alla probabilità complessiva (experiment-wise) a = 0,05

-  il valore del test t per un singolo punto deve essere maggiore di quello critico per la probabilità specifica (comparison-wise)  = 0.05/11 = 0,00454.

 

Anche la distanza di Cook (ultima riga della tabella) risulta alta, abbinando

-  un residuo (chiamato anche discrepanza) con un valore alto

-  a un leverage di livello medio.


 

Dati dell’esempio C

 

Marz.

Tutti

I

II

III

IV

V

VI

VII

VIII

IX

X

XI

3,00

3,01

3,05

4,01

3,04

2,95

2,46

2,97

2,72

2,84

3,03

2,88

0,50

0,51

0,50

0,35

0,50

0,51

0,58

0,50

0,53

0,53

0,50

0,51

---

0,1000

0,1000

0,2364

0,0909

0,1273

0,3182

0,1727

0,3182

0,1727

0,1273

0,2364

St.

---

-0,460

-0,196

+2,999

-0,331

-0,597

-1,135

+0,070

+0,381

-0,755

-0,070

+0,212

Cook

---

0,012

0,002

1,393

0,006

0,026

0,301

0,001

0,034

0,060

0,000

0,007


Diagramma di   e   dell’esempio C

 


 

C -  Recentemente, vari programmi informatici per l’analisi degli outlier presentano metodi che sono l’applicazione del jackknife a statistiche tra loro differenti, ma sempre con la stessa logica di base presentata in precedenza per la correlazione. Nel caso della regressione lineare semplice, si hanno

DFBETA, una distanza  uguale a

 che è ottenuta per ogni dato , sottraendo al valore di , calcolato utilizzando tutti i dati, il valore  calcolato escludendo il valore ;

SDBETA, una versione standardizzata dell’indice precedente, ottenuta dividendo  per una stima deleted dell’errore standard del coefficiente ;

DFFIT che è il valore di Y predetto () quando è escluso il caso ;

SDFIT, la versione standardizzata del precedente DFFIT;

-  il grafico cartesiano (plot) dei valori SDFIT, che sono  riportati in ordinata mentre i valori della X sono riportati in ascissa.

 

Quando per la stessa analisi sono presentati più metodi, che quasi sempre si rifanno a principi statistici differenti e forniscono risposte non coincidenti, alla conclusione del dibattito tecnico è abituale la domanda pratica: “Ma quale test usare?”

Come risposta, è utile giovarsi delle parole di  Glantz e Slinker (a pag. 144): The diagnostics we have discussed so far – residuals, standardized residuals, leverage, Studentized residuals, and Cook’s distance – are all designed to provide different approaches to indentifying points that do not fit with the assumed regression model. No single one of these diagnostics tells the whole story. They should de used together to identify possibly erroneous data points or problems with the regression model (equation) itself.

In altri termini, è intelligente fornire una risposta articolata, che evidenzi le differenti risposte e nella quale la scelta conclusiva della significatività o della non significatività dell’outlier è giustificata in modo scientificamente credibile. E’ lecito fornire una riposta sola, indicando solamente un test, quando l’evidenza del risultato è assoluta; vale a dire, quando tutti i test hanno fornito risposte uguali.

Ma è la conclusione alla quale si perviene sempre, parlando di test dove sono possibili più metodi.

 

Le varie metodologie presentate in questi paragrafi utilizzano i residui, cioè gli scarti tra valori osservati e valori attesi delle Y. A questi residui sono applicare trasformazioni che permettono un loro uso più generale. In letteratura, non sempre i nomi di questi differenti residui sono indicati con precisione; si parla solo di residuals quando si tratta in realtà di standardized residuals oppure di standardized residuals quando invece si tratta di deleted standardized residuals.

E’ quindi utile ricordare  i termini scientifici inglesi più diffusi, con la loro definizione:

Residuals, Raw Residuals, Unstandardized Residuals: sono le differenze tra valori osservati e attesi. La loro somma è 0 e quindi anche la loro media è 0.

Standardized Residuals: sono i residui divisi l'errore standard della popolazione; hanno media 0 e deviazione standard 1.

Studentized Residuals o Internally Studentized Residuals: sono i residui divisi la deviazione standard del campione, che quindi varia da caso a caso; hanno media 0 e deviazione standard maggiore di 1. In vari testi, i termini standardized residuals e Studentized residuals sono usati come sinonimi.

Deleted Residuals: sono i residui quando nel calcolo del coefficiente di regressione è escluso un dato campionario; sono le differenze tra i valori della dipendente e i corrispondenti valori predetti aggiustati, con l'eliminazione del dato campionario.

Studentized Deleted Residuals o Externally Studentized Residuals: sono i residui precedenti (deleted residuals) studentizzati; l'effetto di un valore è eliminato dal calcolo dell'errore standard; questi residui possono essere ampi a causa della distanza del  osservato dal valore  stimato e del leverage; la media è 0 e la varianza è leggermente maggiore di 1.

 

 

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007