18.16. LA DISTANZA EUCLIDEA TRA LE STATISTICHE DELLA RETTA E LA
DISTANZA DI COOK; APPLICAZIONI DEL JACKKNIFE.
Le tecniche che
utilizzano i residui sono giudicate non consistenti per valutare
la presenza di un outlier quando
1 - i dati non sono distribuiti in
modo normale,
2 - e/o il valore
anomalo può influire in modo potenzialmente sproporzionato sia
sul coefficiente angolare e sull’intercetta della regressione, sia sul
valore dell’indice di
correlazione.
Esistono altri
metodi, fondati su principi differenti dai precedenti, che anche nelle due
condizioni precedenti permettono di misurare l’influenza reale di un
punto sul risultato complessivo della statistica calcolata. Essi si fondono
essenzialmente sul concetto di
- valutare di
quanto cambiano i risultati,
- quando un punto
specifico viene eliminato.
Tra le metodologie
più diffuse, sono da ricordare:
A - il metodo
grafico che descrive le variazione delle statistiche (intercetta) e (coefficiente
angolare) della regressione, ottenute eliminando un punto ogni volta, rispetto
all’analisi con tutti i dati;
B - la distanza
di Cook (Cook’s distance), che nonostante il nome in realtà è una misura
di influenza.
C - varie
applicazioni del metodo jackknife, anche se spesso chiamate con nomi
diversi, quali DFBETA e SDBETA, DFFIT e SDFIT, che ora sono possibili con i
programmi informatici, poiché richiedono lunghi calcoli ripetuti.
A - Per il metodo
grafico, con i dati dell’esempio A, utilizzando i dati di tutti gli
11 marziani, è stata calcolata
- la retta
di regressione
Dati dell’esempio A
Marz.
Tutti
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
Piede X
---
10
8
13
9
11
14
6
4
12
7
5
Intel. Y
---
8,04
6,95
7,58
8,81
8,33
9,96
7,24
4,26
10,84
4,82
5,68
3,00
3,00
3,01
2,41
2,89
2,99
2,98
2,50
3,54
3,34
3,49
2,90
0,50
0,50
0,50
0,59
0,50
0,50
0,50
0,54
0,45
0,44
0,47
0,51
---
0,1000
0,1000
0,2364
0,0909
0,1273
0,3182
0,1727
0,3182
0,1727
0,1273
0,2364
St.
---
+0,033
-0,043
-1,778
+1,110
-0,148
-0,040
+1,102
-0,724
+1,634
-1,454
+0,166
Cook
---
0,000
0,000
0,489
0,062
0,002
0,000
0,127
0,123
0,279
0,154
0,004
Per valutare
l’effetto dei singoli punti (da I a XI) sulle statistiche della regressione,
con le 11 coppie di dati originali e si calcolano altrettante rette,
togliendo ogni volta uno degli 11 punti.
I valori sono
quelli riportati nella tabella precedente. Ad esempio,
- togliendo il valori
del marziano I,
la retta è uguale
- mentre togliendo
i dati del marziano III,
la retta diventa
E’ evidente il
concetto che quanto più un punto
1) è lontano dal
baricentro del
diagramma di dispersione
2) non è
allineato con gli altri,
- tanto più le
statistiche e
(calcolate
senza quel punto) sono lontane dai valori e calcolati con tutti i dati.
Nella figura
successiva, in un diagramma cartesiano dove
- i valori delle intercette
sono riportati sull’asse delle ascisse (in bianco le 11 e in nero );
- i valori dei coefficienti
angolari sono riportati in ordinata, (in bianco le 11 e in nero la )
si evidenzia
l’effetto dei punti che si discostano maggiormente dalle due medie.
Diagramma di e dell’esempio A
Le informazioni
bidimensionali contenute nelle diverse statistiche e delle 11 regressioni rispetto
a quella calcolata con tutti i dati di coordinate e possono essere ridotte a una sola
dimensione, sommandole in altrettante distanze cartesiane
con
Le distanze misurano la lontananza
in uno spazio bidimensionale,
- tra il punto
(in nero) di coordinate ,
- e ognuno degli
altri 11 punti (in bianco e numerati) di coordinate ,.
Dalla lettura del
grafico, ad esempio, emerge con evidenza che è maggiore
- la distanza relativa ai dati del
marziano III
- rispetto alla
distanza relativa
ai dati del marziano IV
Interessante sotto
l’aspetto descrittivo e fondato sullo stesso concetto del jackknife,
questo metodo presenta due gravi inconvenienti:
1 - ogni distanza è la somma di due
unità non omogenee, quali i valori dell’intercetta e del coefficiente angolare , che misurano
caratteristiche differenti e pertanto non sommabili della retta;
2 - come già in
precedenza i valori dei raw residuals ()sono influenzati
dall’unità di misura della variabile Y, queste distanze risentono dell’unità di misura
con le quali sono state rilevate la variabile X e la variabile Y.
Se, nell’esempio
utilizzato, l’altezza fosse stata misurata in piedi oppure in metri invece che
in centimetri, le statistiche e sarebbero state differenti e quindi
anche le distanze
.
Nonostante questi
gravi limiti,
- le permettono ugualmente
alcune analisi entro il singolo esperimento,
- utilizzando gli
stessi metodi già illustrati per i residui (raw residuals).
Ancora una volta,
con la serie delle distanze , dai dati bivariati si è ritornati a
dati univariati.
Quindi diventano
possibili
- tutte le analisi
già presentate per la statistica univariata,
- a partire dagli istogrammi
e dal Box and Wiskers di Tukey.
Inoltre, le
distanze possono
essere standardizzate e/o studentizzate, utilizzando la varianza d’errore
dell’analisi della regressione. Essa può essere stimata sia con tutti i dati,
sia eliminando ogni volta i dati del punto di cui si calcola la distanza.
In queste analisi,
è indispensabile l’uso di programmi informatici, che spesso usano metodi
diversi. Occorre porre attenzione alle istruzioni (quando fornite).
B – Un’altra misura
molto diffusa e adimensionale della distanza, cioè indipendente dalle unità
di misura con le quali sono state rilevate la variabile X e la variabile Y,
è la distanza di Cook (Cook’s
distance),
dove
- è la misura del residuo
studentizzato (Studentized residual o internally
Studentized residual) del punto e misura la discrepanza (discrepancy),
- è il leverage
o hat value del punto , cioè la sua influenza potenziale.
Il valore è grande, quando
il punto ha
un effetto importante sul valore del coefficiente di regressione. Il valore
della distanza di
Cook con abbastanza
grande e nettamente
maggiore di 10, tende a essere distribuito
- come la distribuzione
di Fisher,
- con gradi di
libertà al
numeratore e al
denominatore.
Pertanto, nella statistica
multivariata e in campioni abbastanza grandi, permette l’inferenza
per la verifica dell’ipotesi
H0: il
punto non
è un outlier contro H1: il punto è un outlier
Per la retta di
regressione lineare semplice, utilizzando i dati riportati nell’ultima
tabella,
- per il marziano
III che ha =0,2364
e =
-1,778
- la distanza di
Cook
è = 0,4893 (nella
tabella, arrotondato in 0,489).
Una ulteriore
dimostrazione dei concetti che sono implicati nella misura della distanza di
Cook è fornita dall’analisi statistica dei dati dell’esempio C.
Nel diagramma di
dispersione dell’esempio C (vedere la figura precedente con i 4
diagrammi), si evidenzia che un punto è chiaramente lontano dalla sequenza
degli altri, collocati lungo una curva.
Quindi la retta di
regressione non è adatta, in quanto il modello è diverso dalla linearità.
La lettura
coordinata
- del grafico
che riporta le distanze e
- e della tabella
dei valori che conducono al calcolo delle distanze di Cook
evidenzia che
nell’esempio C il marziano 3 ha caratteristiche che lo distinguono più
nettamente dal gruppo degli altri dieci, rispetto all’esempio A.
In questo caso, il residuo
studentizzato =
2,999 è un valore che merita attenzione, anche se come outlier non è
statisticamente significativo.
In un test t
bilaterale (per gradi di libertà = 9 e alla probabilità a = 0,025) il valore
critico è uguale a 2,685. Se fosse analizzato da solo, con una scelta a priori,
sarebbe significativo con probabilità P < 0.025.
Ma è un punto su 11
complessivi.
Pertanto, secondo
vari autori di testi di statistica è necessario applicare il principio del
Bonferroni:
- per essere
significativo alla probabilità complessiva (experiment-wise)
a = 0,05
- il valore del test
t per un singolo punto deve essere maggiore di quello critico per la
probabilità specifica (comparison-wise) = 0.05/11 = 0,00454.
Anche la distanza
di Cook (ultima riga della tabella) risulta alta, abbinando
- un residuo
(chiamato anche discrepanza) con un valore alto
- a un leverage
di livello medio.
Dati dell’esempio C
Marz.
Tutti
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
3,00
3,01
3,05
4,01
3,04
2,95
2,46
2,97
2,72
2,84
3,03
2,88
0,50
0,51
0,50
0,35
0,50
0,51
0,58
0,50
0,53
0,53
0,50
0,51
---
0,1000
0,1000
0,2364
0,0909
0,1273
0,3182
0,1727
0,3182
0,1727
0,1273
0,2364
St.
---
-0,460
-0,196
+2,999
-0,331
-0,597
-1,135
+0,070
+0,381
-0,755
-0,070
+0,212
Cook
---
0,012
0,002
1,393
0,006
0,026
0,301
0,001
0,034
0,060
0,000
0,007
Diagramma di e dell’esempio C
C - Recentemente,
vari programmi informatici per l’analisi degli outlier presentano metodi
che sono l’applicazione del jackknife a statistiche tra loro differenti,
ma sempre con la stessa logica di base presentata in precedenza per la
correlazione. Nel caso della regressione lineare semplice, si hanno
- DFBETA,
una distanza uguale
a
che è ottenuta per
ogni dato ,
sottraendo al valore di , calcolato utilizzando tutti i dati, il
valore calcolato
escludendo il valore ;
- SDBETA,
una versione standardizzata dell’indice precedente, ottenuta dividendo per una stima deleted
dell’errore standard del coefficiente ;
- DFFIT che
è il valore di Y predetto () quando è escluso il caso ;
- SDFIT, la
versione standardizzata del precedente DFFIT;
- il grafico
cartesiano (plot) dei valori SDFIT, che sono
riportati in ordinata mentre i valori della X sono riportati in ascissa.
Quando per la
stessa analisi sono presentati più metodi, che quasi sempre si rifanno a
principi statistici differenti e forniscono risposte non coincidenti,
alla conclusione del dibattito tecnico è abituale la domanda pratica: “Ma quale
test usare?”
Come
risposta, è utile giovarsi delle parole di Glantz e Slinker (a
pag. 144): The diagnostics we have discussed so far – residuals,
standardized residuals, leverage, Studentized residuals, and Cook’s distance –
are all designed to provide different approaches to indentifying points that do
not fit with the assumed regression model. No single one of these
diagnostics tells the whole story. They should de used together to identify
possibly erroneous data points or problems with the regression model (equation)
itself.
In altri termini, è
intelligente fornire una risposta articolata, che evidenzi le differenti
risposte e nella quale la scelta conclusiva della significatività o della
non significatività dell’outlier è giustificata in modo scientificamente
credibile. E’ lecito fornire una riposta sola, indicando solamente un test,
quando l’evidenza del risultato è assoluta; vale a dire, quando tutti i test
hanno fornito risposte uguali.
Ma è la conclusione
alla quale si perviene sempre, parlando di test dove sono possibili più metodi.
Le varie
metodologie presentate in questi paragrafi utilizzano i residui, cioè gli
scarti tra valori osservati e valori attesi delle Y. A questi residui sono
applicare trasformazioni che permettono un loro uso più generale. In
letteratura, non sempre i nomi di questi differenti residui sono indicati con
precisione; si parla solo di residuals quando si tratta in realtà di
standardized residuals oppure di standardized residuals quando invece si tratta
di deleted standardized residuals.
E’ quindi utile
ricordare i termini scientifici inglesi più diffusi, con la loro definizione:
- Residuals,
Raw Residuals, Unstandardized Residuals: sono le differenze tra valori
osservati e attesi. La loro somma è 0 e quindi anche la loro media è 0.
- Standardized
Residuals: sono i residui divisi l'errore standard della popolazione; hanno
media 0 e deviazione standard 1.
- Studentized
Residuals o Internally Studentized Residuals: sono i residui divisi
la deviazione standard del campione, che quindi varia da caso a caso; hanno
media 0 e deviazione standard maggiore di 1. In vari testi, i termini standardized
residuals e Studentized residuals sono usaticome sinonimi.
- Deleted
Residuals: sono i residui quando nel calcolo del coefficiente di
regressione è escluso un dato campionario; sono le differenze tra i valori
della dipendente e i corrispondenti valori predetti aggiustati, con
l'eliminazione del dato campionario.
- Studentized
Deleted Residuals o Externally Studentized Residuals: sono i residui
precedenti (deleted residuals) studentizzati; l'effetto di un valore è
eliminato dal calcolo dell'errore standard; questi residui possono essere ampi
a causa della distanza del osservato dal valore stimato e del leverage; la
media è 0 e la varianza è leggermente maggiore di 1.