TEST NON PARAMETRICI

PER CORRELAZIONE, CONCORDANZA,

REGRESSIONE MONOTONICA E REGRESSIONE LINEARE

 

 

21.11.  CALCOLO DELLA RETTA DI REGRESSIONE NON PARAMETRICA CON IL METODO DI THEIL O TEST DI THEIL-KENDALL.

 

 

Nel 1950, H. Theil (1950a – A rank-invariant method of linear and polynomial regression analysis, I,  pubblicato su Proc. Kon. Nederl. Akad. Wetensch A. 53, pp. 386-392; 1950b – A rank-invariant method of linear and polynomial regression analysis, II,  pubblicato su Proc. Kon. Nederl. Akad. Wetensch A. 53, pp. 521-525; 1950c – A rank-invariant method of linear and polynomial regression analysis, III,  pubblicato su Proc. Kon. Nederl. Akad. Wetensch A. 53, pp. 1397-1412) ha proposto un metodo per calcolare una retta di regressione non parametrica (Theil’s regression method).

 

La significatività è testata con il test della correlazione t di Kendall, come proposto da P. K. Sen nel 1968 (vedi l’articolo Estimates of the regression coefficient.based on Kendall’s tau su Journal of the American Statistical Association, vol. 63, pp. 1379-1389) da cui il nome di Theil – Kendall, utilizzato in vari testi.

 

La procedura del calcolo della retta non parametrica si fonda sulla mediana di tutte le rette, calcolate sulle possibili coppie di punti.

Per ognuna di esse, identificate dalle coppie di variabili (Xi, Yi) e (Xj, Yj), si stima il coefficiente angolare bij, con la relazione

bij =

 

Poiché bij è uguale a bji con la sola inversione del segno, si devono quantificare tutte le possibili combinazioni delle N osservazioni in cui j è maggiore di i. Il valore di b è stimato dalla mediana (indicata con b* per distinguerlo da b calcolato con la media) di questi valori che, con N coppie d’osservazioni, sono N(N-1)/2.

Per l’inferenza si assume che

b = b*

 

In assenza di un programma informatico (pochissime librerie statistiche fino ad ora riportano il metodo della regressione non parametrica di Theil), con il calcolo manuale questa procedura richiede molto tempo, quando il numero di punti diventa alto. Per esempio, già con 13 coppie di dati (N = 13) il numero di bij sui quali stimare la mediana diventa 72 (13 x 12 / 2).

 

Per N maggiore di 12, lo stesso Theil ha proposto una metodologia che richiede meno tempo, appunto il metodo abbreviato di Theil (the abbreviated Theil method), che richiede un numero d’operazioni nettamente minore. Essi non fornisce lo stesso risultato del metodo precedente.

E’ quindi da utilizzare nell’impossibilità pratica di ricorrere al primo, poiché sfrutta solo in modo parziale l’informazione contenuta nell’insieme dei dati.

 

Per avvalersi della procedura abbreviata, dopo aver posto i dati in ordine crescente per la variabile X, si conta il numero N di coppie di valori. Il metodo differisce leggermente, se N è pari o dispari.

 

Per N pari, dopo aver separato i dati in due metà esatte, si devono calcolare N/2 differenze

sia per la variabile X con

Xij = X(i + N/2) – Xi

sia per la variabile Y con

Yij = Y(i + N/2) – Yi

 

Successivamente, occorre individuare

-  sia la mediana delle N/2 differenze della X,

-  sia la mediana delle N/2 differenze della Y;

Il valore della retta b* è il rapporto tra queste due mediane

b* = mediana Yij / mediana Xij

 

Per N dispari, sempre

- dopo aver ordinato la serie dei dati originari in modo crescente per X,

- si elimina una coppia di valori a caso.

Alcuni autori suggeriscono la coppia di valori X e Y corrispondenti alla mediana di X; di conseguenza, il numero di punti diventa pari e si ricade nel metodo precedente.

 

Ottenuto il valore di b* come miglior stima di b, è possibile calcolare il valore dell’intercetta a come miglior stima di a, con due metodi che seguono logiche diverse:

 

1 - in modo analogo al primo metodo descritto per b*, dapprima si calcolano tutte le ai, che in questo caso sono N come i punti (Xi, Yi) rilevati

ai = Yi – b*Xi

e successivamente si stima a* come mediana delle N intercette ai calcolate;

 


2 - in modo analogo alla statistica parametrica, in cui

a =

si stima a, indicata appunto con  per distinguerla dal valore parametrico, sostituendo nella formula precedente la mediana delle X e quella delle Y alle medie rispettive

  =  mediana (Yi)  –  b* · mediana(Xi)

 

Con questo metodo, più conveniente nel caso di grandi campioni perché più rapido, si ottiene una retta che passa non per l’incrocio delle medie ma per l’incrocio delle mediane, considerato il baricentro non parametrico del diagramma di dispersione dei punti.

 

I due metodi possono dare risultati differenti.

 

La metodologia descritta per il calcolo della retta di regressione lineare non parametrica può essere spiegata in modo più semplice, comprensibile anche a non esperti di statistica, illustrando un esempio in tutti i suoi passaggi.

Il metodo esteso, applicabile quando si dispone di piccoli campioni, sarà presentato separatamente da quello abbreviato con un secondo esempio.

 

Metodo per campioni piccoli (N £ 12).

Si supponga di voler valutare gli effetti di 7 dosaggi di una sostanza tossica (X), su vari campioni di una popolazione animale. La dose 0 (zero), detto anche campione bianco, corrisponde all’assenza del principio attivo; sovente serve come controllo. I risultati sono stati misurati come percentuale d’individui morti (Y) su una serie di somministrazioni, ottenendo i seguenti dati:

 

Rango delle X

1

2

3

4

5

6

7

Valori di X

0

1

2

3

4

5

6

Valori di Y

2,9

3,1

3,4

4,0

4,6

5,1

12,4

 

 

Per calcolare il coefficiente angolare b mediante il metodo proposto da Theil, è utile seguire le procedure di seguito descritte:

 

1 – ordinare i valori di X in modo crescente (operazione già effettuata nella tabella di presentazione dei dati, trattandosi di dosi crescenti);

 

2 – quantificare le possibili combinazioni (N (N – 1) / 2),

 che in questo caso sono 21 (7 x 6 / 2)

e per ognuna calcolare il coefficiente angolare bij mediante la relazione

 

bij =

con j maggiore di i.

 

Di seguito, sono riportati tutti i risultati e i calcoli relativi nei loro passaggi:

 

b12 = (Y2 – Y1) / (X2 – X1) = (3,1 – 2,9) / (1 – 0) = 0,200

b13 = (Y3 – Y1) / (X3 – X1) = (3,4 – 2,9) / (2 – 0) = 0,250

b14 = (Y4 – Y1) / (X4 – X1) = (4,0 – 2,9) / (3 – 0) = 0,367

b15 = (Y5 – Y1) / (X5 – X1) = (4,6 – 2,9) / (4 – 0) = 0,425

b16 = (Y6 – Y1) / (X6 – X1) = (5,1 – 2,9) / (5 – 0) = 0,440

b17 = (Y7 – Y1) / (X7 – X1) = (12,4 – 2,9) / (6 – 0) = 1,583

b23 = (Y3 – Y2) / (X3 – X2) = (3,4 – 3,1) / (2 – 1) = 0,300

b24 = (Y4 – Y2) / (X4 – X2) = (4,0 – 3,1) / (3 – 1) = 0,450

b25 = (Y5 – Y2) / (X5 – X2) = (4,6 – 3,1) / (4 – 1) = 0,500

b26 = (Y6 – Y2) / (X6 – X2) = (5,1 – 3,1) / (5 – 1) = 0,500

b27 = (Y7 – Y2) / (X7 – X2) = (12,4 – 3,1) / (6 – 1) = 1,860

b34 = (Y4 – Y3) / (X4 – X3) = (4,0 – 3,4) / (3 – 2) = 0,600

b35 = (Y5 – Y3) / (X5 – X3) = (4,6 – 3,4) / (4 – 2) = 0,600

b36 = (Y6 – Y3) / (X6 – X3) = (5,1 – 3,4) / (5 – 2) = 0,567

b37 = (Y7 – Y3) / (X7 – X3) = (12,4 – 3,4) / (6 – 2) = 2,250

b45 = (Y5 – Y4) / (X5 – X4) = (4,6 – 4,0) / (4 – 3) = 0,600

b46 = (Y6 – Y4) / (X6 – X4) = (5,1 – 4,0) / (5 – 3) = 0,550

b47 = (Y7 – Y4) / (X7 – X4) = (12,4 – 4,0) / (6 – 3) = 2,800

b56 = (Y6 – Y5) / (X6 – X5) = (5,1 – 4,6) / (6 – 5) = 0,500

b57 = (Y7 – Y5) / (X7 – X5) = (12,4 – 4,6) / (7 – 5) = 3,900

b67 = (Y7 – Y6) / (X7 – X6) = (12,4 – 5,1) / (7 – 6) = 7,300

 

Questi risultati solitamente sono pubblicati in modo più sintetico, sotto forma di una matrice triangolare come la seguente:


 

X

Y

0

2,9

1

3,1

2

3,4

3

4,0

4

4,6

5

5,1

6

12,4

X = 0 ; Y = 2,9

---

0,200

0,250

0,367

0,425

0,440

1,583

X = 1 ; Y = 3,1

---

---

0,300

0,450

0,500

0,500

1,860

X = 2 ; Y = 3,4

---

---

---

0,600

0,600

0,567

2,250

X = 3 ; Y = 4,0

---

---

---

---

0,600

0,550

2,800

X = 4 ; Y = 4,6

---

---

---

---

---

0,500

3,900

X = 5 ; Y = 5,1

---

---

---

---

---

---

7,300

X = 6 ; Y = 12,4

---

---

---

---

---

---

---

 

 

3 – stimare la mediana di questi N(N-1)/2 valori ; è facilmente identificata dalla sua serie ordinata per ranghi:

 

 

Rango

1

2

3

4

5

6

7

8

9

10

11

0,200

0,250

0,300

0,367

0,425

0,440

0,450

0,500

0,500

0,500

0,550

 

Rango

12

13

14

15

16

17

18

19

20

21

0,567

0,600

0,600

0,600

1,583

1,860

2,250

2,800

3,900

7,900

 

 

In questo esempio, la mediana risulta uguale a 0,550 corrispondendo alla 11a posizione sulle 21 misure stimate; di conseguenza, si assume

b* = 0,550

 

 

4 – con N uguale a 7,

dal valore di b* e mediante la relazione

si calcolano altrettanti valori delle intercette ai.

 

Di seguito, sono riportati tutti i risultati con i dati dell’esempio:

a1  =  2,9 – 0,550 x 0  =  2,90

a2  =  3,1 – 0,550 x 1  =  2,55

a3  =  3,4 – 0,550 x 2  =  2,30

a4  =  4,0 – 0,550 x 3  =  2,35

a5  =  4,6 – 0,550 x 4  =  2,40

a6  =  5,1 – 0,550 x 5  =  2,35

a7  =  12,4 – 0,550 x 6  =  9,10

 

5 – la mediana di questi N valori ai è identificata dalla sua serie ordinata per rango:

 

 

Rango

1

2

3

4

5

6

7

2,30

2,35

2,35

2,40

2,55

2,90

9,10

 

 

Coincidendo con il quarto dei 7 valori, è uguale a 2,40.

Di conseguenza,

a* = 2,40

 

6 – la retta calcolata in modo non parametrico, nella sua forma estesa, per i 7 punti rilevati è

  =  2,4 + 0,55 ·

 

Un modo alternativo per calcolare l’intercetta  a  è:

 

1- individuare nei dati originari

 

 

Valori di X

0

1

2

3

4

5

6

Valori di Y

2,9

3,1

3,4

4,0

4,6

5,1

12,4

 

 

la mediana delle Xi, che risulta uguale a 3, e

la mediana delle Yi, che risulta uguale a 4,0;

 

2 – dalla relazione

  =  mediana (Yi)  –  b* ·  mediana(Xi)

 calcolare il valore di  

  = 4,0 – 0,55 x 3  =  4,0 – 1,65  = 2,35

 che risulta uguale a 2,35.

 

 

Metodo per grandi campioni (N > 12).

Si supponga di voler valutare la crescita media di una specie animale con l’aumentare dell’età. A questo scopo, sono stati raccolti campioni d’individui dall’età 4 all’età 20, stimando per ognuno la lunghezza media del campione:

 

 

Età  X

4

5

6

7

8

9

10

11

12

Lungh. Y

40

45

51

55

60

67

68

65

71

 

Età  X

13

14

15

16

17

18

19

20

Lungh. Y

74

76

76

78

83

82

85

89

 

 

Con 17 osservazioni, il metodo di Theil nella versione estesa richiederebbe il calcolo di 136 (17 x 16 / 2) coefficienti angolari bij. Per effettuare l’operazione in tempi non eccessivamente lunghi, è conveniente utilizzare

il metodo abbreviato (che segue le procedure seguenti):

 

1 – Si ordinano i dati della variabile X per rango (spesso è un’operazione già effettuata nella tabella di presentazione, come n questo caso).

 

2 - Si individua la mediana delle X: su 17 dati è il nono valore e corrisponde al punto (X = 12; Y = 71);

successivamente si calcolano le 8 differenze

-          sia per la variabile X tra i valori X(i + N/2) e Xi:


 

X10 – X1 =  13 – 4  =  9

X11 – X2 =  14 – 5  =  9

………………………..

X17 – X8 =  20 – 11  =  9

(nel caso specifico sono tutte uguali a 9)

 

- sia per la variabile Y tra i valori Y(i + N/2) e Yi:

Y10 – Y1  =  74 – 40  =  34

Y11 – Y2  =  76 – 45  =  31

Y12 – Y3  =  76 – 51  =  25

Y13 – Y4  =  78 – 55  =  23

Y14 – Y5  =  83 – 60  =  23

Y15 – Y6  =  82 – 67  =  15

Y16 – Y7  =  85 – 68  =  17

Y17 – Y8  =  89 – 65  =  24

 

3 – Nelle 8 differenze di X e di Y si scelgono le 2 mediane:

- per Xij, essendo in questo caso tutte uguali a 9, ovviamente la mediana è 9;

- per Yij conviene ordinare gli 8 valori in modo crescente

15    17    23    23    24    25    31    34

e dalla serie ordinata per rango emerge che la mediana cade tra 23 (4° valore) e 24 (5° valore) e quindi è 23,5.

 

4 – Utilizzando la formula

b* = mediana Yij / mediana Xij

si ottiene un valore di b*

b* = 23,5 / 9 = 2,611

uguale a 2,611.

 

5 – Da b* si stima , ovviamente con il metodo più breve: dopo aver identificato, sulla serie dei dati originari,

 la mediana delle X che risulta uguale a 12 e

 la mediana delle Y che risulta uguale a 71,

 attraverso la relazione

  =  mediana (Yi)  –  b* ·  mediana(Xi)

 si calcola il valore di  

 che risulta uguale a 39,668

 

6 – La retta di regressione lineare semplice non parametrica con il metodo abbreviato di Theil risulta

 

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007