TEST NON PARAMETRICI PER CORRELAZIONE, CONCORDANZA, REGRESSIONE MONOTONICA E REGRESSIONE LINEARE
21.11. CALCOLO DELLA RETTA DI REGRESSIONE NON PARAMETRICA CON IL METODO DI THEIL O TEST DI THEIL-KENDALL.
Nel 1950, H. Theil (1950a – A rank-invariant method of linear and polynomial regression analysis, I, pubblicato su Proc. Kon. Nederl. Akad. Wetensch A. 53, pp. 386-392; 1950b – A rank-invariant method of linear and polynomial regression analysis, II, pubblicato su Proc. Kon. Nederl. Akad. Wetensch A. 53, pp. 521-525; 1950c – A rank-invariant method of linear and polynomial regression analysis, III, pubblicato su Proc. Kon. Nederl. Akad. Wetensch A. 53, pp. 1397-1412) ha proposto un metodo per calcolare una retta di regressione non parametrica (Theil’s regression method).
La significatività è testata con il test della correlazione t di Kendall, come proposto da P. K. Sen nel 1968 (vedi l’articolo Estimates of the regression coefficient.based on Kendall’s tau su Journal of the American Statistical Association, vol. 63, pp. 1379-1389) da cui il nome di Theil – Kendall, utilizzato in vari testi.
La procedura del calcolo della retta non parametrica si fonda sulla mediana di tutte le rette, calcolate sulle possibili coppie di punti. Per ognuna di esse, identificate dalle coppie di variabili (Xi, Yi) e (Xj, Yj), si stima il coefficiente angolare bij, con la relazione bij =
Poiché bij è uguale a bji con la sola inversione del segno, si devono quantificare tutte le possibili combinazioni delle N osservazioni in cui j è maggiore di i. Il valore di b è stimato dalla mediana (indicata con b* per distinguerlo da b calcolato con la media) di questi valori che, con N coppie d’osservazioni, sono N(N-1)/2. Per l’inferenza si assume che b = b*
In assenza di un programma informatico (pochissime librerie statistiche fino ad ora riportano il metodo della regressione non parametrica di Theil), con il calcolo manuale questa procedura richiede molto tempo, quando il numero di punti diventa alto. Per esempio, già con 13 coppie di dati (N = 13) il numero di bij sui quali stimare la mediana diventa 72 (13 x 12 / 2).
Per N maggiore di 12, lo stesso Theil ha proposto una metodologia che richiede meno tempo, appunto il metodo abbreviato di Theil (the abbreviated Theil method), che richiede un numero d’operazioni nettamente minore. Essi non fornisce lo stesso risultato del metodo precedente. E’ quindi da utilizzare nell’impossibilità pratica di ricorrere al primo, poiché sfrutta solo in modo parziale l’informazione contenuta nell’insieme dei dati.
Per avvalersi della procedura abbreviata, dopo aver posto i dati in ordine crescente per la variabile X, si conta il numero N di coppie di valori. Il metodo differisce leggermente, se N è pari o dispari.
Per N pari, dopo aver separato i dati in due metà esatte, si devono calcolare N/2 differenze sia per la variabile X con Xij = X(i + N/2) – Xi sia per la variabile Y con Yij = Y(i + N/2) – Yi
Successivamente, occorre individuare - sia la mediana delle N/2 differenze della X, - sia la mediana delle N/2 differenze della Y; Il valore della retta b* è il rapporto tra queste due mediane b* = mediana Yij / mediana Xij
Per N dispari, sempre - dopo aver ordinato la serie dei dati originari in modo crescente per X, - si elimina una coppia di valori a caso. Alcuni autori suggeriscono la coppia di valori X e Y corrispondenti alla mediana di X; di conseguenza, il numero di punti diventa pari e si ricade nel metodo precedente.
Ottenuto il valore di b* come miglior stima di b, è possibile calcolare il valore dell’intercetta a come miglior stima di a, con due metodi che seguono logiche diverse:
1 - in modo analogo al primo metodo descritto per b*, dapprima si calcolano tutte le ai, che in questo caso sono N come i punti (Xi, Yi) rilevati ai = Yi – b*Xi e successivamente si stima a* come mediana delle N intercette ai calcolate;
2 - in modo analogo alla statistica parametrica, in cui a = si stima a, indicata appunto con per distinguerla dal valore parametrico, sostituendo nella formula precedente la mediana delle X e quella delle Y alle medie rispettive = mediana (Yi) – b* · mediana(Xi)
Con questo metodo, più conveniente nel caso di grandi campioni perché più rapido, si ottiene una retta che passa non per l’incrocio delle medie ma per l’incrocio delle mediane, considerato il baricentro non parametrico del diagramma di dispersione dei punti.
I due metodi possono dare risultati differenti.
La metodologia descritta per il calcolo della retta di regressione lineare non parametrica può essere spiegata in modo più semplice, comprensibile anche a non esperti di statistica, illustrando un esempio in tutti i suoi passaggi. Il metodo esteso, applicabile quando si dispone di piccoli campioni, sarà presentato separatamente da quello abbreviato con un secondo esempio.
Metodo per campioni piccoli (N £ 12). Si supponga di voler valutare gli effetti di 7 dosaggi di una sostanza tossica (X), su vari campioni di una popolazione animale. La dose 0 (zero), detto anche campione bianco, corrisponde all’assenza del principio attivo; sovente serve come controllo. I risultati sono stati misurati come percentuale d’individui morti (Y) su una serie di somministrazioni, ottenendo i seguenti dati:
Per calcolare il coefficiente angolare b mediante il metodo proposto da Theil, è utile seguire le procedure di seguito descritte:
1 – ordinare i valori di X in modo crescente (operazione già effettuata nella tabella di presentazione dei dati, trattandosi di dosi crescenti);
2 – quantificare le possibili combinazioni (N (N – 1) / 2), che in questo caso sono 21 (7 x 6 / 2) e per ognuna calcolare il coefficiente angolare bij mediante la relazione
bij = con j maggiore di i.
Di seguito, sono riportati tutti i risultati e i calcoli relativi nei loro passaggi:
b12 = (Y2 – Y1) / (X2 – X1) = (3,1 – 2,9) / (1 – 0) = 0,200 b13 = (Y3 – Y1) / (X3 – X1) = (3,4 – 2,9) / (2 – 0) = 0,250 b14 = (Y4 – Y1) / (X4 – X1) = (4,0 – 2,9) / (3 – 0) = 0,367 b15 = (Y5 – Y1) / (X5 – X1) = (4,6 – 2,9) / (4 – 0) = 0,425 b16 = (Y6 – Y1) / (X6 – X1) = (5,1 – 2,9) / (5 – 0) = 0,440 b17 = (Y7 – Y1) / (X7 – X1) = (12,4 – 2,9) / (6 – 0) = 1,583 b23 = (Y3 – Y2) / (X3 – X2) = (3,4 – 3,1) / (2 – 1) = 0,300 b24 = (Y4 – Y2) / (X4 – X2) = (4,0 – 3,1) / (3 – 1) = 0,450 b25 = (Y5 – Y2) / (X5 – X2) = (4,6 – 3,1) / (4 – 1) = 0,500 b26 = (Y6 – Y2) / (X6 – X2) = (5,1 – 3,1) / (5 – 1) = 0,500 b27 = (Y7 – Y2) / (X7 – X2) = (12,4 – 3,1) / (6 – 1) = 1,860 b34 = (Y4 – Y3) / (X4 – X3) = (4,0 – 3,4) / (3 – 2) = 0,600 b35 = (Y5 – Y3) / (X5 – X3) = (4,6 – 3,4) / (4 – 2) = 0,600 b36 = (Y6 – Y3) / (X6 – X3) = (5,1 – 3,4) / (5 – 2) = 0,567 b37 = (Y7 – Y3) / (X7 – X3) = (12,4 – 3,4) / (6 – 2) = 2,250 b45 = (Y5 – Y4) / (X5 – X4) = (4,6 – 4,0) / (4 – 3) = 0,600 b46 = (Y6 – Y4) / (X6 – X4) = (5,1 – 4,0) / (5 – 3) = 0,550 b47 = (Y7 – Y4) / (X7 – X4) = (12,4 – 4,0) / (6 – 3) = 2,800 b56 = (Y6 – Y5) / (X6 – X5) = (5,1 – 4,6) / (6 – 5) = 0,500 b57 = (Y7 – Y5) / (X7 – X5) = (12,4 – 4,6) / (7 – 5) = 3,900 b67 = (Y7 – Y6) / (X7 – X6) = (12,4 – 5,1) / (7 – 6) = 7,300
Questi risultati solitamente sono pubblicati in modo più sintetico, sotto forma di una matrice triangolare come la seguente:
3 – stimare la mediana di questi N(N-1)/2 valori ; è facilmente identificata dalla sua serie ordinata per ranghi:
In questo esempio, la mediana risulta uguale a 0,550 corrispondendo alla 11a posizione sulle 21 misure stimate; di conseguenza, si assume b* = 0,550
4 – con N uguale a 7, dal valore di b* e mediante la relazione
si calcolano altrettanti valori delle intercette ai.
Di seguito, sono riportati tutti i risultati con i dati dell’esempio: a1 = 2,9 – 0,550 x 0 = 2,90 a2 = 3,1 – 0,550 x 1 = 2,55 a3 = 3,4 – 0,550 x 2 = 2,30 a4 = 4,0 – 0,550 x 3 = 2,35 a5 = 4,6 – 0,550 x 4 = 2,40 a6 = 5,1 – 0,550 x 5 = 2,35 a7 = 12,4 – 0,550 x 6 = 9,10
5 – la mediana di questi N valori ai è identificata dalla sua serie ordinata per rango:
Coincidendo con il quarto dei 7 valori, è uguale a 2,40. Di conseguenza, a* = 2,40
6 – la retta calcolata in modo non parametrico, nella sua forma estesa, per i 7 punti rilevati è = 2,4 + 0,55 ·
Un modo alternativo per calcolare l’intercetta a è:
1- individuare nei dati originari
la mediana delle Xi, che risulta uguale a 3, e la mediana delle Yi, che risulta uguale a 4,0;
2 – dalla relazione = mediana (Yi) – b* · mediana(Xi) calcolare il valore di = 4,0 – 0,55 x 3 = 4,0 – 1,65 = 2,35 che risulta uguale a 2,35.
Metodo per grandi campioni (N > 12). Si supponga di voler valutare la crescita media di una specie animale con l’aumentare dell’età. A questo scopo, sono stati raccolti campioni d’individui dall’età 4 all’età 20, stimando per ognuno la lunghezza media del campione:
Con 17 osservazioni, il metodo di Theil nella versione estesa richiederebbe il calcolo di 136 (17 x 16 / 2) coefficienti angolari bij. Per effettuare l’operazione in tempi non eccessivamente lunghi, è conveniente utilizzare il metodo abbreviato (che segue le procedure seguenti):
1 – Si ordinano i dati della variabile X per rango (spesso è un’operazione già effettuata nella tabella di presentazione, come n questo caso).
2 - Si individua la mediana delle X: su 17 dati è il nono valore e corrisponde al punto (X = 12; Y = 71); successivamente si calcolano le 8 differenze - sia per la variabile X tra i valori X(i + N/2) e Xi:
X10 – X1 = 13 – 4 = 9 X11 – X2 = 14 – 5 = 9 ……………………….. X17 – X8 = 20 – 11 = 9 (nel caso specifico sono tutte uguali a 9)
- sia per la variabile Y tra i valori Y(i + N/2) e Yi: Y10 – Y1 = 74 – 40 = 34 Y11 – Y2 = 76 – 45 = 31 Y12 – Y3 = 76 – 51 = 25 Y13 – Y4 = 78 – 55 = 23 Y14 – Y5 = 83 – 60 = 23 Y15 – Y6 = 82 – 67 = 15 Y16 – Y7 = 85 – 68 = 17 Y17 – Y8 = 89 – 65 = 24
3 – Nelle 8 differenze di X e di Y si scelgono le 2 mediane: - per Xij, essendo in questo caso tutte uguali a 9, ovviamente la mediana è 9; - per Yij conviene ordinare gli 8 valori in modo crescente 15 17 23 23 24 25 31 34 e dalla serie ordinata per rango emerge che la mediana cade tra 23 (4° valore) e 24 (5° valore) e quindi è 23,5.
4 – Utilizzando la formula b* = mediana Yij / mediana Xij si ottiene un valore di b* b* = 23,5 / 9 = 2,611 uguale a 2,611.
5 – Da b* si stima , ovviamente con il metodo più breve: dopo aver identificato, sulla serie dei dati originari, la mediana delle X che risulta uguale a 12 e la mediana delle Y che risulta uguale a 71, attraverso la relazione = mediana (Yi) – b* · mediana(Xi) si calcola il valore di
che risulta uguale a 39,668
6 – La retta di regressione lineare semplice non parametrica con il metodo abbreviato di Theil risulta
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |