Services and Training for Six Sigma, Design of Experiments and Industrial Statistics

TEST NON PARAMETRICI

PER CORRELAZIONE, CONCORDANZA,

REGRESSIONE MONOTONICA E REGRESSIONE LINEARE

21.13. SIGNIFICATIVITA’ DI b CON IL t DI KENDALL.

Il test di Theil per la significatività del coefficiente b di regressione lineare semplice verifica

- l’ipotesi bilaterale

H₀: b = 0 contro H₁: b ¹ 0

- oppure una delle due ipotesi unilaterali

H₀: b £ 0 contro H₁: b > 0

H₀: b ³ 0 contro H₁: b < 0

in funzione della conoscenza del problema e quindi della domanda al quale il ricercatore è interessato.

Come già riportato nel paragrafo dedicato alla regressione, la significatività del coefficiente angolare (b) calcolato è verificata con il test di correlazione t di Kendall. E’ la proposta originaria di H. Theil, nell’articolo del 1950 A rank-invariant method of linear and polynomial regression analysis (pubblicato su Indagationes Mathematicae Vol. 12, pp. 85-91) e generalizzato da P. K. Sen nel 1968 con l’articolo Estimates of the regression coefficient based on Kendall’s tau (su Journal of the American Statistical Association, vol. 63, pp. 1379-1389). Da qui il nome di Theil – Kendall dato al metodo per la stima della regressione lineare non parametrica, comprendendo nella metodologia anche il test di significatività per il coefficiente angolare.

La procedura può essere spiegata in modo semplice, con un esempio. Al fine di evidenziare le analogie con il test parametrico e per un successivo confronto dei risultati, l’esempio utilizza gli stessi dati che sono serviti per il calcolo della regressione lineare semplice parametrica.

1 - Dopo aver individuata la variabile dipendente o effetto (Y) e la variabile indipendente o causale (X),

Individui	A	B	C	D	E	F	G
Peso (Y)	52	68	75	71	63	59	57
Altezza (X)	160	178	183	180	166	175	162

2 - si stima il coefficiente angolare b, che risulta

uguale a 0,796

Anche se priva di significato in questo problema specifico (non esiste alcuna persona di altezza 0), l’intercetta a

risulta uguale a -73,354

ed è utile per scrivere in modo completo la retta di regressione

_i = -73,354 + 0,796× X_i

3 - Per valutare la significatività del coefficiente angolare b, con ipotesi nulla

H₀: b = 0

e, in questo caso, con ipotesi alternativa bilaterale

H₁: b ¹ 0

i dati devono essere ordinati secondo il rango della variabile X (l’altezza),

Individui	A	G	E	F	B	D	C
Peso (Y)	52	57	63	59	68	71	75
Altezza (X)	160	162	166	175	178	180	183

riportando gli relativi, che successivamente devono essere trasformati in ranghi entro la variabile Y:

Individui	A	G	E	F	B	D	C
Peso (Y)	52	57	63	59	68	71	55
Y in ranghi	1	2	4	3	5	6	7

4 - Ponendo l’attenzione solo sui valori della Y, se all’aumentare di X

- i valori di Y tendono ad aumentare (quindi i ranghi di Y sono in ordine naturale), la regressione tende ad essere significativa, con coefficiente angolare positivo,

- il valore di Y resta approssimativamente costante (quindi i dati di Y sono in ordine casuale), la regressione è assente o non significativa,

- il valore di Y tende a diminuire ( quindi i ranghi di Y sono in ordine decrescente), la regressione tende ad essere significativa, con coefficiente angolare negativo.

Per quantificare il grado di correlazione o concordanza dei ranghi di Y con l’ordine naturale, si può utilizzare la proposta di Kendall: contare quante sono le coppie di ranghi che sono concordanti e quante quelle discordanti dall'ordine naturale.

Per un calcolo corretto, facilmente verificabile, è utile riportare

- il conteggio dettagliato delle concordanze (+) e delle discordanze (-)

- e il loro totale generale.

1	2	4	3	5	6	7	Totale
	+	+	+	+	+	+	+6
		+	+	+	+	+	+5
			-	+	+	+	+2
				+	+	+	+3
					+	+	+2
						+	+1
Totale (concordanze meno discordanze)							+19

La misura della concordanza complessiva con la variabile X è dato dalla somma algebrica di tutte le concordanze e le discordanze.

Il totale di concordanze e discordanze con i 7 valori dell’esempio è +19.

5 - Il numero totale di concordanze e discordanze di una serie di valori deve essere rapportato al numero massimo totale possibile. Poiché i confronti sono fatti a coppie, con N dati il numero totale di confronti concordanti o discordanti è dato dalla combinazione di N elementi 2 a 2

Con una serie di 7 dati come nell’esempio, il numero complessivo di confronti, quindi il massimo totale possibile di concordanze o discordanze, è

= 21

Secondo il metodo proposto di Kendall, il grado di relazione o concordanza () tra la variabile X e Y può essere quantificato dal rapporto

Con i 7 dati riportati,

= +0,905

è uguale a +0,905.

6 - La scala dovrebbe essere continua, ma sono accettati valori discreti.

In caso di due o più valori identici, il confronto tra due punteggi di Y uguali non determina né una concordanza né una discordanza: il loro confronto non contribuisce al calcolo di , abbassando il valore al numeratore. Di conseguenza, deve essere diminuito anche il valore al denominatore.

La formula, corretta per la presenza di valori identici (ties), diventa

dove

- N è il numero totale di coppie di dati delle variabili X e Y,

- è dato da dove è il numero di osservazioni identiche di ogni gruppo di valori identici della variabile X,

- è dato da dove è il numero di osservazioni identiche di ogni gruppo di valori identici della variabile Y.

Per piccoli campioni, i valori critici sono forniti dalla tabella relativa, riportata nel paragrafo della correlazione non parametrica t di Kendall.

Con 7 dati, alla probabilità a = 0.005 per un test ad una coda e 0.01 per un test a 2 code, il valore critico riportato è 0.810.

Il valore calcolato è superiore a quello della tabella: si rifiuta l’ipotesi nulla. In un test bilaterale la risposta dovrebbe essere: il coefficiente di regressione lineare b si discosta significativamente da 0.

Se la domanda fosse stata unilaterale positiva, la risposta dovrebbe essere: all’aumentare dell’altezza il peso aumenta in modo significativo.

Per grandi campioni la significatività del di Kendall può essere verificata con la distribuzione normale

(*)

dove

e N = numero di dati.

Sostituendo e semplificando, si ottiene una stima più rapida di Z mediante la relazione

Per la verifica dell’ipotesi nulla più generale

H₀: b = b₀

(con ipotesi alternativa sia unilaterale che bilaterale) dove b₀ è un coefficiente angolare qualsiasi, quindi anche 0, il metodo di Theil ha una leggera modifica nelle prime fasi.

E’ proposto il medesimo esempio e si evidenziano le differenze tra i due metodi nei vari passaggi.

1 – Si supponga di avere già calcolato il coefficiente angolare b (uguale a 0,796) e di volere verificare l’ipotesi se esso non si discosti dal valore b₀ = 0,9 (aumento di Kg 0,9 in peso per l’aumento di 1 cm. in altezza)

H₀: b ³ 0,9

contro l’ipotesi alternativa che la crescita media in peso sia minore

H₁: b < 0,9

2 – Il passo successivo consiste nel calcolare i valori attesi di Y, secondo la relazione

_i = a + 0,9 × X_i

Tuttavia, poiché l’interesse è rivolto non ai singoli valori ma al loro rango, i valori attesi possono essere più semplicemente calcolati come

_i = 0,9 × X_i

Con formula più generale si utilizza

_i = b₀ × X_i

Con i dati dell’esempio, si ottiene

Individui	A	B	C	D	E	F	G
Peso (Y osservati)	52	68	75	71	63	59	57
Y teorici o attesi	144,0	160,2	164,7	162,0	149,4	157,5	145,8
Altezza (X)	160	178	183	180	166	175	162

3 – Calcolare le differenze D_i tra Y_i attesi e Y_i osservati

Individui	A	B	C	D	E	F	G
Di (Y_i teorici – Y_i attesi)	92,0	92,2	89,7	91,0	86,4	98,5	88,8
Altezza (X)	160	178	183	180	166	175	162

4 – Ordinare i dati secondo il rango di X (l’altezza),

Individui	A	G	E	F	B	D	C
D_i	92,0	88,8	86,4	98,5	92,2	91,0	89,7
Altezza (X)	160	162	166	175	178	180	183

riportare i dati delle differenze D_i (nella riga centrale) e successivamente trasformarle in ranghi (come nella tabella seguente)

Individui	A	G	E	F	B	D	C
D_i	92,0	88,8	86,4	98,5	92,2	91,0	89,7
D_i in ranghi	5	2	1	7	6	4	3

5 – Porre l’attenzione sui soli valori delle differenze D_i (Y_i attesi – Y_i osservati):

- se il valore di b è statisticamente uguale a b₀, il rango delle D_i dipenderà solo dalle variazioni casuali in peso e sarà indipendente dal coefficiente angolare b (l’intercetta a è una costante),

- se il valore di b è statisticamente maggiore di b₀, il rango delle D_i tenderà ad essere in ordine inverso a quello delle X_i,

- se il valore di b è statisticamente minore di b₀, il rango delle D_i tenderà ad avere lo stesso ordine di X_i.

6 – Contare quante sono le coppie di ranghi delle D_i che sono concordanti e quante quelle discordanti dall'ordine naturale:

5	2	1	7	6	4	3	Totale
	-	-	+	+	-	-	-2
		-	+	+	+	+	+3
			+	+	+	+	+4
				-	-	-	-3
					-	-	-2
						-	-1
Totale (concordanze meno discordanze)							-1

La misura della concordanza complessiva tra Y osservati e Y attesi, quindi di b con b₀, è data dalla somma totale delle concordanze e discordanze:

essa risulta uguale a –1.

7 – Il valore di t, dato dal rapporto del numero totale delle concordanze meno le discordanze rispetto al numero massimo possibile, risulta

t = -1 / 21 = - 0,047

eguale a – 0,047.

Il valore calcolato non solo è inferiore a quello riportato nella tabella, ma è molto vicino a quello atteso nell’ipotesi nulla; di conseguenza, si può affermare non solo che b non si discosta significativamente da b₀, ma anche che b è molto vicino a b₀.

Per una scelta adeguata tra il test parametrico e il corrispondente non parametrico, è importante conoscere la loro efficienza. Nel caso di grandi campioni, dipende dalla forma di distribuzione dei dati, di solito schematizzata in tre situazioni: normale, rettangolare ed esponenziale doppia.

L’efficienza asintotica del test di Theil rispetto al t di Student per il test parametrico

- è uguale a 0,95 (3/p), quando la distribuzione è Normale;

- è uguale a 1, quando la distribuzione è Rettangolare;

- è uguale a 1,5 (3/2), quando la distribuzione è Esponenziale Doppia.

In termini elementari, quando la distribuzione è perfettamente normale, i due test hanno efficienza molto simile; ma quando la forma della distribuzione è lontana dalla normalità, il test non parametrico è più efficiente di quello parametrico.

La regressione lineare semplice non parametrica può essere utilizzata in modo appropriato anche per

- analizzare una serie storica o geografica di dati,

- cioè gli effetti della distanza da un’origine

che può essere di natura qualsiasi, da geografica a temporale.

Già nel 1945, prima ancora della proposta di Theil, H. B. Mann (con l’articolo Non parametric test against trend, sulla rivista Econometrica vol. 13, pp. 245-259) affermava che quando X è una misura temporale, che può essere espressa in anni, mesi, giorni, ore o secondi, la regressione non parametrica con ipotesi H₀: b = 0 ed ipotesi alternativa H₁ sia unilaterale che bilaterale, può essere impiegata per verificare se esiste un trend, cioè una tendenza alla diminuzione o all’aumento del carattere Y.

Analogo a questo test è quello proposto da Daniel, cioè della correlazione non parametrica per il trend, già illustrato in questo capitolo. E' utlizzato più diffusamente del test di Mann.

H0: b ³ 0,9

Di in ranghi

H₀: b ³ 0,9

D_i in ranghi