TEST NON PARAMETRICI

PER CORRELAZIONE, CONCORDANZA,

REGRESSIONE MONOTONICA E REGRESSIONE LINEARE

 

 

21.13.   SIGNIFICATIVITA’ DI b CON IL t DI KENDALL.

 

 

Il test di Theil per la significatività del coefficiente b di regressione lineare semplice verifica

-  l’ipotesi bilaterale

H0: b = 0     contro     H1: b ¹ 0

 

-  oppure una delle due ipotesi unilaterali

 

H0: b £ 0       contro       H1: b > 0

H0: b ³ 0       contro       H1: b < 0

 

 in funzione della conoscenza del problema e quindi della domanda al quale il ricercatore è interessato.


 

Come già riportato nel paragrafo dedicato alla regressione, la significatività del coefficiente angolare (b) calcolato è verificata con il test di correlazione t di Kendall. E’ la proposta originaria di H. Theil, nell’articolo del 1950 A rank-invariant method of linear and polynomial regression analysis (pubblicato su Indagationes Mathematicae Vol. 12, pp. 85-91) e generalizzato da P. K. Sen nel 1968 con l’articolo Estimates of the regression coefficient based on Kendall’s tau (su Journal of the American Statistical Association, vol. 63, pp. 1379-1389). Da qui il nome di Theil – Kendall dato al metodo per la stima della regressione lineare non parametrica, comprendendo nella metodologia anche  il test di significatività per il coefficiente angolare.

 

La procedura può essere spiegata in modo semplice, con un esempio. Al fine di evidenziare le analogie con il test parametrico e per un successivo confronto dei risultati, l’esempio utilizza gli stessi dati che sono serviti per il calcolo della regressione lineare semplice parametrica.

 

1 - Dopo aver individuata la variabile dipendente o effetto (Y) e la variabile indipendente o causale (X),

 

Individui

 A

 B

 C

 D

 E

 F

 G

 Peso (Y)

 52

 68

 75

 71

 63

 59

 57

 Altezza (X)

 160

 178

 183

 180

 166

 175

 162

 

 

2 - si stima il coefficiente angolare b, che risulta

 

 

 uguale a 0,796

 

Anche se priva di significato in questo problema specifico (non esiste alcuna persona di altezza 0), l’intercetta a

 

 risulta uguale a -73,354

 ed è utile per scrivere in modo completo la retta di regressione

i = -73,354 + 0,796× Xi

 

3 - Per valutare la significatività del coefficiente angolare b, con ipotesi nulla

H0: b = 0

 e, in questo caso, con ipotesi alternativa bilaterale

H1: b ¹ 0

 i dati devono essere ordinati secondo il rango della variabile X (l’altezza),

 

Individui

 A

 G

 E

 F

 B

 D

 C

 Peso (Y)

 52

 57

 63

 59

 68

 71

 75

 Altezza (X)

 160

 162

 166

 175

 178

 180

 183

 

 

 riportando gli  relativi, che successivamente devono essere trasformati in ranghi entro la variabile Y:

 

Individui

 A

 G

 E

 F

 B

 D

 C

 Peso (Y)

 52

 57

 63

 59

 68

 71

 55

Y in ranghi

1

2

4

3

5

6

7

 

 

4 - Ponendo l’attenzione solo sui valori della Y, se all’aumentare di X

-   i valori di Y tendono ad aumentare (quindi i ranghi di Y sono in ordine naturale), la regressione tende ad essere significativa, con coefficiente angolare positivo,

-   il valore di Y resta approssimativamente costante (quindi i dati di Y sono in ordine casuale), la regressione è assente o non significativa,

-   il valore di Y tende a diminuire ( quindi i ranghi di Y sono in ordine decrescente), la regressione tende ad essere significativa, con coefficiente angolare negativo.

Per quantificare il grado di correlazione o concordanza dei ranghi di Y con l’ordine naturale, si può utilizzare la proposta di Kendall: contare quante sono le coppie di ranghi che sono concordanti e quante quelle discordanti dall'ordine naturale.

Per un calcolo corretto, facilmente verificabile, è utile riportare

-  il conteggio dettagliato delle concordanze (+) e delle discordanze (-)

-  e il loro totale generale.

 

 

1

2

4

3

5

6

7

Totale

 

+

+

+

+

+

+

+6

 

+

+

+

+

+

+5

 

-

+

+

+

+2

 

+

+

+

+3

 

+

+

+2

 

+

+1

Totale (concordanze meno discordanze)

+19

 

 

La misura della concordanza complessiva con la variabile X è dato dalla somma algebrica di tutte le concordanze e le discordanze.

Il totale di concordanze e discordanze con i 7 valori dell’esempio è  +19.

 

5 - Il numero totale di concordanze e discordanze di una serie di valori deve essere rapportato al numero massimo totale possibile. Poiché i confronti sono fatti a coppie, con N dati il numero totale di confronti concordanti o discordanti è dato dalla combinazione di N elementi 2 a 2

 

Con una serie di 7 dati come nell’esempio, il numero complessivo di confronti, quindi il massimo totale possibile di concordanze o discordanze, è

 = 21

 

Secondo il metodo proposto di Kendall, il grado di relazione o concordanza () tra la variabile X e Y può essere quantificato dal rapporto

 


 

Con i 7 dati riportati,

  =  +0,905

 è uguale a +0,905.

 

6 - La scala dovrebbe essere continua, ma sono accettati valori discreti.

In caso di due o più valori identici, il confronto tra due punteggi di Y uguali non determina né una concordanza né una discordanza: il loro confronto non contribuisce al calcolo di , abbassando il valore al numeratore. Di conseguenza, deve essere diminuito anche il valore al denominatore.

La formula, corretta per la presenza di valori identici (ties),  diventa

 

 dove

-   N    è il numero totale di coppie di dati delle variabili X e Y,

-     è dato da  dove  è il numero di osservazioni identiche di ogni gruppo di valori identici della variabile X,

-     è dato da  dove  è il numero di osservazioni identiche di ogni gruppo di valori identici della variabile Y.

 

 

Per piccoli campioni, i valori critici sono forniti dalla tabella relativa, riportata nel paragrafo della correlazione non parametrica t di Kendall.

Con 7 dati, alla probabilità a = 0.005 per un test ad una coda e 0.01 per un test a 2 code, il valore critico riportato è 0.810.

Il valore calcolato è superiore a quello della tabella: si rifiuta l’ipotesi nulla. In un test bilaterale la risposta dovrebbe essere: il coefficiente di regressione lineare b si discosta significativamente da 0.

Se la domanda fosse stata unilaterale positiva, la risposta dovrebbe essere: all’aumentare dell’altezza il peso aumenta in modo significativo.

 

Per grandi campioni la significatività del  di Kendall può essere verificata con la distribuzione normale

     (*)

 dove

 

 e

 e N = numero di dati.

Sostituendo e semplificando, si ottiene una stima più rapida di Z mediante la relazione

 

 

 

Per la verifica dell’ipotesi nulla più generale

H0: b = b0

(con ipotesi alternativa sia unilaterale che bilaterale) dove b0 è un coefficiente angolare qualsiasi, quindi anche 0, il metodo di Theil ha una leggera modifica nelle prime fasi.

E’ proposto il medesimo esempio e si evidenziano le differenze tra i due metodi nei vari passaggi.

 

1 – Si supponga di avere già calcolato il coefficiente angolare b (uguale a 0,796) e di volere verificare l’ipotesi se esso non si discosti dal valore b0 = 0,9 (aumento di Kg 0,9 in peso per l’aumento di 1 cm. in altezza)

H0: b ³ 0,9

 contro l’ipotesi alternativa che la crescita media  in peso sia minore

H1: b < 0,9

 

2 – Il passo successivo consiste nel calcolare i valori attesi di Y, secondo la relazione

i = a + 0,9 × Xi

Tuttavia, poiché l’interesse è rivolto non ai singoli valori ma al loro rango,  i valori attesi possono essere più semplicemente calcolati come

i =  0,9 × Xi

 Con formula  più generale si utilizza

i = b0 × Xi

 

Con i dati dell’esempio, si ottiene


 

Individui

 A

 B

 C

 D

 E

 F

 G

 Peso (Y osservati)

 52

 68

 75

 71

 63

 59

 57

Y teorici o attesi

144,0

160,2

164,7

162,0

149,4

157,5

145,8

 Altezza (X)

 160

 178

 183

 180

 166

 175

 162

 

 

3 – Calcolare le differenze Di tra Yi attesi e Yi osservati

 

 

Individui

 A

 B

 C

 D

 E

 F

 G

Di (Yi teorici – Yi attesi)

92,0

92,2

89,7

91,0

86,4

98,5

88,8

 Altezza (X)

 160

 178

 183

 180

 166

 175

 162

 

 

4 – Ordinare i dati secondo il rango di X (l’altezza),

 

Individui

 A

 G

 E

 F

 B

 D

 C

 Di

 92,0

 88,8

 86,4

 98,5

 92,2

 91,0

 89,7

 Altezza (X)

 160

 162

 166

 175

 178

 180

 183

 

riportare i dati delle differenze Di (nella riga centrale) e successivamente trasformarle in ranghi (come nella tabella seguente)

 

Individui

 A

 G

 E

 F

 B

 D

 C

 Di

 92,0

 88,8

 86,4

 98,5

 92,2

 91,0

 89,7

Di in ranghi

5

2

1

7

6

4

3


 

5 – Porre l’attenzione sui soli valori delle differenze Di (Yi attesi – Yi osservati):

-   se il valore di b è statisticamente uguale a b0, il rango delle Di dipenderà solo dalle variazioni casuali in peso e sarà indipendente dal coefficiente angolare b (l’intercetta a è una costante),

-   se il valore di b è statisticamente maggiore di b0, il rango delle Di tenderà ad essere in ordine inverso a quello delle Xi,

-   se il valore di b è statisticamente minore di b0, il rango delle Di tenderà ad avere lo stesso ordine di Xi.

 

 

6 – Contare quante sono le coppie di ranghi delle Di che sono concordanti e quante quelle discordanti dall'ordine naturale:

 

5

2

1

7

6

4

3

Totale

 

-

-

+

+

-

-

-2

 

-

+

+

+

+

+3

 

+

+

+

+

+4

 

-

-

-

-3

 

-

-

-2

 

-

-1

Totale (concordanze meno discordanze)

-1

 

 

La misura della concordanza complessiva tra Y osservati e Y attesi, quindi di b con b0, è data dalla somma totale delle concordanze e discordanze:

essa risulta uguale a –1.

 

 

7 – Il valore di t, dato dal rapporto del numero totale delle concordanze meno le discordanze rispetto al numero massimo possibile, risulta

t = -1 / 21 = - 0,047

eguale a – 0,047.

Il valore calcolato non solo è inferiore a quello riportato nella tabella, ma è molto vicino a quello atteso nell’ipotesi nulla; di conseguenza, si può affermare non solo che b non si discosta significativamente da b0,  ma anche che b è molto vicino a b0.

Per una scelta adeguata tra il test parametrico e il corrispondente non parametrico, è importante conoscere la loro efficienza. Nel caso di grandi campioni, dipende dalla forma di distribuzione dei dati, di solito schematizzata in tre situazioni: normale, rettangolare ed esponenziale doppia.

 

L’efficienza asintotica del test di Theil rispetto al t di Student per il test parametrico

-   è uguale a 0,95 (3/p), quando la distribuzione è Normale;

-   è uguale a 1, quando la distribuzione è Rettangolare;

-   è uguale a 1,5 (3/2), quando la distribuzione è Esponenziale Doppia.

In termini elementari, quando la distribuzione è perfettamente normale, i due test hanno efficienza molto simile; ma quando la forma della distribuzione è lontana dalla normalità, il test non parametrico è più efficiente di quello parametrico.

 

La regressione lineare semplice non parametrica può essere utilizzata in modo appropriato anche per

-  analizzare una serie storica o geografica di dati,

-  cioè gli effetti della distanza da un’origine

che può essere di natura qualsiasi, da geografica a temporale.

Già nel 1945, prima ancora della proposta di Theil, H. B. Mann (con l’articolo Non parametric test against trend, sulla rivista Econometrica vol. 13, pp. 245-259) affermava che quando X è una misura temporale, che può essere espressa in anni, mesi, giorni, ore o secondi, la regressione non parametrica con ipotesi H0: b = 0 ed ipotesi alternativa H1 sia unilaterale che bilaterale, può essere impiegata per verificare se esiste un trend, cioè una tendenza alla diminuzione o all’aumento del carattere Y.

 

Analogo a questo test è quello proposto da Daniel, cioè della correlazione non parametrica per il trend, già illustrato in questo capitolo. E' utlizzato più diffusamente del test di Mann.

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007