TEST NON PARAMETRICI

PER CORRELAZIONE, CONCORDANZA,

REGRESSIONE MONOTONICA E REGRESSIONE LINEARE

 

 

21.2.  IL COEFFICIENTE DI CORRELAZIONE t (tau) DI KENDALL; IL ta E tb DI KENDALL CON I TIES.

 

 

Oltre 30 anni dopo il r (o rs) di Spearman,

-  M. G. Kendall nel 1938 con l’articolo A new measure of rank correlation (pubblicato su Biometrika vol. 30, pp. 81-93) e in modo più dettagliato nel 1948 con la descrizione dettagliata della metodologia nel volume Rank correlation methods (edito a Londra da C. Griffin)

 ha proposto il test  (tau). Questo metodo

-  ha le stesse assunzioni,

-  può essere utilizzato nelle medesime condizioni e

-  sui medesimi dati del test  di Spearman.

 

I risultati tra i due test sono molto simili, anche se matematicamente non equivalenti, per i motivi che saranno di seguito spiegati con l’illustrazione della metodologia. Tuttavia, da parte di molti autori il  di Spearman è preferito perché più semplice, meglio conosciuto e del tutto analogo al coefficiente parametrico r di Pearson.

Il vantaggio del test  deriva dalla sua estensione

-  sia all'analisi dei coefficienti di correlazione parziale o netta (illustrata nei paragrafi successivi), che tuttavia successivamente è stata estesa anche al r con risultati equivalenti,

-  sia alla misura dell’accordo tra giudizi multipli.

 

La metodologia per stimare il t di Kendall può essere suddivisa in 6 fasi: le prime due sono uguali a quelle del test r di Spearman, si differenzia per la misura dell’accordo tra le due distribuzioni.

 

1 - Dopo la presentazione tabellare dei dati con due misure per ogni oggetto d’osservazione

 

Variabili

Coppie di valori osservati

8

5

7

14

22

21

41

 

12

3

2

10

25

19

22

 

Oggetti

A

B

C

D

E

F

G

 

 

 

occorre ordinare per ranghi la variabile X, assegnando il rango 1 al valore più piccolo e progressivamente un rango maggiore, fino ad N, al valore più grande. Se sono presenti due o più valori uguali nella variabile X, assegnare ad ognuno come rango la media delle loro posizioni.

La scala comunque dovrebbe essere continua, anche se di rango, e quindi non avere valore identici, se non in casi eccezionali.

 

E' indispensabile collocare nell'ordine naturale (da 1 a N) i ranghi della variabile X, spostando di conseguenza i valori della Y relativi agli stessi soggetti

 

 

Variabili

Coppie di valori osservati

1

2

3

4

5

6

7

 

3

2

12

10

25

16

22

 

Oggetti

B

C

A

D

F

E

G

 

 

 

2 - Sostituire gli N valori di Y con i ranghi rispettivi; per valori di Y uguali, come al solito usare la media dei ranghi.

 

I ranghi di Y risultano distribuiti secondo il rango della variabile X, come nella tabella seguente:

 

Variabili

Coppie di valori osservati

1

2

3

4

5

6

7

 

2

1

4

3

7

5

6

 

Oggetti

B

C

A

D

F

E

G

 

 

 

Il metodo proposto da Kendall utilizza le informazioni fornite dall’ordine della sola variabile Y.

E’ un concetto che richiama il metodo delle precedenze, già utilizzate in vari test nn parametrici per il confronto tra le tendenze centrali.

 

3 - Se le due distribuzioni sono correlate

-  in modo positivo (r = +1), anche i ranghi della variabile Y sono ordinati in modo crescente, concordanti con l'ordine naturale;

-  in modo negativo (r = -1), i valori di Y risulteranno ordinati in modo decrescente e saranno discordanti dall'ordine naturale;

-  se tra le due variabili non esiste correlazione (r = 0), l'ordine della variabile Y risulterà casuale e il numero di ranghi concordanti e di quelli discordanti dall'ordine naturale tenderà ad essere uguale, con somma 0.

 

Per quantificare il grado di correlazione o concordanza, Kendall ha proposto di contare per la sola variabile Y

2

1

4

3

7

5

6

 

-  quante sono le coppie di ranghi che sono concordanti e

-  quante quelle discordanti dall'ordine naturale.

 

Per esempio, elencando in modo dettagliato tutte le singole operazioni,

-   il valore 2 è seguito da 1: non è nell’ordine naturale e pertanto contribuirà con -1; inoltre è seguito da altri 5 valori maggiori, che contribuiranno insieme con +5: il contributo complessivo del valore 2 al calcolo delle concordanze è uguale a +4;

-   il valore 1 è seguito da 5 valori maggiori e contribuirà con + 5;

-   il valore 4 contribuisce con -1, perché seguito dal 3,  e con +3, in quanto i 3 successivi sono maggiori, per un valore complessivo di +2;

-   il valore 3 contribuisce con +3;

-   il valore 7 contribuisce con -2, in quanto seguito da 2 valori minori;

-   il valore 5 contribuisce con +1.

-  il valore 6 è l’ultimo e non fornisce alcun contributo al calcolo delle concordanze; con esso termina il calcolo delle differenze tra concordanze e discordanze.

 

Nella tabella seguente è riportato il conteggio dettagliato e complessivo delle concordanze (+) e delle discordanze (-)

 

 

2

1

4

3

7

5

6

Totale

 

-

+

+

+

+

+

+4

 

+

+

+

+

+

+5

 

-

+

+

+

+2

 

+

+

+

+3

 

-

-

-2

 

+

+1

Totale (concordanze meno discordanze)

+13


 

La misura della concordanza complessiva con la variabile X è dato dalla somma algebrica di tutte le concordanze e le discordanze.

Il totale di concordanze e discordanze dei 7 valori dell’esempio (+4, +5, +2, +3, -2, +1) è uguale a +13.

 

4 – Per ricondurre il valore calcolato a un campo di variazione compreso tra +1 e –1, il numero totale di concordanze e discordanze di una serie di valori deve essere rapportato al massimo totale possibile. Poiché i confronti sono fatti a coppie, con N dati il numero totale di confronti concordanti o discordanti è dato dalla combinazione di N elementi 2 a 2

Con una serie di 7 dati come nell’esempio, il numero complessivo di confronti, quindi il massimo totale possibile di concordanze o discordanze, è

uguale a 21.

 

5 - Secondo il metodo proposto di Kendall, il grado di relazione o concordanza () tra la variabile X e Y può essere quantificato dal rapporto

 

 

Con i 7 dati dell’esempio,

  =  +0,619

 t è uguale a +0,619.

 

Il  di Kendall varia in modo simile al coefficiente r di Pearson: è

-   +1, quando la correlazione tra X e Y è massima e positiva,

-   -1, quando la correlazione tra le due variabili è massima e  negativa;

-   0,  quando non esiste alcuna correlazione.

 

La formula abbreviata è

 dove N è il numero di coppie di dati.

 

Nel caso in cui siano presenti due o più valori identici nella successione delle Y, il confronto con l’ordine naturale non determina né una concordanza né una discordanza: il loro confronto non contribuisce al calcolo di  e si riduce il valore di N.

La mancata correzione comporterebbe che il rango di variazione non sarebbe più tra -1 e +1.

 

Considerando la presenza di valori identici sia nella variabile Y sia nella variabile X, la formula corretta diventa

 dove

-   N    è il numero totale di coppie di dati delle variabili X e Y,

-    dove

-    è il numero di osservazioni identiche di ogni gruppo di valori identici della variabile X,

-    dove

-    è il numero di osservazioni identiche di ogni gruppo di valori identici della variabile Y.

 

Nel caso di ties, da L. A. Goodman e W. H. Kruskal nel 1963 (vedi l’articolo Measures of association for cross-classifications. III: Approximate sample theory, pubblicato su Journal of the American Statistical Association Vol. 58, pp. 310 – 364) hanno proposto che t sia stimato con la relazione

 

 dove

-  NC = numero di concordanze

-  ND = numero di discordanze

 

Questo valore t è strettamente correlato con il coefficiente gamma (gamma coefficient), tanto da poter essere identificato con esso, come sarà dimostrato nel paragrafo dedicato a tale indice; ha il grande vantaggio di variare tra +1 e –1 anche quando sono presenti dei ties.


 

Valori  critici  del  coefficiente  di  correlazione  semplice  t  di  Kendall

per test a 1 coda e a 2 code

a

 

0.05

0.025

0.01

0.005

1 coda

N

0.10

0.05

0.02

0.01

2 code

4

1.000

 

 

 

 

5

.800

.800

1.000

 

 

6

.733

.867

.867

1.000

 

7

.619

.714

.810

.810

 

8

.571

.643

.714

.786

 

9

.500

.556

.667

.722

 

10

.467

.511

.600

.644

 

11

.418

.491

.564

.600

 

12

.394

.455

.545

.576

 

13

.359

.436

.513

.564

 

14

.363

.407

.473

.516

 

15

.333

.390

.467

.505

 

16

.317

.383

.433

.483

 

17

.309

.368

.426

.471

 

18

.294

.346

.412

.451

 

19

.287

.333

.392

.439

 

20

.274

.326

.379

.421

 

21

.267

.314

.371

.410

 

22

.257

.296

.352

.391

 

23

.253

.295

.344

378

 

24

.246

.290

.341

.377

 


Per piccoli campioni, i valori critici sono forniti dalla tabella relativa, riportata nella pagina precedente.

Il risultato dell’esempio, con N = 7, per un test ad 1 coda risulta significativo alla probabilità a =0.05.

 

Per grandi campioni la significatività del  di Kendall può essere verificata

 con la distribuzione normale Z

     (*)

 

Quando è vera l'ipotesi nulla (assenza di correlazione o d’associazione),

-  per la media  vale l'uguaglianza

(cioè l'ordine della variabile Y è casuale e la somma totale delle sue concordanze e discordanze è nulla),

 

-  mentre la varianza  è data da

 dove N è il numero di coppie di dati.

 

Sostituendo nella precedente relazione(*) per la normale Z e semplificando, con la formula abbreviata si ottiene

-  una stima più rapida di Z mediante la relazione

 

 

Anche in questo caso sono stati proposti altri metodi per valutare la significatività di t. Tra i testi a maggior diffusione, quello di

-   W. J. Conover del 1999 (Practical nonparametric statistics, 3rd ed. John Wiley & Soons, New York, 584) riporta i valori critici dei quantili, esatti quando X e Y sono indipendenti,

- proposti da D. J. Best nel 1973 (nell’articolo Extended tables for Kendall’s tau, pubblicato su Biometrika Vol. 60, pp. 429-430) e nel 1974 (nella relazione Tables for Kendall’s tau and an examination of the normal approximation, pubblicato su Division of Mathematical Statistics, Technical Paper n° 39, edito da Commonwealth Scientific and Industrial Research Organization, Australia)

 

ESEMPIO.  Mediante il  di Kendall, rispondere alla medesima domanda di verifica della significatività dell'associazione tra le variabili X e Y, utilizzando gli stessi dati dell'esercizio precedente sul  di Spearman.

 

 

 

1

2

1

2

3a

3b

4

Stazione

s1

5

0,7

1,5

1

+15

-0

+15

s2

5

0,8

1,5

2

+14

-0

+14

s6

7

1,8

3

5

+11

-2

+9

s7

8

1,6

4

3

+12

-0

+12

s9

9

1,7

5,5

4

+11

-0

+11

s8

9

4,8

5,5

11,5

+4

-4

0

s16

11

2,8

7,5

6

+9

-0

+9

s5

11

9,7

7,5

15

+1

-7

-6

s3

12

5,6

9

13,5

+1

-5

-4

s12

13

3,2

10,5

8

+5

-1

+4

s15

13

3,9

10,5

10

+3

-2

+1

s11

14

5,6

12

13,5

+1

-3

-2

s14

15

4,8

13

11,5

+1

-2

-1

s13

16

3,6

14

9

+1

-1

0

s10

20

2,9

15

7

+1

-0

+1

s4

35

24,3

16

16

-

-

-

Totale differenze (concordanze – discordanze)

63

 

 

La metodologia del  di Kendall richiede i seguenti passaggi (riportati nella tabella da colonna 1 a colonna 4):

1 - ordinare in modo crescente i valori del BOD5 ed attribuire i ranghi relativi;

2 - trasformare in ranghi i corrispondenti valori di N;

3 - calcolare per ogni punteggio di N il numero di concordanze e di discordanze;

4 - calcolare la somma complessiva di tutte le concordanze e le discordanze.

 

La somma totale delle differenze tra concordanze e discordanze risulta positiva (+63).

 

5 - Tradotto nel corrispondente coefficiente mediante

si ottiene un valore di  uguale a +0,525.

 

6 - Per un test unilaterale, la tabella dei valori critici del  di Kendall

-   con N = 16 e alla probabilità a = 0.005

-   riporta un valore di  uguale a 0,483.

Il valore calcolato (0,525) è superiore in modulo.

 

Di conseguenza, si rifiuta l'ipotesi nulla e si accetta l'ipotesi alternativa: esiste un’associazione o correlazione positiva tra le due serie di dati, con probabilità P < 0.005 di commettere un errore di I tipo.

 

Il campione utilizzato nell’esempio può essere ritenuto sufficientemente grande.

Pertanto, è possibile valutare la significatività del coefficiente  = + 0,525

 mediante il test Z:

 

 

 che risulta Z = +2,93.

Nella distribuzione normale, a Z uguale a 2,93 per un test ad una coda corrisponde una probabilità P = 0,0017.  E’ un risultato che non si discosta in modo rilevante da quello precedente, fornita dalle tabelle dei valori critici.

 

Alcuni testi di statistica presentano una procedura di calcolo delle precedenze che è più complessa di quella illustrata e propongono 2 misure differenti (ta, tb); la scelta tra  tatb dipende dal numero di valori identici e quindi dalla continuità del tipo di scala utilizzato.

E’ possibile determinare i casi concordi, discordi oppure a pari merito, confrontando simultaneamente i valori di X e Y in una coppia d’oggetti.

 

Una coppia di casi è

-  concorde (P), se per un oggetto i valori di entrambi le variabili sono più bassi o più alti rispetto ai valori dell’altro caso;

-  discorde (Q), se per una variabile è maggiore e per l’altra minore, o viceversa;

-  pari merito (T), se hanno lo stesso valore per la variabile X (TX) o per la variabile Y (TY).


 

Il ta è la differenza tra coppie concordi e discordi (P-Q), rapportata al numero totale di coppie d’oggetti:

ta =

 

Se non esistono coppie con valori uguali, questa misura varia tra -1 e +1.

Se esistono coppie con valori uguali, il campo di variazione è più limitato e dipende dal numero di valori pari merito presenti sia nella variabile X che nella variabile Y.

 

Il tb normalizza la differenza P-Q, prendendo in considerazione anche i valori pari merito delle due variabili in modo separato

tb    =  

 

L’associazione  tra due variabili può essere valutate anche con altri metodi, che utilizzano tabelle di contingenza.

 


 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007