TEST NON PARAMETRICI

PER CORRELAZIONE, CONCORDANZA,

REGRESSIONE MONOTONICA E REGRESSIONE LINEARE

 

 

21.5.   IL TEST DI DANIELS PER IL TREND

 

 

Nel 1950, H. E. Daniels (con l’articolo Rank correlation and population models, pubblicato su  Journal of the Royal Statistical Society (B), vol. 12, pp. 171-181) ha proposto di utilizzare il test r di Spearman

-  per verificare se nel tempo una variabile cambia in modo monotonico, con ipotesi sia unilaterale che bilaterale come è possibile per la correlazione,

-  contro l’ipotesi nulla che essa si mantenga costante, cioè che il tempo e l’altra variabile rilevata siano mutuamente indipendenti.

 

Il test può essere facilmente esteso ad una successione spaziale.

 

Per gli stessi scopi, vari ricercatori utilizzano anche il test t di Kendall.

I risultati sono del tutto analoghi a quelli del r, seppure non coincidenti, per i motivi illustrati nei paragrafi precedenti. Come negli altri casi, il vantaggio del test r rispetto al test t è di essere stimato in modo più semplice e rapido. E’ un aspetto sempre importante nella pratica della statistica, quando i calcoli sono svolti manualmente.

 

Questi due test possono essere applicati a dati per i quali è già stato proposto il test di Cox e Stuart, cioè ad una successione temporale di valori. Pertanto, con la finalità di presentare l’applicazione del metodo r e di analizzare le situazioni nei quali scegliere quello più adeguato, è utile riprendere gli stessi dati utilizzati per il test di Cox e Stuart.

 

Si supponga di avere la successione temporale di 28 osservazioni, riportate nella tabella e nel grafico successivi. Si vuole valutare se è confermata l’ipotesi di una tendenza significativa all’aumento dei valori medi.


 

 

10°

11°

12°

13°

14°

I Settimana

II Settimana

L

M

M

G

V

S

D

L

M

M

G

V

S

D

21

23

22

24

27

35

30

23

22

24

25

28

36

32

 

 

15°

16°

17°

18°

19°

20°

21°

22°

23°

24°

25°

26°

27°

28°

III Settimana

IV Settimana

L

M

M

G

V

S

D

L

M

M

G

V

S

D

24

27

26

28

31

38

40

25

24

25

25

29

43

41

 

 

 

 

Rappresentazione grafica dei dati e della loro media mobile a 7 elementi


 

A differenza dei test parametrici, che richiedono espressamente i dati delle singole osservazioni e non medie, in quanto indispensabili per calcolare la covarianza e la stima della varianza d’errore, l’analisi non parametrica può essere condotta anche sulle medie, sulle mediane o altri quantili ritenuti importanti (come il 25° e il 75° percentile). Infatti usando le medie si ottiene direttamente la deviazione standard delle medie, cioè l’errore standard.

 

Nel caso dell’esempio, per valutare la tendenza di fondo del periodo servendosi delle singole osservazioni raccolte, si pone il problema della grande variabilità presente nell’arco di una settimana, come evidenzia la successione dei dati e soprattutto mostra visivamente la rappresentazione grafica. La forte oscillazione di periodo (in questo caso settimanale) tende a nascondere il cambiamento sistematico ipotizzato (una differenza monotonica tra l’inizio e la fine mese). Inoltre, sono presenti molti valori uguali, che rendono il calcolo dei ranghi più complesso e soprattutto fanno diventare il risultato del test approssimato, dovendo ricorrere a medie dei ranghi.

Di conseguenza, per applicare il test di Daniels appare conveniente utilizzare la successione delle medie mobili, già calcolate nel test di Cox e Stuart. Il test di Daniels non richiede attenzione alle variazioni cicliche e quindi non richiede che il periodo sia suddiviso in 2 fasi corrispondenti.

 

 

10°

11°

12°

13°

14°

---

---

---

26,0

26,3

26,1

26,4

26,6

26,7

26,9

27,1

27,3

28,0

28,3

 

15°

16°

17°

18°

19°

20°

21°

22°

23°

24°

25°

26°

27°

28°

28,7

29,1

29,4

30,6

30,7

30,3

30,1

29,7

29,4

30,1

30,3

---

---

---

 

 

Da questi 22 valori medi, si deriva la seguente tabella, che riporta tutti i calcoli necessari per il test:

In essa

-   nella colonna 1 è riportato il rango dei tempi, che ovviamente sono sempre in successione ordinata,

-   nella colonna 2 è riportata la media mobile della variabile analizzata,

-   nella colonna 3 il rango di questo ultimo valore,

-   nella colonna 4 la differenza in valore assoluto tra i due ranghi (colonna 1 – colonna 3),

-   nella colonna 5 il quadrato di tale differenza .


 

 

(1)

(2)

(3)

(4)

(5)

Tempo

Valore

Rango

1

26,0

1

0

0

2

26,3

3

1

1

3

26,1

2

1

1

4

26,4

4

0

0

5

26,6

5

0

0

6

26,7

6

0

0

7

26,9

7

0

0

8

27,1

8

0

0

9

27,3

9

0

0

10

28,0

10

0

0

11

28,3

11

0

0

12

28,7

12

0

0

13

29,1

13

0

0

14

29,4

14,5

0,5

0,25

15

30,6

21

6

36

16

30,7

22

6

36

17

30,3

19,5

2,5

6,25

18

30,1

17,5

0,5

0,25

19

29,7

16

3

9

20

29,4

14,5

5,5

30,25

21

30,1

17,5

3,5

12,25

22

30,3

19,5

2,5

6,25

  =

138,5

 

 

Dall’ultima colonna, si ricava la somma di tali quadrati

=  138,5.

 

Successivamente, per N uguale a 22, si calcola il valore di r

 =

 che risulta uguale a 0,922.

 

La sua significatività può essere determinata mediante il test t di Student

 

 =

 

 che risulta t = 10,65 con 20 gdl.

 

Poiché era stata ipotizzata una tendenza alla crescita, quindi la verifica dell’ipotesi unilaterale

H0: r £ 0    contro    H1: r > 0

 si confronta il valore ricavato con la distribuzione unilaterale.

Il risultato è altamente significativo, dato che il valore critico di t con gdl = 20 è uguale a 3,850 per una probabilità unilaterale a = 0.0005 mentre il valore calcolato è 10,65. Si rifiuta H0 con probabilità P < 0.0005.

 

Se il test fosse stato bilaterale, si sarebbe rifiutata l’ipotesi nulla con probabilità P < 0.001.

 

 

ESEMPIO.  Nel testo di W. J Conover del 1999 (a pag. 323 di Practical Nonparametric Statistics, 3rd ed., John Wiley & Sons, New York, 584 p.) si  propone l’analisi della quantità di pioggia (Y, qui riportata in cm.) annuale, per il periodo 1950-1968:

 

 

(1)

(2)

(3)

(4)

(5)

(6)

Anno Xi

Valore Yi

Rango Xi

Rango Yi

1950

114,9

1

12

11

121

1951

116,4

2

15

13

169

1952

106,1

3

11

8

64

1953

92,1

4

6

2

4

1954

115,0

5

13

8

64

1955

132,7

6

17

11

121

1956

89,8

7

2,5

4,5

20,5

1957

145,2

8

18

10

100

1958

89,8

9

2,5

6,5

42,25

1959

148,1

10

19

9

81

1960

104,3

11

9

2

4

1961

85,6

12

1

11

121

1962

116,2

13

14

1

1

1963

96,3

14

7

7

49

1964

106,0

15

10

5

25

1965

91,6

16

4

12

144

1966

126,6

17

16

1

1

1967

92,0

18

5

13

169

1968

101,3

19

8

11

121

  =

1421,5


 

La sua rappresentazione grafica  mette in evidenza una distribuzione dei dati che non mostra la ciclicità del caso precedente, ma che è caratterizzata da forti variazioni casuali anche tra anni contigui.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Per N uguale a 19, si calcola il valore di r

 

 =

 

 che risulta uguale a -0,247.

Indica una correlazione di tipo negativo, cioè una diminuzione della quantità di pioggia durante il periodo.


 

In assenza di una teoria specifica, il test dovrebbe essere bilaterale.

La significatività del valore di r, calcolata con il t di Student,

 

 =

 

 fornisce un valore di t = -1,051 con 17 gdl. E’ un valore basso, corrispondente ad una probabilità P superiore a

a = 0,20 in una distribuzione bilaterale,

a = 0,10 in una distribuzione unilaterale.

 

In modo più preciso, la probabilità P è vicina al 30% in una distribuzione bilaterale e al 15% in una distribuzione unilaterale. La probabilità che il valore di r calcolato sia stato determinato solamente dal caso è elevata.

Di conseguenza, non solo non si rifiuta l’ipotesi nulla H0, ma si può affermare che, durante il periodo considerato, non si è realizzata una variazione sistematica nella quantità di pioggia.

 

Nel testo citato,

-  Conover scrive che i test per il trend, basati sul r di Spearman e sul t di Kendall, in generale sono considerati più potenti del test di Cox e Stuart.

Come già evidenziato dallo stesso A. Stuart nel 1956 (vedi The efficiencies of test of randomness against normal regression, pubblicato su Journal of the American Statistical Association, Vol. 51, pp. 285-287),

  quando la distribuzione dei dati è normale,

-   rispetto al test r di Pearson l’efficienza asintotica relativa (A.R.E. da Asymptotic Relative Efficiency) del test  r di Spearman e del t di Kendall è uguale a  0,98  

-   mentre l’efficienza o potenza del test di Cox e Stuart è 0,78.

 

Meno potente dei test che utilizzano la correlazione non parametrica, in quanto utilizza i segni e non i ranghi, il test di Cox e Stuart è applicabile in condizioni molto più generali, anche in presenza di valori fortemente anomali. In particolare, anche rispetto al test della mediana, è utile nel caso di una ciclicità accentuata e quando si confrontano tra loro i valori medi o mediani di un periodo relativamente lungo, separabile in due serie con la stessa variazione ciclica.


 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007