TEST NON PARAMETRICI PER IL TREND

 

 

 19.4.  TEST DI MACK-WOLFE O UMBRELLA TEST.

 

 

Uguale al test di Kruskal-Wallis e al test di Jonckheere-Terpstra

-          sia per il tipo di dati, riportati in tabelle come nell’ANOVA a un criterio,

-          sia per l’ipotesi nulla

H0: me1 = me2 = …= mep = … = meK

 il test proposto da Gregory. A. Mack e  Douglas. A. Wolfe  nel 1981 (con l’articolo K-sample Rank Tests for Umbrella Alternatives, pubblicato su Journal of the American Statistical Association Vol. 76, pp. 175-181), si distingue per l’ipotesi alternativa

H1:  me1  £  me2  £  …  £  mep-1  £  mep  ³  mep+1  ³  …  ³  mek-1  ³  meK

 con almeno una ineguaglianza prima e dopo il valore massimo (where at least inequality is strict). In termini discorsivi, l’ipotesi alternativa afferma che esiste un punto di picco entro le classi estreme.

I due autori lo chiamano umbrella alternatives test, un nome fantasioso (tradotto in italiano con test dell’ombrello).  Essi motivano tale scelta con la figura che assume la rappresentazione grafica della successione delle mediane (because of the configuration of the corrisponding population medians).

 

L’ipotesi alternativa H1 può essere anche nella direzione opposta, per verificare se la serie delle mediane ha una forma concava, cioè un valore significativamente minore nelle classi centrali

H1:  me1  ³  me2  ³   …  ³  mep-1  ³  mep  £  mep+1  £  …  £  mek-1  £  meK

 con almeno una ineguaglianza prima e dopo il valore minimo.

 

E’ utile ricordare che

-          nel test di Kruskal-Wallis l’ipotesi alternativa è bilaterale

H1: non tutte le me sono uguali

 

-          mentre nel test di Jonckheere-Terpstra è unilaterale (le mediane tendono a crescere),

H1: me1  £  me2  £  …  £  mep-1  £  mep  £ mep+1…  £ mek-1  £ meK

 con almeno una ineguaglianza tra valore iniziale e valore finale.

 

Il test di Mack-Wolfe può essere visto come una generalizzazione del test di Jonckheere-Terpstra, nel quale la diseguaglianza è solamente tra valore iniziale e finale. Inoltre, mentre il test di Jonckheere-Terpstra può essere interpretato come analogo ad una regressione lineare o a una curva di secondo grado con una crescita e una successiva tendenza asintotica, il test di Mack-Wolfe è analogo a una regressione quadratica, con forma a parabola esprimibile dalla funzione di secondo grado

 

Questo metodo di inferenza statistica è utile, ad esempio, per valutare

-          se la dose crescente di un farmaco determina effetti prima positivi e poi negativi quando si supera il valore di soglia;

-          se la quantità di un fertilizzante prima aumenta la produzione agricola e oltre certe dosi la riduce;

-          se la presenza di ozono nell’aria o di un inquinante nei corpi idrici è massima nei mesi estivi;

-          quale è l’effetto dell’età nella risposta a certi stimoli biologici;

-          l’evoluzione degli effetti di un farmaco nelle ore successive alla sua somministrazione.

 

Mack e Wolfe nell’articolo di presentazione del test insistono su un concetto, che ritengono molto importante, per gli effetti non quantificabili che ha sulle probabilità a stimate, cioè sulla probabilità di rifiutare l’ipotesi nulla quando in realtà essa è vera: l’ipotesi alternativa non può essere costruita o espressa sulla base dell’osservazione dei dati.

L’ipotesi alternativa, cioè la scelta tra

-          test di Kruskal-Wallis

-          test di  Jonckheere-Terpstra

-          test di Mack-Wolfe

 deve essere formulata solamente a priori, sulla base di una conoscenza teorica e quindi in anticipo rispetto alla raccolta dei dati: “… using any a priori information we might have about the alternative (to H0) that is of primary importance”.

 

Per l’uso che abitualmente viene fatto dei test statistici in molti settori della gestione e interpretazione scientifica dei dati, cioè per la loro applicazione a dati già raccolti eventualmente da altri, è necessario insistere su questo concetto. Se un ricercatore scrive che i dati raccolti hanno evidenziato un minimo (o massimo) collocato tra i gruppi estremi e che il successivo test è risultato significativo, evidenzia un approccio errato. Egli deve:

-          esprimere l’ipotesi per cui è ragionevole (in campo, biologico, ambientale, medico, ecc. …) attendersi che tra le mediane esista una regressione di tipo quadratico oppure lineare o infine una semplice differenza tra valori non ordinati;

-          descrivere come, per verificare la sua ipotesi, ha raccolto i dati;

-          riportare il risultato del test a supporto della sua conoscenza del problema e come dimostrazione empirica che è stato trovato l’effetto atteso.

In quasi tutti i programmi informatici è riportato il test di Kruskal-Wallis; in molti anche quello di Jonckheere-Terpstra; questo il test di Mack-Wolfe è spesso ignorato, nonostante la frequenza dei casi che ne richiedono l’uso nella ricerca applicata.

Tra i testi internazionali di statistica, il test è riportato nel volume di Myles Hollander e Douglas A. Wolfe (coautore dell’articolo citato e professore nel Department of Statistics della Ohio State University) del 1999 Nonparametric Statistical Methods (2nd ed. John Wiley & Sons, New York, 787 p). La metodologia descritta in questo paragrafo ne segue le indicazioni (per ulteriori approfondimenti si rimanda al testo citato).

 

L’applicazione di questo metodo richiede una distinzione preliminare, dalla quale dipendono due procedura differenti: se il punto di picco (massimo o minimo)

-          è noto

-          è ignoto.

 

CON PICCO NOTO

La metodologia è spiegata in modo semplice, illustrando un esempio in tutti i suoi passaggi logici.

 

1 - Si supponga di voler verificare se la quantità di ozono raggiunge il massimo durante i mesi più caldi, individuati nel periodo luglio – agosto. A questo scopo, le quantità medie rilevate in un anno (poche osservazioni per motivi pratici di presentazione del metodo) sono state raggruppate in periodi di due mesi, ottenendo la seguente distribuzione

 

Indici di inquinamento idrico durante un anno

(1)

Gen. – Feb.

(2)

Mar. – Apr.

(3)

Mag. – Giu.

(4)

Lug. – Ago.

(5)

Set. - Ott.

(6)

Nov. – Dic.

16,1

13,5

  6,7

15,8

10,2

11,3

15,4

19,8

  7,3

24,1

24,5

35,4

28,3

35,9

29,9

33,9

34,1

46,7

26,7

24,4

14,2

15,6

15,4

11,7

  3,6

10,8

= 7

= 3

= 5

= 4

= 4

= 3

 

 

con il numero () di osservazioni per periodo riportate nell’ultima riga.

 

2 - Il test serve per verificare l’ipotesi nulla

H0: me1 = me2 = me3 = me4 = me5 = me6

 contro l’ipotesi alternativa

H1: me1 £ me2 £ me3 £ me4 ³ me5 ³ me6

Il periodo di massimo è stato preventivamente individuato nel gruppo 4, corrispondente ai mesi di luglio – agosto.

 

 

 

 

Come già suggerito in più occasioni, la rappresentazione grafica dei dati è sempre di estrema utilità per comprendere

-          la forma di distribuzione dei dati,

-          la successione delle mediane e quindi la variazione della tendenza centrale.

Il grafico mostra che l’ipotesi appare verosimile.

Il test serve appunto per verificare se tale impressione visiva è supportata da una interpretazione scientifica dei dati, cioè dalla probabilità di avere trovato per caso la distribuzione espressa nell’ipotesi H1, qualora H0 fosse vera

 

3 - Come già illustrato nel test di Jonckheere, questo metodo utilizza il calcolo delle precedenze stimandone il numero tra coppie di gruppi.

Di conseguenza, per i conteggi successivi è utile, seppure non obbligatorio, ordinare i dati per rango entro ogni gruppo:


 

Indici di inquinamento idrico durante un anno (ordinati entro gruppo)

(1)

Gen. – Feb.

(2)

Mar. – Apr.

(3)

Mag. – Giu.

(4)

Lug. – Ago.

(5)

Set. - Ott.

(6)

Nov. – Dic.

6,7

10,2

11,3

13,5

15,4

15,8

16,1

  7,3

19,8

24,1

 

24,5

28,3

29,9

35,4

35,9

 

26,7

33,9

34,1

46,7

 

14,2

15,4

15,6

24,4

 

3,6

10,8

11,7

 

 

 

4 - Definiti

-          il numero di gruppi, in questo caso k = 6,

-          la posizione che individua il massimo atteso, in questo caso p = 4

 il metodo proposto sostanzialmente applica due volte il test di Jonckheere:

-          dal gruppo 1 al gruppo p (nell’esempio dal gruppo 1 al 4)

-          dal gruppo p al gruppo k (nell’esempio dal gruppo 4 al 6)

-          ricordando che p è preso in considerazione due volte e che nella seconda parte la stima delle precedenze deve essere nell’ordine opposto (per mantenerla sempre crescente).

 

Si ottengono le seguente 9 stime di precedenze, per confronti tra coppie di gruppi:

-          le prime 6, che sono prodotte dalle combinazioni da 1 a 4

-          le altre 3, prodotte dalle combinazioni da 6 a 4

 

Valori di U per confronti tra coppie di gruppi e calcolo di A

1

2

3

4

5

6

7

8

8

Tot

U12

U13

U14

U23

U24

U34

U54

U64

U65

A4

1

7

7

7

7

7

7

7

7

7

7

7

 

3

3

3

3

3

3

3

3

3

 

1

3

3

5

 

4

4

4

4

 

3

3

3

3

 

3

3

3

3

 

 

15

35

28

15

12

12

16

12

12

157

 

 

Come già con la metodologia di Jonckheere,

-          nella prima colonna (U12), il valore 1 è determinato dall’osservazione che, ordinando per ranghi insieme il gruppo 1 e il gruppo 2, il dato 7,3 del gruppo 2 è preceduto solamente dal primo valore (6,7) del gruppo 1; gli altri due 7 sono determinati dall’osservazione che i restanti due dati del gruppo 2 sono preceduti entrambi dai 7 valori del gruppo 1: il totale della colonna è U12 = 7;

-          nell’ultima colonna (U65), il valore 3 ripetuto quattro volte è determinato dall’osservazione che, ordinando per ranghi insieme il gruppo 6 e il gruppo 5, i quattro dati del gruppo 5 (cioè 14,2  15,4  15,6   24,4) sono tutti preceduti in una distribuzione congiunta, ordinata in modo crescente, dai tre dati del gruppo 5 (cioè 3,6  10,8  11,7); il loro totale è U65 = 7;

 

5 - Sommando i risultati delle 9 colonne si ottiene

Ap =

A4 = 15 + 35 + 28 + 15 + 12 + 12+ 16 + 12 + 12 = 157

Il numero di precedenze, centrate sulla colonna 4, è A4 = 157.

 

Se per la serie ordinata delle mediane fosse stato ipotizzato non un andamento convesso ma concavo, la stima dei valori di U avrebbe dovuta essere condotta in modo opposto, calcolando

- non

U12

U13

U14

U23

U24

U34

U54

U64

U65

 

 

- ma

U21

U31

U41

U32

U42

U43

U45

U46

U56

 

 

In modo più esplicito

-          l’indice 12  indica quante volte ogni valore del gruppo 2 è preceduto da valori del gruppo 1

-          l’indice 21  indica quante volte ogni valore del gruppo 1 è preceduto da valori del gruppo 2

 

6 - Se è vera l’ipotesi nulla,

 il valore di Ap tende al valore medio (mAp)

 

Con

-           = numero totale di osservazioni dal gruppo 1 al gruppo p; nell’esempio: 7 + 3 + 5 + 4 = 19

-           = numero totale di osservazioni dal gruppo p al gruppo k; nell’esempio: 4 + 4 + 3  = 11

-           = numero di osservazioni in ognuno dei k gruppi; nell’esempio: 7,  3,  5,  4,  4,  3

-           = numero di osservazioni nel gruppo p; nell’esempio: 4

 si ottiene

 

mA4 =

 

 il valore medio mA4 = 85,5.

 

 

7 - Se invece è vera l’ipotesi alternativa H1 espressa a priori, il valore di Ap tende a crescere e a divenire significativamente maggiore di quello medio stimato. Infatti il numero di precedenze, calcolato come richiesto dal metodo, è massimo se i valori maggiori sono posti esattamente nell’ordine ipotizzato.

In questo calcolo delle precedenze, è importante osservare che se il picco indicato a priori non corrisponde realmente al gruppo che contiene le osservazioni di rango maggiore, il numero di precedenze totale (Ap) si riduce notevolmente e il test difficilmente risulta significativo.

 

 

8 – Nel caso di piccoli campioni, ( che varia da 4 a 6 con  che varia da 2 a 5) il valore Ap calcolato deve essere confrontato con quelli critici riportati nella tabella.

Nella sua lettura è importante ricordare che la stima dei valori critici non è influenzata dal fatto che il gruppo di picco sia simmetrico rispetto a quello riportato.

Se il numero di gruppi è = 4, il gruppo di picco p può essere indifferentemente 3 o 2;

 se il numero di gruppi è = 5, il gruppo di picco p può essere indifferentemente 4 o 2;

 se il numero di gruppi è = 6, il gruppo di picco p può essere indifferentemente 4 o 3 oppure 5 o 2.

Ovviamente il valore di picco non può essere in uno dei due gruppi estremi, altrimenti il test diventerebbe quello di Jonckheere-Terpstra.

 

Il caso di 3 gruppi (k = 3) è particolare; pertanto è stato trattato a parte (nelle pagine successive).


 

VALORI CRITICI (Ap) PER IL TEST DI MACK-WOLFE

CON PICCO NOTO

 

-           = Numero di gruppi

-           = Rango del picco

-           = Numero di dati per gruppo; sono considerati solamente campioni bilanciati

 

 

 = 4

 

 = 5

 

 = 6

= 3

= 3

= 4

 

2

a=.10

a=.05

a=.01

13

14

16

 

2

a=.10

a=.05

a=.01

19

20

22

 

2

a=.10

a=.05

a=.01

26

28

31

 

3

 

a=.10

a=.05

a=.01

27

29

32

 

3

 

a=.10

a=.05

a=.01

38

41

45

 

3

 

a=.10

a=.05

a=.01

54

58

64

 

4

 

a=.10

a=.05

a=.01

45

48

53

 

4

 

a=.10

a=.05

a=.01

64

68

75

 

4

 

a=.10

a=.05

a=.01

92

98

107

 

5

 

a=.10

a=.05

a=.01

67

71

79

 

5

 

a=.10

a=.05

a=.01

97

103

113

 

5

 

a=.10

a=.05

a=.01

140

148

161

 

 

 

= 4

= 5

 

2

 

a=.10

a=.05

a=.01

21

23

25

 

2

 

a=.10

a=.05

a=.01

31

33

37

 

3

 

a=.10

a=.05

a=.01

43

46

51

 

3

 

a=.10

a=.05

a=.01

65

69

76

 

4

 

a=.10

a=.05

a=.01

73

78

86

 

4

 

a=.10

a=.05

a=.01

111

117

127

 

5

 

a=.10

a=.05

a=.01

111

117

129

 

5

 

a=.10

a=.05

a=.01

169

177

192

 


 

L’esempio utilizzato non è formato da campioni bilanciati, per i quali sono stati calcolati i valori critici. Di conseguenza, per il calcolo della probabilità è necessario utilizzare la distribuzione normale, come per i grandi campioni.

Per la stima delle probabilità, nel testo indicato é stato proposto anche un metodo fondato sul calcolo combinatorio. Esso offre il vantaggio di dare stime esatte, ma presenta il grande svantaggio di essere più complesso e di richiedere calcoli molto più lunghi. Anche il problema dei ties qui è stato trascurato, poiché il test richiede scale continue e la procedura diventa più complessa. Per un approfondimento su questi temi si rimanda al testo citato.

 

9 – Nel caso di grandi campioni, la probabilità (P) è stimata in modo approssimato

 con la distribuzione normale standardizzata

 

Z =

 dove

 

 

 e

-            (nell’esempio: 7 + 3 + 5 + 4 = 19)

-            (nell’esempio: 4 + 4 + 3 = 11)

-          N =  (differente da N1 + N2: nell’esempio: 7 + 3 + 5 + 4 + 4 + 3 = 26)

 

Con i dati raccolti e trascurando la media attesa già stimata,

-         

-         

 

-         

-           = 833 + 81 + 325 + 176 + 176 + 81 = 1672

 

-         

-         

-         

 

 

 si calcola

 un valore Z = 4,18.

In una coda della distribuzione normale standardizzata ad esso corrisponde una probabilità molto piccola, approssimativamente P = 0.0002. Si rifiuta l’ipotesi nulla: si conferma che la distribuzione ha un massimo nei mesi di luglio-agosto, come ipotizzato a priori.

 

Quando k = 3, il test è del tutto uguale al test di Jonckheere-Terpstra, se p = 3 oppure se p = 1.

Ovviamente nel primo caso la disposizione delle mediane è ordinata in aumento, mentre nel secondo è in diminuzione

Se p = 2 (sia come valore massimo che come valore minimo) è vantaggioso ricorrere al test U di Mann-Whitney: concettualmente è uguale, ma sotto l’aspetto pratico è più rapido. A questo scopo, si deve

-          aggregare in un gruppo unico i dati del gruppo 1 e del gruppo 3, per confrontarlo con il gruppo 2,

-          per verificare l’ipotesi unilaterale, scelta sulla base della direzione attesa.

 

Ad esempio, per verificare se effettivamente la classe centrale (B) è caratterizzata da un minimo, disponendo di tre gruppi di dati

 

A

B

C

2,8

2,6

2,7

3,1

 

2,4

2,7

2,3

2,4

2,5

 

2,9

2,8

3,2

 

 è sufficiente formare un gruppo unico delle due classi estreme (A + C) e verificare l’ipotesi

H0: me(A + C) £ me(B)      contro H1: me(A + C) > me(B)

 

 

ESEMPIO (CAMPIONE PICCOLO E BILANCIATO)

Si supponga di voler verificare la teoria che, nell’arco della vita di un individuo, un determinato parametro (l’intelligenza, la forza, la quantità di una proteina nel sangue, …) abbia un generico andamento a parabola, con un massimo raggiunto tra i quarantenni (nota che la classe d’età è specificata):

 

CLASSI D’ETA’

20-29

(1)

30-39

(2)

40-49

(3)

50-59

(4)

60-74

(5)

19,73

21,05

21,17

20,96

21,54

22,42

21,09

21,81

22,53

20,25

21,03

21,61

13,99

20,32

20,33

 

 

I dati sono in accordo con questa teoria?

 

Risposta.  Definiti

-          il numero di gruppi: in questo caso k = 5,

-          la posizione che individua il massimo atteso: in questo caso p = 3

 si applica due volte il test di Jonckheere:

-          dal gruppo 1 al gruppo 3,

-          dal gruppo 3 al gruppo 5.

 

Si ottengono le seguente 6 stime di precedenze, per confronti tra coppie di gruppi:

-          le prime 3, che sono prodotte dalle combinazioni dal gruppo 1 al 3

-          le altre 3, prodotte dalle combinazioni dal gruppo 5 al 3

 

U12

U13

U23

U54

U53

U43

A3

1

3

3

2

3

3

1

2

3

1

3

3

 

3

3

3

 

2

3

3

 

 

7

8

6

7

9

8

45

 

 

Nella stima delle precedenze ricordare che, ad esempio,

-          U23 è quante volte ogni dato del gruppo 3 è preceduto dai dati del gruppo 2,

-          U54 è quante volte ogni dato del gruppo 4 è preceduto dai dati del gruppo 5.

 

Sommando i risultati delle 6 colonne, si ricava

Ap =

A3 = 7 + 8 + 6 + 7 + 9 + 8 = 45

 che il numero di precedenze, centrate sulla colonna 3, è A3 = 45.

 

Nella tabella dei valori critici di Ap  con picco noto

 per

,     ,    

 si trova

-          con a = 0.10 il valore A = 38

-          con a = 0.05 il valore A = 41

-          con a = 0.05 il valore A = 45

Poiché il valore calcolato (45) è uguale a quello riportato nella tabella per la probabilità a = 0.01, si rifiuta l’ipotesi nulla. E’ dimostrata l’esistenza di questo picco nella classe d’età dei quarantenni.

 

 

CON PICCO IGNOTO

Quando, raccolte più serie di misure campionarie, si vuole verificare se (H1) entro i gruppi estremi esiste un picco senza sapere a priori in quale esso sia collocato (quindi si rifiuta l’ipotesi nulla H0 che le loro mediane sono uguali), si ricorre al metodo proposto di Mack-Wolfe  per un picco ignoto.

Il metodo resta identico, se il picco ipotizzato in H1 è un massimo oppure un minimo. Qui è illustrato quello per verificare l’esistenza di un valore massimo significativo; se l’interesse fosse rivolto a un minimo, è sufficiente modificare simmetricamente la procedura nella formazione dei gruppi a confronto per calcolare le precedenze, come descritto per il caso di un picco noto.

Il metodo è un po’ più complesso del precedente, in particolare quando i campioni non sono bilanciati; di conseguenza, l’illustrazione è limitata al caso più semplice, in cui tutti i gruppi hanno lo stesso numero di osservazioni.

Poiché i calcoli sono lunghi, è stato scelto un campione con un numero limitato di casi (3) e un numero ridotto di gruppi (5).

Ancora per semplificare la procedura, si richiede una scala continua, in modo che la distribuzione dei dati non contenga ties. Inoltre i campioni sono bilanciati. Anche la presenza di campioni con un numero differente di osservazioni, in particolare se abbinata a ties, rende il metodo sensibilmente più complesso.

 

La metodologia è presentata con un caso tratto dalla letteratura, in tutti i suoi passaggi logici elementari. Inoltre, per un confronto semplice tra le due impostazioni logiche e le due differenti metodologie, è ripreso l’ultimo esempio sviluppato per un picco noto.

 

1 - Si supponga di voler verificare la teoria che nell’arco della vita di un individuo, un determinato parametro (l’intelligenza, la forza, la quantità di una proteina nel sangue, …) abbia un generico andamento a parabola, senza che la teoria si spinga a identificare anche la classe d’età.

A questo scopo, con i dati raccolti sono stati formati 5 gruppi

-          ordinati per classi d’età crescente (i livelli devono sempre essere ordinabili per rango);

-          entro ogni gruppo, anche i dati sono stati ordinati in modo crescente,

 come nella tabella:

 

CLASSI D’ETA’

1

2

3

4

5

20-29

30-39

40-49

50-59

60-74

19,73

21,05

21,17

20,96

21,54

22,42

21,09

21,81

22,53

20,25

21,03

21,61

13,99

20,32

20,33

 

 

Questa disposizione dei dati facilita

-          sia la identificazione del rango occupato dal gruppo in cui esiste la mediana maggiore,

-          sia i successivi calcoli delle precedenze tra coppie di gruppi, in accordo con il metodo U di Mann-Whitney.

 

2 - Il passo successivo è la individuazione (a posteriori) tra i k campioni del  gruppo (p) con il picco.

Il metodo è ovvio: si calcolano le mediane dei campioni e si confrontano. Con i dati dell’esempio, il gruppo che presenta la mediana campionaria maggiore è il 3, in cui il valore centrale è 21,81 (p = 3).

La serie di operazioni successive serve per valutare se effettivamente, mediante il calcolo di tutte le precedenze, i dati dei gruppi confermano tale indicazione approssimata, fondata sulla sola mediana.

La parte conclusiva del test serve per decidere se tale picco è reale, cioè significativo alla probabilità prefissata. Pertanto, si verifica l’ipotesi nulla

H0: me1 = me2 = me3 = me4 = me5

 contro l’ipotesi alternativa

H1: me1 £ me2 £ me3 ³ me4 ³ me5

 

3 –  Si stimano tutti i possibili valori U di Mann-Whitney, tra coppie di gruppi.

Sono le combinazioni 2 a 2 di  = 5, cioè 10:

 

Si ottengono i seguenti Uiq (numero di osservazioni del campione i che precedono le osservazioni del campione q, come riportati nella colonna 3):

 

(1)

(2)

(3)

(4)

GRUPPI

PRECEDENZE

U

U’

1-2

1 + 3 + 3

U12 = 7

U21 = 2

1-3

2 + 3 + 3

U13 = 8

U31 = 1

1-4

1 + 1 + 3

U14 = 5

U41 = 4

1-5

0 + 1 + 1

U15 = 2

U51 = 7

2-3

1 + 2 + 3

U23 = 6

U32 = 3

2-4

0 + 1 + 2

U24 = 3

U42 = 6

2-5

0 + 0 + 0

U25 = 0

U52 = 9

3-4

0 + 0 + 1

U34 = 1

U43 = 8

3-5

0 + 0 + 0

U35 = 0

U53 = 9

4-5

0 + 1 + 1

U45 = 2

U54 = 7

 

 

4- Si devono stimare anche le precedenze tra coppie di gruppi in ordine opposto rispetto a quello appena effettuato; nella simbologia utilizzata nel test di Mann-Whitney è il valore di U’; esso può essere ricavato rapidamente, ricordando la relazione

U’ =

Nei gruppi bilanciati dell’esempio, con

 si ottiene

U’ =

 la cui serie completa è riportata nella colonna 4.

Come in precedenza,

-          l’indice 12 vuole dire quante volte ogni valore del gruppo 2 è preceduto da valori del gruppo 1

-          l’indice 21 vuole dire quante volte ogni valore del gruppo 1 è preceduto da valori del gruppo 2

 

5 – Da questa duplice serie di U e U’ si ricavano i valori U.q (indicati nella colonna 1 della tabella successiva) di ogni gruppo,

 con

U.q =   per q = 1, …, k

 

Utilizzando gli addendi riportati nella colonna 2 (attenzione agli indici per distinguere U da U’),

 

(1)

(2)

(3)

(4)

U.1

U21 + U31 + U41 + U51

2 + 1 + 4 + 7

 = 14

U.2

U12 + U32 + U42 + U52

7 + 3 + 6 + 9

 = 25

U.3

U13 + U23 + U43 + U53

8 + 6 + 8 + 9

 = 31

U.4

U14 + U24 + U34 + U54

5 + 3 + 1 + 7

= 16

U.5

U15 + U25 + U35 + U45

2 + 0 + 0 + 2

 = 4

 

 

 i cui valori campionari corrispondono a quelli riportati nella colonna 3, si ottengono i 5 totali U.q  che sono riportati nella colonna 4.

 

6 – Tra essi, il valore massimo è quello della riga 3: U.3 = 31 che quindi contiene il picco, a conferma di quanto era stato possibile stimare con il semplice confronto tra le mediane campionarie.

Con campioni bilanciati, come nel caso in esame, questa individuazione è sicura.

Con campioni non bilanciati, si può ottenere che numeri differenti di confronti conducano a risultati differenti di U.q. Di conseguenza, si rendono necessari alcuni tentativi (indicati con r) per trovare la soluzione corretta.

Il valore di U.q ha una distribuzione di frequenza con i seguenti parametri:

-          il valore medio atteso (mUq) è

 - la sua varianza () è

Con i dati del campione  = 3  e 

 si stimano

 

 

Senza approfondire ulteriormente questi aspetti, appunto perché è stato considerato solamente il caso con campioni bilanciati, si passa alla stima di  con picco ignoto.

 

 

7 – Con r = 1, si ricorre alla stessa metodologia utilizzata per il picco noto. Da

 

U12

U13

U23

U54

U53

U43

A3

1

3

3

2

3

3

1

2

3

1

3

3

 

3

3

3

 

2

3

3

 

 

7

8

6

7

9

8

45

 

 si ottiene

Ap =

A3 = 7 + 8 + 6 + 7 + 9 + 8 = 45

 il risultato A3 = 45.

 

 

8 – Dalle formule generali


 

VALORI CRITICI DI  PER IL TEST DI MACK-WOLFE

IPOTESI NULLA CON PICCO IGNOTO

 

 

-           = numero di gruppi (da 3 a 6)

-           = numero di osservazioni per gruppo (da 2 a 10, eccetto per k = 3)

 

 

 

2

 

---

---

---

---

---

---

a=.10

a=.05

a=.01

1,915

2,195

2,554

a=.10

a=.05

a=.01

1,894

2,191

2,619

a=.10

a=.05

a=.01

1,964

2,226

2,643

 

3

 

a=.10

a=.05

a=.01

1,889

2,324

2,556

a=.10

a=.05

a=.01

1,903

2,213

2,700

a=.10

a=.05

a=.01

1,969

2,239

2,725

a=.10

a=.05

a=.01

2,040

2,242

2,733

 

4

 

a=.10

a=.05

a=.01

1,850

2,196

2,635

a=.10

a=.05

a=.01

1,912

2,180

2,708

a=.10

a=.05

a=.01

1,963

2,195

2,744

a=.10

a=.05

a=.01

1,939

2,265

2,862

 

5

 

a=.10

a=.05

a=.01

1,849

2,166

2,694

a=.10

a=.05

a=.01

1,951

2,221

2,738

a=.10

a=.05

a=.01

1,960

2,222

2,716

a=.10

a=.05

a=.01

1,989

2,251

2,851

 

6

 

a=.10

a=.05

a=.01

1,787

2,101

2,668

a=.10

a=.05

a=.01

1,903

2,160

2,646

a=.10

a=.05

a=.01

1,972

2,227

2,749

a=.10

a=.05

a=.01

1,964

2,242

2,817

 

7

 

a=.10

a=.05

a=.01

1,836

2,158

2,674

a=.10

a=.05

a=.01

1,898

2,205

2,744

a=.10

a=.05

a=.01

1,951

2,240

2,761

a=.10

a=.05

a=.01

1,950

2,257

2,808

 

8

 

a=.10

a=.05

a=.01

1,837

2,082

2,633

a=.10

a=.05

a=.01

1,890

2,184

2,756

a=.10

a=.05

a=.01

1,937

2,216

2,765

a=.10

a=.05

a=.01

1,981

2,256

2,819

 

9

 

a=.10

a=.05

a=.01

1,800

2,111

2,623

a=.10

a=.05

a=.01

1,891

2,201

2,794

a=.10

a=.05

a=.01

1,925

2,236

2,786

a=.10

a=.05

a=.01

1,978

2,266

2,770

 

10

 

a=.10

a=.05

a=.01

1,825

2,112

2,662

a=.10

a=.05

a=.01

1,876

2,172

2,771

a=.10

a=.05

a=.01

1,943

2,249

2,772

a=.10

a=.05

a=.01

1,982

2,278

2,863

 


 

VALORI CRITICI DI  PER IL TEST DI MACK-WOLFE

IPOTESI NULLA CON PICCO IGNOTO

 

 

-           = numero di gruppi (da 7 a 10)

-           = numero di osservazioni per gruppo (da 2 a 10)

 

 

 

2

 

a=.10

a=.05

a=.01

1,992

2,233

2,756

a=.10

a=.05

a=.01

2,016

2,292

2,723

a=.10

a=.05

a=.01

1,999

2,287

2,789

a=.10

a=.05

a=.01

2,021

2,315

2,818

 

3

 

a=.10

a=.05

a=.01

1,982

2,286

2,782

a=.10

a=.05

a=.01

2,021

2,297

2,821

a=.10

a=.05

a=.01

2,027

2,283

2,815

a=.10

a=.05

a=.01

2,026

2,315

2,802

 

4

 

a=.10

a=.05

a=.01

1,999

2,279

2,802

a=.10

a=.05

a=.01

2,039

2,310

2,866

a=.10

a=.05

a=.01

2,031

2,305

2,864

a=.10

a=.05

a=.01

2,031

2,331

2,910

 

5

 

a=.10

a=.05

a=.01

2,017

2,312

2,831

a=.10

a=.05

a=.01

2,022

2,289

2,798

a=.10

a=.05

a=.01

2,035

2,310

2,917

a=.10

a=.05

a=.01

2,025

2,319

2,874

 

6

 

a=.10

a=.05

a=.01

1,974

2,280

2,785

a=.10

a=.05

a=.01

2,027

2,339

2,885

a=.10

a=.05

a=.01

2,041

2,325

2,887

a=.10

a=.05

a=.01

2,027

2,297

2,912

 

7

 

a=.10

a=.05

a=.01

1,997

2,294

2,823

a=.10

a=.05

a=.01

2,034

2,321

2,928

a=.10

a=.05

a=.01

2,030

2,341

2,925

a=.10

a=.05

a=.01

2,046

2,347

2,922

 

8

 

a=.10

a=.05

a=.01

1,988

2,282

2,889

a=.10

a=.05

a=.01

2,034

2,315

2,875

a=.10

a=.05

a=.01

2,037

2,325

2,879

a=.10

a=.05

a=.01

2,031

2,343

2,895

 

9

 

a=.10

a=.05

a=.01

1,986

2,276

2,826

a=.10

a=.05

a=.01

2,021

2,305

2,874

a=.10

a=.05

a=.01

2,027

2,293

2,883

a=.10

a=.05

a=.01

2,050

2,380

2,948

 

10

 

a=.10

a=.05

a=.01

2,008

2,338

2,919

a=.10

a=.05

a=.01

2,028

2,333

2,893

a=.10

a=.05

a=.01

2,059

2,340

2,888

a=.10

a=.05

a=.01

2,032

2,351

2,905

 


 

 

 con

-            (nell’esempio: 3 + 3 + 3 = 9)

-            (nell’esempio: 3 + 3 + 3 = 9)

-          N =  (differente da N1 + N2: nell’esempio: 3 + 3 + 3 + 3 + 3 = 15)

-              e     = 5

 

 si ricavano

 

 

 

-          la media attesa (nella condizione che H0 sia vera)

-          e la sua varianza 

 

9 – Infine , mediante la formula generale

 e i risultati già ricavati

 si ottiene  = 2,353.

Questo risultato deve essere confrontato con i valori critici riportati nella tabella per picco ignoto. Con      = 5   e    = 3 alla probabilità  a = 0.05 è 2,239  e alla probabilità a = 0.01 è 2,725.

Poiché il valore calcolato (2,353) è maggiore di quello critico alla probabilità 0.05, si rifiuta l’ipotesi nulla. L’analisi dimostra che esiste una evidenza sufficiente per affermare che questa caratteristica aumenta con l’età verso le classi centrali, per poi diminuire con l’invecchiamento.

 

Un altro aspetto importante da rilevare è che con picco noto la probabilità (P < 0.01) era risultata inferiore a quella ricavata ora con picco ignoto (P < 0.05). E’ un concetto ampiamente discusso nei confronti multipli e che evidenzia i vantaggi che si ottengono nell’impostare l’analisi statistica sulla verifica di ipotesi formulate a priori, prima della raccolta dei dati, che dovrebbero sempre essere campionati con tale finalità specifica.

 

 

 

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007