METODI NON PARAMETRICI PER DUE CAMPIONI INDIPENDENTI

 

 

9.7.  CALCOLO DELLE PROBABILITA’ ASSOCIATE AI VALORI DI T, POTENZA (1-b, N) E ROBUSTEZZA DEL TEST DI WILCOXON-MANN-WHITNEY

 

 

Con due campioni indipendenti di dimensioni  + = N, la probabilità associata ad ogni valore di T può essere fatta derivare con semplicità dal calcolo combinatorio. Nella pratica, a causa del tempo richiesto, è vantaggioso utilizzare un programma informatico. In questo corso ne sono illustrati i concetti, limitando l’applicazione a un esempio con dimensioni minime.

Nella condizione che l’ipotesi nulla H0 sia vera e che la scala utilizzata sia continua, quindi senza ties, assumendo come esempio due campioni di dimensioni  = 2  e  = 4 si stimano quante sono tutte le possibili risposte sperimentali, mediante lo sviluppo della combinazione

 dove

-          N = 6

-           = 2, in quanto il minore tra  e .

Poiché le combinazioni

  sono 15, ognuna ha probabilità  P = 1/15.


Nella tabella successiva sono riportate tutte le 15 combinazioni possibili e il corrispondente valore T:

 

 

Comb.

Ranghi

 

T

1

2

3

4

5

6

1)

A

A

B

B

B

B

3

2)

A

B

A

B

B

B

4

3)

A

B

B

A

B

B

5

4)

A

B

B

B

A

B

6

5)

A

B

B

B

B

A

7

6)

B

A

A

B

B

B

5

7)

B

A

B

A

B

B

6

8)

B

A

B

B

A

B

7

9)

B

A

B

B

B

A

8

10)

B

B

A

A

B

B

7

11)

B

B

A

B

A

B

8

12)

B

B

A

B

B

A

9

13)

B

B

B

A

A

B

9

14)

B

B

B

A

B

A

10

15)

B

B

B

B

A

A

11

 

Riassumendo in una tabella più schematica i valori di T elencati, si ottiene la seguente distribuzione di probabilità ad essi associate:

 

Valore di T

Probabilità

3

1/15

4

1/15

5

2/15

6

2/15

7

3/15

8

2/15

9

2/15

10

1/15

11

1/15

TOTALE   =   15/15

 

 

Per rifiutare l’ipotesi nulla, le probabilità devono essere cumulate. Ad esempio con T = 10 in un test unilaterale, la probabilità è P = 2/15.

Quando sono presenti dei ties, cioè due o più misure identiche nei due differenti gruppi a confronto, come nella tabella successiva, in cui 1,8 è riportato due volte, una nel gruppo A e una nel gruppo B,

 


 



Gruppo A

1,4

1,8

---

---

Gruppo B

0,3

1,8

2,1

5,4

 

 per il calcolo delle probabilità si devono stimare i ranghi a gruppi riuniti. In questo caso si ottiene

 

Rango

1

2

3,5

3,5

5

6

Valore

0,3

1,4

1,8

1,8

2,1

5,4

Area

B

A

B

A

B

B

 

Nelle 15 combinazioni possibili, il tie modifica i valori di T come nella tabella seguente

 

 

Comb.

Ranghi

 

T

1

2

3,5

3,5

5

6

1)

A

A

B

B

B

B

3

2)

A

B

A

B

B

B

4,5

3)

A

B

B

A

B

B

4,5

4)

A

B

B

B

A

B

6

5)

A

B

B

B

B

A

7

6)

B

A

A

B

B

B

5,5

7)

B

A

B

A

B

B

5,5

8)

B

A

B

B

A

B

7

9)

B

A

B

B

B

A

8

10)

B

B

A

A

B

B

7

11)

B

B

A

B

A

B

8,5

12)

B

B

A

B

B

A

9,5

13)

B

B

B

A

A

B

8,5

14)

B

B

B

A

B

A

9,5

15)

B

B

B

B

A

A

11

 

La tabella conclusiva delle probabilità associate ad ogni valore di T diventa

 

Valore di T

Probabilità

3

1/15

4,5

2/15

5,5

2/15

6

1/15

7

3/15

8

1/15

8,5

2/15

9,5

2/15

11

1/15

TOTALE   =   15/15

E’ plurimodale e in essa sono eliminati alcuni valori di T presenti in precedenza, mentre ne compaiono altri (con i dati dell’esempio, non compaiono più T = 4 e T = 10, mentre compaiono T = 4,5  T = 5,5 ecc...)

Nella rappresentazione grafica, le due distribuzioni delle probabilità associate ai valori di T diventano rispettivamente

 


Probabilità associata ad ogni valore di T con  = 2,  = 4 e senza ties

 


Probabilità associata ad ogni valore di T con  = 2,  = 4 e con un ties

 


Come nel caso del T per un campione, è facile evidenziare che per alcuni valori di T le probabilità sono modificate. Ad esempio

-          per T £ 4 la probabilità non è più 2/15 ma 1/15,

-          per T £ 5 la probabilità non è più 4/15 ma 3/15,

-          per T £ 6 la probabilità rimane sempre 6/15.

Anche in questo caso si evidenzia che complessivamente l’effetto è ridotto.

 

 

La potenza (power) di questo test non parametrico,

Potenza = 1- b = probabilità di rifiutare H0, quando è falsa

 può essere stimata in modo approssimato con la distribuzione normale standardizzata (Zb), quando la distribuzione dei ranghi può essere ritenuta approssimativamente normale.

Con un campione abbastanza grande e senza ties, è possibile stimare la probabilità di b

 con

 dove

-           = numero di osservazioni del campione minore,

-           = numero di osservazioni del campione maggiore,

-           = numero totale di osservazioni ( + ),

-          d = differenza (m1 - m2) della quale si vuole verificare la significatività,

-          s deviazione standard della popolazione.

Abitualmente d/s sono presi in modo congiunto, per valori che variano da 0.2 a 3. E’ una procedura che permette di ridurre il numero di casi.

 

Ad esempio, con   = 7   e   = 7 come ‘è possibile verificare sulla tabella dei valori critici si rifiuta l’ipotesi nulla alla probabilità a = 0.05 in un test unilaterale quando T ³ 66.

Se  d = m1 - m2 = 4   e   = 16,  con Z0.05 = 1,645 il valore di Zb approssimativamente

è

 =  = 0,12

 

 Z = 0,12 alla quale nella coda destra della distribuzione corrisponde una probabilità P = 0.45.

La potenza (1-b) di questo esempio è 1 - 045 = 0.55.

Sono misure approssimate, quando il campione è piccolo come quello utilizzato nell’esempio. Valori esatti della potenza per piccoli campioni sono stati calcolati da R. C. Milton nel 1970 (vedi il volume Rank Order Probability, pubblicato da John Wiley, New York)

In esso la potenza di un test con questi parametri risulta P = 0.635

 

Per la potenza a priori, cioè la stima delle dimensioni minime (N) del campione affinché il test risulti significativo alla probabilità a predeterminata  e con il rischio b prefissato, può essere calcolata con la formula proposta da G. E. Noether nel 1987 (con l’articolo Sample size determination for some common nonparametric tests, pubblicato su Journal of the American Statistical Association, Vol. 82, pp.645-647):

 dove, oltre alla consueta simbologia,

-          d deve essere maggiore di 0,5

-          c è la proporzione del campione minore n1 sul numero totale (c = n1/N).

Lo sbilanciamento del campione determina un aumento di N, per mantenere la stessa potenza del test.

Riprendendo l’esempio del testo di Hollander e Wolfe più volte citato, nel caso di

-          due campioni bilanciati  =  quindi c = 0,5

-          d = 0.7 in un test unilaterale con a = 0.05 quindi Za = 1,645

-          la potenza 1-b di almeno 0.90 quindi b = 0.10 e Zb = 1,28

 si stima

 

 N = 71,33 quindi, per un principio di cautela,  =  = 36

 

Se le due distribuzioni campionarie differiscono nella variabilità o nella forma della distribuzione, le probabilità sono modificate come avviene per il test parametrico t di Student.

Questa stima di N, proposta per il test U di Mann-Whitney, è estesa da Noether al test di Wilcoxon per due campioni.

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007