METODI NON PARAMETRICI PER UN CAMPIONE

 

 

 

7.14.  IL TEST DI GOSSET PER LA ETEROGENEITA’ DI POISSON IN CONTEGGI; IL TEST PER L’INDICE DI DISPERSIONE E IL GRAFICO DI ELLIOTT

 

 

Nel conteggio di popolazioni di batteri in microbiologia, di animali o vegetali che vivono in superfici della stessa dimensione nella ricerca ambientale, di globuli rossi o di globuli bianchi in medicina e biologia, di mutanti in genetica, si pone il problema di verificare se i conteggi (X1, X2, …Xk) ottenuti in n prove seguono la distribuzione di Poisson.

Può anche essere il caso di eventi che avvengono nel tempo oppure di elementi che hanno comunque una successione lineare, come in un percorso stradale. Ad esempio, il numero di ricoveri settimanali per una certa malattia, misurato con costanza nell’arco di uno o due anni (quindi 50-100 frequenze); oppure il numero di incidenti nell’arco di un quinquennio in tratti di strada relativamente brevi, di lunghezza costante (per esempio pari a 2-4 Km) per un tragitto di un centinaio di Km, al fine di valutare se ogni tratto avvengono con frequenza simile.

Dove c’è motivo di dubitare che tali conteggi siano distribuiti in modo casuale, come in popolazioni animali che vivono in gruppo o sono distribuiti in modo uniforme sul territorio, dopo aver calcolato

 la media campionaria ()

 

 ritenendola la stima migliore di quella incognita della popolazione (m)

 si può ricavare la distribuzione teorica di Poisson con

 

 

 in cui  m = np   e   s2 = npq.

Poiché (p +q) = 1   e   p tende a 0, si ricava che media e varianza sono uguali (m = s2).

 

Già nel 1907 W. S. Gosset (Student, dallo pseudonimo con cui firmò il suo articolo del 1908 su una nuova distribuzione che sarà chiamata t da Fisher) ha proposto un metodo per valutare la presenza di errori nei conteggi in microbiologia (vedi di W. S. Gosset del 1907 l’articolo On the error of counting with a haemocytometer, pubblicato su Biometrika, Vol. 5, pp.351-360). Ripreso anche recentemente da vari testi a diffusione internazionale, il test è utilizzato per stabilire statisticamente se una tecnica di conteggio può essere ritenuta corretta.

 

Quando si prepara il materiale per un conteggio batteriologico, la sospensione potrebbe essere stata mescolata in modo non adeguato, i volumi inoculati non essere uguali, la crescita sulle culture non essere avvenuta con la stessa intensità oppure essere iniziata in tempi differenti. Sono tutti casi in cui le singole presenze sono determinate da medie reali (m) differenti, anche se ignote; quindi, il campione di conteggi non ha sempre la stessa media.

Ne deriva la presenza di eterogeneità dei conteggi osservati, che può essere valutata con un test c2 mediante la quantità

 

Se è vera l’ipotesi nulla

H0: la media (m) della popolazione è costante

 

 i risultati dei singoli conteggi sono distribuiti in accordo con la distribuzione chi quadrato, con gradi di libertà uguali a n – 1.

E’ chiamato test di Poisson di eterogeneità o di dispersione.

E’ uno sviluppo della formula generale del chi quadrato

 

 dove

-  i singoli conteggi osservati (Ossi) dovrebbero discostarsi dalla loro media generale (Atti) solo per quantità casuali.

 

E’ il quadrato della distribuzione normale

 poiché

 

ESEMPIO 1.  Peter Armitage e Geoffry Berry nel loro testo del 1994 (Statistical Methods in Medical Research, Blackwell Scientific Publication Limited, Oxford) tradotto in Italiano nel 1996 (con il titolo Statistica Medica. Metodi statistici per la ricerca in Medicina, edito da McGraw-Hill, Libri Italia, Milano,  XIX + 619 pp.) riportano e illustrano nei dettagli l’esempio di Gosset.

 

In 20 quadrati dell’emocitometro sono state contate le cellule di lievito:

 

Quadrato

1

2

3

4

5

6

7

8

9

10

Numero di cellule

2

4

4

8

3

3

5

6

7

7

 

Quadrato

11

12

13

14

15

16

17

18

19

20

Numero di cellule

2

7

4

8

5

4

4

1

5

7

 

Con  = 20   e   = 96

 la media

= 4,8

 risulta uguale a 4,8

 e il chi quadrato con 19 gdl

 = 16,92

 risulta uguale a 16,92.

Dalla tabella dei valori critici del chi quadrato, si ricava che a un c2 = 16,92 con gdl = 19 corrisponde una probabilità P @ 0.60

E’ una probabilità molto alta. Si deve dedurne che nei risultati del conteggio non è presente alcuna indicazione di eccesso di variabilità, rispetto a quella attesa dalla distribuzione poissoniana.

Nel commento a questo metodo, Armitage e Berry evidenziano:

di solito il test è unilaterale a destra, poiché quando è presente eterogeneità il valore del chi- quadrato è maggiore di quello critico; come nel caso dell’esempio, si può rifiutare l’ipotesi nulla solo quando il valore del  è maggiore di quello tabulato alla probabilità a prefissata (0.05; 0.01; 0.001) ovviamente collocata interamente nella zona destra, per cui la probabilità di rifiutare l’ipotesi nulla diventa maggiore;

-  in altre condizioni, si vuole invece verificare se la variabilità è minore di quanto atteso, in quanto è stato ipotizzata una distribuzione uniforme, almeno in modo tendenziale; si rifiuta l’ipotesi nulla quando il valore del  è minore di quello tabulato alla probabilità a prefissata nella coda sinistra, riportate simmetricamente alle tre precedenti, cioè come a = 0.999,  a = 0.99  e  a = 0.95;

-   questo test è valido per campioni grandi; quindi, convenzionalmente, se  5   e   n > 15.

 

Il concetto che la variabilità osservata in una serie di conteggi è inferiore a quella attesa merita un chiarimento. Nella ricerca di laboratorio, in svariate situazioni avviene che il ricercatore consideri errato il conteggio che gli sembra troppo distante dal valore medio. Già nel 1950, H. O. Lancaster con l’articolo Statistical control in haematology (sulla rivista J. Hyg. Camb. Vol. 48, pp.402-417) evidenziava che, nel conteggio di globuli rossi, tecnici inesperti tendevano a omettere i valori estremi o a ripetere la stessa osservazione, ritenendo la precedente errata. Ignorando la teoria della distribuzione poissoniana, essi sottostimavano la variabilità casuale, pensando che in particolare certi valori alti fossero errati.

Anche oggi, in alcune situazioni diventa difficile effettuare un conteggio esatto: quando il numero di individui è alto, i globuli tendono a sovrapporsi. Quindi per difficoltà tecniche i valori alti venivano ignorati e volutamente tralasciati. In sostituzione di questi aggregati, era utilizzato un caso vicino, dove i globuli potevano essere contati con facilità. Questi tecnici pensavano che, effettuando una scelta casuale del sostituto, il risultato non fosse modificato. In realtà si determinava una distribuzione tronca, la cui media risultava inferiore al reale, in quanto carente dei valori maggiori.

 

Per comprendere esattamente la differenza tra una distribuzione campionaria e quella attesa secondo la legge di Poisson, come nella tabella successiva

-  dopo aver raggruppato i valori in classi (prima riga),

-  calcolare la distribuzione di frequenza dei dati osservati (seconda riga);

-  poi, con lo sviluppo della formula poissoniana, calcolare le frequenze relative attese sulla base della media osservata  (terza riga),

 mediante

-  infine, calcolare la frequenze assolute attese (Pi x 20 come nella quarta riga)


 

Classe

0

1

2

3

4

5

6

7

8

³9

Totale

Frequenze Osservate

0

1

2

2

5

3

1

4

2

0

20

P(i)

0,008

0,039

0,094

0,151

0,181

0,174

0,139

0,097

0,057

0,060

1,0

Frequenze Attese

0,16

0,78

1,88

3,02

3,62

3,48

2,78

1,94

1,14

1,20

20,0

 

Dal semplice confronto delle frequenze osservate con quelle attese, nel caso dell’esempio si evidenzia che le differenze più importanti sono:

1 -  nella classe 4: per 5 volte sono stati contati 4 individui, mentre secondo l’atteso di Poisson questo conteggio doveva comparire meno di 4 volte (esattamente 3,5);

2 -  nella classe 7: per 4 volte sono stati contati 7 individui, mentre secondo l’atteso questo conteggio doveva comparire circa 2 volte (esattamente 1,9);

3 -  nella classe ³9: non sono mai stati contati 9 o più individui, mentre secondo l’atteso questo conteggio doveva comparire circa 1 volta (esattamente 1,2).

Il test statistico precedente (con  = 16,92 e una probabilità ) dimostra che le differenze descritte in realtà sotto l'aspetto statistico sono totalmente trascurabili.


Casuale                                      Aggregata                                     Regolare


L’analisi della casualità di una distribuzione, ossia la verifica statistica se una distribuzione osservata può essere considerata casuale, aggregata oppure regolare come nelle tre figure precedenti, nella ricerca ambientale e biologica durante gli ultimi decenni è stata ripresa da vari studiosi, con metodi leggermente differenti, ma concetti identici, a quelli di Gosset.

 

Già nella presentazione delle distribuzioni teoriche discrete,  era stato ripetutamente evidenziato che

-   popolazioni di dati che producono campioni con varianze uguali alle medie sono casuali,

-   popolazioni di dati che producono campioni con varianze maggiori delle medie sono aggregate o raggruppate,

-  popolazioni di dati che producono campioni con varianze minori delle medie sono distribuite in modo regolare o equispaziato.

Come stima della variabilità di conteggi, è proposta

 la misura

che è chiamata indice di dispersione (index of dispersion).

Ovviamente, per decidere se la varianza calcolata su conteggi campionari è significativamente maggiore oppure minore della media, si deve ricorrere a un test statistico.

Trattandosi di una misura di dispersione o variabilità, il più adatto è il chi quadrato, mediante la relazione

 dove,

-  sono i gradi di libertà.

 

Se le tre figure rettangolari precedenti fossero un territorio ampio, la differente distribuzione territoriale può essere quantificata e analizzata in modo semplice. Dopo aver suddiviso ogni rettangolo in tanti aree piccole di superficie identica, come possono essere una trentina di quadrati, si conta il numero di individui entro ogni quadrato. Con questi trenta dati, si calcolano l’indice di dispersione e il valore chi quadrato che ha 29 gradi di libertà.

E’ facile dedurre che

-  nel caso della distribuzione regolare, ognuno dei trenta quadrati avrà approssimativamente lo stesso numero di dati; quindi varianza tendente a zero e  un  tendente a zero;

-  nel caso della distribuzione aggregata, i trenta quadrati avranno sia frequenze molto sia altre molto basse; quindi varianza massima e un  tendente a un valore alto;

- nel caso della distribuzione casuale, i trenta quadrati avranno numero con variabilità media; quindi varianza media e ugualmente un  tendente a un valore medio.

 

La formula che utilizza l’indice di dispersione per calcolare il  in realtà coincide esattamente con la proposta di Gosset:

 

L’uso delle tabelle del  spesso è sostituito da grafici, che visualizzano meglio il risultato del test.


 

In letteratura spesso sono  utilizzati i grafici pubblicati da J. M. Elliott nel 1977 nell’articolo Some methods for the statistical analysis of samples of benthic invertebrates (su Freshwater Biological Station Association, Scientific Publication No 25, pp: 1-142), in particolare se l’analisi della dispersione è estesa contemporaneamente a più popolazioni.

 

L'ultima figura riportata è una rappresentazione grafica dei valori critici del test chi quadrato, applicato all’indice di dispersione, per la probabilità a = 0.05 bilaterale con campioni fino a n = 30.

I valori originali sono riportati nella tabella della pagina successiva.

Come intuitivo, un valore del test  che, in funzione dei gradi di libertà  n, è identificato da un punto sul grafico che cade

- nella zona superiore (raggruppamento), indica che la distribuzione degli eventi è aggregata;

- nella zona mediana (casuale), indica che la distribuzione degli eventi è random;

- nella zona inferiore (regolare), indica che la distribuzione degli eventi è uniforme.

 Inoltre si ha una chiara indicazione dell’intensità del fenomeno.

Quando il campione è grande (per alcuni n >30, per altri n >100) la figura precedente (che per motivi grafici e per frequenza d’uso di ferma a n = 30) non può essere utilizzata. Come già indicato nella presentazione della distribuzione chi-quadrato, è possibile utilizzare l’approssimazione alla normale a causa della relazione

Alla probabilità a = 0.05, la distribuzione spaziale degli individui o quella temporale degli eventi è

- da considerare random se il valore di è compreso tra +1,96 e –1,96,

- da considerare aggregata se il valore di è maggiore di +1,96,

- da considerare uniforme se il valore di è minore –1,96.

 

ESEMPIO 2.   Per analizzare il tipo di infestazione di parassiti in una specie di uccelli,  in 8 di essi nelle penne sono stati contati i seguenti parassiti

 

12

6

19

5

17

7

10

5

 

Come è il tipo di infestazione di quel parassita?  Uniforme, random  oppure aggregata?

Risposta.    Dai dati osservati si ricavano la media e la varianza

 = 10,1         = 29,8


 

VALORI CRITICI DELLA DISTRIBUZIONE c2  (con gdl da 1 a 30)

 

Le due colonne esterne riportano i valori per la probabilità a = 0.01 bilaterale

 

Le due colonne interne riportano i valori per la probabilità a = 0.05 bilaterale

 

 

n

.995

 

.975

 

.025

 

.005

n

1

0.000

0.001

5.024

7.879

1

2

0.010

0.051

7.378

10.597

2

3

0.072

0.216

9.348

12.838

3

4

0.207

0.484

11.143

14.860

4

5

0.412

0.831

12.833

16.750

5

6

0.676

1.237

14.449

18.548

6

7

0.989

1.690

16.013

20.278

7

8

1.344

2.180

17.535

21.955

8

9

1.735

2.700

19.023

23.589

9

10

2.156

3.247

20.483

25.188

10

11

2.603

3.816

21.920

26.757

11

12

3.074

4.404

23.337

28.299

12

13

3.565

5.009

24.736

29.819

13

14

4.075

5.629

26.119

31.319

14

15

4.601

6.262

27.488

32.801

15

16

5.142

6.908

28.845

34.267

16

17

5.697

7.564

30.191

35.718

17

18

6.265

8.231

31.526

37.156

18

19

6.844

8.907

32.852

38.582

19

20

7.434

9.591

34.170

39.997

20

21

8.034

10.283

35.479

41.401

21

22

8.643

10.982

36.781

42.796

22

23

9.260

11.689

38.076

44.181

23

24

9.886

12.401

39.364

45.559

24

25

10.520

13.120

40.646

46.928

25

26

11.160

13.844

41.923

48.290

26

27

11.808

14.573

43.194

49.645

27

28

12.461

15.308

44.461

50.993

28

29

13.121

16.047

45.722

52.336

29

30

13.787

16.791

46.979

53.672

30

 


 


 

 

 

Confronto tra le curve

-  della distribuzione di frequenze di Poisson  (a sinistra) e

-  della distribuzione di frequenze della binomiale negativa (a destra).

La prima ha varianza uguale alla media, la seconda ha varianza maggiore della media.

La prima determina valori medi dell’indice di dispersione, mentre la seconda determina valori grandi.


 

La semplice osservazione che la media è superiore alla varianza e in modo così evidente rappresenta una chiara indicazione che la distribuzione non è poissoniana ma binomiale negativa.

L’indice di dispersione è

 uguale a 2,95

Per decidere se la varianza calcolata è significativamente maggiore (ma in un test bilaterale, in quanto prima del conteggio in questo caso non era supposto il tipo di aggregazione), il test chi quadrato con  = 7

 risulta  = 20,65.

Nella tabella dei valori critici con gdl = 7 alla probabilità a = 0.005 si trova  = 20,278.

Di conseguenza si può rifiutare l’ipotesi nulla (la distribuzione è casuale) e accettare l’ipotesi alternativa che non la sia.

Riportato nel grafico, il punto con coordinate  = 20,65  e    = 7  indica che l’infestazione di questo parassita è di tipo aggregato.

 

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007