CAP III - ANALISI DELLE FREQUENZE

 

 

3.11.   IL CHI QUADRATO CON IL METODO DI COCHRAN E DI MANTEL-HAENSZEL

 

 

Quando si dispone di una serie di tabelle 2 x 2, quindi una distribuzione di frequenze a tre dimensioni, un metodo per valutare l’associazione tra due variabili categoriali, raccomandata da F. Yates nel 1955 (nell’articolo The use of transformations and maximum likelihood in the analysis of quantal experiments involving two tratments, pubblicato su Biometrika, 42, pp. 382-403) e da J. L. Fleiss nel 1970 (On the asserted invariance of the odds ratio, pubblicato su Brit. J. prev. soc. Med., 24, pp. 45-46) è la cosiddetta differenza standardizzata

 

dove

  p1   e   p2    sono rispettivamente le frequenze relative dei due campioni a confronto,

     è la media ponderata delle due frequenze relative (vedi cap. III).

 

Estesa a più coppie di gruppi a confronto, come possono essere k tabelle 2 x 2, con misure di associazione la differenza standardizzata diventa

 

e il suo errore standard e.s.(dk) è

 

e.s.(dk) =

 

 dal quale si ricava

Derivato dal metodo che, per grandi campioni, utilizza la distribuzione z e sulla base della relazione

il metodo del c2 proposto da W. G. Cochran nel 1954 (nell’articolo Some methods of strengthening the common c2 tests, pubblicato da Biometrics, vol. 10, pp. 417-451)

 nel caso di due campioni è

 

 e nel caso di k campioni diventa

 

 

Lo stesso risultato è ottenuto con la formula abbreviata

dove wk e dk sono calcolati con le formule appena presentate.

 

ESEMPIO.  Un’applicazione di questi concetti può essere tratta dal volume di Joseph L. Fleiss del 1973 (Statistical Methods for Rates and Proportions, John Wiley & Sons, New York, p. IX + 223). L’impostazione dell’esempio è stato leggermente variata, affinché la sua utilizzazione nella ricerca ambientale fosse meglio compresa.

La percentuale di persone con asma o disturbi respiratori in genere è ritenuta un indicatore dell’inquinamento atmosferico; ma questi sintomi possono essere determinati anche da allergie ai pollini, la cui diffusione dipende dalla stagione.  Per valutare la significatività delle differenze tra due zone, tenendo in considerazione la variabilità stagionale, con visite dell’ufficiale sanitario nelle scuole elementari di due zone della stessa città è stata valutata la frequenza di alunni con malattie polmonari, ripetendo la verifica in tre stagioni diverse (autunno, inverno, primavera).

I risultati possono essere presentati con tre tabelle 2 x 2, ognuna relativa ad una rilevazione:

 

Rilevazione  I

 

Diagnosi

Z

 

Sani

Mal.

Tot

O

A

67

38

105

N

B

72

33

105

A

Tot

139

71

210

 


Rilevazione  II

 

Diagnosi

Z

 

Sani

Mal.

Tot

O

A

108

44

152

N

B

113

61

174

A

Tot

221

105

326

 

Rilevazione  III

 

Diagnosi

Z

 

Sani

Mal.

Tot

O

A

102

43

145

N

B

112

33

145

A

Tot

214

76

290

 

Risposta:

I - I dati di queste tre tabelle possono essere presentati in modo più schematico, ma con la stessa quantità d’informazione, in una tabella unica:

Proporzioni di individui affetti da malattie polmonari sul numero di individui campionati

 

 

Zona  A

Zona  B

Rilevazione

pkA

nkA

PkB

NkB

I

0,362

105

0,314

105

II

0,289

152

0,351

174

III

0,297

145

0,228

145

 

Essa offre il vantaggio di evidenziare meglio i dati, per quantificare i diversi valori del chi-quadrato con il metodo di Cochran.

 

II - A questo scopo,  con le formule precedenti, si calcolano le quantità riportate nella tabella

 

1

2

3

4

5

6

7

Rilevazione

I

0,048

0,338

0,215

210

11,75

2,53

0,54

II

-0,062

0,322

-0,284

326

17,69

-5,02

1,43

III

0,069

0,263

0,356

290

14,06

5,00

1,78

Totale

-----

-----

-----

-----

43,50

2,51

3,75

 

 

Limitando la dimostrazione dei vari passaggi solo alla II rilevazione

 

1)                              = 0,289 – 0,351 = -0,062

 

2)                                =

 

3)                                =

 

4)                               = 326

 

5)                                =

 

6)                                =  = -5,02

 

7)                                =  = 1,43

 

 

III - L’analisi dei risultati (ultima colonna dell’ultima tabella) permette di concludere che non sono significativi

-          nessuno dei tre valori di chi quadrato (0,54;  1,43;  1,78), ognuno con 1 gdl,

-          né il chi quadrato totale (3,75) con 3 gdl.

 

 

Il test di Cochran permette di scomporre questo chi quadrato con k gdl, quanti sono le tabelle 2 x 2. Con il test  detto per l’omogeneità delle differenze standardizzate, è possibile verificare se le tre rilevazioni hanno dato risposte omogenee o significativamente differenti tra le tre stagioni,

mediante la formula

IV - Con i dati dell’esempio

il chi quadrato per l’omogeneità risulta uguale a 3,605 con 2 gdl; di conseguenza, non è significativo (infatti per a = 0.05 il valore critico del c2 è uguale a 5,99).

 

 

V - La significatività della differenza d complessiva tra le due zone nella proporzione di persone ammalate è ottenuta attraverso la stima di d

 

e del suo errore standard  e.s.(d)

 

Il valore del chi quadrato per verificare la significatività di questa differenza media standardizzata,

cioè dell’associazione tra malattia e zona in complesso è

 

risulta uguale a 0,146 con 1 gdl.

La conclusione è che non esiste una differenza significativa nella frequenza relativa di ammalati nelle due zone. Tenendo presente i diversi gdl, si può sostenere che è maggiore la differenza tra stagioni che tra zone, seppure nessuna delle due sia risultata significativa.

 

Il metodo del c2 proposto da N. Mantel e W. Haenszel nel 1959 (con l’articolo Statistical aspects of the analysis of data from  retrospective studies of disease pubblicato su J. Matl. Cancer Inst., 22, pp. 719-748), reso più generale da N. Mantel nel 1963 (con l’articolo Chi-square tests with one degree one freedom. Extension of the Mantel-Haenszel procedure, pubblicato su Journal of the American Statistical Association, vol. 58, pp.690-700)  può essere visto come la correzione di quello di Cochran per piccoli campioni.

 

Utilizzando la stessa impostazione di Cochran, nella parte finale

 

apporta una correzione

-          sia a wk

-          sia a dk

 

togliendo 1 a nk, (il numero di osservazioni del gruppo k).

 

Quando il numero di dati è grande, la differenza dal metodo precedente è assolutamente trascurabile; diviene relativamente importante, quando il campione è di piccole dimensioni.

Utilizzando gli stessi dati dell’esempio precedente, si ottiene la correzione delle colonne

dk   e   wk

 

Rilevazione

I

0,048

0,338

0,214

210

11,80

2,53

0,54

II

-0,062

0,322

-0,283

326

17,72

-5,02

1,43

III

0,069

0,263

0,355

290

14,09

5,00

1,78

Totale

-----

-----

-----

-----

43,61

2,51

3,75

 

Poiché il campione utilizzato può essere considerato grande, se il calcolo è effettuato con due sole cifre decimali, il valore del chi quadrato di ogni rilevazione e quello totale (3,78) restano invariati.

  

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007