METODI NON PARAMETRICI PER DUE CAMPIONI DIPENDENTI

 

 

8.2. Il test di McNemar, con la correzione di Edwards; stima della potenza.

 

 

Il test proposto da Quinn McNemar nel 1947 (con l’articolo Note on the sampling error of the difference between correlated proportions or percentages, pubblicato da Psychometrika 12, pp. 153-157 e ripreso nel volume  Psychological Statistics del 1962, 3rd ed., John Wiley, New York) verifica se un campione di individui, sottoposti a due diversi trattamenti oppure allo stesso trattamento in due tempi diversi, fornisce risposte statisticamente simili o significativamente differenti. Per l’applicazione di questo test,

-          si deve disporre di dati appaiati  e

-          le risposte devono essere nominali binarie.

 

In vari testi di statistica applicata è chiamato pure test per la significatività dei cambiamenti (McNemar test for significance of changes), poiché l'analisi della significatività utilizza solamente le risposte che hanno cambiato segno, passando da una situazione all’altra.

In biologia e medicina, può servire per valutare la condizione di benessere o malessere dello stesso gruppo di pazienti prima e dopo un intervento o la somministrazione di un farmaco. Nella ricerca ambientale, per una valutazione del gradimento (positivo o negativo) prima e dopo il risanamento o un restauro di una zona. In una azienda, serve per valutare le scelte dello stesso gruppo di individui tra due prodotti prima e dopo una campagna pubblicitaria oppure l’apprezzamento per una modifica della confezione, per una trasformazione del colore o del sapore di un farmaco.

Il procedimento del test può essere spiegato più facilmente mediante un esempio.

 

Si supponga che a un gruppo di persone, riuniti per un dibattito, sia stato chiesto individualmente se sono favorevoli (+) o contrari (-) all'energia nucleare, annotando la risposta di ognuno all’inizio della riunione. Si supponga sempre che, dopo la proiezione di filmati sull’argomento ed una discussione sui pericoli e i vantaggi dei diversi modi per produrre energia elettrica, agli stessi individui sia stato chiesto di esprimere ancora il loro pensiero (positivo o negativo).

Le risposte di ogni individuo sono riportate nell’elenco sottostante, che per praticità contiene solo quelle di 19 individui (indicati con lettere da A ad U), benché il test, poco potente, richieda campioni di dimensioni nettamente superiori.

 

Di ogni individuo è riportata la posizione (favorevole o contrario) prima e dopo il dibattito.


 

Individui

A

B

C

D

E

F

G

H

I

L

M

N

O

P

Q

R

S

T

U

Prima

+

+

+

-

-

+

-

-

+

+

+

+

+

-

+

+

-

-

+

Dopo

-

+

-

-

-

+

+

-

-

+

-

-

-

-

-

+

-

+

-

 

 

Si tratta di sapere se vi è stato un cambiamento significativo nella convinzione degli intervistati.

La logica del metodo è semplice e può essere illustrata con alcuni passaggi.

 

1 - I dati devono essere riportati in una tabella più sintetica dell’elenco precedente, classificando le risposte in 4 gruppi, che rappresentano le 4 combinazioni dei 2 segni positivi e dei 2 negativi.

Con i dati della tabella, i 19 individui del campione possono essere suddivisi in:

A)  4 persone che prima erano favorevoli (+) e dopo si sono dichiarate ancora favorevoli (+),

B)  8 persone che prima erano favorevoli (+) e dopo si sono dichiarate contrarie (-),

C)  2 persone che prima erano contrarie (-) e dopo si sono dichiarate favorevoli (+),

D)  5 persone che prima erano contrarie (-) e dopo si sono dichiarate ancora contrarie (-).

 

2 - I risultati devono essere riportati in una tabella 2 x 2, impostata come quella sottostante, nella quale è utile calcolare anche i totali:

 

 

 

DOPO

 

 

 

+

-

Totale

PRIMA

+

4

8

12

 

-

2

5

7

 

Tot.

6

13

19

 

 

3 - Il test verifica se l’esperimento ha indotto significativi cambiamenti di parere nel campione di individui interrogati nei due momenti differenti. Pertanto, si ignorano le persone che sono rimaste della stessa opinione, poiché esse non forniscono alcuna informazione sull’effetto del dibattito.

In modo più specifico, con i dati dell’esempio, si prendono in considerazione solo

- le 8 persone che da favorevoli (prima +) sono diventate contrarie (dopo -),

- le 2 persone che da contrarie (prima -) sono divenute favorevoli (dopo +).

 

 

4 - Chiamando A, B, C e D le osservazioni dei quattro gruppi e N il totale generale

 

 

 

DOPO

 

 

 

+

-

Totale

PRIMA

+

A

B

---

 

-

C

D

---

 

Tot.

---

---

N

 

 

 come nella tabella riportata, con il test si intende verificare se esiste una differenza significativa tra

-          la proporzione pB =  ( nell'esempio 8/19 = 0,421)

-          la proporzione pC =  ( nell'esempio 2/19 = 0,105)

 in un test bilaterale oppure unilaterale, in funzione della domanda espressa.

 

5 - Se è vera l'ipotesi nulla bilaterale (H0: il trattamento non determina un mutamento significativo nelle frequenze), coloro che hanno cambiato la loro risposta dovrebbero aver scelto a caso. Di conseguenza, il numero (e la proporzione) di coloro che sono passati dal segno positivo a quello negativo dovrebbe essere equivalente al numero (e alla proporzione) di coloro che hanno cambiato nell'altra direzione, dal negativo al positivo.

 

Per grandi campioni, la metodologia può essere derivata

-          dal test c2

-          dalla distribuzione Z.

 

Con il test c2 utilizzando la formula generale

 

c2 =

 

 si calcola il numero atteso nell'ipotesi che coloro che dovrebbero passare dal segno positivo (+) a quello negativo (-) debbano essere numericamente uguali a coloro che compiono il tragitto opposto.

Quindi

 

Il numero atteso di cambiamenti nelle due caselle è uguale alla media aritmetica dei due gruppi presi in considerazione

La significatività del cambiamento è stimata mediante  un valore d2  che è distribuito come il  con 1 gdl .

 Da

d2 =

 

 si ricava la formula generale abbreviata

 

d2 =

 

Come impostazione grafica, ad una lettura non attenta, la tabella può apparire identica a quelle di contingenza 2x2, utilizzate nel test c2. La procedura d'analisi inferenziale è parzialmente simile e per la significatività del risultato si utilizza la stessa distribuzione dei valori critici; di conseguenza, alcuni confondono il test di McNemar con il test .

Ma esistono differenze fondamentali:

-          il test  si applica a due campioni indipendenti: la tabella riporta la distribuzione di due gruppi diversi e il calcolo dei valori utilizza i quattro dati;

-          il test di McNemar si applica a due campioni dipendenti: la tabella riporta le risposte prima e dopo e il calcolo utilizza solamente i 2 valori in cui vi è stato cambiamento del segno.

 

Rispetto alle dimensioni del campione, permangono le stesse condizioni di validità del  .

In campioni di dimensioni medie, è utile la correzione per la continuità analoga a quella di Yates. Per questo test, si ricorre alla formula proposta da A. L. Edwards nel 1948, sviluppando i concetti di McNemar (vedi l’articolo Note on the “correction for continuity” in testing the significance of the difference between correlated proportions, pubblicato come quello di McNemar su Psychometrika 13, pp. 185-187).

 

Dalla formula generale con la correzione per la continuità (-0,5)

 

d2 =

 

 è possibile ricavare la formula abbreviata,

 

Per la significatività di d2 si utilizza sempre la distribuzione  con 1 gdl .

Questa ultima formula, seppure proposta per campioni di dimensioni non grandi, è da ritenere sempre valida, poiché in campioni di grandi dimensioni l’effetto della correzione diviene trascurabile.

 

In campioni grandi, sulla base della corrispondenza tra la distribuzione c2 e la distribuzione Z,

 è possibile utilizzare anche

Z =

dove

-           è la differenza tra le proporzioni di pB (con pB = B/N) e pC (con pC = C/N)

-           è la sua deviazione standard

 e la formula abbreviata

Z =

 

Con un approccio analogo alla formula generale precedente,

 in vari testi si trova

d =

 oppure

d =

secondo l’ipotesi (se maggiore la frequenza B oppure la frequenza C), con d distribuito come Z.

Questo ricorso alla distribuzione Z permette l’uso

-          sia di test bilaterali, come il c2,

-          sia di test unilaterali, classici della distribuzione Z e della distribuzione t di Student

 

In un test bilaterale, con ipotesi

H0: pB = pC          contro          H1: pB ¹ pC

 si rifiuta l’ipotesi nulla alla probabilità a se d ³ Za in una distribuzione bilaterale.

In un test unilaterale, con

H0: pB ³ pC          contro          H1: pB < pC

 si rifiuta l’ipotesi nulla alla probabilità a se d (negativo) £ - Za nella coda sinistra della distribuzione,

 mentre con

 H0: pB £ pC          contro          H1: pB > pC

 si rifiuta l’ipotesi nulla alla probabilità a se d (positivo)  ³ Za nella coda destra della distribuzione.

 

Il test di McNemar ha svariate applicazioni in molti settori della ricerca. Per un’analisi corretta è importante impostare correttamente i dati raccolti in una tabella 2 x 2.

Nella somministrazione di un placebo e di un farmaco allo stesso gruppo di individui, ovviamente in due tempi diversi, oppure nella situazione caso-controllo con due campioni naturalmente appaiati, i dati possono essere presentati come nella tabella

 

 

 

Farmaco

 

 

 

Migliorato

Non migliorato

Totale

Placebo

Migliorato

A

B

---

 

Non migliorato

C

D

---

 

Totale

---

---

N

 

 

Nella valutazione del gradimento di due prodotti da parte dello stesso campione di individui, le quattro possibili risposte possono essere presentate come nella tabella

 

 

 

Prodotto 2

 

 

 

Gradito

Non gradito

Totale

Prodotto 1

Gradito

A

B

---

 

Non gradito

C

D

---

 

Totale

---

---

N

 

 

In coppie, quali marito e moglie, che devono indicare il prodotto preferito, la tabella può diventare

 

 

 

Moglie

 

 

 

Prodotto  1

Prodotto  2

Totale

Marito

Prodotto  1

A

B

---

 

Prodotto  2

C

D

---

 

Totale

---

---

N

 

 

Utilizzando la distribuzione normale, è relativamente semplice stimare la potenza del test di McNemar, con le formule proposte congiuntamente dai tre autori  J. E. Connett, J. A. Smith e R. B. McHugh nel 1987 (nell’articolo Sample size and power for pair-matched case-control studies, pubblicato su Statist. Med. Vol. 6, pp. 53-59).

Si perviene alla stima della potenza a posteriori (1 - b) attraverso

 la stima di b con

Zb =

 dove

-          N è il numero totale di coppie di dati (A + B + C + D);

-          p è la proporzione minore tra pB (uguale a B/N)  e pC (uguale a  C/N);

-          p  è la grandezza della differenza che si desidera dimostrare significativa; è espresso come rapporto  B / C  oppure l’opposto C / B quando C è maggiore, poiché esso deve essere sempre maggiore di 1;

-          Za è il valore della normale standardizzata alla probabilità a prescelta; può essere bilaterale oppure unilaterale, in funzione dell’ipotesi alternativa espressa;

-          Zb è il valore della normale standardizzata in una distribuzione unilaterale; da essa si perviene alla probabilità b, cioè la probabilità di commettere un errore di II Tipo.

 

Utilizzando le informazioni raccolte in un test preliminare o studio pilota, ovviamente di piccole dimensioni date le sue finalità, per ottenere un test di McNemar significativo, alla potenza desiderata è possibile

-          la stima delle dimensioni minime del campione (N) o potenza a priori,

mediante

N =

 

 con la medesima simbologia utilizzata in precedenza.

 

ESEMPIO 1  (su un test unilaterale). Ad un gruppo di persone residenti in un centro storico, con un referendum nominativo è stato chiesto se erano favorevoli o contrari alla istituzione dell’isola pedonale, con forti limitazioni al traffico di autoveicoli: 119 si sono dichiarati favorevoli e 100 contrari.

A distanza di alcuni mesi, agli stessi individui è stata posta nuovamente la stessa domanda: 158 si sono dichiarati favorevoli e 61 contrari.

Una verifica individuale e nominativa dei voti assegnati prima e dopo l’evento fornisce la distribuzione riportata nella tabella seguente, dove con + si indicano i favorevoli e con - i contrari

 

 

+      DOPO      -

Totale

                 +

A   84

B   35

119

PRIMA     -

C   74

D   26

100

Totale

158

61

N   219

 

Si è avuto un mutamento significativo nell’opinione dei residenti interrogati?

 

Risposta.

E’ un test ad una coda, poiché si vuole verificare se la proporzione di coloro che hanno cambiato parere a favore (+) del provvedimento (pC = 74/219 = 0,338) sono significativamente più numerosi di quelli che lo hanno modificato (-) in senso contrario (pB = 35/219 = 0,160).

In modo più formale, si intende verificare

H0: pC £ pB          contro          H1: pC > pB

 

Utilizzando

d =

 si ottiene

d =

 

 un valore d = 3,73 che, nella distribuzione normale unilaterale, corrisponde a

-          una probabilità a < 0.001.

Di conseguenza, si rifiuta l'ipotesi nulla e si accetta l'ipotesi alternativa (H1): il cambiamento è stato significativo.

Il numero di coloro che hanno cambiato opinione da contrari a favorevoli (74) è significativamente maggiore di quello che sono da favorevoli sono diventati contrari (35).

 

ESEMPIO 2  (su un test bilaterale). In esperimento di tossicologia con 85 cavie, è stato confrontato l’effetto di due conservanti, somministrati alternativamente per un mese nel cibo, con i seguenti risultati

 

 

 

Conservante  A

 

 

 

Tollerato

Non tollerato

Totale

Conservante  B

Tollerato

A   28

B   12

---

 

Non tollerato

C   20

D   25

---

 

Totale

---

---

N   85

 

Esiste una differenza significativa  nella non tolleranza tra i due conservanti?

 

Risposta

E’ un test bilaterale, con

H0: pB = pC          contro          H1: pB ¹ pC

Utilizzando

 si ottiene

 un valore d2 = 1,53.

Nella distribuzione c2 al valore di 1,53 corrisponde una probabilità a compresa tra 0.25 (il cui valore critico è 1,323) e 0.10 (il cui valore critico è 2,706).

Utilizzando la formula

d =

 si ottiene

d =

 un valore d = -1,41.

Nella distribuzione normale bilaterale, ad esso corrisponde una probabilità a = 0,1586. E’ un valore che non corrisponde esattamente al doppio di quella stimata con l’altra formula, a causa della correzione di Edwards ad essa applicata.

Comunque è una probabilità alta e non è possibile rifiutare l’ipotesi nulla.

Può essere utile chiedersi

-          quale è la potenza di questo test e

-          quanti dati servirebbero affinché esso risulti significativo.

 

ESEMPIO 3 (sulla potenza di un test). Nell’esempio precedente, quale è la potenza del test, se si vuole verificare la significatività di un rapporto tra la frequenza di C  e quella di B pari a p =2?

 

Risposta. Con la formula

Zb =

 dove

-          N = 85

-          p = 0,141 poiché è la proporzione minore tra PB = 12/85 = 0,141  e  PC = 20/85 = 0,235

-          p = 2  è il rapporto tra B e C che si intende dimostrare significativo

-          Za che per a  = 0.05 bilaterale è uguale a 1,96

 si ottiene

Zb =

 

Zb =

 

 un valore di Zb = 0,04 (arrotondato alla seconda cifra decimale per usare la tabella Z). In una distribuzione unilaterale, nella coda destra della distribuzione ad esso corrisponde una probabilità b = 0,484; di conseguenza la potenza del test è 1-b = 0,516. La probabilità che il test risultasse significativo, benché la differenza esista, era solo del 51,5%.

 

ESEMPIO 4 (sul numero necessario affinché il test risulti significativo). Utilizzando gli stessi dati dell’esempio 2, non risultato significativo, quanti dati è necessario raccogliere per rifiutare l’ipotesi nulla con una potenza del 90% in un test in cui p = 2  e  a = 0.05 bilaterale?

 

Risposta. Con la formula

N =

 dove

-          p = 0,141 poiché nello studio pilota (sempre necessario per questa stima) è la proporzione minore tra PB = 12/85 = 0,141  e  PC = 20/85 = 0,235

-          p = 2  è il rapporto tra B e C che si intende dimostrare significativo

-          Za che per a  = 0.05 bilaterale è uguale a 1,96

-          Zb  che per b  = 0.10 unilaterale è uguale a 1,282

 si ottiene

 

N =

 

N =

 una stima di N = 219,4.

Servono almeno 220 coppie di dati.

 

Come il c2 può essere esteso da tabelle 2 x 2 a tabelle m x n passando da risposte di tipo binario a risposte che considerano più modalità, anche il test di McNemar può essere esteso

-          al caso di risposte a tre vie (come: favorevole, incerto, contrario),

-          a più vie (come: molto favorevole, favorevole, incerto, contrario, molto contrario),

 ovviamente sempre in tabelle quadrate

Questo test è chiamato estensione del test di McNemar o test di Bowker ed è presentato nel capitolo relativo a k campioni.

 

 

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007