PROPORZIONI E PERCENTUALI, RISCHI, ODDS E TASSI
5.15. IL RAPPORTO TRA DUE PROPORZIONI (R): INTERVALLO DI CONFIDENZA E SIGNIFICATIVITA’; FORMULA TEST-BASED DI MIETTINEN PER R.
Vari concetti illustrati in questo capitolo sono presentati anche in altri. La differenza tra due proporzioni, trattata nei paragrafi precedenti, è già stata esposta nel capitolo sul chi-quadrato; il rapporto tra due proporzioni e tra due odds, discusso in questo paragrafo, è riproposto nel capitolo sulle misure di associazione. Non si tratta di una banale duplicazione. Anche quando i concetti sono identici e i metodi sono sovrapponibili, l'approccio è differente. Il confronto tra essi serve per conseguire una visione più ampia del problema, che è didatticamente utile per evidenziare le differenze tra scuole e apprendere come giustificare, in modo più completo, la scelta di un test o di una variante nelle formule, tra i vari che sono stati proposti in 50 anni di sviluppo della metodologia. Anche i pacchetti informatici, presenti su un mercato sempre più ampio ed esigente, quando propongono gli stessi test spesso si rifanno a metodi o formule differenti. In conclusione, conoscere approcci diversi è utile per raggiungere quella cultura statistica che permette di giustificare le differenze tra metodi. Serve, nella presentazione di un rapporto scientifico o una di pubblicazione, anche per controbattere quelle chiusure ideologiche, non insolite nei referee di questa disciplina, che accettano come valida solamente una impostazione statistica. E spesso senza motivazioni, senza giudizi sulla potenza o sulla robustezza del test, sul tipo di scala oppure sulle caratteristiche della distribuzione dei dati, sul rischio a oppure sulle dimensioni del campione. In questo settore della statistica, le differenze fondamentali tra i test derivano dall’essere fondati su probabilità esatte o asintotiche, dal fatto che le soluzioni siano più o meno approssimate, dal richiedere metodi lunghi e difficili oppure fondati su soluzioni rapide.
Un primo aspetto della ricerca è quasi sempre l’uso di un linguaggio scientifico. Nella ricerca epidemiologica e ambientale, sovente si usano termini equivoci. Ad esempio, se la proporzione di persone che soffrono di allergia in un determinato periodo è del 30% (p1 = 0,30) e si afferma che nei 10 anni successivi hanno avuto un aumento del 15%, si intende dire che: 1 - sono diventati il 45% (p2 = p1 + d = 0,30 + 0,15 = 0,45)? Oppure che 2 - sono diventati il 34,5% (p2 = p1 x R = 0,30 x 1,15 = 0,345)?
Nel primo caso, per confrontare il valore finale con quello iniziale, è stata utilizzata la differenza tra due proporzioni:
Nel secondo, il rapporto tra due proporzioni:
Da questa osservazione, derivano due conseguenze. - La prima è banale: per evitare fraintendimenti, è utile riportare tre informazioni, in particolare le prime due: (a) il valore iniziale, (b) il valore finale, (c) il valore dell'accrescimento, che può essere la differenza oppure il rapporto; ma, insieme con i primi due, è sempre comprensibile senza equivoci. - La seconda è un problema tecnico: come si analizza un rapporto tra due proporzioni e come si confrontano due rapporti, dopo che nei paragrafi precedenti sono state presentate le tecniche per l'analisi di una differenza tra proporzioni.
Collegato al concetto di rapporto tra due proporzioni nei testi di statistica applicata spesso è presente anche il concetto del rapporto tra due odds. Sono differenti, ma quando un fenomeno è raro, quindi le proporzioni sono basse, i risultati dei due metodi sono simili. Ne consegue che in letteratura è facile vedere l’utilizzo di uno al posto dell’altro, inducendo le persone con poca esperienza tecnica a credere che essi siano uguali, una semplice variante matematica come la formula abbreviata e la formula euristica che sono stati presentati per alcuni test. Il rapporto tra due odds (odds ratio), che a prima vista appare meno semplice, in alcune analisi statistiche offre il vantaggio tecnico non trascurabile di permettere l'uso della regressione logistica. E’ un metodo importante nella interpretazione statistica degli studi caso-controllo, frequenti in medicina, farmacologia ed ecotossicologia. Utilizzando la simbologia riportata schematicamente nella tabella successiva
è evidente - sia la differenza
tra una proporzione
- sia il
significato delle due proporzioni
e quindi quello del rapporto tra esse
Quando due
proporzioni sono uguali, il rapporto è
Ma se
mentre se
Ne deriva che la distribuzione
di
Approssimativamente, è una distribuzione log-Normale, come dimostrano i dati successivi.
Con due proporzioni misurate in due campioni indipendenti, 1 - R può
assumere valori come quelli riportati nella prima riga: i rapporti tra
2 - ma se si calcolano i rapporti, come nella seconda riga, e con essi si costruisce una distribuzione in classi di frequenza con passo 1, è semplice dedurre che tutti i rapporti minori di 1 saranno nella prima classe e gli altri formeranno 32 classi, con molte di esse vuote; risulta visivamente evidente che i valori R determinano una distribuzione con forte asimmetria destra.
3 – Infine,
applicando a questa ultima distribuzione di dati la trasformazione
logaritmica, in questo caso la log normale (
Con
Dopo la trasformazione
di R in
- sia per costruire l’intervallo di confidenza di r, - sia per
confrontare due
Nel primo caso,
per stimare l’intervallo di confidenza di r a partire da un valore campionario
Dato che
e poiché le due proporzioni
si ricava che - la varianza della differenza tra due proporzioni è uguale alla somma delle loro varianze.
Questo concetto è facilmente comprensibile con una dimostrazione elementare. Se è vera l’ipotesi
nulla H0, le due proporzioni reali sono uguali ( Quindi le proporzioni
campionarie
- a volte saranno nella stessa direzione
- altre
volte saranno nella direzione opposta come
Nello stesso modo della differenza tra due medie, questi ultimi due passaggi dimostrano che - la varianza di una differenza è uguale alla somma delle due varianze.
In conclusione, 1 - per la proporzione
la varianza
stimata di
2 – per il
e con la radice quadrata
diventa l’errore
standard (ES) di
Da questa stima dell’errore standard, si ricava che per la probabilità a, A) i
limiti dell’intervallo di confidenza di
- il limite inferiore
- il limite superiore
B) i
limiti dell’intervallo di confidenza di r (quindi del
valore
1 - il limite
inferiore:
2 - il limite
superiore:
C) la significatività del rapporto R è determinata mediante
Questa ultima formula dell’errore standard, che - richiede
l’uso di
- deriva dal fatto che l’ipotesi nulla che si intende verificare è H0:
- nella
quale la stima migliore di
- quando si
utilizzano i dati di due campioni indipendenti e dove
Il test per la significatività del rapporto R spesso è scritto come
evidenziando
ancor meglio il suo errore standard dipende dal valore medio
ponderato di
ESEMPIO 1.
(RAPPORTO R E SUOI LIMITI DI CONFIDENZA) Dalle due proporzioni
- calcolare il
rapporto
Risposta. Dopo
aver calcolato
1 - si ottiene il
rapporto
Ma per avere, almeno approssimativamente, una distribuzione normale delle risposte campionarie possibili e quindi poter calcolare l’intervallo di confidenza mediante la distribuzione Z, 2 - tale rapporto deve essere trasformato in
3 - il cui errore
standard (ES di
è
uguale a 0,1097.
Poiché per a = 0.05 in una distribuzione normale ridotta bilaterale è riportato Z = 1,96 4 – per l’intervallo
di confidenza di
- il limite inferiore
è L1 = -0,032 - il limite superiore
è L2 = 0,398. con probabilità del 95% che quanto affermato sia vero. 5 - Infine,
dall’intervallo di confidenza di
Quindi, con i
dati dell’esempio, intorno al valore medio campionario
- il limite
inferiore
- il limite
superiore
In conclusione i limiti dell’intervallo fiduciale di r sono 0,969 e 1,489. Ovviamente, con
la trasformazione da
ESEMPIO 2
(SIGNIFICATIVITA’ DEL RAPPORTO R CON DATI ESEMPIO 1). Valutare la
significatività del rapporto tra le due proporzioni
Risposta. In un test bilaterale con H0:
e dove -
-
dopo aver calcolato -
-
- il rapporto R è
e la sua significatività è verificata con
ottenendo Z = 1,71. In una distribuzione normale ridotta bilaterale, corrisponde alla probabilità P = 0,087. Quindi non permette di rifiutare l’ipotesi nulla se, come prassi, la soglia di significatività minima è stata indicata in a = 0.05.
Come tutti gli intervalli di confidenza, pure quello precedente dovrebbe servire anche per valutare la significatività del rapporto
in un test bilaterale con ipotesi H0:
In questi test, si rifiuta l’ipotesi nulla H0, - quando nell’intervallo
di confidenza di
Di norma,
l’intervallo di confidenza calcolato con la distribuzione normale
ridotta Z e il test Z forniscono risposte identiche. Ma non nel
caso del rapporto R e del test per la significatività di R, a
motivo delle diverse formule utilizzate per calcolare l’errore standard di
Esistono differenze; ma quasi sempre sono molto piccole, quando i campioni hanno dimensioni non troppo diverse. In pratica, anche per il rapporto R l’intervallo di confidenza è utilizzato per l’inferenza sulla sua significatività. La dimostrazione dell’esistenza di differenze trascurabili è data dalle due conclusioni precedenti, qui riportate:
A) Nell’esempio 1 del paragrafo
precedente, con
- il limite inferiore L1 = 0,969 - il limite superiore L2 = 1,489 - il valore
B) Per verificare la stessa ipotesi H0:
con il test Z
nel quale si è ottenuto Z = 1,71 - non è stato possibile rifiutare l’ipotesi nulla, poiché corrisponde alla probabilità P = 0,087. - sempre in una distribuzione bilaterale e con la soglia di significatività minima a = 0.05.
Come già affermato, i due risultati non coincidono poiché l’errore standard è calcolato con due formule differenti. Con i dati dell’esempio - per l’intervallo di confidenza
si è
ottenuto ES( - per il test di significatività
si è ottenuto ES( Ma è una differenza trascurabile, minore del 3% rispetto al valore inferiore.
FORMULA TEST BASED DI MIETTINEN Un metodo
rapido e approssimato per calcolare l’intervallo di confidenza di
Tralasciando la lunga dimostrazione matematica e i passaggi logici che permettono di derivarla dalle formule precedenti, alla probabilità del 95% i limiti dell’intervallo di confidenza di r possono essere determinati con la formula
dove
e in parole - Z1 è la Deviata Normale Standardizzata della differenza tra due proporzioni.
Questa riportata è la formula più semplice. Al posto della differenza, altre varianti sempre proposte da Miettinen utilizzano il rapporto R tra due proporzioni, tra due odds oppure tra due tassi. Ma appunto perché sono rapporti, hanno una distribuzione log-Normale, con forte asimmetria destra, che può essere ricondotta alla normale solamente con una trasformazione logaritmica. Il calcolo diventa più complesso e lungo, rispetto a questa formula. Per ulteriori informazioni sulla metodologia, si rimanda a testi specifici. La corrispondenza con l’intervallo di confidenza calcolato in precedenza è dimostrata con l’esempio seguente.
ESEMPIO 3 (USO
DELLLA FORMULA DI MIETTINEN, CON I DATI DELL’ESEMPIO 1). Dalle due
proporzioni
- ricavare il
rapporto
Risposta. Dopo
aver calcolato
si ottiene
il rapporto
Successivamente si deve stimare
e il valore
Infine con
si trovano - il limite
inferiore L1 =
- il limite superiore
L2 =
E’ semplice
osservare che, con i dati dell’esempio 1, intorno al valore medio
campionario
- il limite
inferiore
- il limite
superiore
E’ una dimostrazione empirica dell’equivalenza dei due metodi. In questo caso, la formula di Miettinen determina un intervallo leggermente minore.
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |