TEST NON PARAMETRICI PER CORRELAZIONE, CONCORDANZA, REGRESSIONE MONOTONICA E REGRESSIONE LINEARE
21.17. TREND LINEARE DI ARMITAGE PER LE PROPORZIONI E LE FREQUENZE
Le tabelle di contingenza 2 x k riportano i risultati di risposte binarie in k campioni, come è stato presentato nel capitolo III per il test c2 o il test G. Con questi test, ad esempio, possono essere confrontate - le proporzioni di persone affette da malattie polmonari in k aree con livelli d'inquinamento atmosferico differenti, - le k proporzioni di analisi della qualità dell'acqua con una quantità di nitrati superiore ai livelli di attenzione, - il numero di cavie decedute o che non hanno raggiunto la maturità sessuale, nel confronto degli effetti di k sostanze tossiche.
Come già illustrato nel caso del confronto tra più proporzioni, con k campioni l'ipotesi nulla è H0: pA = pB = pC = = pk contro l'ipotesi alternativa H1: non tutte le p sono uguali
Altri casi che ricorrono con frequenza nella ricerca applicata è la verifica di - un trend nel tempo, nello spazio, tra dosi crescenti di un farmaco, - tra l'incidenza di patologie in gruppi d'individui appartenenti a classi d'età progressivamente più anziane.
Per scale di tipo ordinale, Peter Armitage - con un articolo del 1955 (Test for linear trends in proportion and frequencies, pubblicato dalla rivista Biometrics vol. 11 pp.: 375-386) - e in un paragrafo del suo testo di Statistica del 1971 (vedi Statistical Methods in Medical Research. John Wiley and Sons, New York, 504 pp. oppure la traduzione italiana Statistica Medica. Metodi statistici per la ricerca in Medicina, quarta edizione, marzo 1981 Feltrinelli, Milano, pp. 493) illustra un metodologia di scomposizione del c2 e dei rispettivi gradi di libertà nei suoi componenti, per la verifica della linearità.
L'ipotesi nulla è la presenza di un gradiente lineare, contro l'ipotesi alternativa di un allontanamento da esso. Il metodo è simile a quanto già noto per la scomposizione della regressione con l'analisi della varianza.
Questa tecnica offre due vantaggi rispetto ai tradizionali test c2 e G: - permette la verifica di un trend lineare, quindi una informazione ulteriore rispetto alla tradizionale ipotesi uguaglianza delle proporzioni; - agendo sulla scomposizione dei gdl, è la procedura c2 più potente per il rifiuto dell'ipotesi nulla sulle differenze tra proporzioni.
La devianza totale, cioè il valore del c2 totale con k-1 gdl, è scomposta in - una devianza dovuta alla regressione, cioè un c2 che analizza il trend lineare con 1 gdl - una devianza dovuta agli scarti dalla regressione, cioè un c2 che comprende gli allontanamenti dalla linearità con gdl k-2. Il test richiede un numero minimo di gruppi pari a tre (altrimenti tra due punti passa sempre una retta).
La metodologia può essere spiegata in modo semplice e chiaro illustrando una sua applicazione al contesto ambientale (sono stati utilizzati gli stessi dati riportati nel testo di Armitage, versione italiana, pp. 353-355). I vari quartieri di una città sono stati classificati in zone a inquinamento atmosferico basso, medio e alto, sulla base dei valori medi mensili degli ultimi cinque anni. Una visita medica ai bambini iscritti nelle scuole dei vari quartieri ha dato i seguenti risultati:
Nella tabella, in aggiunta alle informazioni classiche necessarie per il calcolo del c2, per analizzare il trend è conveniente riportare la proporzione di bambini con malattie polmonari, in funzione del livello d'inquinamento (come nella riga 4 della tabella). Le tre proporzioni rilevate - 0,0368 per le aree a inquinamento basso - 0,0492 per le aree a inquinamento medio - 0,0819 per le aree a inquinamento alto sono in accordo con un possibile trend lineare?
Per rispondere a tale quesito, Armitage propone una metodologia che può essere schematizzata in alcuni passaggi:
1 - Calcolare il valore del chi quadrato totale, che avrà k-1 df Di conseguenza, dopo aver stimato i valori attesi
con la solita formula
si ottiene
un c2 = 7,879 con 2 gdl. Poiché con 2 gdl il valore critico per - a = 0.05 è 5,991 - a = 0.025 è 7,378 - a = 0.01 è 9,210 si può affermare che le tre proporzioni sono tra loro significativamente differenti, con probabilità minore del 2,5% di errare. Il valore del c2 totale dipende dagli scarti delle k proporzioni dalla proporzione totale; quando non supera il valore critico, esso indica che le tre proporzioni sono statisticamente uguali.
2 - Successivamente, dopo aver attribuito un punteggio o rango alla posizione dei k gruppi, sulla base delle informazioni riportate nella tabella successiva
e utilizzando la simbologia inserita (fi, Ci, zi, R, N), con
si ottiene
un valore del c2 per il trend uguale a 7,193 con 1 gdl. Poiché con 1 gdl il valore critico per - a = 0.05 è 3,841 - a = 0.025 è 5,024 - a = 0.01 è 6,635 si può affermare che la varianza spiegata dalla retta rispetto alla proporzione totale (la media generale delle proporzioni) è altamente significativa.
3 - Per sottrazione di questo secondo valore del primo, si ricava il valore del chi quadrato per l'allontanamento dalla linearità ()
con gdl k-2 Con i dati dell'esempio, il chi quadrato per l'allontanamento dalla linearità = 7,879 - 7,193 = 0,686 risulta uguale a 0,686 con 1 gdl. Poiché i valori critici sono identici a quelli appena riportati, il chi quadrato di errore dalla retta risulta trascurabile.
4 - Infine, per una presentazione completa dei risultati e facilitare la loro interpretazione è vantaggioso riportare i tre c2 (totale, per il trend e per l'allontanamento dalla linearità) in una tabella
In conclusione, - le tre proporzioni sono significativamente differenti; - sono distribuite lungo una retta in modo altamente significativo, In termini discorsivi, si può concludere che passando all’aumentare del gardo di inquinamento si ha un incremento quasi costante, cioè lineare, nella proporzione di bambini con malattie polmonari. Se il chi quadrato per l'allontanamento dalla linearità fosse risultato significativo, si sarebbe dovuto concludere che tra le k proporzioni esiste una differenza significativa, ma con un trend differente dalla linearità.
Raffinamenti successivi del metodo considerano coefficienti differenti, - in funzione del valore di X - e dove Y è la proporzione ottenuta in ogni gruppo. Ma, in queste condizioni, i gruppi non sono più in una scala ordinale bensì in una scala di rapporti o ad intervalli. Di conseguenza questa metodologia viene superata dalla possibilità di calcolare la retta con la regressione parametrica. Mantenendo l’informazione di tipo ordinale per la X, è possibile anche utilizzare una regressione lineare non parametrica, come il metodo di Theil. Infine, se la domanda fosse solamente quella di un incremento della frequenza di malattie all’aumentare del grado di inquinamento, è possibile utilizzare anche una regressione monotonica.
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |