METODI NON PARAMETRICI PER UN CAMPIONE

 

 

 

7.17. IL DIBATTITO SULLA SIGNIFICATIVITA’ DEI TEST PER LA BONTA’ DELL’ADATTAMENTO,  RISPETTO A QUELLI PER UN PARAMETRO.

 

 

Tra i test per un campione, devono essere inseriti anche quelli sulla bontà di adattamento (goodness-of-fit test). Essi servono per verificare l’ipotesi che i dati campionari provengano da una variabile casuale di cui è nota la distribuzione di frequenza, come già spiegato e discusso con il c2, il test G e il test di Kolmogorov-Smirnov (Capitolo III).

 

In questa serie di test per verificare l’accordo tra una distribuzione osservata ed una distribuzione attesa, rispetto ai concetti qui illustrati, la differenza fondamentale è l’aspettativa del ricercatore, in rapporto all’ipotesi nulla.

-  Nei test inferenziali sulla media o sulla mediana, quasi sempre egli spera di rifiutare l’ipotesi nulla. Quindi, di dimostrare che la differenza riscontrata non sia imputabile al caso, ma ad un fattore noto o da ricercare.

-  Nei test sulla bontà dell’adattamento, egli si augura di non rifiutare l’ipotesi nulla. Quindi di avere già individuato una curva che spieghi le caratteristiche della sua distribuzione osservata. Infatti, se rifiutasse l’ipotesi nulla egli dovrebbe concludere che la distribuzione teorica da lui indicata non è valida, senza che tale affermazione possa essere d’aiuto nell’individuare quale altra distribuzione teorica sia quella adatta.

 

Sui concetti impliciti in questa fondamentale differenza di valutazione, che caratterizza i test per la bontà di adattamento di una distribuzione, è didatticamente importante rileggere alcuni paragrafi di un articolo del 1976 (tratto dalla Rivista di Statistica Applicata vol. 9 n. 4, pp. 239-255) di Rodolfo Cristofaro, uno dei maggiori statistici italiani degli ultimi decenni. E’ una lettura utile, sia per comprendere più esattamente quale valutazione dare ai risultati di questi test, sia per acquisire il linguaggio degli statistici.

 

“Il problema dell’adattamento di una distribuzione teorica ad un processo stocastico derivante dall’osservazione empirica di un fenomeno è stato generalmente affrontato nell’ambito della teoria dei test di ipotesi, contrapponendo all’ipotesi semplice

H0: F(x) = F0(x),

dove F0(x) è una particolare funzione di ripartizione (continua o discreta),

il suo complemento

H1: F(x) ¹ F0(x)

 

Questo sistema d’ipotesi appare però poco adeguato nel valutare la bontà di adattamento di una distribuzione. Infatti, una distribuzione teorica può solo approssimare un processo stocastico derivante dall’osservazione di un fenomeno del mondo reale, così come qualunque modello teorico non riesce quasi mai a descrivere con assoluta esattezza una realtà empirica. Pertanto, se il numero N delle osservazioni disponibili è sufficientemente grande, qualunque test consistente scarterà l’ipotesi H0 anche se la distribuzione ipotizzata sotto H0 si approssima molto bene, pur se non in maniera perfetta, alla realtà.

Ciò è stato sottolineato per la prima volta da J. Berkson nel 1938 (con l’articolo Some difficulties of interpretation encountered in the application of chi-square test, pubblicato su Journal of the American Statistical Association, vol. 33, n. 256), con riferimento al test chi-quadro. Addirittura egli giungeva a chiedersi se valga la pena di tormentarsi ad applicare un test, quando è noto che con un campione abbastanza grande esso darà un risultato di significatività.

 

Successivamente, J. Neyman nel 1949 (con l’articolo Contribution to the theory of the test of the c2 test. In Proceed. First Berkeley Symposium on Mathem. Statist. and Probab. Univ. of California Press, 239), trattando l’argomento in maniera più tecnica, richiamava l’attenzione degli statistici sul fatto che qualunque test consistente basato sulla sola ipotesi nulla scarterà detta ipotesi, con probabilità tendente a uno al crescere di N, qualunque siano le reali differenze da H0; quindi anche se esse sono piccolissime o trascurabili”.

 

Una strada che lo studioso di statistica applicata a qualsiasi disciplina  può percorrere, per uscire da questo apparente vicolo cieco, è una valutazione disciplinare o tecnica della differenza riscontrata come significativa. Anche in questo caso, può essere utile rileggere un altro passo dello stesso articolo, sempre in riferimento all’uso del test c2.

 

“ Un esempio può servire a chiarire i criteri di applicazione del test chi-quadro. A questo proposito, si possono prendere in considerazione i dati di W.F.R. Weldon relativi all’adattamento di una distribuzione binomiale nel lancio di dadi, per un evento con probabilità di successo p = 1/6. Trattasi di dati, pubblicati ad esempio da R. A. Fisher (1925 e succ. ed.), che hanno formato oggetto di discussione già ai tempi di Weldon, tra lo stesso Weldon, K. Pearson e F. Galton, a causa dell’elevato numero di osservazioni che conduce a scartare l’ipotesi nulla oltre ogni usuale livello di significatività, malgrado il soddisfacente adattamento della distribuzione binomiale.

 

In particolare Weldon si lamentava in una lettera a F. Galton (riportata da E. S. Pearson nel 1965) che K. Pearson avesse rifiutato i suoi dati, sebbene essi non risultassero così “incredibili” come appariva dalle elaborazioni statistiche compiute dallo stesso K. Pearson.

Naturalmente il giudizio di K. Pearson era ineccepibile, essendo molto verosimilmente i dati di Weldon imperfetti. Ma esistono in natura dati perfetti? In ogni caso Weldon aveva, a nostro avviso, validi motivi per lamentarsi, non avendo K. Pearson specificato l’entità dell’errore presente negli stessi dati”.

 

Nell’esempio di Weldon, erano stati fatti 26.306 lanci di due dadi apparentemente senza difetti, ottenendo nelle 11 classi  (due dadi possono dare un totale che varia da 2 a 12) un chi-quadro uguale a 35,491 (ricordando che con d.f. 10 alla probabilità a = 0.01 il valore critico è uguale a 23,209 e alla probabilità a = 0.001 è uguale a 29,588). I due dadi, seppure senza apparenti anomalie, non erano quindi perfetti.

 

Per uscire da questo dilemma teorico, un modo pratico e semplice consiste nel valutare quale sia in percentuale lo scostamento tra valori osservati e i valori attesi nelle varie classi e fornire di questa differenza una interpretazione entro gli errori accettati per quel problema, dal punto di vista disciplinare. In altri termini, non è sufficiente che il test evidenzi una differenza significativa, poiché con molti dati essa è sempre significativa. E’ fondamentale decidere l’importanza della differenza sulla base di una interpretazione di quella differenza. Se essa è rilevante oppure trascurabile, per la disciplina scientifica nella quale il test viene effettuato.

Ad esempio, una verifica medica nella diffusione di due antigeni nella popolazione ha determinato su un campione di 15mila individui una frequenza del 26.0 % per il primo e del 26,5% per il secondo. Il test statistico binomiale dimostra che tra esse esiste una differenza significativa.

Se tale frequenza è riferita alla probabilità di un individuo di appartenere ad un gruppo oppure all’altro, uno scarto do 0,5% è totalmente trascurabile. Ma se serve per valutare l’incidenza dei due antigeni in valori assoluti in una popolazione di 400 milioni di persone, essa determina una stima di 104 milioni (con il 26,0%) e di 106 milioni (con il 26,5%). E’ uno scarto di 2 milioni di persone. E’ una differenza importante.


 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007