METODI NON PARAMETRICI PER UN CAMPIONE

 

 

 

7.2.   I TEST ESATTI E IL METODO MONTE CARLO

 

 

Il test esatto più noto, a volte l’unico riportato sui testi di statistica, è il Fisher exact test, in italiano chiamato test delle probabilità esatte di Fisher. Proposto per la prima volta quasi contemporaneamente e in modo indipendente negli anni 1934-35 da Fisher, da Yates e da Irwin con articoli differenti e in modo indipendente, è chiamato anche Fisher-Yates test o Fisher-Irwin test.

Fondato sulla distribuzione ipergeometrica, che utilizza il calcolo combinatorio, permette di stimare la probabilità di trovare per caso distribuzioni specifiche in tabelle 2 x 2. Quando il campione è piccolo, queste probabilità esatte sono più precise di quelle ricavate con la distribuzione normale o dalla distribuzione chi quadrato, che sono valide asintoticamente solo per grandi campioni.

I tradizionali metodi parametrici sono ideali, se i dati rispettano le assunzioni sottostanti i test. Ma, quando il numero di casi è ridotto, quando si suddivide il campione in molti sottogruppi oppure quando l’ottanta per cento o più dei casi ricadono in una sola categoria, quindi i campioni sono fortemente sbilanciati, i test tradizionali possono fornire risultati non corretti. Anche in questi casi, i test esatti forniscono sempre il valore corretto della probabilità p, indipendentemente dalla struttura dei dati.

 

Le probabilità esatte possono essere calcolate per l’intero spettro dei problemi non parametrici e categoriali, sia per insiemi di dati ridotti sia estesi. Possono essere stimate in test per un campione, due campioni e k campioni sia indipendenti che dipendenti, in test per verificare il trend, in test sulla bontà di adattamento, in test di indipendenza nelle tavole di contingenza a più dimensioni e in test sulle misure di associazione. In modo più specifico e come sarà presentato in molti casi, i test per i quali i programmi informatici più importanti forniscono le probabilità esatte sono:

-  test esatto di Fisher e test chi quadrato di Pearson, in tabelle 2 x 2 e in tabelle R x C;

-  test del rapporto di verosimiglianza;

-  test di associazioni lineare;

-  test di McNemar;

-  test di Kolmogorov-Smirnov per uno e per due campioni

-  test binomiale e quello dei segni;

-  test di Wilcoxon per un campione;

-  test della mediana per due e per più campioni indipendenti;

-  test U di Mann-Whitney e test T di Wilcoxon per due campioni;

-  test delle successioni di Wald-Wolfowitz per uno e per due campioni;

-  test di casualizzazione o di permutazione per uno e per due campioni, dipendenti o indipendenti;

-  test di Friedman per più campioni indipendenti;

-  test Q di Cochran e test di Kruskall-Wallis per più campioni dipendenti

-  test di Joncheere-Terstra e test di Page per il trend;

- test di correlazione non parametrica;

- test di regressione non parametrica.

 

Per calcolare le probabilità esatte di vari test e per costruire gli intervalli di confidenza della tendenza centrale, i metodi spesso sono fondati sulla distribuzione binomiale e sul calcolo combinatorio, in particolare le combinazioni e le permutazioni. Corretti e semplici per piccoli campioni, questi metodi diventano inapplicabili quando i campioni sono grandi, a causa della quantità di calcolo richiesta. Per esempio, con 30 dati il numero di permutazioni è

30! = 2.65253 x 1032

 

Anche con un computer, si pone quindi il problema economico e di tempo di non elencare tutte le possibili risposte, ma di prendere in considerazione solamente un campione casuale di esse. Il metodo utilizzato è detto Monte Carlo e consiste nella scelta casuale di casi attraverso la generazione di numeri random, mediante il computer. La distribuzione delle probabilità ottenuta coincide con quella ricavata su tutta la popolazione delle risposte possibili.

Altre volte, come sarà illustrato per il bootstrap e per il jackknife, nella stima delle probabilità il fattore limitante non è rappresentato dalle dimensioni del campione, ma dalla complessità della procedura. In questo caso, non potendo fare i calcoli teorici, le probabilità è ricavata attraverso un numero elevato di simulazioni. Si ottiene rapidamente una serie ampia di dati che, trattati con metodi statistici, forniscono stime che diventano tanto più attendibili quanto più è grande il numero delle prove fatte.

 

Il metodo Monte-Carlo è una tecnica statistica che fu ideata durante la seconda guerra mondiale da Stanislaw Ulam nell'ambito del Progetto Manhattan. Successivamente venne sviluppata da Ulam stesso, John von Neumann, Enrico Fermi, Nicholas Metropolis ed altri. Molti anni dopo, nel 1983, Ulam raccontò che l'idea del metodo gli era venuta nel 1946 dopo aver tentato inutilmente di calcolare teoricamente la probabilità di successo in un certo gioco di carte (un difficile solitario).

Le origini del metodo Monte Carlo sono attribuite al gruppo di fisici che durante le seconda guerra mondiale studiavano le reazioni del nucleo dell’atomo, colpito da una particella veloce. Esso si frantuma in molte particelle, che vanno a colpire i nuclei di altri atomi vicini, che a loro volta si frantumano con una reazione a catena, nella quale si libera una gran quantità d'energia. Il problema da risolvere è: “Il processo durerà fino a coinvolgere l'intero universo oppure s'arresterà, dopo un certo numero di reazioni?”

Una volta introdotti alcuni parametri iniziali, il fenomeno fu simulato da un calcolatore per mezzo di valori casuali, trattati con metodi statistici.

Si poté così stimare la probabilità che, dopo un certo numero di "generazioni", le particelle emesse nel corso delle reazioni a catena, cessassero di generare altre particelle. Le simulazioni dettero sufficienti garanzie e gli esperimenti reali furono successivamente eseguiti con una buona dose di tranquillità.

Fu Enrico Fermi, a detta di Emilio Segré, ad inventare il metodo Monte Carlo (senza usare questo nome), quando studiava a Roma il moto dei neutroni all'inizio degli anni 30.

Stanislaw Ulam, uno dei fisici che lavoravano in questo gruppo, usò il metodo Monte Carlo nel '46. Narra egli stesso: "... L'idea del metodo Monte Carlo mi è venuta giocando a carte un solitario durante un periodo di convalescenza, nel 1946. Avevo sprecato un mucchio di tempo per calcolare, senza successo, con tecniche combinatorie, la probabilità di riuscita del solitario. Pensai allora che, giocando un centinaio di volte il solitario, avrei potuto stimare questa probabilità con la frequenza delle volte con cui era riuscito, aggirando così con la pratica il pensiero astratto. Questo metodo era ormai possibile, visto l'avvento dei calcolatori veloci.

Era ovvio pensare anche a soluzioni simili per problemi legati alla diffusione dei neutroni o di fisica matematica e, più in generale, a come scambiare processi descritti da certe equazioni differenziali con un modello equivalente interpretabile come successione di operazioni aleatorie. In seguito descrissi l'idea a John von Neumann (il responsabile scientifico del progetto della bomba atomica) e cominciammo a realizzare veri e propri calcoli matematici al riguardo."

Il progetto che fu presentato per un finanziamento su queste ricerche teoriche fu chiamato Monte Carlo. Da qui il nome, che intuitivamente rimanda a Monte Carlo come sede nota di un casinò.

 

Sono tanti ormai i campi in cui si utilizzano metodi statistici per ottenere informazioni e stime su fenomeni legati al caso. Non occorre che i dati siano raccolti durante un esperimento reale in cui tali fenomeni avvengono. Ciò potrebbe richiedere troppo tempo e, in ogni caso, non sempre la natura fornisce situazioni sperimentali.

I dati possono allora provenire da simulazioni fatte per mezzo di un computer, in grado di generare sequenze di numeri casuali. Esse sono quindi utilizzate per simulare per migliaia di volte il fenomeno aleatorio, raccogliendo così rapidamente una serie di dati che, trattati con metodi statistici, forniscono stime che diventano tanto più attendibili quanto più è grande il numero delle prove fatte.

Molti campi della ricerca teorica e applicata usano ormai questo metodo, reso facile dalla velocità dei computer, con la costruzione di algoritmi adeguati che possono prendere in considerazione contemporaneamente molte variabili, ognuna generata con il metodo Monte Carlo. In matematica, per la soluzione di problemi complessi, che vanno dal calcolo combinatorio agli integrali. In ingegneria, per analizzare rapidamente effetti e anomalie possibili nella fusione alle alte temperature. In biologia, per l’analisi delle sequenze e per simulare i processi di evoluzione naturale. In informatica, quasi tutti i giochi con il computer.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007