ALTRI METODI INFERENZIALI:

NORMAL SCORES E RICAMPIONAMENTO

 

 

 

22.4.   METODi di ricampionamento: monte carlo e PRINCIPIO PLUG-IN

 

 

I test della statistica parametrica sono fondati sulle proprietà della distribuzione normale. Quindi hanno condizioni di validità che non sono rispettate in varie situazioni sperimentali, nonostante la trasformazione dei dati. Inoltre, con pochi dati, diventa impossibile dimostrare che esse siano verificate. Pertanto, rimane sempre una incertezza concettualmente non banale e operativamente spesso importante al momento della decisone, sulla validità dei risultati raggiunti.

 

I test della statistica non parametrica hanno limiti evidenti, in varie situazioni. Trascurano parte dell’informazione, poiché ricorrono al semplice conteggio di valori superiori e inferiori alla soglia prestabilita oppure utilizzano i ranghi o le precedenze; in altri termini, richiedono di scendere dalla precisione permessa da una scala di intervalli o di rapporti alla approssimazione di una scala di tipo ordinale o addirittura nominale. In altre situazioni applicano il calcolo combinatorio, utilizzabile solo su campioni di piccole dimensioni.

 

In entrambi i casi, esistono problemi che non possono essere risolti con queste metodologie classiche, se non con notevoli approssimazioni; quale il calcolo dei limiti di confidenza, per parametri distribuiti in modo non normale e con forma ignota.

 

A partire dagli anni ’60, derivati concettualmente dai metodi “Monte Carlo” che generano numeri casuali, si sono diffusi i metodi di ricampionamento (resampling methods), fondati sull’utilizzazione ripetuta dell’unico campione osservato. Già nel 1967, George Snedecor e William Cochran (nel loro testo Statistical Methods, 6th ed., The Iowa State University Press, Ames, Iowa, U.S.A.,  pp.584) scrivevano che l’estrazione di numeri casuali da tabelle o la loro generazione mediante computer, che era già chiamata metodo Monte Carlo, era diventata una tecnica importante per risolvere problemi complessi di stima delle probabilità, la cui soluzione matematica non fosse nota.

Benché proposto dalla fine della seconda guerra mondiale, come illustrato in altra parte, tale nome compare per la prima volta nel 1965 per un problema di fisica (vedi di Barker A. A. l’articolo Monte Carlo calculations of the radial distribution functions for a proton-electron plasma, pubblicato su Aust. J. Phys. Vol. 18, pp. 119-133).

 

Il principio sul quale sono costruiti questi test è detto della sostituzione o principio plug-in. Il concetto di base è elementare: sussiste una buona validità statistica se, alla funzione di ripartizione della popolazione (quali la tabella della distribuzione z, del  c2, del t o di F), è sostituita la funzione di ripartizione del campione, ottenuta costruendo una distribuzione di frequenza di tutti i valori che esso può assumere in quella situazione sperimentale.

Sono procedure concettualmente elementari, ma che richiedono un numero elevato di calcoli ripetitivi. Di conseguenza, il loro uso è divenuto frequente solo dall’inizio degli anni ’80, con la diffusione dei computer, che ne ha permesso la verifica e l’utilizzazione.

 

A parere di molti esperti, hanno aperto un nuovo settore della ricerca statistica inferenziale.

Dopo i metodi classici sviluppati tra il 1920 e il 1950 da scienziati quali R. A. Fisher (per la varianza), J. Neyman (per la teoria delle ipotesi) e H. Hotelling (per la statististica multivariata), si possono avere nuovi sviluppi promettenti, con le metodologie che utilizzano intensivamente le possibilità di calcolo del computer (vedi di Bardley Efron e Robert Tibshirani l’articolo del 1991 Statistical Data Analysis in the Computer Age, pubblicato su Science, vol. 253, pp. 390-395).

 

Nei test inferenziali di statistica univariata e bivariata, queste procedure sono applicate alla stima dell’intervallo di confidenza di medie, mediane e quantili, varianze, coefficienti di regressione e di correlazione. Sono utilizzate anche per il confronto tra due o più medie, varianze, coefficienti di correlazione e di regressione. Più recentemente, sono stati proposti metodi più complessi per il confronto tra indici di similarità, affinità o distanza e la costruzione dei diagrammi ad albero (trees o dendrogrammi); nella statistica multivariata, sono state proposte tecniche per l’analisi dei cluster e le componenti principali.

 

Un uso semplice e frequente, al quale sovente ricorrono le pubblicazioni per spiegare e confrontare i risultati delle varie metodologie proposte, è il calcolo dell’errore standard per medie e mediane in distribuzioni non normali e per il coefficiente di correlazione, che appunto segue una distribuzione normale solamente quando r = 0. In un articolo del 1981, con un esperimento Monte Carlo, Bradley Efron (vedi l’articolo Nonparametric estimates of standard error: the jackknife, the bootstrap and other methods, pubblicato su Biometrika vol. 68, 3, pp. 589-599) effettua un confronto dettagliato tra queste metodologie nuove. In esso, Efron illustra e confronta i risultati dei metodi:

-  the jackknife,

-  the bootstrap,

-  half-sampling,

-  subsampling theory,

-  balanced repeated replications,

-  the infinitesimal jackknife,

-  influence function methods,

-  the delta method.

 

Di ognuno fornisce ampia indicazione bibliografica, descrive sinteticamente la procedura, mostra come tutte derivino dalla stessa idea di base ed evidenzia le connessioni più specifiche tra alcune di esse; infine, confronta i risultati nella stima dell’errore standard del coefficiente di correlazione semplice r.

Benché siano tutte asintoticamente equivalenti, Efron conclude che il jackknife e il bootstrap forniscono risultati simili, ma che quelli del bootstrap appaiono migliori coincidendo con quelli asintotici per il jackknife. In un lavoro successivo, sostiene che il bootstrap fornisce i valori esatti e tutti gli altri metodi determinano soluzioni più o meno approssimate.

 

Uno degli scopi fondamentali della statistica è la stima di un parametro, già presentata nei paragrafi dedicati agli intervalli di confidenza di una media, di una differenza, della varianza, di una proporzione, del coefficiente angolare e dell’intercetta, del coefficiente di correlazione. In relazione al caso più semplice, la media di un campione, vengono ricordati i concetti fondamentali, utili per la comprensione dei metodi che saranno successivamente discussi in questo capitolo.

 

1 - Quando i dati sono distribuiti in modo normale e la deviazione standard della popolazione (s) è nota, a partire dalla formula dell’inferenza sulla media

Z =

 è possibile conoscere la media della popolazione (m) stimandone l’intervallo di confidenza intorno alla media di un campione () di n dati; alla probabilità 1-a, con la distribuzione Z si stima l’intervallo mediante la relazione:

1-a = Pr

 

Inversamente, quando sono noti la media della popolazione (m) e la sua deviazione standard (s), ogni media campionaria  () di n dati con probabilità 1-a è compresa nell’intervallo

1-a = Pr

sempre stimato con la distribuzione normale Z.


 

2 - Quando la distribuzione dei dati della popolazione è normale e la deviazione standard della popolazione è ignota, a partire da

t(n-1) =

 

è possibile conoscere la media della popolazione (m) stimandone l’intervallo di confidenza intorno alla media di un campione () di n dati, ricorrendo alla sua deviazione standard (s); alla probabilità 1-a, la media della popolazione è compresa nell’intervallo determinato con la distribuzione t  mediante la relazione:

1-a = Pr

 

Inversamente, quando è nota la media della popolazione (m) e la sua deviazione standard è ignota, ogni media campionaria  () di n dati, di cui sia calcolata la deviazione standard (s), con probabilità 1-a è compresa nell’intervallo

1-a = Pr

stimato con la distribuzione t di Student.

 

Per determinare l’intervallo di confidenza di un qualsiasi parametro della popolazione è richiesta la conoscenza della sua variabilità, associata ad uno stimatore del parametro.

In modo più generale, analogo al caso della media e quindi con  q = m  e   = , è possibile pervenire alla stima del parametro della popolazione quando è noto l’errore standard della popolazione oppure del campione o almeno la distribuzione del rapporto

 

Ma quando q non è la media della popolazione e  non è la media del campione, ma rispettivamente un parametro e una statistica che non godono delle stesse proprietà, può essere difficile o addirittura impossibile ottenere la stima dell’errore standard e la sua distribuzione. In queste situazioni, per trovare una soluzione è possibile ricorrere alla simulazione, quando si disponga, caso più teorico che reale, dei dati di una popolazione.

In sua assenza, l’unica alternativa possibile è l’uso dei dati campionari.

 

La  potenzialità e la tecnica dei metodi Monte Carlo sono meglio illustrate con un esempio.

Si supponga di avere una popolazione di dati e di voler stimare il suo 75° percentile, per campioni formati da 20 dati (la distribuzione del 75° percentile non è nota e ovviamente non può essere normale e simmetrica come quella della media).

 

I passaggi richiesti possono essere schematizzati in 5 passaggi:

1 - estrarre dalla popolazione un campione delle dimensioni desiderate (20 dati);

2 - calcolare , identificando il 75° percentile (cioè il 15 valore nella serie dei 20 dati, ordinati in modo crescente);

3 - estrarre un altro campione e calcolare il suo , ottenendo 1, 2, …, 1000, fino al numero desiderato di repliche che deve essere alto, per esempio 1000;

4 - calcolare la media dei 1000  (che sarà l’indicatore migliore di q, il 75° percentile della popolazione) e la sua deviazione standard;

5 - l’intervallo fiduciale è facilmente costruito dalla distribuzione di frequenza dei 1000 : per la probabilità a = 0.05 è sufficiente escludere il 2,5% dei valori nei due estremi (in altri termini, tra a/2  e  1-a/2).

 

Le tecniche di ricampionamento seguono una logica simile, ma disponendo solo dei dati di un campione. Per la loro maggiore validità, la loro maggiore diffusione nella letteratura statistica e la possibilità di utilizzarli offerti dai programmi informatici, in questo capitolo sono presentati solamente il Jackknife e il Bootstrap.

  

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007