Services and Training for Six Sigma, Design of Experiments and Industrial Statistics

trasformazionI dei dati;

test per normalita’ e PER OUTLIER

13.1. MOTIVI DELLE TRASFORMAZIONE DEI DATI

Per essere applicati nel rispetto pieno delle condizioni di validità, i test di statistica parametrica già illustrati (il test t e il test F nelle loro svariate modalità) e quelli che saranno presentati nei capitoli prossimi (la regressione, la correlazione e la covarianza) richiedono che la distribuzione delle osservazioni sperimentali rispetti

- condizioni di carattere formale,

- condizioni di carattere sostanziale.

Senza la dimostrazione che i dati rilevati sono in accordo con questi presupposti, qualunque conclusione raggiunta con un test parametrico può essere posta in discussione e i risultati essere contestati.

Le condizioni di carattere formale sono fondamentalmente tre.

a) La completezza dei dati nei disegni sperimentali rigidi, come i blocchi randomizzati e i quadrati latini: se mancano uno o più dati occorre procedere alla loro integrazione.

b) La presenza di dati uguali a zero o indefiniti, che determinano l’impossibilità di ricavare la somma e quindi la media. Ad esempio, in caso di trasformazione in logaritmi un dato uguale a 0 (zero) determina un valore uguale a -¥ (meno infinito); quando si misurano tempi di risposta a uno stimolo e la cavia non reagisce, il tempo diventa infinito o indeterminato. Questi problemi devono essere risolti con trasformazioni adeguate.

c) Una diversa attendibilità dei risultati. Percentuali e rapporti, calcolati alcuni su campioni di poche unità e altri su campioni grandi, non hanno la stessa attendibilità. Misure rilevate con precisione e altre indicate come > X oppure £ X determinano una condizione insanabile per l’uso della statistica parametrica. Con questi dati è necessario ricorrere a test di statistica non parametrica, in quanto l’unica vera informazione è quella di rango.

Le condizioni di carattere sostanziale che un test parametrico deve rispettare sono fondamentalmente quattro e riguardano:

a) gli effetti del trattamento, che devono essere additivi;

b) gli errori e le osservazioni, che devono essere indipendenti;

c) la distribuzione degli errori e quella delle osservazioni, che devono essere normali;

d) se i dati sono suddivisibili in gruppi, le loro varianza devono essere omogenee.

A - Gli effetti di due o più trattamenti possono combinarsi tra loro per addizione o per moltiplicazione. L’argomento è stato presentato nell’analisi dell’interazione, con la rappresentazione grafica e il confronto tra tabelle di medie osservate e medie attese. In un trattamento a blocchi randomizzati senza repliche, occorre verificare se gli effetti sono indipendenti dalla media dei blocchi. Quando si hanno effetti moltiplicativi, si può ritornare al modello additivo mediante la trasformazione logaritmica dei dati, utilizzando le proprietà matematiche dei logaritmi.

B - L'indipendenza delle osservazioni è realizzata quando una rilevazione non è influenzata da quella precedente o comunque vicina. La dipendenza risulta più spesso da una correlazione nel tempo che nello spazio, per un trascinamento dell'informazione; può succedere quando lo strumento di misura viene alterato o semplicemente influenzato dall'osservazione precedente oppure un individuo può essere più simile a quelli vicini.

Si ha indipendenza degli errori quando i termini che definiscono la varianza d'errore sono distribuiti in modo casuale. Invece quando si evidenziano lunghe successioni di scarti positivi e di scarti negativi oppure scarti positivi e negativi tendono ad alternarsi con regolarità, sorgono forti sospetti sulla correttezza del campionamento. Le metodologie statistiche per evidenziare la presenza di questi fattori sono già presentate in alcuni test non parametrici.

La probabilità che una osservazione presenti un certo errore non deve dipendere né dal segno né dalla sua grandezza, ma essere assolutamente casuale.

Per ottenere l’indipendenza delle osservazioni e degli errori, è necessario che nella sperimentazione il ricercatore tenga in considerazione l’effetto random, l’effetto ambiente e l’effetto trattamento, attenendosi ai seguenti principi:

- la randomizzazione o scelta casuale del campione dalla popolazione dei dati possibili deve essere fondata su elementi obiettivi, come l’estrazione di numeri casuali da una tabella o da un sacchetto, per generazione casuale dal calcolatore; non deve mai essere lasciata all’arbitrio di un individuo (effetto random);

- ogni dato deve avere le stesse possibilità di essere influenzato da varie circostanze di tempo e di luogo (effetto ambiente);

- tutti gli individui del campione devono avere le stesse possibilità di essere sottoposti a un trattamento qualunque (effetto trattamento).

C - I test parametrici sono validi se la distribuzione dei dati è normale e quindi quella degli errori è normale intorno alla media. La verifica avviene con il controllo della simmetria e della curtosi. Le conseguenze della non normalità degli errori spesso non sono gravi. Solamente una fortissima asimmetria ha effetti sul livello di significatività del test F e del test t, che sono ritenuti robusti rispetto a questa condizione; la correlazione e la regressione ne risentono maggiormente.

D - L'omogeneità delle varianze o omoschedasticità (omoschedalità in altri testi) viene verificata mediante i test già illustrati per due e per più campioni. Nella statistica parametrica, tutti i confronti tra le medie e la stima degli effetti aggiunti sono fondati sull’assunto che tutti i gruppi abbiano la stessa varianza naturale o varianza vera (s²); se le varianze non sono omogenee, si determina una variazione del peso relativo dei gruppi sul valore della varianza d’errore.

Quando si rifiuta l'ipotesi di omoscedasticità, si può classificare l'eteroscedasticità come regolare o irregolare.

- La eteroscedasticità è detta irregolare, quando non si evidenzia alcun rapporto tra media e varianza. Può derivare da cause aberranti, come la presenza di un dato anomalo, oppure da una non corretta impostazione dell’esperimento. In questi casi, si deve verificare se si tratta di sbagli commessi dallo sperimentatore (come nella trascrizione dei dati) o di variazioni reali. Nel primo caso, si dovrebbe ripetere l’esperimento, se non è possibile individuare la causa e apportare la correzione. Nel secondo, si può procedere alla trasformazione dei dati, con uno dei metodi che verranno di seguito presentati.

- La eteroschedasticità è detta regolare, quando esiste una relazione di tipo noto, come nella distribuzione poissoniana, o comunque una relazione evidenziabile con i metodi della statistica descrittiva. In questo caso si opera la trasformazione dei dati, che spesso è specifica per ogni tipo di distribuzione; ad esempio per la poissoniana, quella ritenuta più adeguata è la trasformazione in radice quadrata.

Quando un ricercatore deve applicare un test a dati campionari, per i problemi derivanti dalla non-normalità, dalla eterogeneità delle varianze e dalla non additività, secondo il volume di Charles J. Krebs del 1999 (vedi Ecological Methodology, 2^nd ed. Addison Wesley Longman, Menlo Park, pp. 12 + 620) egli può scegliere tra quattro soluzioni:

1 - ricorrere a metodi non parametrici, anche se si determina una perdita nell’informazione della misura rilevata, poiché da una scala di rapporti o di intervalli si scende a una scala di rango o binaria;

2 - utilizzare una trasformazione dei dati, che elimina i tre problemi elencati in precedenza e offre il vantaggio di applicare ugualmente il test parametrico;

3 - utilizzare ugualmente il test parametrico senza trasformare i dati, contando sulla robustezza del test; è una soluzione accettata soprattutto quando il campione è grande ma, anche secondo Krebs, è una procedura da non raccomandare e che in questi ultimi anni è sempre più contestata;

4 - ricorrere ai nuovi metodi di ricampionamento (come il jackknife e il bootstrap), resi possibili dall’uso intensivo del computer.

Riprendendo in modo schematico i concetti illustrati, con la trasformazione dei dati si effettua un tentativo, che in varie situazioni raggiunge lo scopo, di ottenere

i tre scopi principali:

1 - stabilizzare le varianze,

2 - linealizzare le relazioni tra variabili,

3 - normalizzare le distribuzioni,

e due scopi secondari:

1 - semplificare l'elaborazione di dati che presentano caratteristiche non gradite,

2 - rappresentare i dati in una scala ritenuta più adatta.