trasformazionI dei dati; test per normalita’ e PER OUTLIER
13.4. LA SCELTA DELLA TRASFORMAZIONE IDONEA: IL METODO DI BOX-COX
La trasformazione da applicare ad una serie di dati campionari, per rispettare le condizioni di validità dei test parametrici, spesso è conosciuta a priori, sulla base di quanto noto sulle caratteristiche del fenomeno analizzato e del tipo di scala utilizzato per misurarlo. Prima di applicare un test parametrico, è sempre utile ricercare in letteratura la trasformazione più adeguata, per normalizzare la distribuzione dei dati raccolti.
Le trasformazioni possibili e le indicazioni per le diverse situazioni, riportate nel paragrafo precedente, sono derivate da queste esperienze. Ma quando si analizza un fattore nuovo, è difficile individuare la trasformazione più appropriata. Il problema si pone soprattutto quando un fenomeno può essere misurato in modi diversi. Per esempio, la velocità di un gruppo di soggetti può essere valutata sia misurando il tempo impiegato per concludere un percorso, sia utilizzando il rapporto tra la distanza e il tempo. Le due serie di dati non hanno la stessa forma di distribuzione e quindi l’analisi statistica potrebbe condurre a inferenze differenti.
Per scegliere il tipo di misura più adeguato, esistono due criteri: - il primo dipende dalla conoscenza scientifica dell’argomento: è la misura che meglio valuta il fenomeno e lo rende più comprensibile; - il secondo è di tipo tecnico-statistico: è la misura che ha una forma di distribuzione dei dati più rispettosa delle condizioni di validità del test, cioè determina una distribuzione normale o approssimativamente tale.
Ma spesso i dati, raccolti sulla base della misura scelta, non sono distribuiti in modo normale nemmeno in modo approssimato. Si pone quindi il problema della loro trasformazione. Nel 1964, G. E. P. Box e D. R. Cox (con l’articolo An analysis of transformations (with Discussion), pubblicato su Journal of the Royal Statistical Society, Series B 26, pp. 211-252) hanno proposto un metodo iterativo e concettualmente complesso, divenuto operativamente semplice e di vasta applicazione con l’uso dei computer, per individuare quale trasformazione dei dati può meglio normalizzare la loro distribuzione. Il metodo ricorre a una famiglia di trasformazioni di potenze. Si ottiene una X trasformata (XTRAS) mediante - la formula
quando l ¹ 0
- oppure con
quando l = 0 dove il valore di l viene fatto variare da –3 a +3.
Il valore di l che meglio normalizza la distribuzione è quello che rende massima la funzione L (nota come log-likelihood function), con
in cui - L = valore del log-likelihooh, - n = numero di gdl, corrispondente a n-1 - n = numero totale di dati, - s2TRAS = varianza dei dati trasformati, utilizzando l’equazione precedente con l - l = stima del parametro che indica la trasformazione, - X = valore del dato originale.
Inoltre è possibile calcolare l’intervallo fiduciale di l, entro il quale è conveniente scegliere la trasformazione più adeguata. Benché possa teoricamente assumere qualsiasi valore da –3 a +3 in una scala continua, in pratica l ha significato pratico solo per alcuni valori. La individuazione di l non avviene quindi solo sulla base di calcoli, ma attraverso la scelta ragionata entro i limiti fiduciali di Sl. Questa risposta ricavata dai dati sperimentali e le indicazioni attinte dalle varie esperienze spesso coincidono. Nel testo del 1978 di George E. P. Box, William G. Hunter e J. Stuart Hunter, “Statistics for Experimenters. An introdution to Design, Data Analysis and Model Building”, pubblicato da John Wiley & Sons, New York, p. 653 (a pag. 239), per la probabilità a si propone di stimare S con S =
- S definisce il limite massimo della deviazione standard minima.
Secondo questi autori, nella successiva analisi della varianza applicata ai dati trasformati, la devianza e la varianza d’errore perderebbero 1 gdl, appunto perché vincolate alla condizione di essere le minori possibili nei confronti del fattore considerato. Il valore di l individuato corrisponde all’esponente a cui elevare la variabile da trasformare, cioè X’ = Xl
L’elenco dettagliato dei valori abituali di l e delle trasformazioni corrispondenti riporta:
- l = 3 indica una trasformazione con elevamento al cubo, cioè X3 (poiché la distribuzione dei dati originali ha un g1 molto negativo);
- l = 2 indica una trasformazione con elevamento al quadrato, cioè X2 (da applicare quando la distribuzione dei dati originali ha un indice di asimmetria g1 meno negativo del precedente);
- l = 1 indica una trasformazione lineare, che non modifica la curva della distribuzione , cioè X (poiché la distribuzione dei dati ha già una forma simile alla normale);
- l = ½ indica una trasformazione con radice quadrata, cioè (g1 è leggermente positivo);
- l = 1/3 indica una trasformazione con radice cubica, cioè (g1 è positivo);
- l = 0 indica una trasformazione logaritmica, cioè ln X oppure log X (g1 è fortemente positivo),
- l = -1/3 indica una trasformazione reciproca, con X sotto radice cubica, cioè (g1 positivo);
- l = -1/2 indica una trasformazione reciproca, con X sotto radice quadrata, cioè (g1 positivo);
- l = -1 indica una trasformazione reciproca di X, cioè (g1 positivo);
- l = -2 una trasformazione reciproca con X al quadrato, cioè (g1 positivo);
- l = -3 indica una trasformazione reciproca con X al cubo, cioè (g1 positivo).
Quando tra i dati originali è compreso 0 (zero), l’equazione
è senza soluzione poiché ln 0 = - ¥. In questi casi, prima della trasformazione occorre aggiungere 0,5 oppure 1 a tutti i valori originari.
ESEMPIO. Una applicazione della trasformazione più adeguata ad una distribuzione di frequenza secondo il metodo di Box-Cox può essere rintracciata nell’ottimo volume di metodi applicati all’ecologia di Charles J. Krebs del 1999 (Ecological Methodology, 2nd ed., Addison Wesley Longman, Menlo Park, California, pp. XII + 620, nelle pagg. 552-554). Poiché la procedura richiede molti calcoli ed è utile alla comprensione del metodo che tutti i passaggi siano riportati in dettaglio, il campione utilizzato è molto piccolo.
Si assuma che siano state rilevate le seguenti 6 misure
Con estrema evidenza dalla semplice lettura dei dati, anche senza esperienza di analisi statistiche, non appare logico assumere che questi valori siano stati estratti da una popolazione distribuita in modo normale; se non altro è evidente l’asimmetria destra, per la presenza di un valore (276) molto più alto degli altri. Si tratta di individuare la trasformazione più adeguata per questi dati, affinché la loro distribuzione possa assumere forma normale, almeno in modo approssimato. Risposta. Per stimare L (log-likelihood function), con
- in cui - n = 5 - n = 6 si devono prima ricavare sia i valori lnX sia le XTRAS da cui ricavare la loro varianza (), per una serie di valori di l, che normalmente variano da –3 a + 3. Nell’esempio citato, il valore L è calcolato per i seguenti valori di l: -3, -2, -1, -0,5, 0, +0,5, +1, +2.; ma potrebbe essere fatto per tutti i 60 decimali compresi nell’intervallo tra –3,0 e +3,0. Ognuno degli 8 valori l indicati richiede vari passaggi, per ottenere il valore di L corrispondente.
Poiché i calcoli sono simili, la illustrazione è limitata al solo caso di l = -2, cioè alla trasformazione
Come primo passo, si trasformano i valori di X mediante la relazione
Per X = 55 e l = -2 si ricava
una = 0,4998347 (è utile riportare vari decimali) e si eleva al quadrato questo risultato, ottenendo = 0,2498247
Effettuando questo calcolo per ognuno dei 6 valori si ottiene la serie seguente
Di essa si calcolano i totali = 2,9984386 e = 1,4984396
Successivamente, utilizzando la formula abbreviata per la varianza
con i dati dell’esempio si ricava
= 1,23-7
Infine, dopo aver calcolato anche
che risulta uguale a 25,34197 si ricava L
che risulta L = -23,6.
Questa procedura illustrata per l = -2 deve essere ripetuta per tutti i valori l desiderati. Per gli 8 valori di l indicati, si ottiene la seguente serie di valori L
La rappresentazione grafica può aiutare a comprendere come il valore massimo di L (con il segno) è collocato tra l = - 0,5 e l = 0.
Rappresentazione grafica della funzione Log-likelihood (valori L riportati in ordinata) per valori di l (riportati in ascissa) uguali a –3, -2, -1, -0,5, 0, +0,5, +1, +2.
Poiché - l = -1/2 indica una trasformazione reciproca, con X sotto radice quadrata, cioè - l = -1/3 indica una trasformazione reciproca, con X sotto radice cubica, cioè - l = 0 indica una trasformazione logaritmica, cioè ln X oppure log X la scelta della tarsformazione da eseguire è limitata a questi tre. Il tipo di misura effettuata e le caratteristiche di distribuzione del fenomeno studiato possono essere di aiuto, nella scelta definitiva e più corretta tra queste tre trasformazioni. In modo acritico, è possibile utilizzare il valore esatto stimato dalla rappresentazione grafica, che corrisponde anche al valore che è fornito dall’analisi con il computer: l = -0,29 () cioè
Ma questa trasformazione è stimata sui dati campionari; un’altra rilevazione avrebbe senza dubbio indicato una trasformazionediversa da
In conclusione, al posto della serie dei valori di X misurati, è conveniente scegliere una delle 4 trasformazioni indicate
Dalla semplice lettura si evidenzia che tra valore minimo (23) e valore massimo (276) le distanze relative sono molto più ridotte. La trasformazione che le riduce maggiormente è quella logaritmica (ln). E’ la trasformazione che avrebbe suggerito un esperto di ecologia, sapendo che si trattava della crescita esponenziale di una popolazione.
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |