trasformazionI dei dati;

test per normalita’ e PER OUTLIER

 

 

 

13.4.   LA SCELTA DELLA TRASFORMAZIONE IDONEA: IL METODO DI BOX-COX

 

 

La trasformazione da applicare ad una serie di dati campionari, per rispettare le condizioni di validità dei test parametrici, spesso è conosciuta a priori, sulla base di quanto noto sulle caratteristiche del fenomeno analizzato e del tipo di scala utilizzato per misurarlo. Prima di applicare un test parametrico, è sempre utile ricercare in letteratura la trasformazione più adeguata, per normalizzare la distribuzione dei dati raccolti.

 

Le trasformazioni possibili e le indicazioni per le diverse situazioni, riportate nel paragrafo precedente, sono derivate da queste esperienze. Ma quando si analizza un fattore nuovo, è difficile individuare la trasformazione più appropriata.

Il problema si pone soprattutto quando un fenomeno può essere misurato in modi diversi. Per esempio, la velocità di un gruppo di soggetti può essere valutata sia misurando il tempo impiegato per concludere un percorso, sia utilizzando il rapporto tra la distanza e il tempo. Le due serie di dati non hanno la stessa forma di distribuzione e quindi l’analisi statistica potrebbe condurre a inferenze differenti.

 

Per scegliere il tipo di misura più adeguato, esistono due criteri:

- il primo dipende dalla conoscenza scientifica dell’argomento: è la misura che meglio valuta il fenomeno e lo rende più comprensibile;

-   il secondo è di tipo tecnico-statistico: è la misura che ha una forma di distribuzione dei dati più rispettosa delle condizioni di validità del test, cioè determina una distribuzione normale o approssimativamente tale.

 

Ma spesso i dati, raccolti sulla base della misura scelta, non sono distribuiti in modo normale nemmeno in modo approssimato. Si pone quindi il problema della loro trasformazione.

Nel 1964, G. E. P. Box  e  D. R. Cox (con l’articolo An analysis of transformations (with Discussion), pubblicato su Journal of the Royal Statistical Society, Series B 26, pp. 211-252) hanno proposto un metodo iterativo e concettualmente complesso, divenuto operativamente semplice e di vasta applicazione con l’uso dei computer, per individuare quale trasformazione dei dati può meglio normalizzare la loro distribuzione.

Il metodo ricorre a una famiglia di trasformazioni di potenze. Si ottiene una X trasformata (XTRAS) mediante

- la formula

 quando l ¹ 0

 

- oppure con

 quando l = 0

dove il valore di l viene fatto variare da –3 a +3.


 

Il valore di l che meglio normalizza la distribuzione è quello che rende massima la funzione L (nota come log-likelihood function),

con

in cui

-  L = valore del log-likelihooh,

n = numero di gdl, corrispondente a n-1

-  n = numero totale di dati,

-  s2TRAS = varianza dei dati trasformati, utilizzando l’equazione precedente con l

l = stima del parametro che indica la trasformazione,

-  X = valore del dato originale.

 

Inoltre è possibile calcolare l’intervallo fiduciale di l, entro il quale è conveniente scegliere la trasformazione più adeguata. Benché possa teoricamente assumere qualsiasi valore da –3 a +3 in una scala continua, in pratica l ha significato pratico solo per alcuni valori. La individuazione di l non avviene quindi solo sulla base  di calcoli, ma attraverso la scelta ragionata entro i limiti fiduciali di Sl. Questa risposta ricavata dai dati sperimentali e le indicazioni attinte dalle varie esperienze spesso coincidono.

Nel testo del 1978 di George E. P. Box, William G. Hunter e J. Stuart Hunter,Statistics for Experimenters. An introdution to Design, Data Analysis and Model Building”, pubblicato da John Wiley & Sons, New York, p. 653 (a pag. 239), per la probabilità a

si propone di stimare S con

S =

 

- S definisce il limite massimo della deviazione standard minima.

 

Secondo questi autori, nella successiva analisi della varianza applicata ai dati trasformati, la devianza e la varianza d’errore perderebbero 1 gdl, appunto perché vincolate alla condizione di essere le minori possibili nei confronti del fattore considerato.

Il valore di l individuato corrisponde all’esponente a cui elevare la variabile da trasformare,

cioè

X’  Xl

 

L’elenco dettagliato dei valori abituali di l e delle trasformazioni corrispondenti riporta:

 

-   l = 3   indica una trasformazione con elevamento al cubo, cioè X3 (poiché la distribuzione dei dati originali ha un g1 molto negativo);

 

-   l = 2   indica una trasformazione con elevamento al quadrato, cioè X2 (da applicare quando la distribuzione dei dati originali ha un indice di asimmetria  g1 meno negativo del precedente);

 

-   l = 1   indica una trasformazione lineare, che non modifica la curva della distribuzione , cioè X (poiché la distribuzione dei dati ha già una  forma simile alla normale);

 

-   l = ½   indica una trasformazione con radice quadrata, cioè    (g1 è leggermente positivo);

 

-   l = 1/3   indica  una trasformazione con radice cubica, cioè      (g1 è positivo);

 

-   l = 0   indica una trasformazione logaritmica, cioè  ln X  oppure  log X  (g1 è fortemente positivo),

 

-   l = -1/3   indica una trasformazione reciproca, con X sotto radice cubica, cioè    (g1 positivo);

 

-   l = -1/2   indica una trasformazione reciproca, con X sotto radice quadrata, cioè    (g1 positivo);

 

-   l = -1   indica  una trasformazione reciproca di X, cioè   (g1 positivo);

 

-   l = -2   una trasformazione reciproca con X al quadrato, cioè    (g1 positivo);

 

-   l = -3   indica una trasformazione reciproca con X al cubo, cioè    (g1 positivo).

 

Quando tra i dati originali è compreso 0 (zero),

l’equazione

 è senza soluzione poiché ln 0 = - ¥.

In questi casi, prima della trasformazione occorre aggiungere 0,5 oppure 1 a tutti i valori originari.

 

 

ESEMPIO. Una applicazione della trasformazione più adeguata ad una distribuzione di frequenza secondo il metodo di Box-Cox può essere rintracciata nell’ottimo volume di metodi applicati all’ecologia di Charles J. Krebs del 1999 (Ecological Methodology, 2nd ed., Addison Wesley Longman, Menlo Park, California, pp. XII + 620, nelle pagg. 552-554). Poiché la procedura richiede molti calcoli ed è utile alla comprensione del metodo che tutti i passaggi siano riportati in dettaglio, il campione utilizzato è molto piccolo.

 

Si assuma che siano state rilevate le seguenti 6 misure

 

 

55

23

276

73

41

97

 

 

Con estrema evidenza dalla semplice lettura dei dati, anche senza esperienza di analisi statistiche, non appare logico assumere che questi valori siano stati estratti da una popolazione distribuita in modo normale; se non altro è evidente l’asimmetria destra, per la presenza di un valore (276) molto più alto degli altri.

Si tratta di individuare la trasformazione più adeguata per questi dati, affinché la loro distribuzione possa assumere forma normale, almeno in modo approssimato.


Risposta.  Per stimare L (log-likelihood function),

con

-  in cui

n = 5

-  n = 6

 si devono prima ricavare sia i valori lnX sia le XTRAS  da cui ricavare la loro varianza (), per una serie di valori di l, che normalmente variano da –3 a + 3.

Nell’esempio citato, il valore L  è calcolato per i seguenti valori di l: -3,  -2,  -1,  -0,5,  0,  +0,5,  +1,  +2.; ma potrebbe essere fatto per tutti i 60 decimali compresi nell’intervallo tra –3,0  e +3,0.

Ognuno degli 8 valori l indicati richiede vari passaggi, per ottenere il valore di L corrispondente.

 

Poiché i calcoli sono simili, la illustrazione è limitata al solo caso di l = -2,

cioè alla trasformazione

 

Come primo passo, si trasformano i valori di X mediante la relazione

 

 

Per X = 55  e  l = -2 si ricava

 

 

 una  = 0,4998347 (è utile riportare vari decimali)

e si eleva al quadrato questo risultato, ottenendo  = 0,2498247

 

Effettuando questo calcolo per ognuno dei 6 valori si ottiene la serie seguente


 

X

55

0,4998347

0,2498247

23

0,4990548

0,2490557

276

0,4999934

0,2499934

73

0,4999062

0,2499062

41

0,4997026

0,2497027

97

0,4999469

0,2499469

Totale

2,9984386

1,4984396

 

 

Di essa si calcolano i totali      = 2,9984386    e    = 1,4984396

 

Successivamente, utilizzando la formula abbreviata per la varianza

 

 

con i dati dell’esempio si ricava

 

  = 1,23-7

 

Infine, dopo aver calcolato anche

 

X

55

23

276

73

41

97

Totale

4,007333

3,135494

5,620401

4,290459

3,713572

4,574711

25,34197

 

 

che risulta uguale a 25,34197

 si ricava L

che risulta L = -23,6.

 

Questa procedura illustrata per l = -2 deve essere ripetuta per tutti i valori l desiderati.

Per gli  8 valori di l indicati,

si ottiene la seguente serie di valori L

 

 

l

-3

-2

-1

-0,5

0

+0,5

+1

+2

L

-27,2

-23,6

-20,9

-20,2

-20,3

-21,1

-22,7

-26,9

 

 


La rappresentazione grafica può aiutare a comprendere come il valore massimo di L (con il segno) è collocato tra l =  - 0,5  e  l = 0.

 

Rappresentazione grafica della funzione Log-likelihood (valori L riportati in ordinata)

per valori di l (riportati in ascissa) uguali a –3, -2, -1, -0,5, 0, +0,5, +1, +2.

 

Poiché

-   l = -1/2   indica una trasformazione reciproca, con X sotto radice quadrata, cioè   

-   l = -1/3   indica una trasformazione reciproca, con X sotto radice cubica, cioè   

-   l = 0   indica una trasformazione logaritmica, cioè  ln X  oppure  log X

 la scelta della tarsformazione da eseguire è limitata a questi tre.

Il tipo di misura effettuata e le caratteristiche di distribuzione del fenomeno studiato possono essere di aiuto, nella scelta definitiva e più corretta tra queste tre trasformazioni.

In modo acritico, è possibile utilizzare il valore esatto stimato dalla rappresentazione grafica, che corrisponde anche al valore che è

 fornito dall’analisi con il computer:

l = -0,29 ()

cioè

 

Ma questa trasformazione è stimata sui dati campionari; un’altra rilevazione avrebbe senza dubbio indicato una trasformazionediversa da

 

In conclusione, al posto della serie dei valori di X misurati, è conveniente scegliere una delle 4 trasformazioni indicate

 

 

X

55

23

276

73

41

97

l = -1/2

X’ =

0,135

0,209

0,060

0,117

0,156

0,102

l = -1/3

X’ =

0,263

0,352

0,154

0,239

0,290

0,218

l = -0,29

0,313

0,403

0,196

0,288

0,341

0,266

l = 0

X’ = lnX

4,007

3,135

5,620

4,290

3,714

4,575

 

 

Dalla semplice lettura si evidenzia che tra valore minimo (23) e valore massimo (276) le distanze relative sono molto più ridotte. La trasformazione che le riduce maggiormente è quella logaritmica (ln). E’ la trasformazione che avrebbe suggerito un esperto di ecologia, sapendo che si trattava della crescita esponenziale di una popolazione.

 

 

 

 

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007