ALTRI METODI INFERENZIALI:

NORMAL SCORES E RICAMPIONAMENTO

 

  

 

22.5.   IL JACKKNIFE 

 

 

Il Jackknife (chiamato anche Tukey’s jackknife) serve per ridurre le distorsioni sistematiche, che dipendono dai dati campionari, nella stima delle statistiche di una popolazione, fornendone l’errore standard. Permette quindi di calcolare l’intervallo di confidenza per la statistica in esame. E’ essenziale comprendere che l’assunzione di normalità riguarda la statistica elaborata con il metodo jackknife, non la distribuzione delle misure campionarie.

Il termine jackknife in inglese indica il coltello a serramanico; per estensione, il coltello degli esploratori che contiene varie lame e molti altri strumenti, come apribottiglie, lime, forbici, cacciavite. E’ funzionale in situazioni di emergenza; è inutile quando si disponga degli strumenti specifici, più solidi e professionali. Secondo Garhwaite  et al. (Statistical Inference, London, Prentice-Hall, 1995), il termine è stato scelto opportunamente, poiché il metodo ha una applicazione appropriata quando non è possibile utilizzare il metodo classico, per l’inferenza e la stima del parametro della popolazione.

 

L’idea di base del metodo jackknife, come proposta da Tukey nel 1958 sviluppando l’idea proposta da Quenouille nel 1949, serve anche per costruire intervalli di confidenza intorno alla media.

La metodologia è bene evidenziata dalla serie di operazioni richieste, che possono essere schematizzate in 7 passaggi.

 

1) Calcolare la statistica St desiderata (per esempio la varianza s2 o la correlazione r) utilizzando le N osservazioni del campione raccolto.

 

2) Dividere il campione in sottogruppi; se il campione è di grandi dimensioni, i sottogruppi sono formati da k unità; se il campione è di piccole dimensioni, come spesso succede, i sottogruppi possono essere formati da una sola unità.

 

3) Calcolare il valore della statistica desiderata senza un sottogruppo, ignorando ogni volta un sottogruppo diverso St-i; si ottengono N/k differenti stime della statistica.

 

4) Calcolare i cosìdetti pseudovalori qi (chiamati in questo modo perché cercano mediamente di stimare il parametro q riproducendo le variabili originarie) per ogni stima di St-i , mediante la differenza

qi  =  N × St – (N – 1) × St -i

 

5) La stima con il jackknife della statistica in oggetto  è semplicemente la media aritmetica  di questi valori  qi

 

6)  L’errore standard es di  è

 e la deviazione standard è

 

7) Con il valore del t di Student alla probabilità a prescelta e per gdl N-1, si stimano i limiti di confidenza

± t(a/2, N-1) × es(St)

 entro il quale alla probabilità a prefissata si troverà il parametro della popolazione.

 

Questa procedura può essere applicata a varie analisi statistiche, delle quali vengono ricordate quelle che ricorrono con frequenza maggiore nella ricerca applicata alle discipline biologiche e ambientali.

 

A) Nel caso di un coefficiente di correlazione,

-  per confrontare un r sperimentale con un valore teorico o per verificare l’uguaglianza di due r campionari (H0: r1 = r2),

-  al fine di eliminare l’asimmetria di un valore diverso da 0 (vedi le trasformazioni dei dati e paragrafi relativi alla correlazione)

-  si ricorre alla trasformazione z, sviluppata da R. A. Fisher

 

 

Essa rende ogni valore di r distribuito in modo approssimativamente normale.

La sua varianza è 

 dove N è il numero di coppie di valori.

 

B) Per la verifica dell’omogeneità della varianza tra due o più gruppi con distribuzione non normale, con il jackknife è possibile stimare N/k varianze in ogni gruppo e quindi ottenere altrettante misure diverse dai loro rapporti. 

 

C) Nell’analisi della varianza ad un criterio di classificazione con k gruppi, si hanno altrettanti rapporti

con l’esclusione di un gruppo alla volta.

 

D) Se sono presenti dati anomali (outliers), l’errore standard calcolato con il metodo jackknife è fortemente sottostimato. L’esame dei pseudo-valori permette di evidenziare gli effetti dei dati di volta in volta esclusi e quindi di vedere se ognuno di essi, e quale, è un dato anomalo.

La quantità , definita da Devlin nel 1975 “la funzione di influenza del campione”, è una misura conveniente dell’effetto che un dato specifico ha sulla statistica in studio.

 

 

ESEMPIO. Applicare il metodo Jackknife per l’analisi di un coefficiente di correlazione, con i seguenti 15 dati sperimentali

 

X1

X2

576

3.39

635

3.30

558

2.81

578

3.03

666

3.44

580

3.07

555

3.00

661

3.43

651

3.36

605

3.13

653

3.12

575

2.74

545

2.76

572

2.88

594

2.96

 

 

Per meglio comprendere le caratteristiche dei dati, il primo passo è la rappresentazione grafica, mediante il diagramma di dispersione.

Già a prima vista indica la presenza di un possibile outlier, rappresentato con un triangolo nell’angolo in alto a sinistra.

La sua individuazione non è ovvia. Ma la sua presenza impone il ricorso a metodi non parametrici.

 Il jackknife permette sia di individuare il punto, sia una stima non errata della correlazione.

 


Il calcolo del coefficiente di correlazione con i 15 punti fornisce un valore di r (Observed)

per i valori osservati uguale a 0,7764.

 

Ma è possibile calcolare altri 15 valori di r, togliendo ogni volta una coppia di dati e quindi utilizzare ogni volta solo 14 coppie di valori dell’elenco presentato.

La media di questi 15 valori (Mean) è uguale a 0,7759 con una distorsione (Bias) di 0.0005 rispetto al valore calcolato in precedenza, con il metodo classico; l’errore standard (SE) del valore r medio, calcolato con

 dove

 è ognuno dei 15 valori di r calcolati su 14 (n-1) dati,

 è la media di questi 15 valori di r

risulta uguale a 0,1425.

Sovente, anche se con varianti, un programma informatico fornisce queste informazioni con la tabella

 

Observed

Bias

Mean

SE

0.7764

-0.0005

0.7759

0.1425

 

E’ sempre conveniente, per una lettura più agevole, fare una distribuzione grafica di questi 15 valori  di r calcolati, come riportato nella figura sottostante.

 

 


Distribuzione dei 15 pseudo-valori di r calcolati dalle 15 coppie di dati campionari.

(Le ordinate sono state moltiplicate per 3 per motivi grafici.

 

 

In essa emerge con chiarezza come il valore di r calcolato senza la presenza di quel punto anomalo (indicato nel grafico con il triangolo e corrisponde alle coordinate cartesiane X1 = 5,76  e X2 = 3,39), sia diverso da quelli ottenuti quando esso è compreso. E’ una dimostrazione sperimentale dell’anomalia di quel punto, che a prima vista né sulla tabella dei dati né sul diagramma di dispersione, risultava con altrettanta evidenza.

 

Il metodo jackknife permette quindi una stima del parametro e del suo intervallo fiduciale quando non sono rispettate le condizioni di validità per la statistica parametrica classica.

Mediante l’intervallo fiduciale è possibile passare all’inferenza rispetto alla sua media, verificando se un certo valore atteso oppure un altro valore sperimentale è compreso nell’intervallo calcolato.

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007