elementi di statistica descrittivaPer DISTRIBUZIONI UNIVARIATe
1.10. METODI PER CALCOLARE UN GENERICO QUANTILE DA UNA SERIE DI DATI
Nella statistica ambientale, è diffuso l’uso dei quantili, per due scopi: - individuare la collocazione di un dato entro una serie di rilevazioni, - stimare il valore di uno specifico percentile, come avviene frequentemente per la mediana o il primo e il terzo quartile.
Disponendo di uno o più dati, è utile conoscere la loro collocazione entro una distribuzione sperimentale precedente, come indicazione approssimata e descrittiva della sua posizione. In questo caso, la soluzione è semplice: il percentile è la posizione o rango occupata da quel valore, rapportata appunto a 100. Più complesso è stimare il valore esatto di un determinato percentile, con differenze metodologiche tra una serie limitata di dati o una distribuzione di frequenza. Il concetto di stima di un quartile appare semplice; ma i metodi di calcolo non sono così banali ed unanimi come possono apparire. Non esiste un metodo unico, con risultati universalmente accettati, in quanto - le varie proposte rintracciabili nei testi mostrano tutte inconvenienti od illogicità di tipo differente. Quando il numero di osservazioni è alto, tutti i metodi forniscono risposte simili, spesso coincidenti; ma quando il numero di dati è limitato e sono presenti valori anomali, i risultati differiscono anche in modo sensibile. A dimostrazione dei concetti appena espressi, si supponga di disporre di una serie di dati fortemente asimmetrica e con valori anomali, quale 1, 7, 4, 2, 50, 51, in cui n = 6, per calcolare un generico quantile Px.
Dopo aver ordinato gli n dati in modo crescente, ottenendo 1, 2, 4, 7, 50, 51,
un primo metodo richiede di 1 - Calcolare R, che è dato da R = ((n - 1) · Px) + 1 Con n = 6 dati e Px supposto uguale al 3° quartile, (3/4 oppure 75/100, espresso nell’intervallo 0-1) e quindi Px = 0,75 R = ((6 - 1) · 0,75) + 1 = 3,75 + 1 = 4,75 si ottiene R = 4,75. Il valore di R (che nell’esempio è uguale a 4,75) indica che il quantile da stimare si trova tra il 4° e il 5° valore nella serie ordinata dei dati ed esattamente nella posizione 0,75 della distanza tra i valori di rango 4 e rango 5. Per l’individuazione di tale valore, il metodo qui presentato (valido anche per la mediana con Px = 0,5) chiede ulteriori passaggi, quali
2 – Prendere I, la parte intera di R, I = Int ( R ) per cui, nell’esempio, I = Int (4,75) = 4 I risulta uguale a 4.
3 – Calcolare D per differenza tra R e I D = R - I che, sempre con i 6 dati dell’esempio D = 4,75 – 4 = 0,75 risulta uguale a 0,75.
4 – Individuare nella serie ordinata dei dati X(I) e X(I+1) cioè (con I = 4) i valori che occupano il rango 4° e 5°, per cui, con i dati dell’esempio, X(4) = 7 e X(5) = 50 5 - La stima del quantile (Q) è determinata dalla relazione = (1 - D) · X(I) + D · X(I +1) Con i dati dell’esempio, il 3° quartile (Q0,75) è Q0,75 = (1 – 0,75) x 7 + 0,75 x 50 = 1,75 + 37,5 = 39,25 uguale a 39,25.
Dopo aver calcolato che il quantile (Q0,75) desiderato si trova in posizione 4,75 su 6 dati, una variante del primo metodo appena descritto è fondata sull’interpolazione lineare a 0,75 tra il valore che occupa il 4° rango (X(4) = 7) e quello che occupa il 5° rango (X(5) = 50). Dopo averne stimato la differenza d d = X(I+1) – X(I) = 50 - 7 = 43 si calcola la quota dovuta alla proporzione P (0,75) che eccede il rango I mediante la proporzione P = 43 x 0,75 = 32,25 e viene sommata al valore del rango I Q0,75 = 7 + 32,25 = 39,25 per ottenere un valore (39,25) uguale al precedente.
Un secondo metodo calcola il quantile Px mediante la relazione Rx = n · Px + 0,5 per cui il 75° percentile o terzo quartile con n = 6 dati è R0,75 = 6 x 0,75 + 0,5 = 5,0 esattamente il 5° valore. Con i 6 dati dell’esempio precedente Q0,75 risulta uguale a 50. Per la quota eccedente l’intero I, quando esiste, si può usare l’interpolazione come calcolata prima, fra il valore X(I) e X(I+1).
Altri autori, con un terzo metodo, definiscono il valore Qx del quantile Px nei termini della relazione Rx = Px· (n + 1) per cui il 75° percentile o terzo quartile con n = 6 dati è Rx = 0,75 x (6 + 1) = 5,25
il valore che occupa la posizione 5,25. Di conseguenza Q0,75 può essere stimato per interpolazione, tra il 5° e il 6° valore, risultando Q0,75 = 50 + 0,25 (51 – 50 ) = 50,25 uguale a 50,25.
Anche questo metodo presenta varianti, fondate sulla logica di non voler stimare un valore che pretende di essere molto più preciso di quanto siano oggettivamente i dati: - una prima è l’arrotondamento all’intero più vicino, per cui è il 5° valore e Q0,75 risulta uguale a 50, una seconda è l’interpolazione come media tra i due valori, calcolando quindi Q0,75 uguale a 50,5.
Anche il primo metodo, al quale ricorrono vari programmi informatici a grande diffusione, presenta inconvenienti logici, come evidenzia l’esempio seguente. Le misure dell’inquinamento idrico spesso sono fornite come medie mensili; in Italia spesso manca il dato di agosto, coincidente con il mese di ferie. Calcolare il 9° decile della serie di 11 valori 12, 10, 8, 7, 14, 27, 29, 21, 14, 11, 9 Dopo aver ordinato per rango i valori 7, 8, 9, 10, 11, 12, 14, 14, 21, 27, 29 il 90° percentile R0,9 = (11 – 1) x 0,9 + 1 = 9 + 1 = 10 risulta il 10° valore, per cui Q0.9 è uguale a 27. Se è corretto che la mediana o R0,5 sia uguale esattamente al sesto valore, è indubbiamente una stima approssimata che tutti i decili da 1 a 9, come indicano i calcoli, risultino esattamente i valori che occupano le posizioni dalla seconda alla decima.
E’ utile ricordare quanto affermato da Peter Armitage e Geoffry Berry (in Statistica Medica, metodi statistici per la ricerca in medicina, 3a edizione, in italiano, McGraww-Hill Libri Italia srl, Milano 1996, a pag. 33): - ” Si noti che non esiste un’unica procedura standard nel calcolo dei quartili (e dei quantili). Le diverse convenzioni conducono, comunque, a piccole e insignificanti differenze tra i risultati finali”.
Con eccezione della sola mediana, non appare possibile definire quale sia il metodo migliore. Le differenze tra i diversi risultati, come nel caso di dati fortemente anomali, possono anche essere di quantità rilevanti, contrariamente a quanto affermato da Armitage; ma è un’incertezza insita nella variabilità delle osservazioni campionarie e nel numero limitato di osservazioni. Di conseguenza, - è evidente la difficoltà di pervenire a conclusioni generali e condivise, attraverso analisi fondate sui quantili.
| |
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |