elementi di statistica descrittivaPer DISTRIBUZIONI UNIVARIATe
1.5. RAPPRESENTAZIONI GRAFICHE DI DISTRIBUZIONI UNIVARIATE
Le rappresentazioni grafiche servono per evidenziare in modo semplice, a colpo d’occhio, le quattro caratteristiche fondamentali di una distribuzione di frequenza (tendenza centrale, variabilità, simmetria e curtosi). Insieme con i vantaggi di fornire una visione sintetica e di essere di facile lettura, hanno però l’inconveniente fondamentale di mancare di precisione e soprattutto di essere soggettive, quindi di permettere letture diverse degli stessi dati. Pertanto, ai fini di una elaborazione mediante i test e di un confronto dettagliato dei parametri, è sempre preferibile la tabella, che riporta i dati esatti. Nell’introdurre le rappresentazioni grafiche, seppure nel caso specifico parli di diagrammi (come quello di dispersione che in questo testo è presentato nel capitolo della regressione), Sir Ronald A. Fisher nel suo volume del 1958 “Statistical Methods for Research Workers, (13th ed. Oliver and Boyd, Edinburgh, 356 p.) espone con chiarezza i motivi che devono spingere il ricercatore a costruire rappresentazioni grafiche dei suoi dati: - un esame preliminare delle caratteristiche della distribuzione, - un suggerimento per il test da scegliere, adeguato appunto ai dati raccolti, - un aiuto alla comprensione delle conclusioni, - senza per questo essere un test, ma solo una descrizione visiva. “The preliminary examination of most data is facilited by use of diagrams. Diagrams prove nothing, but bring outstanding features readily to the eye; they are therefore no substitute for such critical tests as may be applied to the data, but are valuable in suggesting such tests, and in explaining the conclusions founded upon them”.
Le rappresentazioni grafiche proposte sono numerose. Esse debbono essere scelte in rapporto al tipo di dati e quindi alla scala utilizzata.
Per dati quantitativi, riferiti a variabili continue misurate su scale ad intervalli o di rapporti, di norma si ricorre a istogrammi o poligoni. Gli istogrammi sono grafici a barre verticali (per questo detti anche diagrammi a rettangoli accostati), nei quali - le misure della variabile casuale sono riportate lungo l'asse orizzontale, - mentre l'asse verticale rappresenta il numero assoluto, oppure la frequenza relativa o quella percentuale, con cui compaiono i valori di ogni classe.
Figura 1. Istogramma dei dati di Tab. 2 Figura 2. Istogramma dei dati di Tab. 4 ( frequenze relative) (Valore iniz. =60; Valore finale =199; Passo =20; Classi=7 )
I lati dei rettangoli sono costruiti in corrispondenza degli estremi di ciascuna classe. Un istogramma deve essere inteso come una rappresentazione areale: sono le superfici dei vari rettangoli che devono essere proporzionali alle frequenze corrispondenti. Quando le classi hanno la stessa ampiezza, le basi dei rettangoli sono uguali; di conseguenza, le loro altezze risultano proporzionali alle frequenze che rappresentano. Solo quando le basi sono uguali, è indifferente ragionare in termini di altezze o di aree di ogni rettangolo. Ma se le ampiezze delle classi sono diverse, bisogna ricordare il concetto generale che - le frequenze sono rappresentate dalle superfici e quindi è necessario rendere l'altezza proporzionale. Tale proporzione è facilmente ottenuta dividendo il numero di osservazioni per il numero di classi contenute nella base, prima di riportare la frequenza sull'asse verticale.
Per esempio, con i dati della precedente figura 2, si supponga di avere raggruppato in una classe sola le frequenze della classe da 80 a 99 e da 100 a 119, per un totale di 13 osservazioni (3 + 10).
Nella successiva figura 3, tale somma è rappresentata - nel primo caso (istogramma di sinistra) con un grafico errato - nel secondo caso (istogramma di destra) nella sua versione corretta, che utilizza il valore medio delle classi raggruppate.
Figura 3. Istogrammi dei dati di Tab. 4 Somma errata di due classi : 2a e 3a Somma corretta di due classi : 2a e 3a della figura precedente della figura precedente
Un'altra avvertenza importante nella costruzione degli istogrammi è che l'asse verticale, che riporta le frequenze, deve mostrare lo zero reale od "origine", onde non distorcere o travisare le caratteristiche dei dati ed i rapporti tra essi. In relazione alle caratteristiche della distribuzione dei dati, la larghezza o base del rettangolo non ha alcun significato e può essere scelta a piacimento; dipende solamente dal numero di classi che si vogliono rappresentare sull’asse delle ascisse.
Anche il rapporto tra l’altezza dell’asse delle ordinate e la lunghezza delle ascisse può essere scelto a piacimento e non ha alcun significato statistico. Tuttavia, sulla prassi di costruire figure graficamente eleganti, le dimensioni utilizzate dai programmi informatici seguono uno schema che è ormai uguale per tutti. E’ quasi sempre praticato un accorgimento che ha una finalità esclusivamente estetica: per costruire una relazione armonica tra gli elementi del grafico, è uso corrente che tutto il disegno dell’istogramma debba essere contenuto in un rettangolo virtuale, in cui l’altezza sia i 2/3 della base o, come riportano altri testi per fornire lo stesso concetto, la base sia 1,5 volte l’altezza. (Gli esempi riportati sono stati costruiti con programmi informatici a grande diffusione internazionale, che seguono questa regola estetica).
La rappresentazione grafica permette di valutare con immediatezza se il numero di classi costruite è adeguato alle caratteristiche della distribuzione originale dei dati. Con poche eccezioni, le variabili quantitative di fenomeni biologici od ambientali evidenziano una distribuzione normale, con caratteristiche specifiche di addensamento verso i valori centrali e di dispersione più o meno simmetrica, ma con declino regolare verso i due estremi.
La rappresentazione grafica deve essere in grado di non alterare od interrompere la regolarità della distribuzione, come può avvenire in particolare quando il numero di classi è troppo alto rispetto al numero di dati. Una dimostrazione di tale caso è riportato nella figura successiva, nella quale sono state fatte 14 classi, invece delle 7 richieste prendendo in considerazione il numero di dati, la loro variabilità e i limiti delle singole classi.
L’istogramma che segue è una chiara dimostrazione di una suddivisione in classi eccessiva: uno o più gruppi di misure (due nell’esempio) comprese entro gli estremi hanno frequenza zero ed alterano la rappresentazione di una distribuzione normale. La frequenza delle classi e l’altezza dei rettangoli ad essa proporzionali tendono a decrescere in modo relativamente regolare. Quando un grafico presenta una forte alterazione dalla forma normale, che scompare con una suddivisioni in classi meno frammentate, si ha una indicazione di un possibile errore tecnico nella rappresentazione dei dati.
Figura 4. Istogramma dei dati di Tab. 4 (Valore iniziale = 60; Valore finale = 199; Passo = 10; Classi = 14) (Rappresentazione grafica non adeguata, per eccessiva suddivisione in classi)
I poligoni sono figure simili agli istogrammi e sono utilizzati di norma per la rappresentazione di valori relativi o di percentuali, in quanto è implicito che l’area totale sottesa sia uguale a 1 o 100%. Come nel caso degli istogrammi, l'asse orizzontale rappresenta il fenomeno, mentre l'asse verticale rappresenta la proporzione o percentuale di ogni classe.
Un poligono può essere ottenuto a partire dal relativo istogramma, unendo con una linea spezzata i punti centrali di ogni classe. La linea spezzata deve essere unita all'asse orizzontale, sia all'inizio sia alla fine, per racchiudere l'area della distribuzione. Questo procedimento viene ottenuto con un artificio, simulando la presenza di un istogramma con presenze uguali a 0 (zero) come punto di partenza. Si unisce il valore centrale della prima classe con il valore centrale di questa precedente classe fittizia di valore 0; l’ultimo segmento viene ottenuto unendo il valore centrale dell'ultima classe reale con il valore centrale di una classe successiva, fittizia, di valore 0.
Il poligono rappresentato nella figura 5 corrisponde all’istogramma della figura 2. E' stato costruito con i dati della tabella 4, spostando le classi sull’asse delle ascisse per comprendere i nuovi estremi della distribuzione.
Figura 5. Poligono dei dati di Tab. 4 Figura 6. Poligono cumulato di Tab. 4
Le distribuzioni cumulate sono rappresentate sia con istogrammi cumulati sia con poligoni cumulati. Non forniscono informazioni sostanzialmente differenti da quelle dei relativi istogrammi e poligoni già descritti, poiché - è possibile passare con facilità da una distribuzione di frequenza alla sua cumulata con semplici operazioni di somme o di sottrazioni tra classi. Sono solamente più convenienti, per meglio evidenziare il concetto di maggiore interesse. La figura 6 rappresenta il poligono cumulato corrispondente al poligono della figura 5.
Figura 7. Istogramma cumulato dei dati di Tab. 2
Tuttavia, per la diversa prospettiva che essi offrono a partire dagli stessi dati, gli istogrammi ed i poligoni cumulati sono un altro metodo utile sia per presentare le caratteristiche di dati quantitativi riportati in tabelle, sia per facilitare l'interpretazione e l'analisi. Servono soprattutto per evidenziare, con lettura immediata, quante sono in totale le misure che sono inferiori o superiori ad un certo valore. Il valore dell'asse orizzontale che corrisponde al 50% dei valori identifica la mediana (riportato come linea tratteggiata nella figura 7 che rappresenta un istogramma cumulato); è un parametro di tendenza centrale estremamente importante, quando la distribuzione non è simmetrica (il suo uso e le sue caratteristiche saranno descritte in modo dettagliato nei prossimi paragrafi).
Per le distribuzioni di frequenza di dati qualitativi, le rappresentazioni grafiche più frequenti sono - i diagrammi a rettangoli distanziati, - gli ortogrammi, - i diagrammi a punti, - gli areogrammi (tra cui i diagrammi circolari), - i diagrammi a figure (o diagrammi simbolici).
I diagrammi a rettangoli distanziati, detti anche grafici a colonne, sono formati da rettangoli con basi uguali ed altezze proporzionali alle intensità (o frequenze) dei vari gruppi considerati. A differenza degli istogrammi, i rettangoli non sono tra loro contigui, ma distaccati; di conseguenza, sull’asse delle ascisse non vengono riportati misure ordinate ma nomi, etichette o simboli, propri delle classificazioni qualitative. Con dati qualitativi o nominali, le basi dei rettangoli sono sempre identiche avendo solo un significato simbolico.
Si può ricorre quindi sia a diagrammi a punti o line plot, in cui i punti sono disposti uno sopra l’altro fino ad un’altezza proporzionale alla frequenza della classe, sia a diagrammi a barre, che sono un’altra rappresentazione frequente, in cui al posto di rettangoli o colonne di punti vengono usate linee continue più o meno spesse (figura 8).
Figura 8. Rettangoli distanziati Figura 9. Ortogramma
Nel caso di dati qualitativi o nominali, non esiste una logica specifica nell'ordine delle classi. Per convenzione, i rettangoli o le colonne sovente (ma non obbligatoriamente) vengono disposti in modo ordinato dal maggiore al minore o viceversa. Se le classi qualitative sono composte da sottoclassi, è possibile una rappresentazione grafica più articolata, dividendo ogni rettangolo in più parti, con altezze proporzionali alle frequenze delle sottoclassi (figura 10). Avendo basi uguali, le aree sono proporzionali alle altezze; pertanto, anche i diagrammi a rettangoli distanziati sono rappresentazioni areali.
Gli ortogrammi o grafici a nastri sono uguali ai rettangoli distanziati; l’unica differenza è che gli assi sono scambiati, per una lettura più facile (figura 9 e figura 11). Anche in questo caso è possibile sostituire ai rettangoli una linea, eventualmente punteggiata. Si ottengono diagrammi a barre o a punti e l’intensità o frequenza delle varie classi viene letta con una proiezione sull’asse delle ascisse.
Figura 10. Rettangoli distanziati Figura 11. Ortogramma
Secondo alcuni esperti di percezione dei grafici, queste figure vengono lette con maggiore facilità rispetto ai rettangoli distanziati (l’occhio leggerebbe con maggiore facilità la proiezione verticale e di quella orizzontale) e quindi meglio rappresentano le informazioni contenute in distribuzioni di frequenza di dati qualitativi.
Gli areogrammi sono grafici in cui le frequenze o le quantità di una variabile qualitativa sono rappresentate da superfici di figure piane, come quadrati, rettangoli o, più frequentemente, cerchi oppure loro parti. La rappresentazione può essere fatta sia con più figure dello stesso tipo, aventi superfici proporzionali alle frequenze o quantità, sia con un'unica figura suddivisa in parti proporzionali. Nel caso dei diagrammi circolari o a torta, si divide un cerchio in parti proporzionali alle classi di frequenza. Gli areogrammi vengono usati soprattutto per rappresentare frequenze percentuali.
Figura 12. Diagrammi circolari
Hanno il vantaggio di fare capire con immediatezza che la somma di tutte le classi è uguale all’unità (1 o 100%); hanno l’inconveniente che evidenziano con estrema difficoltà le differenze che non sono molto marcate. Per differenze piccole, si dimostrano meno efficaci degli ortogrammi.
I diagrammi circolari sono utilizzati per distribuzioni di variabili nominali, al fine di evitare di stabilire anche involontariamente un ordine, che non esiste tra variabili qualitative. Mettono in evidenza come sono distribuite le singole parti, rispetto all’intero: il cerchio rappresenta l’intero fenomeno ed i componenti sono rappresentati da settori che sono distinti da tratteggi, colori o gradazioni di colore differenti.
Gli angoli (a, nella formula successiva) devono essere proporzionali alle percentuali (Y in %) che vogliono rappresentare, in accordo con la relazione a : 360 = Y in % : 100
Con i diagrammi a figure, detti anche diagrammi simbolici o pittogrammi, la frequenza di ogni carattere qualitativo viene rappresentata da una figura, sovente stilizzata, oppure da simboli che ricordano facilmente l'oggetto. E’ una specie di istogramma costruito con figure, dove l’altezza della figura deve essere proporzionale alla frequenza, quando le basi sono uguali.
Questi diagrammi a figure hanno tuttavia il grave inconveniente di prestarsi a trarre in inganno con facilità il lettore inesperto di statistica, quando sono stati costruiti con malizia; è pure facile che un ricercatore non sufficientemente esperto li costruisca in modo sbagliato, generando non volutamente il sospetto che egli abbia voluto fornire una impressione di differenza tra i gruppi a confronto non supportata dai dati. Per esempio, una popolazione con un numero triplo di persone rispetto ad un'altra spesso è rappresentata da una figura umana proporzionata, di altezza tripla rispetto all’altra.
L'occhio coglie complessivamente non l’altezza di ogni figura ma la superficie che essa occupa, che è il quadrato del valore che si intende rappresentare: se ne ricava l'impressione distorta di un rapporto di 9 a 1 e non di 3 a 1, come dicono in realtà i dati. E’ possibile ovviare all'inconveniente, costruendo non una figura improbabile di altezza variabile e con base uguale (poiché risulterebbe una figura alterata ed una rappresentazione forse incomprensibile), ma ricorrendo all'artificio di figure identiche, ripetute tante volte quante sono le proporzioni. Per esempio, se l'unità di misura convenuta è 20 individui, 50 persone possono essere rappresentate in modo corretto da due figure umane e mezza e 105 persone da 5 figure intere più un quarto di figura. In questo modo si rispetta la regola per costruire gli istogrammi in modo corretto: l’altezza delle due figure è proporzionale al numero di dati dei due gruppi
A causa degli inconvenienti, i diagrammi simbolici o a figure sono usati molto raramente nelle pubblicazioni specializzate e mai in quelle scientifiche. Sono riservati a pubblicazioni divulgative, quando è più importante l’impressione della precisione, cioè occorre evidenziare l’importanza del fenomeno a persone che non conoscono esattamente il problema. Gli specialisti preferiscono i dati, poiché da essi sanno valutare il fenomeno e se un dato è credibile oppure anomalo con elevata probabilità.
Figura 13b. Esempio tratto da un quotidiano sulle manovre finanziarie in Italia, dal 1992 al 2000 Notare come i numeri diano un’informazione differente dai volumi rappresentati
Il primo a presentare una trattazione amplia sul problema della rappresentazione grafica dei dati è Edward R. Tufte nel 1983 con il volume The Visual Display of Quantitative Information (Graphics Press, Cheshire, CT). Egli enuncia chiaramente il concetto, dato per implicito nella tradizione statistica e quindi mai chiaramente discusso, che - una rappresentazione grafica di numeri deve essere direttamente proporzionale alla quantità rappresentata: The representation of numbers, as physically measured on the surface of the graphic itself, should be directly proportional to the quantities representeted.
Come richiesto dalle applicazioni, fornisce anche un metodo per misurare la violazione di tale principio il Lie Factor (che potrebbe essere tradotto come il Fattore di Imbroglio o il Fattore di Menzogna, ma che non ha ancora avuto una traduzione in Italiano). Il Lie Factor è definito come - il rapporto tra la dimensione di un effetto mostrato nel grafico e la dimensione dell’effetto nei dati:
Lie Factor defined as the ratio of the size of an effect shown in the graphic to the size of the effect in the data.
Ovviamente tale rapporto dovrebbe essere uguale a 1. Se si allontana da 1, è l’indicazione numerica di una rappresentazione non corretta. Fornisce i limiti di una variazione casuale o accettabile, come se si trattasse di un test, affermando che il valore del Lie Factor dovrebbe sempre essere compreso tra 1,05 e 0,95. Ma spesso varia da 0,5 a 5. Nel suo testo mostra casi, presi soprattutto dal giornalismo politico, nei quali il Lie Factor è maggiore di 10,0. La figura successiva, anch’essa riportata nel suo testo e ripresa da altri autori come a pag. 218 del volume di B. S. Everitt del 2002 The Cambridge Dictionary of Statistics (2nd edn. Cambridge University Press, UK, IX + 410 p. )
ha un Lie Factor uguale a 2,8.
E’ la percentuale di medici che svolgono solamente il compito di medici di famiglia: in California dal 1964 al 1990 diminuiscono dal 21% al 12% di tutti i medici dello stato, numericamente di riducono da 8.023 unità a 6.212 e in rapporto alla popolazione passano da 1 su 2.247 residenti a 1 su 4.232. La figura espone questi concetti, con la costruzione di un pittogramma, che ovviamente viene letto dall’occhio sulla base della superficie mentre la proporzione di rappresentare è riportata solamente sull’asse delle ordinate (l’altezza); inoltre la figura è ulteriormente alterata dal cambiamento dell’asse delle ascisse. Un metodo diffuso per costruire grafici alterati è l’uso esasperato della prospettiva. Nel grafico riportato il gioco della prospettiva è presente in modo limitato. Ulteriori approfondimenti di questi argomenti sono riportati in un secondo volume di Edward R. Tufte, pubblicato nel 1991 Envisioning Information (Graphic Press, Cheshire, CT).
Il cartogramma evidenzia distribuzioni territoriali mediante carte geografiche, in cui nelle località interessate sono riportati cerchi proporzionali alle frequenze. E’ il caso delle città segnate su carte geografiche con cerchi di dimensioni proporzionali al numero di abitanti. Questi cerchi spesso sono solo simboli, illustrati nelle didascalie: per cui un solo cerchio bianco spesso indica una quantità di base (es.: 1.000 persone), due cerchi concentrici indicano una quantità maggiore, anche in modo non proporzionale (es.: 20.000 persone), tre cerchi o un cerchio annerito una quantità ancora superiore (es.: 100.000 persone) e così via. E’ importante ricordare che, quando costruiti in modo proporzionale, anche queste rappresentazioni grafiche sono essenzialmente areogrammi e quindi possono trarre in inganno se ad essere proporzionale alle frequenze è il raggio.
Un’altra rappresentazione grafica che ha un uso specifico per alcuni argomenti è il diagramma polare o diagramma a coordinate polari. Serve per rappresentare le variabili cicliche (mensili, settimanali, giornaliere), come la quantità di pioggia e la temperatura media mensile; oppure la quantità di inquinanti presenti nell’aria in un ciclo di 24 ore. A partire da un punto centrale, chiamato polo, si traccia una serie di cerchi concentrici, la cui distanza dal centro misura l’intensità del fenomeno.
Per rappresentare la variabile ciclica, si divide l’angolo giro in tante parti quante sono le modalità (es.: 12 per i mesi, 24 per le ore). Si devono poi collocare punti nei vari cerchi concentrici, per individuare insieme la modalità (es.: il mese o l’ora) e l’intensità del fenomeno (es.: la quantità di pioggia, la temperatura, la misura d’inquinamento atmosferico o di un corso d’acqua). Il diagramma polare è ottenuto congiungendo i vari punti e l’intensità del fenomeno è rappresentata dalla distanza dal centro. Le figure relative riportano due differenti impostazioni grafiche di costruire un diagramma polare sui valori medi mensili in Italia della radioattività beta totale nell’anno 1993.
Per la rappresentazione di dati numerici, è possibile ricorrere anche a diagrammi cartesiani. Essi saranno illustrati nel capitolo dedicato ai dati bivariati; sono utilizzati quando per ogni individuo sono rilevati contemporaneamente 2 variabili, come il peso e l’altezza. Ma possono essere usati anche per una sola variabile, collocando i punti di una distribuzione cumulata su un piano cartesiano: la perpendicolare sull’asse delle ascisse coincide con il valore della variabile e quella sull’asse delle ordinate fornisce le corrispondenti quantità o frequenze; i punti sono uniti da segmenti secondo l’ordine stabilito dal valore riportato in ascissa. E’ di particolare utilità il diagramma quantile, che risulta graficamente simile al diagramma cumulato, soprattutto quando si dispone di poche unità e la variabile è di tipo continuo: vengono eliminate le anomale presenze di classi nulle entro gli estremi.
Per la scelta del metodo grafico con il quale presentare i dati, si deve prendere in considerazione il tipo di dati (qualitativi o quantitativi), la misura (discreta o continua), il dettaglio che si vuole ottenere nella forma della distribuzione. I metodi non aggiungono alcuna informazione che già non sia contenuta nei dati; ma garantiscono una rappresentazione più efficace, in particolare a persone non esperte dell’argomento trattato.
| |
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |