elementi di statistica  descrittiva

Per  DISTRIBUZIONI  UNIVARIATe

 

 

1.12.   ESERCIZI SULLE MISURE DI TENDENZA CENTRALE, DISPERSIONE,   SIMMETRIA E CURTOSI

 

 

ESEMPIO  1.  In 36 laghi degli Appennini Settentrionali è stato prelevato un campione d’acqua e sono state misurate le concentrazioni di Sodio e di Cloruri, espresse in mg/l, (vedi tabella seguente):

 

 

Lago

Sodio

Cloruri

1

1,78

1,60

2

1,63

1,80

3

1,85

2,90

4

2,10

2,90

5

1,35

2,90

6

1,40

2,90

7

1,82

2,00

8

1,35

2,00

9

2,06

2,00

10

1,85

2,20

11

1,51

2,30

12

2,00

2,30

13

2,02

2,80

14

1,90

2,80

15

1,60

2,80

16

2,18

2,50

17

1,82

2,50

18

1,90

2,50

19

1,75

2,60

20

2,11

2,60

21

2,30

2,60

22

1,95

2,70

23

2,60

2,90

24

2,44

2,90

25

2,18

3,00

26

2,51

3,10

27

2,37

3,10

28

2,54

3,30

29

2,06

3,30

30

2,77

3,40

31

2,31

3,40

32

2,81

3,60

33

2,33

3,70

34

1,45

3,80

35

1,78

3,80

36

2,09

3,90

 

 

Calcolare le misure della tendenza centrale, della variabilità e degli indici di forma;

- rappresentare graficamente i dati in istogrammi.

 

Risposta.   Le statistiche calcolate dai programmi informatici comprendono varie misure di tendenza centrale, di dispersione, di simmetria e di curtosi. Quelle di seguito riportate presuppongono una distribuzione normale e sono fondate sulla media e sui momenti della distribuzione. Esistono programmi che utilizzano la mediana come misura della tendenza centrale e ricorrono ai quantili per descrivere la dispersione e la simmetria, come nel caso dei boxplot riportati in figure precedenti. 

I programmi informatici forniscono una serie di valori, che descrivono compiutamente i dati campionari, come la tabella seguente (tra parentesi è riportato il termine inglese):

 

 

Sodio

Cloruri

Numero di dati (Count, N. of data)

36

36

Somma (Sum)

72,87

101,4

Minimo (Minimum)

1,35

1,6

Massimo (Maximum)

 2,81

3,9

Intervallo (Range)

1,46

2,3

Media (Mean)

2,024

2,817

Media geometrica (Geometric Mean)

1,987

2,756

Media armonica (Harmonic Mean)

1,949

2,692

Devianza (Sum of Squares)

5,29

11,76

Varianza (Variance, Mean Square)

0,151

0,336

Deviazione standard (Standard Deviation)

0,389

0,58

Errore standard (Standard Error)

0.065

0,097

Curtosi (Kurtosis)

-0,655

-0,53

Asimmetria (Skewness)

0,084

-0,015

 

 

Per valutare in modo più dettagliato e completo le caratteristiche delle 36 misure di sodio e cloruri presenti nei laghi campionati, è utile anche la loro rappresentazione in istogrammi. Quasi sempre sono forniti dai medesimi programmi informatici che calcolano anche gli indici già presentati.

Nei due istogrammi, i valori riportati sull’asse delle ascisse individuano la media della classe di riferimento. Nel primo grafico, sono riportati in modo alternato per evitare una eccessiva densità di numeri che renderebbe poco agevole la lettura. Sull’asse delle ordinate sono riportate le frequenze assolute.

Notare come i rapporti tra l’altezza e la lunghezza dell’istogramma rispondano ai criteri di eleganza grafica, già presentati.

 

                      

Figura  36

Istogramma delle concentrazioni del Sodio            Istogramma delle concentrazioni dei Cloruri

 

Le due serie di valori hanno una distribuzione normale molto vicino alla normale, con curtosi negativa ed una leggerissima asimmetria, negativa per il sodio e positiva per i cloruri. Per analisi e confronti, possono essere applicati i test parametrici.

 

ESEMPIO  2. In 4 laghi degli Appennini settentrionali, sono state stimate le densità dei principali taxa fitoplanctonici riportati in tabella:

 

 

Clorophyceae

Cryptophyceae

Crysophyceae

Diatomophyceae

Dinophyceae

Lago 1

179857

83497

30891

166861

25600

Lago 2

120893

29000

136791

27500

28000

Lago 3

198043

54454

82770

38712

54734

Lago 4

57496

42980

66440

34356

31270

 

Rappresentare i dati nelle forme grafiche di uso più comune.

 

Risposta.  Sono distribuzioni di caratteri qualitativi. Le rappresentazioni grafiche adeguate sono i rettangoli distanziati e i diagramma a torta: può essere scelta una delle varie versioni, secondo la caratteristica da evidenziare.

 

La figura 30 riporta le 5 specie presenti nei 4 laghi con le due differenti versioni di rettangoli distanziati; potrebbero essere utilmente applicati anche gli ortogrammi in una delle due forme equivalenti.

 

 

                  

Figura 37. Istogrammi

 

 

                                         Lago 1                                                                                                 Lago 2

 

Figura 38.  Diagrammi a torta delle specie presenti nei laghi 1 e 2


 

I diagrammi a torta dimostrano di essere di più difficile lettura. Senza le percentuali, diventa difficile un confronto tra il numero di individui delle diverse specie presenti (ad esempio nel lago 1 è impossibile distinguere se è più alta la frequenza della specie 4 o della specie 1).\

 

 

                                         Lago 3                                                                                                 Lago 4

 

Figura 39.  Diagrammi a torta delle specie presenti nei laghi 3 e 4.

 

 

Il confronto visivo tra i 4 diagrammi a torta mostra quanto sia difficile cogliere le differenze tra le 4

distribuzioni, meglio evidenziate dai grafici precedenti, riportati nella figura 37.

 

 

ESEMPIO 3.   Date due serie di dati relative ai campioni A e B

 

A:            5              7              2              4              3

B:            15            11            9              8              10            12

 

calcolare per ognuna di esse

- le misure della tendenza centrale,

- le misure della dispersione,

- gli indici di forma.

 

Sono stati proposti 2 esercizi con pochi dati, per evitare che i calcoli manuali richiedano troppo tempo.

Si chiede di

- calcolare la devianza secondo la formula euristica e quella abbreviata,

- calcolare la varianza sia con la formula euristica che con quella che considera tutti i possibili scarti

tra coppie di dati.

 

Risposta.

Sono riportati i risultati di un programma informatico:

 

 

Statistiche dei 2 campioni

A

B

Numero di dati (Count, N. of data)

5

6

Somma (Sum)

21

65

Minimo (Minimum)

2

8

Massimo (Maximum)

7

15

Intervallo (Range)

5

7

Media (Mean)

4,2

10,833

Media geometrica (Geometric Mean)

3,845

10,60

Media armonica (Harmonic Mean)

3,506

10,398

Devianza (Sum of Squares)

14,7

30,83

Varianza (Variance, Mean Square)

3,7

6,167

Deviazione standard (Standard Deviation)

1,924

2,483

Errore standard (Standard Error)

0,86

1,014

Curtosi (Kurtosis)

-1,005

-0,605

Asimmetria (Skewness)

0,084

0,636

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007