CORRELAZIONE  E  COVARIANZA

 

 

18.2.   CONDIZIONI DI VALIDITA’ E SIGNIFICATIVITA’ DI r CON r = 0 E CON r ¹ 0

 

 

Le condizioni di validità della correlazione, il cui indice nel caso di una popolazione è indicato con r (rho), sono le stesse della regressione. Tuttavia, mentre nella regressione sono applicate solo alla variabile Y, nel caso della correlazione, che utilizza indistintamente entrambe le variabili, richiede che sia X1 che X2 siano distribuite in modo approssimativamente normale.

 

Con due variabili, l’ipotesi di normalità della distribuzione pretende la distribuzione normale bivariata, che è un'estensione a tre dimensioni della curva normale.

Mentre la superficie di una distribuzione univariata è determinata in modo compiuto da due parametri (media m e deviazione standard s), la superficie normale bivariata è determinata da cinque parametri:

-   media e deviazione standard della variabile X1,

-   media e deviazione standard della variabile X2,

-   coefficiente di correlazione (r) tra X1 e X2.

La sua rappresentazione grafica, nel caso in cui non esista correlazione (r = 0) tra le due variabili ed esse abbiano varianza uguale, determina una figura come quella riportata:


 

Distribuzione normale bivariata

X e Y sono due variabili indipendenti () di uguale varianza ()

 

 

La distribuzione normale bivariata assume la forma di una collina di forma circolare, che degrada nello stesso modo su tutti i versanti; la pendenza dipende dal valore della varianza.

 

 

 

Distribuzione normale bivariata

X e Y sono due variabili indipendenti () con varianze diverse ()


 

Quando le varianze sono diverse, sempre nel caso che non esista correlazione, la rappresentazione grafica assume la forma di una collina a pendenze diverse, con un declino più rapido dove la varianza è minore, con frequenze maggiori lungo la retta individuata da X medio e da Y medio.

Quando esiste correlazione, come nella figura successiva, la distribuzione bivariata tende ad assumere la forma di una cresta di montagna, distribuita in diagonale rispetto alle due medie. La cresta è tanto più sottile quanto più alto è il valore r della correlazione.

 

 

 

Distribuzione normale bivariata

X e Y sono due variabili correlate () di uguale varianza ()

 

 

 

Con r = 1 la rappresentazione grafica diventa un piano perpendicolare alla base, posto in diagonale rispetto alle ascisse e alle ordinate. Il segno della correlazione determina solo la direzione di tale piano rispetto alla base.

 

Dopo il calcolo di un coefficiente di correlazione r, sempre valido come indice che misura la relazione tra due variabili in quanto solo descrittivo come il calcolo di una media o di una varianza, può porsi il duplice problema della sua significatività, cioè di verificare

a)   l’ipotesi nulla H0: r = 0 ( non significativamente diverso da zero)

b)   l’ipotesi nulla H0: r = r0 (non significativamente diverso da un qualsiasi valore prefissato, ma diverso da zero)

 con ipotesi alternativa bilaterale oppure unilaterale in entrambi i casi.

 

A differenza dei test sulla media e sul coefficiente angolare b (oppure l’intercetta a), che possono assumere qualsiasi valore e quindi essere sempre distribuiti normalmente rispetto al valore della popolazione, un test di significatività pone problemi differenti di validità se intende verificare l’ipotesi nulla

a)   r = 0

b)   r ¹ 0.

 

Nel primo caso (r = 0), i valori campionari r possono essere assunti come distribuiti in modo approssimativamente normale e simmetrico rispetto alla correlazione della popolazione (r).

Nel secondo caso (r ¹ 0), i valori campionari r si distribuiscono in modo sicuramente asimmetrico intorno alla correlazione della popolazione (r) e in modo tanto più accentuato quanto più essa si allontana da zero e si avvicina a uno dei due estremi (-1+1). E’ intuitivo che, considerando ad esempio risultati positivi, con un valore reale di r = 0,9 il valore campionario r non potrà mai superare 1, mentre potrebbe  essere 6 se non 5 oppure 4, in funzione del numero di dati

 

 

 

Grafico delle distribuzioni campionarie di 3 coefficienti di correlazione.

La distribuzione è simmetrica solo quando il suo valore atteso (r) è zero.

 

 

 

In questo secondo caso, occorre procedere ad una trasformazione di r, per rispettare la condizioni di validità.


 

 

VALORI CRITICI IN TEST BILATERALE

DEL COEFFICIENTE DI CORRELAZIONE SEMPLICE  r

(DF = N-2) CON IPOTESI H0: r = 0

 

 

 

DF

a=0.05

a=0.01

a=0.001

 

DF

a=0.05

a=0.01

a=0.001

 

1

0,9969

0,9999

1,0000

 

35

0,3246

0,4182

0,5189

 

2

0,9500

0,9900

0,9990

 

40

0,3044

0,3932

0,4896

 

3

0,8783

0,9587

0,9911

 

45

0,2875

0,3721

0,4647

 

4

0,8114

0,9172

0,9741

 

50

0,2732

0,3541

0,4433

 

5

0,7545

0,8745

0,9509

 

55

0,2609

0,3385

0,4245

 

6

0,7067

0,8343

0,9249

 

60

0,2500

0,3248

0,4079

 

7

0,6664

0,7977

0,8983

 

65

0,2405

0,3127

0,3911

 

8

0,6319

0,7646

0,8721

 

70

0,2319

0,3017

0,3798

 

9

0,6021

0,7348

0,8471

 

75

0,2242

0,2919

0,3678

 

10

0,5760

0,7079

0,8233

 

80

0,2172

0,2830

0,3569

 

11

0,5529

0,6835

0,8010

 

85

0,2108

0,2748

0,3468

 

12

0,5324

0,6614

0,7800

 

90

0,2050

0,2673

0,3376

 

13

0,5139

0,6411

0,7604

 

95

0,1996

0,2604

0,3291

 

14

0,4973

0,6226

0,7419

 

100

0,1946

0,2540

0,3211

 

15

0,4821

0,6055

0,7247

 

110

0,1857

0,2425

0,3069

 

16

0,4683

0,5897

0,7084

 

120

0,1779

0,2324

0,2943

 

17

0,4555

0,5751

0,6932

 

130

0,1710

0,2235

0,2832

 

18

0,4438

0,5614

0,6788

 

140

0,1648

0,2155

0,2733

 

19

0,4329

0,5487

0,6652

 

150

0,1593

0,2083

0,2643

 

20

0,4227

0,5368

0,6524

 

160

0,1543

0,2019

0,2562

 

21

0,4132

0,5256

0,6402

 

170

0,1497

0,1959

0,2488

 

22

0,4044

0,5151

0,6287

 

180

0,1455

0,1905

0,2420

 

23

0,3961

0,5052

0,6177

 

190

0,1417

0,1855

0,2357

 

24

0,3882

0,4958

0,6073

 

200

0,1381

0,1809

0,2299

 

25

0,3809

0,4869

0,5974

 

300

0,113

0,148

0,188

 

26

0,3739

0,4785

0,5880

 

400

0,098

0,128

0,164

 

27

0,3673

0,4705

0,5790

 

500

0,088

0,115

0,146

 

28

0,3610

0,4629

0,5703

 

600

0,080

0,105

0,134

 

29

0,3550

0,4556

0,5620

 

700

0,074

0,097

0,124

 

30

0,3494

0,4487

0,5541

 

800

0,069

0,091

0,116

 

 

 

 

 

 

900

0,065

0,086

0,109

 

 

 

 

 

 

1000

0,062

0,081

0,104

 

 

 

 

 

 

 

 

 

 

 

 


 

 

VALORI CRITICI IN TEST UNILATERALE

DELCOEFFICIENTE DI CORRELAZIONE SEMPLICE  r

(DF = N-2) CON IPOTESI H0: r = 0

 

 

 

DF

a=0.05

a=0.01

a=0.001

 

DF

a=0.05

a=0.01

a=0.001

 

1

0,988

1,000

1,000

 

35

0,275

0,381

0,492

 

2

0,900

0,980

0,998

 

40

0,257

0,358

0,463

 

3

0,805

0,934

0,986

 

45

0,243

0,338

0,439

 

4

0,729

0,882

0,963

 

50

0,231

0,322

0,449

 

5

0,669

0,833

0,935

 

55

0,220

0,307

0,401

 

6

0,621

0,789

0,905

 

60

0,211

0,295

0,385

 

7

0,582

0,750

0,875

 

65

0,202

0,284

0,371

 

8

0,549

0,715

0,847

 

70

0,195

0,274

0,358

 

9

0,521

0,685

0,820

 

75

0,189

0,264

0,347

 

10

0,497

0,658

0,795

 

80

0,183

0,257

0,336

 

11

0,476

0,634

0,772

 

85

0,178

0,249

0,327

 

12

0,457

0,612

0,750

 

90

0,173

0,242

0,318

 

13

0,441

0,592

0,730

 

95

0,168

0,236

0,310

 

14

0,426

0,574

0,711

 

100

0,164

0,230

0,303

 

15

0,412

0,558

0,694

 

110

0,156

0,220

0,289

 

16

0,400

0,542

0,678

 

120

0,150

0,210

0,277

 

17

0,389

0,529

0,662

 

130

0,144

0,202

0,267

 

18

0,378

0,515

0,648

 

140

0,139

0,195

0,257

 

19

0,369

0,503

0,635

 

150

0,134

0,189

0,249

 

20

0,360

0,492

0,622

 

160

0,130

0,183

0,241

 

21

0,352

0,482

0,610

 

170

0,126

0,177

0,234

 

22

0,344

0,472

0,599

 

180

0,122

0,172

0,228

 

23

0,337

0,462

0,588

 

190

0,119

0,168

0,222

 

24

0,330

0,453

0,578

 

200

0,116

0,164

0,216

 

25

0,323

0,445

0,568

 

300

0,095

0,134

0,177

 

26

0,317

0,437

0,559

 

400

0,082

0,116

0,154

 

27

0,311

0,430

0,550

 

500

0,074

0,104

0,138

 

28

0,306

0,423

0,541

 

600

0,067

0,095

0,126

 

29

0,301

0,416

0,533

 

700

0,062

0,088

0,116

 

30

0,296

0,409

0,526

 

800

0,058

0,082

0,109

 

 

 

 

 

 

900

0,055

0,077

0,103

 

 

 

 

 

 

1000

0,052

0,073

0,098

 

 

 

 

 

 

 

 

 

 

 

 


 

Quando l’ipotesi nulla è

H0r = 0

 la significatività del coefficiente angolare r può essere verificata con 3 modalità, che ovviamente forniscono risultati identici:

1 –  la tabella dei valori di r, in funzione di a  e dei gdl (oppure del numero n di osservazioni),

2 –  il test F di Fisher-Snedecor,

3 –  il test t di Student.

 

La prima modalità utilizza le tabelle sinottiche del valore di r, con gradi di libertà n-2, come sono stati riportati nelle pagine precedenti. Di conseguenza, è evidente che occorrono almeno 3 coppie d’osservazioni (DF = 1).

La semplice lettura dei valori critici nella tabella alle probabilità a = 0.05,  a = 0.01   e   a = 0.001

 

DF

a = 0.05

a = 0.01

a = 0.001

3

0,8783

0,9587

0,9911

200

0,1381

0,1809

0,2299

1000

0,062

0,081

0,104

 


 

 

 

 e quella del grafico mostrano come sia errata l’affermazione semplicistica, riportata su alcuni testi, che un valore di correlazione r = 0,3 sia indicativamente basso e un valore r = 0,5 sia alto.

La significatività della correlazione è fortemente influenzata dai DF, in modo molto più marcato di quanto avviene nella distribuzione t di Student  e nella distribuzione  F di Fisher-Snedecor.

Dal semplice confronto delle due serie riportate nella tabellina precedente e dalla lettura del grafico grafico, risulta evidente che,

-  con pochi dati, potrebbe non essere significativo alla probabilità a = 0.05 un valore di r apparentemente alto quale 0,85;

-  con molti dati, potrebbe essere altamente significativo, alla probabilità a = 0.001, anche un valore apparentemente basso, quale 0,25.

 

Pochi testi riportano i valori critici di r, validi per verificare l’ipotesi nulla H0: r = 0; quasi sempre si deve ricorre alla distribuzione F o a quella t che tutti i testi, anche elementari, riportano. Pure i programmi informatici, insieme con il valore di r, riportano la probabilità di F e/o di t.

 

Ricorrendo ai concetti spiegati nella regressione lineare semplice, anche nella verifica dell’ipotesi nulla relativa alla correlazione

H0: r = 0

 il test F, con gdl 1 e n-2,

F1,n-2 =

 

 è dato dal rapporto tra

-  la varianza dovuta alla regressione (la devianza r2 / 1 df) e

-  la varianza d’errore (la devianza d’errore 1 - r2n-2 df)

La formula semplificata diventa

F1,n-2  

 

Con il test t, che ha df n-2,

 ricordando nuovamente che

 la formula abitualmente utilizzata

 è

t(n-2) =

 

Con il test F, è possibile

-   sia la verifica dell’ipotesi alternativa H1 bilaterale

H1: r ¹ 0

-   sia la verifica dell’ipotesi alternativa H1 unilaterale

H1: r > 0          oppure            H1: r < 0

assumendo sempre in una distribuzione bilaterale al posto delle probabilità 0.05, 0,01 e 0.001 rispettivamente le probabilità 0.10,   0.02,  0.002, come nelle tabelle precedenti sui valori critici di r. Ma è di più difficile comprensione, per chi non abbia ancora abbastanza familiarità con i test statistici, perché la distribuzione F con pochi gdl, come di solito nella pratica sperimentale, è asimmetrica.

La distribuzione t, in quanto simmetrica come la distribuzione z, permette di meglio comprendere la scelta delle probabilità in rapporto alla direzione dell’ipotesi alternativa. Per molti è quindi preferibile al test F, in particolare in test unilaterali, pure fornendo valori identici ai due metodi prima presentati.

 

 

ESEMPIO 1. La tavola sinottica di r per test bilaterali, con df 15 alla probabilità a = 0.05, riporta il valore di 0,4821.

Verificare la corrispondenza con il valori critici

a)   della distribuzione F e

b)   della t di Student,

 che possono essere rintracciati nelle tabelle relative.

 

Risposta.

 a)   Con r = 0,4821  e   n = 17

 la verifica dell’ipotesi nulla

H0: r = 0

 con ipotesi alternativa bilaterale

H1: r ¹ 0

 mediante il test F

 fornisce un risultato


 

F1,15 =  =  = 4,539

 uguale a 4,539.

 

b)   Mediante il test t di Student

t(n-2) =

 fornisce

t(15) =  = 2,13

un risultato uguale a 2,13.

 

E’ semplice verificare, sulle tabelle dei valori critici di F e di t, che i due risultati corrispondono esattamente ai valori riportati per la probabilità a = 0.05 in una distribuzione bilaterale e che

2,132 = 4,539

a meno delle approssimazioni dei calcoli.

 

 

Per un test di significatività del coefficiente di correlazione r rispetto ad un qualsiasi valore di r0 diverso da zero, quindi per verificare l’ipotesi nulla

H0r = r0

 a causa dei motivi prima illustrati il valore di r deve essere trasformato.

Tra le diverse proposte di trasformazione, è ancora molto diffusa l’utilizzazione di quella di R. A.  Fisher presentata

-   nel 1915 nel dibattito sui grandi campioni (vedi l'articolo Frequency distribution of the values  of the correlation coefficient  in samples from an indefinitely large population, pubblicata su  Biometrika, 10: 507-521)

-   e nel 1921 per i piccoli campioni (vedi l'articolo On the “probable error” of a coefficient of correlation deduced a small sample, pubblicato su Metron 1: 3-32).

 

Il  valore di r è trasformato in un valore z (zeta minuscolo)

mediante


Con questa trasformazione,

-  i valori positivi di r, che ovviamente variano da 0 a +1, cadono tra  0 e +¥

-   i valori negativi di r, che ovviamente variano da 0 a -1, cadono tra  0 e -¥

 in modo simmetrico. In realtà, nella pratica sperimentale dove i valori di r asintoticamente vicini a 1 sono rari, la variazione cade in un intervallo minore di poche unità, in modo simmetrico intorno alla zero.

 

Ad esempio

-   r = +0,88

 = 0,5 × 2,75 = +1,375

 diventa z =  1,375

 

-   r = +0,98

 = 0,5 × 4,595 = +2,2975

 diventa z = +2,2975

 mentre

-   r = -0,88

 = 0,5 × (-2,75) = -1,375

 diventa z =  -1,375

 

-   r = -0,98

 = 0,5 × (-4,595) = -2,2975

 diventa z = -2,2975

 

Anche il valore teorico od atteso di confronto (r0) è trasformato nello stesso modo e viene indicato con  z (zeta minuscolo dell’alfabeto greco).

La verifica di una differenza significativa tra un generico valore campionario r e il valore atteso r0,

con ipotesi nulla

H0: r = r0

 ed ipotesi alternativa bilaterale oppure unilaterale, è quindi effettuata con la distribuzione normale Z (maiuscola)

Z =

dove

-   Z (maiuscola) è il valore che serve per stimare la probabilità a nella distribuzione normale,

-   z (minuscola) è il valore di r trasformato,

-   z (zeta greca, minuscola) è il valore di r0  trasformato,

-   sz è l’errore standard di questa differenza (poiché r e r0 sono valori medi), 

 dato approssimativamente da

sz =

 

ESEMPIO 2. Sulla base di numerosi campionamenti, su una rivista scientifica si afferma che la correlazione tra la presenza quantitativa della specie A e della specie B è positiva e pari a 0,85. Da una rilevazione campionaria con 30 osservazioni, il valore di r è risultato uguale a +0,71.

C’è motivo di ritenere che in questo caso si abbia un valore  correlazione significativamente diversa?

 

Risposta.   Per verificare l’ipotesi nulla

H0: r = +0,85

 con ipotesi alternativa bilaterale

H1: r ¹ +0,85

 per applicare la formula

Z =

 

- dapprima si deve trasformare in z il valore r = +0,71

 

z =  = +0,887

 ottenendo z = +0,887

- successivamente si deve trasformare in z il valore  r0 = +0,85

 

z =  = +1,256

 ottenendo z = +1,256


-  e, con n = 30, si calcola l’errore standard sz

 

sz =  = 0,192

 

Per la significatività della differenza tra valore osservato (r = +0,71) e valore arreso (r0 = +0,85), si ottiene

Z =  = -1,92

 un valore Z = -1,92.

In una distribuzione normale bilaterale è associato ad una probabilità a = 0.055; di conseguenza, il test non risulta significativo, ma per una differenza trascurabile. Con n >30 molto facilmente risulterebbe significativa.

Se il test fosse stato unilaterale, cioè se vi fosse stato motivo di chiedersi se il valore calcolato fosse significativamente minore di quello stimato,

 con ipotesi alternativa unilaterale fosse stata

H0: r < r0

 il procedimento di calcolo sarebbe stato identico. Sarebbe variata solo la lettura della probabilità a, che in una distribuzione unilaterale sarebbe risultata uguale a 0.027 e quindi avrebbe determinato un test significativo.

 

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007