CORRELAZIONE E COVARIANZA
18.2. CONDIZIONI DI VALIDITA’ E SIGNIFICATIVITA’ DI r CON r = 0 E CON r ¹ 0
Le condizioni di validità della correlazione, il cui indice nel caso di una popolazione è indicato con r (rho), sono le stesse della regressione. Tuttavia, mentre nella regressione sono applicate solo alla variabile Y, nel caso della correlazione, che utilizza indistintamente entrambe le variabili, richiede che sia X1 che X2 siano distribuite in modo approssimativamente normale.
Con due variabili, l’ipotesi di normalità della distribuzione pretende la distribuzione normale bivariata, che è un'estensione a tre dimensioni della curva normale. Mentre la superficie di una distribuzione univariata è determinata in modo compiuto da due parametri (media m e deviazione standard s), la superficie normale bivariata è determinata da cinque parametri: - media e deviazione standard della variabile X1, - media e deviazione standard della variabile X2, - coefficiente di correlazione (r) tra X1 e X2. La sua rappresentazione grafica, nel caso in cui non esista correlazione (r = 0) tra le due variabili ed esse abbiano varianza uguale, determina una figura come quella riportata:
Distribuzione normale bivariata X e Y sono due variabili indipendenti () di uguale varianza ()
La distribuzione normale bivariata assume la forma di una collina di forma circolare, che degrada nello stesso modo su tutti i versanti; la pendenza dipende dal valore della varianza.
Distribuzione normale bivariata X e Y sono due variabili indipendenti () con varianze diverse ()
Quando le varianze sono diverse, sempre nel caso che non esista correlazione, la rappresentazione grafica assume la forma di una collina a pendenze diverse, con un declino più rapido dove la varianza è minore, con frequenze maggiori lungo la retta individuata da X medio e da Y medio. Quando esiste correlazione, come nella figura successiva, la distribuzione bivariata tende ad assumere la forma di una cresta di montagna, distribuita in diagonale rispetto alle due medie. La cresta è tanto più sottile quanto più alto è il valore r della correlazione.
Distribuzione normale bivariata X e Y sono due variabili correlate () di uguale varianza ()
Con r = 1 la rappresentazione grafica diventa un piano perpendicolare alla base, posto in diagonale rispetto alle ascisse e alle ordinate. Il segno della correlazione determina solo la direzione di tale piano rispetto alla base.
Dopo il calcolo di un coefficiente di correlazione r, sempre valido come indice che misura la relazione tra due variabili in quanto solo descrittivo come il calcolo di una media o di una varianza, può porsi il duplice problema della sua significatività, cioè di verificare a) l’ipotesi nulla H0: r = 0 ( non significativamente diverso da zero) b) l’ipotesi nulla H0: r = r0 (non significativamente diverso da un qualsiasi valore prefissato, ma diverso da zero) con ipotesi alternativa bilaterale oppure unilaterale in entrambi i casi.
A differenza dei test sulla media e sul coefficiente angolare b (oppure l’intercetta a), che possono assumere qualsiasi valore e quindi essere sempre distribuiti normalmente rispetto al valore della popolazione, un test di significatività pone problemi differenti di validità se intende verificare l’ipotesi nulla a) r = 0 b) r ¹ 0.
Nel primo caso (r = 0), i valori campionari r possono essere assunti come distribuiti in modo approssimativamente normale e simmetrico rispetto alla correlazione della popolazione (r). Nel secondo caso (r ¹ 0), i valori campionari r si distribuiscono in modo sicuramente asimmetrico intorno alla correlazione della popolazione (r) e in modo tanto più accentuato quanto più essa si allontana da zero e si avvicina a uno dei due estremi (-1 o +1). E’ intuitivo che, considerando ad esempio risultati positivi, con un valore reale di r = 0,9 il valore campionario r non potrà mai superare 1, mentre potrebbe essere 6 se non 5 oppure 4, in funzione del numero di dati
Grafico delle distribuzioni campionarie di 3 coefficienti di correlazione. La distribuzione è simmetrica solo quando il suo valore atteso (r) è zero.
In questo secondo caso, occorre procedere ad una trasformazione di r, per rispettare la condizioni di validità.
VALORI CRITICI IN TEST BILATERALEDEL COEFFICIENTE DI CORRELAZIONE SEMPLICE r(DF = N-2) CON IPOTESI H0: r = 0
VALORI CRITICI IN TEST UNILATERALEDELCOEFFICIENTE DI CORRELAZIONE SEMPLICE r(DF = N-2) CON IPOTESI H0: r = 0
Quando l’ipotesi nulla è H0: r = 0 la significatività del coefficiente angolare r può essere verificata con 3 modalità, che ovviamente forniscono risultati identici: 1 – la tabella dei valori di r, in funzione di a e dei gdl (oppure del numero n di osservazioni), 2 – il test F di Fisher-Snedecor, 3 – il test t di Student.
La prima modalità utilizza le tabelle sinottiche del valore di r, con gradi di libertà n-2, come sono stati riportati nelle pagine precedenti. Di conseguenza, è evidente che occorrono almeno 3 coppie d’osservazioni (DF = 1). La semplice lettura dei valori critici nella tabella alle probabilità a = 0.05, a = 0.01 e a = 0.001
e quella del grafico mostrano come sia errata l’affermazione semplicistica, riportata su alcuni testi, che un valore di correlazione r = 0,3 sia indicativamente basso e un valore r = 0,5 sia alto. La significatività della correlazione è fortemente influenzata dai DF, in modo molto più marcato di quanto avviene nella distribuzione t di Student e nella distribuzione F di Fisher-Snedecor. Dal semplice confronto delle due serie riportate nella tabellina precedente e dalla lettura del grafico grafico, risulta evidente che, - con pochi dati, potrebbe non essere significativo alla probabilità a = 0.05 un valore di r apparentemente alto quale 0,85; - con molti dati, potrebbe essere altamente significativo, alla probabilità a = 0.001, anche un valore apparentemente basso, quale 0,25.
Pochi testi riportano i valori critici di r, validi per verificare l’ipotesi nulla H0: r = 0; quasi sempre si deve ricorre alla distribuzione F o a quella t che tutti i testi, anche elementari, riportano. Pure i programmi informatici, insieme con il valore di r, riportano la probabilità di F e/o di t.
Ricorrendo ai concetti spiegati nella regressione lineare semplice, anche nella verifica dell’ipotesi nulla relativa alla correlazione H0: r = 0 il test F, con gdl 1 e n-2, F1,n-2 =
è dato dal rapporto tra - la varianza dovuta alla regressione (la devianza r2 / 1 df) e - la varianza d’errore (la devianza d’errore 1 - r2 / n-2 df) La formula semplificata diventa F1,n-2
Con il test t, che ha df n-2, ricordando nuovamente che
la formula abitualmente utilizzata è t(n-2) =
Con il test F, è possibile - sia la verifica dell’ipotesi alternativa H1 bilaterale H1: r ¹ 0 - sia la verifica dell’ipotesi alternativa H1 unilaterale H1: r > 0 oppure H1: r < 0 assumendo sempre in una distribuzione bilaterale al posto delle probabilità 0.05, 0,01 e 0.001 rispettivamente le probabilità 0.10, 0.02, 0.002, come nelle tabelle precedenti sui valori critici di r. Ma è di più difficile comprensione, per chi non abbia ancora abbastanza familiarità con i test statistici, perché la distribuzione F con pochi gdl, come di solito nella pratica sperimentale, è asimmetrica. La distribuzione t, in quanto simmetrica come la distribuzione z, permette di meglio comprendere la scelta delle probabilità in rapporto alla direzione dell’ipotesi alternativa. Per molti è quindi preferibile al test F, in particolare in test unilaterali, pure fornendo valori identici ai due metodi prima presentati.
ESEMPIO 1. La tavola sinottica di r per test bilaterali, con df 15 alla probabilità a = 0.05, riporta il valore di 0,4821. Verificare la corrispondenza con il valori critici a) della distribuzione F e b) della t di Student, che possono essere rintracciati nelle tabelle relative.
Risposta. a) Con r = 0,4821 e n = 17 la verifica dell’ipotesi nulla H0: r = 0 con ipotesi alternativa bilaterale H1: r ¹ 0 mediante il test F
fornisce un risultato
F1,15 = = = 4,539 uguale a 4,539.
b) Mediante il test t di Student t(n-2) = fornisce t(15) = = 2,13 un risultato uguale a 2,13.
E’ semplice verificare, sulle tabelle dei valori critici di F e di t, che i due risultati corrispondono esattamente ai valori riportati per la probabilità a = 0.05 in una distribuzione bilaterale e che 2,132 = 4,539 a meno delle approssimazioni dei calcoli.
Per un test di significatività del coefficiente di correlazione r rispetto ad un qualsiasi valore di r0 diverso da zero, quindi per verificare l’ipotesi nulla H0: r = r0 a causa dei motivi prima illustrati il valore di r deve essere trasformato. Tra le diverse proposte di trasformazione, è ancora molto diffusa l’utilizzazione di quella di R. A. Fisher presentata - nel 1915 nel dibattito sui grandi campioni (vedi l'articolo Frequency distribution of the values of the correlation coefficient in samples from an indefinitely large population, pubblicata su Biometrika, 10: 507-521) - e nel 1921 per i piccoli campioni (vedi l'articolo On the “probable error” of a coefficient of correlation deduced a small sample, pubblicato su Metron 1: 3-32).
Il valore di r è trasformato in un valore z (zeta minuscolo) mediante
Con questa trasformazione, - i valori positivi di r, che ovviamente variano da 0 a +1, cadono tra 0 e +¥ - i valori negativi di r, che ovviamente variano da 0 a -1, cadono tra 0 e -¥ in modo simmetrico. In realtà, nella pratica sperimentale dove i valori di r asintoticamente vicini a 1 sono rari, la variazione cade in un intervallo minore di poche unità, in modo simmetrico intorno alla zero.
Ad esempio - r = +0,88 = 0,5 × 2,75 = +1,375 diventa z = 1,375
- r = +0,98 = 0,5 × 4,595 = +2,2975 diventa z = +2,2975 mentre - r = -0,88 = 0,5 × (-2,75) = -1,375 diventa z = -1,375
- r = -0,98 = 0,5 × (-4,595) = -2,2975 diventa z = -2,2975
Anche il valore teorico od atteso di confronto (r0) è trasformato nello stesso modo e viene indicato con z (zeta minuscolo dell’alfabeto greco). La verifica di una differenza significativa tra un generico valore campionario r e il valore atteso r0, con ipotesi nulla H0: r = r0 ed ipotesi alternativa bilaterale oppure unilaterale, è quindi effettuata con la distribuzione normale Z (maiuscola) Z = dove - Z (maiuscola) è il valore che serve per stimare la probabilità a nella distribuzione normale, - z (minuscola) è il valore di r trasformato, - z (zeta greca, minuscola) è il valore di r0 trasformato, - sz è l’errore standard di questa differenza (poiché r e r0 sono valori medi), dato approssimativamente da sz =
ESEMPIO 2. Sulla base di numerosi campionamenti, su una rivista scientifica si afferma che la correlazione tra la presenza quantitativa della specie A e della specie B è positiva e pari a 0,85. Da una rilevazione campionaria con 30 osservazioni, il valore di r è risultato uguale a +0,71. C’è motivo di ritenere che in questo caso si abbia un valore correlazione significativamente diversa?
Risposta. Per verificare l’ipotesi nulla H0: r = +0,85 con ipotesi alternativa bilaterale H1: r ¹ +0,85 per applicare la formula Z =
- dapprima si deve trasformare in z il valore r = +0,71
z = = +0,887 ottenendo z = +0,887 - successivamente si deve trasformare in z il valore r0 = +0,85
z = = +1,256 ottenendo z = +1,256 - e, con n = 30, si calcola l’errore standard sz
sz = = 0,192
Per la significatività della differenza tra valore osservato (r = +0,71) e valore arreso (r0 = +0,85), si ottiene Z = = -1,92 un valore Z = -1,92. In una distribuzione normale bilaterale è associato ad una probabilità a = 0.055; di conseguenza, il test non risulta significativo, ma per una differenza trascurabile. Con n >30 molto facilmente risulterebbe significativa. Se il test fosse stato unilaterale, cioè se vi fosse stato motivo di chiedersi se il valore calcolato fosse significativamente minore di quello stimato, con ipotesi alternativa unilaterale fosse stata H0: r < r0 il procedimento di calcolo sarebbe stato identico. Sarebbe variata solo la lettura della probabilità a, che in una distribuzione unilaterale sarebbe risultata uguale a 0.027 e quindi avrebbe determinato un test significativo.
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |