TEST NON PARAMETRICI

PER CORRELAZIONE, CONCORDANZA,

REGRESSIONE MONOTONICA E REGRESSIONE LINEARE

 

 

 

21.6.   SIGNIFICATIVITA’ DELLA REGRESSIONE E DELLA CORRELAZIONE LINEARE PARAMETRICA CON I TEST NONPARAMETRICI r  E t.

 

 

Nei paragrafi dedicati alla regressione lineare parametrica, è stato discusso come la verifica dell’ipotesi nulla sulla linearità con

H0b = 0

 attraverso la significatività del valore r di correlazione, per il quale l’ipotesi nulla è

H0 : r = 0

 sia un metodo concettualmente errato, anche se conduce alla stima di una probabilità a identica a quella ottenuta con il test che utilizza il valore del coefficiente angolare b.

 

I motivi fondamentali evidenziati, a causa dei quali i testi non confondano mai le due procedure, sono

-  la diversa ipotesi che i test per la regressione e quelli per la correlazione verificano e

-  le differenze nelle condizioni di validità.

 

Quando uno o più punti sono anomali e quindi la distribuzione dei dati è fortemente asimmetrica, una condizione di non validità della regressione lineare che è frequente nella pratica sperimentale, questi due metodi parametrici (che forniscono risultati di a coincidenti) spesso risultano significativi. Ma dimostrare che i dati non sono distribuiti in modo normale neppure approssimativamente, quindi che l’analisi condotta non è attendibile, non è semplice; in particolare, è quasi impossibile rifiutare l’ipotesi nulla sulla normalità, quando i dati sono pochi.

Un metodo pratico e semplice di tale verifica può essere l’uso della correlazione lineare non parametrica.

 

Questi concetti possono essere espressi con termini più rigorosi:

la funzione di distribuzione del test parametrico r di Pearson dipende dalla funzione di distribuzione bivariata, cioè della X e della Y, mentre i test non parametrici per l’analisi della correlazione sono indipendenti da essi.

 

La verifica della validità della regressione e della correlazione lineare, seppure calcolate con metodi parametrici, può quindi essere fornita dalla correlazione non parametrica. Se la risposta della correlazione non parametrica è significativa o vicina alla probabilità del test parametrico, il risultato di questo ultimo può essere ritenuto corretto. In caso contrario, quando il test di correlazione non parametrica non risulta significativo, si può dedurre che facilmente il test parametrico è stato applicato senza rispettare la condizione di normalità della distribuzione dei dati.


 

 

Dopo aver calcolato le quantità necessarie alle stime successive

                        

            

 come evidenziato nella tabella per gli ultimi tre

 

 

 

 

 

A dimostrazione empirica di questa procedura sperimentale, si assuma di voler calcolare il coefficiente di regressione lineare semplice, per la seguente serie di dati bivariati:

 

 

X

1,5

1,6

2,0

2,1

2,4

2,6

4,0

Y

1,4

0,9

1,5

1,1

1,7

1,0

2,8

 

 

La sua rappresentazione grafica evidenzia visivamente la presenza di un punto anomalo: un valore di X nettamente più alto degli altri, associato ad un valore di Y ugualmente elevato e distante dalla distribuzione di tutti gli altri punti.


 

Dai dati sperimentali, dopo aver calcolato le quantità

 

2,10

1,44

3,00

2,31

4,08

2,60

11,20

 = 26,73

2,25

2,56

4,00

4,41

5,76

6,76

16,0

 = 41,74

1,96

0,81

2,25

1,21

2,89

1,00

7,84

 = 17,96

 

 

 si ricava il valore di b

 

 

 e successivamente il valore di a

 

Infine, si scrive la retta

 

Per testare l’esistenza di una relazione lineare tra X e Y con ipotesi bilaterale, cioè per verificare l’ipotesi bilaterale

H0: b = 0      contro      H1: b ¹ 0

 

1-   dopo aver calcolato la devianza totale

 

 

2 - la devianza dovuta alla regressione

 

 

 è possibile costruire la tabella dell’ANOVA

 

 

Fonte di variazione

Totale

2,509

6

---

Regressione

1,665

1

1,665

Errore

0,844

5

0,169

 

 

 completando i dati relativi alla devianza e ai df dell’errore con la proprietà additiva.

 

Il test F

 stima F = 9,85 con df 1 e 5.

Poiché il valore critico per un test bilaterale alla probabilità a = 0.05 è uguale a 10,0 e il valore calcolato è leggermente minore (9,85),a causa del numero limitato di dati si può affermare che il test è tendenzialmente significativo.

 

L’analisi della correlazione parametrica r di Pearson conduce alle stesse conclusioni.

Dal valore di R2, ricavato per semplicità e in modo rapido dal rapporto tra le devianze,

 

 si ottiene facilmente  quello di r

 

Per verificare la significatività dell’ipotesi bilaterale

H0: r = 0      contro      H1: r ¹ 0

 si può utilizzare il test F

 

 che ovviamente fornisce lo stesso identico risultato della regressione lineare, a meno delle approssimazioni introdotte nel calcolo come numero di decimali; quindi determina la stessa probabilità a, essendo sempre un valore di F con gdl 1 e 5.

 

Questa stessa ipotesi

H0: r = 0      contro      H1: r ¹ 0

 e implicitamente quella sulla regressione lineare possono essere verificate mediante la correlazione non parametrica.

Con i ranghi

 

 

1

2

3

4

5

6

7

 

4

1

5

3

6

2

7

3

1

2

1

1

4

0

9

1

4

1

1

16

0

 

 secondo il metodo di Spearman si ricava

 

 

 la stima r = 0,429. E’ un risultato molto lontano dalla significatività. Infatti nella tabella dei valori critici per un test bilaterale con df = 5  e  a = 0.10 il valore critico è r = 0,900.

 

Il confronto tra due risultati così differenti, quello della probabilità a stimata con un metodo parametrico e quella della probabilità a ottenuta mediante la correlazione non parametrica, permette di dedurre che la significatività ottenuta con il test parametrico è del tutto imputabile alla presenza di un valore anomalo; di conseguenza, in realtà tale regressione lineare non esiste.

Non esiste una regressione lineare tra i ranghi e quindi non può esistere nemmeno tra i valori osservati

Applicando il test t di Kendall invece del test r di Spearman si perviene alle stesse conclusioni.


 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007