CORRELAZIONE  E  COVARIANZA

 

 

 

18.17. LETTURA DI TRE TABULATI DI PROGRAMMI INFORMATICI SU REGRESSIONE E CORRELAZIONE LINEARE SEMPLICE.

 

 

Con le misure di peso (in Kg.) e di altezza (in cm.) di 7 giovani, come riportato nella tabella,

 

Individui

 1

 2

 3

 4

 5

 6

 7

Peso (Y)

 52

 68

 75

 71

 63

 59

 57

Altezza (X)

 160

 178

 183

 180

 166

 175

 162

 

 effettuare l’analisi statistica con un programma informatico.

 

Dopo aver espressamente indicato quale è la variabile dipendente (il peso) e quella indipendente (l’altezza), le risposte fornite dall’output in linea generale sono le seguenti.

 

Riquadro 1.

Nella parte inferiore, sono riportati i parametri della retta di regressione: l’intercetta ed il coefficiente angolare, con i relativi errori standard.

Nella quinta colonna sono indicati i valori del t di Student, per la verifica dell’ipotesi nulla H0 che il parametro in oggetto sia significativamente diverso da 0.

La sesta ed ultima colonna, sempre nella parte inferiore a destra del riquadro 1), mostra il valore di probabilità, per un test bilaterale.

Nella parte superiore del riquadro è riportata l’analisi della varianza, con tutti i valori relativi ai parametri indicati. Il valore di F è il quadrato di quello del t di Student ed, ovviamente, le due probabilità coincidono.

 

Sotto l’analisi della varianza sono riportati altri indicatori utili ad eventuali confronti ed interpretazioni ulteriori dei risultati:

-          Root MSE è la radice quadrata della varianza (Mean Square, sovente tradotto in italiano con quadrato medio);

-          Dep mean è la media della variabile dipendente;

-          C. V. è il coefficiente di variazione (sempre della variabile dipendente);

-          R-square è il valore di R2, o R oppure r2 già trattato nella discussione sul valore predittivo della retta;

-          Adj. R-sq (simboleggiato sovente con) è il valore di R Adjusted, che considera l’effetto dei gdl ed è calcolato come

 = 1-

 dove

-   n     è il numero di dati,

-   dfe  sono i gdl della varianza d’errore.

 

 

1)

 

Dependent Variable:PESO

 

                          Analysis of Variance

 

                     Sum of         Mean

  Source     DF      Squares       Square      F Value       Prob>F

 

  Model       1    323.20784    323.20784       20.073       0.0065

  Error       5     80.50644     16.10129

  Total       6    403.71429

 

Root MSE       4.01264     R-square       0.8006

Dep Mean      63.57143     Adj R-sq       0.7607

C.V.           6.31202

 

Parameter Estimates

 

                   Parameter      Standard     T for H0:

  Variable  DF     Estimate        Error       Parameter=0    Prob > |T|

 

  INTERCEP   1    -73.354062   30.59903924        -2.397        0.0618

  ALTEZZA    1      0.796078    0.17768273         4.480        0.0065

 

 


 

Nel riquadro 2 è riportata l’analisi della correlazione. Sono stati utilizzati gli stessi dati dell’esempio precedente, relativi alla regressione lineare tra peso ed altezza in 7 giovani, per facilitare il confronto tra i due risultati. Sovente, i programmi della regressione forniscono analisi delle caratteristiche della distribuzione delle due serie di dati, presentati nel capitolo della statistica descrittiva ed utili alla verifica delle condizioni di validità della correlazione e della regressione, che sono molto più dettagliate di quelle riportate nel riquadro sottostante

 

 

2)

Correlation Analysis

 

  1 'WITH' Variables:  ALTEZZA

  1 'VAR'  Variables:  PESO

 

Simple Statistics

 

Variable    N     Mean     Std Dev     Sum     Minimum     Maximum

 

ALTEZZA     7    172.00    9.2195      1204      160         183

PESO        7     63.57    8.2028       445       52          75

 

Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 7

 

                            PESO

 

       ALTEZZA           0.89475

                          0.0065

 

 

I risultati indicati nella parte superiore del riquadro 2) non hanno bisogno di ulteriori spiegazioni.

Nel parte inferiore, è riportato il valore di correlazione r di Pearson è la probabilità relativa alla sua significatività, come verifica dell’ipotesi nulla H0: r = 0

 


 

Nei riquadri 3) e 4) sono descritti i risultati dell’analisi della covarianza,

 

 

3)

                      General Linear Models Procedure

                          Class Level Information

 

                         Class    Levels    Values

                         GRUPPO        3    A B C

                  Number of observations in data set = 16

 

Dependent Variable: PESO  

                            Sum of          Mean

Source           DF        Squares        Square  F Value    Pr > F

Model             3     91.1380128    30.3793376    35.40    0.0001

Error            12     10.2994872     0.8582906

Corrected Total  15    101.4375000

 

            R-Square           C.V.      Root MSE          PESO Mean

            0.898465       5.551699       0.92644            16.6875

 

Source            DF      Type I SS   Mean Square  F Value    Pr > F

GRUPPO             2     12.7375000     6.3687500     7.42    0.0080

LUNGHE             1     78.4005128    78.4005128    91.34    0.0001

 

Source            DF    Type III SS   Mean Square  F Value    Pr > F

GRUPPO             2     85.2948111    42.6474055    49.69    0.0001

LUNGHE             1     78.4005128    78.4005128    91.34    0.0001

 

 

 

con i dati dell’esempio sul peso.

Sono stati utilizzati 16 dati campionari, suddivisi in tre gruppi ed indicati con le lettere A, B e C.

 

Sempre nel riquadro 3) sono riportati i risultati di varie analisi della varianza.

La parte superiore fornisce la varianza d’errore e la parte inferiore le varianze relative ai confronti delle medie dei 3 gruppi (df = 2) con il metodo delle Y ridotte e la stima della significatività della regressione lineare (df = 1).

 


 

4)

 

                      General Linear Models Procedure

 

          Tukey's Studentized Range (HSD) Test for variable: PESO

 

        NOTE: This test controls the type I experimentwise error rate.

 

           Alpha= 0.05  Confidence= 0.95  df= 12  MSE= 0.858291

                Critical Value of Studentized Range= 3.773

 

     Comparisons significant at the 0.05 level are indicated by '***'.

 

                      Simultaneous            Simultaneous

                          Lower    Difference     Upper

          GRUPPO       Confidence    Between   Confidence

        Comparison        Limit       Means       Limit

 

          B - C         -0.9966      0.5000      1.9966

          B - A          0.6034      2.1000      3.5966   ***

 

          C - B         -1.9966     -0.5000      0.9966

          C - A          0.0369      1.6000      3.1631   ***

 

          A - B         -3.5966     -2.1000     -0.6034   ***

          A - C         -3.1631     -1.6000     -0.0369   ***

 

 

 

Nel riquadro 4) sono riportati i confronti multipli tra le tre medie, con il metodo di Tukey.

Per ogni coppia di medie è riportata la differenza, sia positiva che negativa, con i miti dell’intervallo di confidenza. La differenza risulta significativa alla probabilità prefissata (nel tabulato uguale a 0.05) quando l’intervallo fiduciale, che ovviamente comprende la differenza media, esclude lo 0.

 

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007