CORRELAZIONE E COVARIANZA
18.17. LETTURA DI TRE TABULATI DI PROGRAMMI INFORMATICI SU REGRESSIONE E CORRELAZIONE LINEARE SEMPLICE.
Con le misure di peso (in Kg.) e di altezza (in cm.) di 7 giovani, come riportato nella tabella,
effettuare l’analisi statistica con un programma informatico.
Dopo aver espressamente indicato quale è la variabile dipendente (il peso) e quella indipendente (l’altezza), le risposte fornite dall’output in linea generale sono le seguenti.
Riquadro 1. Nella parte inferiore, sono riportati i parametri della retta di regressione: l’intercetta ed il coefficiente angolare, con i relativi errori standard. Nella quinta colonna sono indicati i valori del t di Student, per la verifica dell’ipotesi nulla H0 che il parametro in oggetto sia significativamente diverso da 0. La sesta ed ultima colonna, sempre nella parte inferiore a destra del riquadro 1), mostra il valore di probabilità, per un test bilaterale. Nella parte superiore del riquadro è riportata l’analisi della varianza, con tutti i valori relativi ai parametri indicati. Il valore di F è il quadrato di quello del t di Student ed, ovviamente, le due probabilità coincidono.
Sotto l’analisi della varianza sono riportati altri indicatori utili ad eventuali confronti ed interpretazioni ulteriori dei risultati: - Root MSE è la radice quadrata della varianza (Mean Square, sovente tradotto in italiano con quadrato medio); - Dep mean è la media della variabile dipendente; - C. V. è il coefficiente di variazione (sempre della variabile dipendente); - R-square è il valore di R2, o R oppure r2 già trattato nella discussione sul valore predittivo della retta; - Adj. R-sq (simboleggiato sovente con) è il valore di R Adjusted, che considera l’effetto dei gdl ed è calcolato come = 1- dove - n è il numero di dati, - dfe sono i gdl della varianza d’errore.
1)
Dependent Variable:PESO
Analysis of Variance
Sum of Mean Source DF Squares Square F Value Prob>F
Model 1 323.20784 323.20784 20.073 0.0065 Error 5 80.50644 16.10129 Total 6 403.71429
Root MSE 4.01264 R-square 0.8006 Dep Mean 63.57143 Adj R-sq 0.7607 C.V. 6.31202
Parameter Estimates
Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > |T|
INTERCEP 1 -73.354062 30.59903924 -2.397 0.0618 ALTEZZA 1 0.796078 0.17768273 4.480 0.0065
Nel riquadro 2 è riportata l’analisi della correlazione. Sono stati utilizzati gli stessi dati dell’esempio precedente, relativi alla regressione lineare tra peso ed altezza in 7 giovani, per facilitare il confronto tra i due risultati. Sovente, i programmi della regressione forniscono analisi delle caratteristiche della distribuzione delle due serie di dati, presentati nel capitolo della statistica descrittiva ed utili alla verifica delle condizioni di validità della correlazione e della regressione, che sono molto più dettagliate di quelle riportate nel riquadro sottostante
2) Correlation Analysis
1 'WITH' Variables: ALTEZZA 1 'VAR' Variables: PESO
Simple Statistics
Variable N Mean Std Dev Sum Minimum Maximum
ALTEZZA 7 172.00 9.2195 1204 160 183 PESO 7 63.57 8.2028 445 52 75
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 7
PESO
ALTEZZA 0.89475 0.0065
I risultati indicati nella parte superiore del riquadro 2) non hanno bisogno di ulteriori spiegazioni. Nel parte inferiore, è riportato il valore di correlazione r di Pearson è la probabilità relativa alla sua significatività, come verifica dell’ipotesi nulla H0: r = 0
Nei riquadri 3) e 4) sono descritti i risultati dell’analisi della covarianza,
3) General Linear Models Procedure Class Level Information
Class Levels Values GRUPPO 3 A B C Number of observations in data set = 16
Dependent Variable: PESO Sum of Mean Source DF Squares Square F Value Pr > F Model 3 91.1380128 30.3793376 35.40 0.0001 Error 12 10.2994872 0.8582906 Corrected Total 15 101.4375000
R-Square C.V. Root MSE PESO Mean 0.898465 5.551699 0.92644 16.6875
Source DF Type I SS Mean Square F Value Pr > F GRUPPO 2 12.7375000 6.3687500 7.42 0.0080 LUNGHE 1 78.4005128 78.4005128 91.34 0.0001
Source DF Type III SS Mean Square F Value Pr > F GRUPPO 2 85.2948111 42.6474055 49.69 0.0001 LUNGHE 1 78.4005128 78.4005128 91.34 0.0001
con i dati dell’esempio sul peso. Sono stati utilizzati 16 dati campionari, suddivisi in tre gruppi ed indicati con le lettere A, B e C.
Sempre nel riquadro 3) sono riportati i risultati di varie analisi della varianza. La parte superiore fornisce la varianza d’errore e la parte inferiore le varianze relative ai confronti delle medie dei 3 gruppi (df = 2) con il metodo delle Y ridotte e la stima della significatività della regressione lineare (df = 1).
4)
General Linear Models Procedure
Tukey's Studentized Range (HSD) Test for variable: PESO
NOTE: This test controls the type I experimentwise error rate.
Alpha= 0.05 Confidence= 0.95 df= 12 MSE= 0.858291 Critical Value of Studentized Range= 3.773
Comparisons significant at the 0.05 level are indicated by '***'.
Simultaneous Simultaneous Lower Difference Upper GRUPPO Confidence Between Confidence Comparison Limit Means Limit
B - C -0.9966 0.5000 1.9966 B - A 0.6034 2.1000 3.5966 ***
C - B -1.9966 -0.5000 0.9966 C - A 0.0369 1.6000 3.1631 ***
A - B -3.5966 -2.1000 -0.6034 *** A - C -3.1631 -1.6000 -0.0369 ***
Nel riquadro 4) sono riportati i confronti multipli tra le tre medie, con il metodo di Tukey. Per ogni coppia di medie è riportata la differenza, sia positiva che negativa, con i miti dell’intervallo di confidenza. La differenza risulta significativa alla probabilità prefissata (nel tabulato uguale a 0.05) quando l’intervallo fiduciale, che ovviamente comprende la differenza media, esclude lo 0.
| |||||||||||||||||||||||||
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |