CONFRONTI TRA RETTE,

CALCOLO DELLA RETTA CON Y RIPETUTE, CON VERIFICA DI LINEARITA’ E

INTRODUZIONE ALLA REGRESSIONE LINEARE MULTIPLA

 

 

17.6.  CALCOLO DEI TERMINI DELLA REGRESSIONE, MEDIANTE I COEFFICIENTI POLINOMIALI

 

 

I coefficienti polinomiali facilitano la scomposizione ortogonale dei trattamenti,

-  per confronti tra le medie.

I concetti e i metodi sono già stati illustrati nella scomposizione della devianza tra gruppi per i confronti multipli a priori.

Nel caso della regressione,

- i gradi di libertà della devianza tra gruppi sono scomposti in altrettanti termini, passando progressivamente dalla retta a curve di ordine superiore.


 

COEFFICIENTI POLINOMIALI PER IL CALCOLO DELLA REGRESSIONE

 

COEFFICIENTI  C

 

 

Gruppi  3

A

B

C

Grado 1

-1

0

+1

Grado 2

+1

-2

+1

 

 

 

Gruppi  4

A

B

C

D

Grado 1

-3

-1

+1

+3

Grado 2

+1

-1

-1

+1

Grado 3

-1

+3

-3

+1

 

 

 

Gruppi  5

A

B

C

D

E

Grado 1

-2

-1

0

+1

+2

Grado 2

+2

-1

-2

-1

+2

Grado 3

-1

+2

0

-2

+1

Grado 4

+1

-4

+6

-4

+1

 

 

 

Gruppi  6

A

B

C

D

E

F

Grado 1

-5

-3

-1

+1

+3

+5

Grado 2

+5

-1

-4

-4

-1

+5

Grado 3

-5

+7

+4

-4

-7

+5

Grado 4

+1

-3

+2

+2

-3

+1

 

 

 

Gruppi  7

A

B

C

D

E

F

G

Grado 1

-3

-2

-1

0

+1

+2

+3

Grado 2

+5

0

-3

-4

-3

0

+5

Grado 3

-1

+1

+1

0

-1

-1

+1

Grado 4

+3

-7

+1

+6

+1

-7

+3

 

 

 

Gruppi  8

A

B

C

D

E

F

G

H

Grado 1

-7

-5

-3

-1

+1

+3

+5

+7

Grado 2

+7

+1

-3

-5

-5

-3

+1

+7

Grado 3

-7

+5

+7

+3

-3

-7

-5

+7

Grado 4

+7

-13

-3

+9

+9

-3

-13

+7

 


 

Nella pagina precedente sono riportati i coefficienti polinomiali dal caso di 3 gruppi fino a 8 gruppi, per le prime 4 regressioni (lineare, quadratica, cubica e di quarto ordine). Già oltre quella di secondo ordine l’uso è raro e non sempre giustificato, nella ricerca della curva più adeguata.

 

I principi basilari del metodo dei coefficienti polinomiali, soprattutto di come sono stati ottenuti, richiedono una illustrazione lunga e complessa. Ma all’utente della statistica serve soprattutto capire il loro uso, che è semplice.

Essi godono delle due proprietà già citate:

-  la somma dei coefficienti della stessa riga è uguale a 0;

- due righe qualsiasi forniscono risultati tra loro ortogonali, poiché la somma dei prodotti dei coefficienti è uguale a 0.

 

Ad esempio, con 5 gruppi per i quali i coefficienti sono

 

 

 

A

B

C

D

E

Grado 1

-2

-1

0

+1

+2

Grado 2

+2

-1

-2

-1

+2

Grado 3

-1

+2

0

-2

+1

Grado 4

+1

-4

+6

-4

+1

 

 

 è semplice osservare che la retta o curva di grado 1 è ortogonale a quella di grado 2, poiché

(-2 x +2) + (-1 x –1) + (0 x –2) + (+1 x –1) + (+2 x +2)

(-4) + (+1) + (0) + (-1) + (+4) = 0

Lo stesso risultato è ottenuto tra due serie di coefficienti qualsiasi.

 

Per l’analisi delle regressioni, non sempre è possibile l’uso dei coefficienti polinomiali. Infatti devono essere soddisfatte due condizioni:

1 - il numero di repliche deve essere identico in tutti i gruppi,

2 – i valori della X devono avere una progressione regolare (come quelle già illustrate nel paragrafo precedente).

 

Mediante i totali delle Y di ogni gruppo () e i coefficienti  di ogni regressione, si calcola

-  la devianza di ogni termine:

 

 dove  è il numero di dati o repliche di ogni gruppo e  è il numero di gruppi.

 

ESEMPIO.  Riprendendo lo stesso esempio del paragrafo precedente

 

 

Dose (X)

Repliche

5

10

15

20

25

I

II

III

IV

10,5

11,3

12,1

11,4

8,4

8,6

9,2

9,1

7,7

6,9

5,8

7,2

5,3

4,3

4,8

5,0

4,6

5,6

3,9

4,8

 

 calcolare le devianze dovute alla regressione lineare e alle curve di ordine superiore.

 

Risposta.  Poiché i gruppi sono  = 5, è possibile calcolare 4 devianze, dal termine lineare a quello di quarto grado.

Dopo aver calcolato i totali () e considerando che le repliche per gruppo sono  = 4

 

 

Dose (X)

5

10

15

20

25

TOTALI

 

45,3

35,3

27,6

19,4

18,9

146,5

 

 

 con i coefficienti polinomiali

 

 

 

Gruppi  5

A

B

C

D

E

Grado 1

-2

-1

0

+1

+2

Grado 2

+2

-1

-2

-1

+2

Grado 3

-1

+2

0

-2

+1

Grado 4

+1

-4

+6

-4

+1

 

 

- per il termine lineare si ottiene

 

- per il termine quadratico si ottiene

 

- per il termine cubico si ottiene

 

- per il termine alla quarta si ottiene

 

E’ semplice osservare che

-   la devianza dovuta al termine lineare o di I grado (117,992) è identica a quella calcolata con la formula classica, molto più lunga;

-   la somma delle 4 devianze coincide esattamente con quella tra gruppi:

117,992 + 6,112 + 0,729 + 0,432 = 125,265

Sulla base di questi risultati, si può riscrivere la tabella delle devianze, con la scomposizione completa della devianza tra gruppi:

 

 

Fonte di variazione

DEVIANZA

DF

S2

F

Totale

130,940

19

---

---

Tra gruppi

125,265

4

---

---

Dovuta al termine lineare

117,992

1

117,992

311,9

Dovuta al termine quadratico

6,112

1

6,112

16,2

Dovuta al termine cubico

0,729

1

0,729

1,93

Dovuta al termine alla quarta

0,432

1

0,432

1,14

Residuo o entro gruppi

130,940 - 125,265 = 5,675

15

0,3783

---

 

 

Nel test F che valuta la significatività

-  per la devianza dovuta al termine lineare rispetto alla media

 si ottiene una risposta altamente significativa;

 

-  per la devianza dovuta al termine quadratico rispetto a quello lineare

 si ottiene una risposta significativa;

 

-  per la devianza dovuta al termine cubico rispetto a quello quadratico

 si ottiene una risposta non significativa;

 

-  per la devianza dovuta al termine alla quarta rispetto a quello alla terza

 

 si ottiene una risposta non significativa.

Con questi risultati, per la regressione (cioè per predire Y sulla base di X) è corretto calcolare una curva di secondo grado.

 

Tuttavia può essere accettata anche una conclusione differente, quale la scelta della retta, se motivata entro la disciplina sulla base di altre ricerche o di una differente interpretazione del fenomeno biologico. La retta è più semplice da interpretare; in questo caso, passa molto vicino punti, anche se la curva fornisce un miglioramento statisticamente significativo.

 

La procedura presentata è illustrata nel testo di L. Lison, dal titolo Statistica Applicata alla Biologia Sperimentale (Casa Editrice Ambrosiana, 1991, Milano), nella parte scritta da G. A. Maccacaro. Ad essa si rimanda per approfondimenti.

Il metodo, discusso negli anni 50, non ha riscosso il successo atteso. In quel periodo e negli anni successivi, era diffusa la convinzione che l’analisi dei termini della regressione per individuare la curva più adatta fosse un problema di estrema importanza e che nella pratica sperimentale dovesse essere sempre applicata. Uno degli articoli più importanti sul metodo dei coefficienti polinomiali è del 1953, dovuto a Wishart e Metakides, dal titolo Orthogonal Polynomial Fitting (pubblicato su Biometrika , Vol. 40, pp. 361 – 369).

 

La condizione di uguaglianza degli intervalli e sull’uso corretto dei coefficienti polinomiali è discusso anche nell’articolo Orthogonal Coefficient for Unequal Intervals pubblicato sulla rivista Biometrics dell’anno 1958, (Vol. 14, n° 1-4, pp. 287 – 289), della quale era editore George Waddel Snedecor, statistico matematico americano, nato nell’anno 1881 e morto 1974. I suoi contributi più importanti sono relativi al disegno sperimentale, al campionamento e all’analisi della varianza, per la quale ha modificato la proposta di Fisher nella forma attuale. Nel 1937 ha pubblicato la prima versione del volume Statistical Methods, uno dei testi internazionali più diffusi, fino alla settima edizione del 1980.

In modo polemico, non credibile per la sua alta competenza statistica, afferma di non conoscere il metodo dei coefficienti ortogonali per intervalli ineguali e di spiegarglielo: “In an experiment performed here, I used four levels of a nutrient: 0, 5, 10, 20 mg. I cannot find a method for calculating the three sets of orthogonal coefficients for these unequal intervals. If it can be done, please advise me”.

Nella risposta, A. Grandage rimanda all’articolo di Wishart e Metakides, valido non solo per intervalli ineguali ma anche per pesi differenti ai vari livelli. Grandage afferma che il metodo è semplice quando il numero di livelli è piccolo, come i 4 livelli utilizzati da Snedecor, oppure quando sono richieste regressioni fino al terzo grado; ma già regressioni di terzo grado sono necessarie raramente: “In pratice, the coefficients for the third degree regression are rarely needed”.

Su come costruire i coefficienti ortogonali in generale e nel caso di intervalli ineguali e su come stimare i coefficienti per la regressione lineare, quella quadratica e quella cubica, si rinvia pubblicazioni specifiche. I programmi informatici hanno reso obsolete queste tecniche manuali; hanno imposto un approccio fondato più sui concetti e meno sulle modalità di calcolo.

 


 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007