CONFRONTI TRA RETTE,

CALCOLO DELLA RETTA CON Y RIPETUTE, CON VERIFICA DI LINEARITA’ E

INTRODUZIONE ALLA REGRESSIONE LINEARE MULTIPLA

 

 

 

17.7.  TEST DI LINEARITA’ CON Y RIPETUTE, IN CAMPIONI NON BILANCIATI

 

 

Non sempre i campioni sono bilanciati. In vari esperimenti di laboratorio e in farmacologia, può sempre succedere che almeno una cavia o un paziente non permettano di misurare l’effetto della dose somministrata. Le cause possono essere numerose, dal decesso alla mancata risposta biologica, per motivi fisiologici o genetici.

L’analisi diventa meno semplice e non permette di calcolare tutti i termini della regressione, che non è più centrata sulla dose e sulla  risposta medie.

Nell’industria farmaceutica, la regressione lineare semplice con Y ripetute è spesso utilizzata per la convalida di metodi analitici, atti alla determinazione quantitativa di principi attivi e dei possibili degradati in forme farmaceutiche. Uno degli passaggi importanti della convalida consiste nel verificare la linearità della risposta al variare della concentrazione. Per tali test, si preparano concentrazioni scalari (almeno 5) della sostanza da quantificare, replicando un certo numero di volte (da tre a sei) la determinazione per ogni concentrazione.

Nell’esempio successivo è illustrata in modo dettagliato questa metodologia, applicata al caso più generale di campioni non bilanciati.

 

 

ESEMPIO.  Si assuma che per 5 concentrazioni crescenti (X) siano state effettuate misure sul tempo di efficacia (Y) di un farmaco. Per ogni dose sono state prese 5 cavie, ma per alcune non è stato possibile ottenere la risposta biologica.

 

 

Concentrazioni

Risposte

30

  106, 108, 110

40

  118, 120, 125, 119

50

  137, 134, 132

60

  144, 147, 151, 148, 146

70

  159, 162, 156, 164, 158


 

La lettura delle risposte su un grafico, come in un’analisi della varianza a un criterio, avvantaggia la comprensione delle metodologie statistiche e dei risultati delle analisi.

 


 

Si riportano tutti i valori (i punti) e le medie (asterisco) per ogni dose X.

E’ utile riportare anche la media generale delle Y e delle X (le due rette tratteggiate, perpendicolari tra loro)

 

(Per il calcolo della somma, cioè della quantità totale del principio attivo somministrato, e della media delle X occorre considerare non solo i 5 valori riportati, ma anche quante volte le singole dosi sono state somministrate.)

Si può immediatamente osservare che le due medie generali  e  (in particolare quella della X che è importante per la dose) sono spostate verso le medie dei gruppi con dose 60 e 70, perché i campioni non sono bilanciati. Il punto di incrocio, come già evidenziato nella trattazione generale della regressione per singoli valori di Y, rappresenta il baricentro della distribuzione e è attraversato dalla retta di regressione.

 

L’analisi della varianza a un criterio di classificazione è fondata sul rapporto tra le varianze derivate da

-  gli scarti delle medie  dei vari gruppi dalla media generale  (devianza tra),

-  gli scarti di ogni osservazione   dalla media del gruppo   (devianza entro)

Utilizzando solamente i 20 valori delle Y, dopo aver calcolato

-    = 383.346;           = 2744

-  le sommatorie delle Y per le 5 dosi: (30) = 324;   (40) = 482;   (50) = 403;   (60) = 736;   (70) = 799;

 si stimano

- la devianza totale =   con gdl =  

 ottenendo:  6.869,2   con gdl = 19

 

- la devianza tra trattamenti =   con gdl = -1

 ottenendo:

 

136,33 + 108.339,2 + 127.680,2 - 376.476,8 = 6.751,93  con gdl = 4

 

-  la devianza d’errore

 ricavata per sottrazione

6.869,2 – 6.751,93 = 117,27  con gdl = 15 (19 – 4)

 o come devianza entro ogni gruppo.

La tabella che riporta questi risultati

 

Fonte di variazione

S.Q.

DF

S2

F

P

Totale

6.869,20

19

---

---

---

Tra gruppi

6.751,93

4

1.687,98

215,91

0,000

Errore

117,27

15

7,818

---

---

 

 e quello del  test F mostra una differenza altamente significativa tra le medie dei 5 gruppi.

 

Per calcolare la retta di regressione semplice che consideri le medie dei 5 dosaggi

 ricordando che

 e

  con i dati dell’esempio dopo aver ricavato

 

-    =  30 x 106 + 30 x 108 + … + 70 x 164 + 70 x 158 = 149.240

-    = 3 x (30)2 + 4 x (40)2 + 3 x (50)2 + 5 x (60)2 + 5 x (70)2 = 59.100

-    = 1.050;      = 2.744;       = 52,5;     = 137,2; 

 

 si stimano

 e

 

Pertanto, la retta di regressione lineare semplice che rende minimi gli scarti al quadrato tra i punti collocati sulla retta e le medie dei gruppi è


Per disegnare la retta sul grafico precedente, è sufficiente stimare il valore di  per una  qualsiasi.

Ad esempio, per  = 30 si ha

 = 107,88

A partire dal punto individuato, si traccia la retta che passa attraverso il baricentro della distribuzione dei dati.


 

 

Se i calcoli sono stati effettuati manualmente, può sorgere il dubbio di aver commesso qualche errore.

E’ possibile una verifica empirica e rapida: scelto un  qualsiasi, il punto stimato () deve essere situato sulla retta.

 

Dalla rappresentazione grafica, è semplice osservare che la retta si avvicina ai punti medi molto più della media generale delle Y. E’ la devianza dovuta alla regressione lineare ().

Tale quantità, che ha gdl = 1 è calcolata con

 

 

Con i dati dell’esempio,

 si ottiene = 6.750,29

La quota di devianza dovuta alla non linearità ( = 1,64 con gdl = 3) è ricavata per differenza.

Con queste due informazioni si può completare l’analisi della varianza condotta in precedenza,

 ottenendo

 

 

Fonte di variazione

Concetti

S.Q.

DF

S2

F

P

Totale

6.869,20

19

---

---

---

Tra gruppi

6.751,93

4

1.687,98

215,91

0,000

Della regressione lineare

6.750,29

1

6.750,29

863,4

0,000

Regressione non-lineare

1,64

3

0,547

< 1

---

Errore (Entro gruppi)

117,27

15

7,818

---

---

 

 

Ricordare: = Y osservato;  = media del gruppo;   = Y stimato sulla retta;  = media generale

 

 

Dalla semplice lettura delle devianze si evidenzia che la devianza tra gruppi è quasi tutta imputabile alla regressione lineare. Ma è necessario verificare statisticamente questa impressione.

 

Il test per la linearità, cioè dell’esistenza di una relazione reale di tipo lineare tra dose e risposta richiede che siano realizzate contemporaneamente due condizioni:

A) che risulti significativo il test per la linearità.

B) che risulti non significativo il test per la regressione non-lineare;

 

Il primo è attuato dividendo la varianza dovuta la regressione lineare per la varianza d’errore; con i dati dell’esempio

Il risultato con F(1,15) = 863,4 dimostra che la retta si avvicina ai punti individuati dalle medie molto più della media generale .

 

Il secondo dividendo la varianza dovuta alla regressione non-lineare per la varianza d’errore; con i dati dell’esempio

 < 1

Il risultato con F(3,15) = < 1 dimostra che le curve di grado superiore non si avvicinano ai punti individuati dalle medie in modo significativo rispetto alla retta.

In conclusione, la risposta è di tipo lineare

 

In questa verifica, può essere conveniente iniziare dal secondo test, quello per la non-linearità. Infatti, quando esso non risulta significativo, è possibile sommare alla devianza d’errore e ai gdl la quota dovuta alla non linearità, ottenendo

 

Fonte di variazione

S.Q.

DF

S2

F

P

Totale

6.869,20

19

---

---

---

Della Regressione

6.750,29

1

6.750,29

1021,8

0,000

Errore

118,91

18

6,606

---

---

 

 

L’ipotesi sulla linearità

H0: b = 0     contro     H1: b ¹ 0

 può essere verificata anche mediante

 

In questo caso, il risultato è ancor più significativo. Il test ha una efficienza relativa maggiore. In esso aumentano sempre i gdl della varianza d’errore, aspetto importante soprattutto quando essi sono pochi. Inoltre, in questo caso, si determina  il vantaggio aggiuntivo di una varianza d’errore minore.

 

La capacità predittiva della retta

 è superiore al 98%.

Per il calcolo

-  dell’intervallo di confidenza di

 

-  dell’intervallo di confidenza della intercetta  

 

 

-  dell’intervallo di confidenza di un valore medio di  per la specifica dose

 

 

-  dell’intervallo di confidenza di un singolo valore di

 

 

 la varianza d’errore è  = 6,606  

 e la devianza delle X come stimata in precedenza è   = 3.975.

 


 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007