LA REGRESSIONE LINEARE MODELLO II  E LEAST-PRODUCTS.

IL CONFRONTO TRA DUE METODI QUANTITATIVI.

 

 

 

24.14  LE COMPONENTI DELLA VARIANZA NEGLI STUDI R&R, CON L’ANOVA A EFFETTI RANDON, FISSI E MISTI

 

 

I modi per analizzare gli stessi dati con l’ANOVA possono essere differenti. Dipende dalle modalità di scelta del campione, dalle ipotesi che vengono formulate e quindi dal modello che viene applicato: a fattori random, a fattori fissi oppure a fattori misti (vedi, nel capitolo relativo, concetti e metodi).

 

1 – Il modello a fattori random è quello più frequente negli studi gage R&R.

L’obiettivo è verificare

- se operatori diversi (non importa quali) e campioni differenti (non importa quali) forniscono risposte simili oppure presentano una variabilità statisticamente significativa.

Teoricamente, operatori e campioni sono scelti casualmente da un pool più grande, per decidere se la loro varianza è significativamente differente da zero. Lo scopo non è valutare se le medie degli operatori sono statisticamente differenti, ma che tra esse esiste variabilità. Per analizzare l’interazione, è necessario che uno dei due fattori sia fisso. Per essa

 si verifica

     contro     

 

2 – Il modello a fattori fissi viene utilizzato quando il numero di operatori è piccolo e interessa solamente l’analisi di alcuni campioni, che hanno caratteristiche specifiche. E’ da impiegare quando si è interessati a confrontare le medie di due o più operatori chiaramente identificati e di campioni che hanno caratteristiche particolari. Il risultato riguarda quegli operatori e quei livelli scelti e non può essere esteso o generalizzato ad altre situazioni.

 

3 – Il modello a fattori misti è applicato quando uno dei due fattori e fisso e l’altro è random. In una azienda, probabilmente il caso più frequente può essere quello di operatori fissi e di campioni random.

 

Nei tre modelli dell’ANOVA, le devianze con i loro gradi di libertà e quindi le varianze sono calcolati nello stesso modo. Nel test di significatività, i rapporti per calcolare F sono impostati in modo differente.

In un esperimento standard di analisi della varianza a due criteri con repliche,

 indicando con

 la varianza del fattore A,

 la varianza del fattore B,

 la varianza d’interazione tra i fattori A e B,

 la varianza d’errore,

 i test F sono

 

Test F di

 Significatività

Model  I

(A e B fissi)

Model  II

(A e B random)

Model  III

(A fissa;  B random)

A

B

Interazione A x B


 

Valutata la significatività, le varianze attese forniscono un modo per predire le componenti della varianza che è associata con ogni termine,

 nel modello additivo

 

Si stima la varianza attesa per ogni componente di interesse, con le formule riportate nella tabella seguente:

 

Varianze

Attese

Model  I

(A e B fissi)

Model  II

(A e B random)

Model  III

(A fissa;  B random)

 

 

Il metodo statistico può essere illustrato nei suoi passaggi logici in modo semplice e operativo, presentando un esempio.

 

ESEMPIO 1. (MODEL II, A EFFETTI RANDOM).

 

Metodo o strumento X

 

Campione

Operatore  A

Operatore B

Operatore C

Prov 1

Prov 2

Prov 3

Prov 1

Prov 2

Prov 3

Prov 1

Prov 2

Prov 3

1

1019

1017

1018

1031

1031

1025

990

991

986

2

977

980

992

1001

1007

1010

962

966

952

3

992

1004

1001

1010

1025

1019

1015

1020

1013

4

988

991

982

1018

1018

1024

1023

1019

1027

5

967

981

971

997

992

1002

980

990

976


 

Dati e commenti sono tratti, con modifiche, dall’articolo di informazioni tecniche della General Electric Company, più esattamente dalla relazione di T. A. Early e R. Neagu del 1999 Random and Fixed Factor. ANOVA Models: Gauge R&R Studies (GE Research & Development Center, 99CRD094, Class 1, Technical Information Series, pp.: 1-10).

 

Si assuma che per valutare la ripetibilità di uno strumento che misura la glicemia in campioni di sangue, 3 tecnici di laboratorio analizzino gli stessi 5 campioni, effettuando ognuno 3 analisi indipendenti nelle stesse condizioni, con i risultati della tabella precedente.

Lo scopo è valutare se, utilizzando sempre la stessa procedura, esiste una variabilità significativa sia tra tecnici sia entro tecnici, per fornire una stima delle componenti della gage variance.

E’ una ANOVA model II o a effetti random.

 

L’analisi della varianza, della quale sono riportati i risultati,

 

Fattori

SQ

GDL

F

P

Totale

18742

44

---

---

---

A – Operatori

4440

2

2220,0

3,398

0,085

B – Campioni

8190

4

2047,5

3,134

0,079

Operatori x Campioni

5226

8

653,3

22,119

0,000

Errore

886

30

29,5

---

---

 

 evidenzia soprattutto l’altissima significatività della interazione.

Come mostra la successiva tabella delle medie,

 

 

Campione

Medie

 

Oper. A

Oper.  B

Oper. C

1

1018

1029

989

1012

2

983

1006

960

983

3

999

1018

1016

1011

4

987

1020

1023

1010

5

973

997

982

984

992

1014

994

1000


 

 tale significatività è determinata dal fatto che

- l’operatore A fornisce una stima sistematicamente maggiore della media dei tre operatori quando il valore è alto e minore quando in valore medio è basso, mentre l’operatore C fornisce risultati opposti.

Esiste poi variabilità tra campioni e tra operatori.

Ma mentre è logico che esista una differenza tra i campioni, per la ripetibilità del metodo di analisi è incongruo che la differenza tra operatori sia così grande. L’operatore B fornisce risultati sistematicamente maggiori di quelli degli altri due. E’ conveniente individuarne la causa, per ottenere risultati corretti.

 

Nel calcolo delle componenti della varianza, utilizzando i dati della tabella precedente dove

 = 3  è il numero di repliche effettuate dallo stesso operatore sullo stesso campione,

 = 3  è il numero di operatori,

 = 5  è il numero di campioni,

 la successione di passaggi logici e dei calcoli è descritta nei quattro punti seguenti.

 

1 - La prima componente è la varianza d’errore o errore puro (pure error) , identificata nella ripetibilità entro operatore (within-operator repeatability) .

Con i dati dell’esempio, è

 = 29,5

 

2 - La seconda componente da stimare è il termine della varianza d’interazione AB .

Con i dati dell’esempio, è 

 

 

Questa varianza attesa di interazione , è la varianza dell’intera popolazione di operatori con l’intera popolazione di campioni. Ovviamente, è calcolata a partire dai dati campionari  e .

 

3 - La terza componente da stimare è il termine della varianza di tutti gli operatori .

Con i dati dell’esempio, è 


 

 

4 - La quarta componente da stimare è il termine della varianza di tutti i campioni .

Con i dati dell’esempio, è 

 

 

Da queste quattro componenti , si ricava la varianza stimata del metodo o strumento , la gage variance.

In realtà essa riguarda solo tre fattori:

 = 29,5 + 104,4 + 207,9 = 341,8

poiché quella tra campioni non riguarda il metodo o lo strumento sottoposto a verifica.

Per un confronto e per meglio valutare le cause della variabilità nei risultati, è vantaggioso trasformare le singole componenti dal valore assoluto alla percentuale

 di quella totale del gage

 = 8,6 % + 30,6 % + 60,8 % = 100,0 %

 

Emerge con maggior chiarezza che, in questo caso,

1 - la variabilità dovuta alle singole ripetizioni è piccola e quindi ogni operatore tende a dare sempre la stessa misura del medesimo campione,

2 -  esiste una differenza tra operatori, per cui alcuni tendono a fornire un valore maggiore e altri un valore minore della media generale, che rappresenta la stima migliore del valore vero, ma essa non è casuale o sistematica;

3 -  infatti esiste interazione: le differenze tra operatori non sono costanti, ma  cambiano con il valore della misura, se alto o basso. Questa ultima componente risulta quella maggiore. E’ quindi importante descriverne le caratteristiche per individuarne le cause.

In questo caso, come in parte osservato nella tabella delle medie, l'operatore A

- nel campione 5 che ha una media generale bassa (984), fornisce una sua media (973) che è minore di quella degli altri due operatori,

- mentre nel campione 1 che ha una media generale alta (1012), fornisce una sua media (1018) che è maggiore di quella degli altri due operatori.


 

E’ importante sottolineare che, dalla stima delle componenti della varianza, è esclusa quella dovuta alle differenze tra campioni. Il motivo è che devono essere prese in considerazione solo le varianze che riguardano gli operatori. Esse dovrebbero essere ridotte al minimo, per un corretto funzionamento del gage.

In modo più dettagliato, ritornando all'analisi delle componenti,

- la prima () riguarda la variabilità di (entro) ogni operatore, quando ripete le misure sullo stesso campione; in termini tecnici internazionali, è detta within-operator repeatability;

- le altre due (  e ) riguardano le differenze tra gli operatori; insieme, formano la operator-to-operator reproducibility.

 

ESEMPIO 2. (MODEL III, A EFFETTI MISTI CON GLI STESSI DATI)

Servendosi dello stesso disegno sperimentale e degli stessi dati, si supponga ora che i possibili utilizzatori  dello strumento siano solamente i tre tecnici assunti dall’azienda. Essi quindi sono un fattore fisso e non più un campione random di tutti i possibili utilizzatori.

Diventa possibile applicare il modello III, supponendo che i campioni analizzati siano random.

Benché gli operatori siano un fattore fisso, l’interazione operatori-campioni rimane un fattore random, del quale pertanto può essere stimata la componente,

 con la formula già riportata

 

Ovviamente, la variazione più interessante (quella dovuta agli operatori) non può essere stimata come varianza random. E’ un limite grave di questa impostazione.

 

Il risultato dell’ANOVA diventa

 

Fattori

SQ

GDL

F

P

Totale

18742

44

---

---

---

A – Operatori

4440

2

2220,0

3,398

0,085

B – Campioni

8190

4

2047,5

69,328

0,000

Operatori x Campioni

5226

8

653,3

22,119

0,000

Errore

886

30

29,5

---

---


 

 dove, come nell’esempio precedente, 

-  il valore di F tra Operatori è stato calcolato ponendo al denominatore la varianza d’interazione

()

 e, a differenza dell’esempio precedente,

-  il valore di F tra Campioni è stato calcolato ponendo al denominatore la varianza d’errore

.

 

Dalla lettura dei dati riportati nell’ultima tabella, il test F tra Operatori (P = 0,085) non risulta significativo, in quanto maggiore di  = 0.05 anche se non molto distante da esso.

Tuttavia, in quanto sono un fattore fisso, è ugualmente ragionevole misurare le differenze sistematiche o bias tra operatori. Per valutare la significatività della differenza tra i singoli operatori, il metodo più potente è un confronto a priori , benché sia possibile ricorrere ai confronti a posteriori (sia per i test a priori sia per quelli a posteriori, si rinvia al capitolo relativo).

 

Nel calcolo delle componenti della varianza, utilizzando i dati ANOVA della tabella precedente e sempre con

 = 3  è il numero di repliche effettuate dallo stesso operatore sullo stesso campione,

 = 3  è il numero di operatori,

 = 5  è il numero di campioni,

  si ottengono le tre stime seguenti.

 

1 - La prima componente è , che misura la ripetibilità entro operatore (within-operator repeatability) .

Con i dati dell’esempio, è

 = 29,5

 

2 - La seconda componente , il termine della varianza d’interazione AB.

Con i dati dell’esempio, è 

 

 

3 - La terza componente è il termine della varianza di tutti i campioni .

Con i dati dell’esempio e in modo differente dall’esempio precedente,

è 

 

 

La varianza per il fattore operatori non può essere stimata, in quanto non è una variabile random.

 

Da queste tre, si ricava la varianza stimata del metodo o strumento , la gage variance.

In realtà essa è determinata solamente da

 due fattori:

 = 29,5 + 207,9 = 237,4

 

Si può osservare che, rispetto alla stima Model II in cui  la gage variance  era  = 341,8

- questa gage variance  = 237,3 è minore del 31%:

 

In modo implicito, nella discussione di questi due esempi emerge un problema importante, che è bene evidenziare chiaramente, per una corretta comprensione degli studi gage R&R.

I campioni sono un fattore random oppure fisso?

 

Sotto l’aspetto teorico, quasi sempre i campioni utilizzati per gli studi gage R&R sono solamente una parte delle misure che saranno successivamente analizzate con lo strumento. E’ anche il caso dell’esempio utilizzato, nel quale viene misurata la glicemia in campioni di sangue. Quindi, tecnicamente sono un campione random. I campioni da analizzare dovrebbero sempre essere scelti in random.

Tuttavia lo studio gage R&R come scopo specifico misura la variabilità tra operatori e pertanto si disinteressa di quella tra i campioni.

Come visto nell’esempio 1, è importante anche la variabilità Operatori per Campioni. Essa è necessaria, per meglio caratterizzare il comportamento degli operatori, quando si passa da campioni con valori piccoli a campioni con valori grandi.

Da queste considerazioni, si può dedurre che negli studi gage R&R non si dovrebbe mai applicare l’ANOVA model I o a fattori fissi, ma solamente la model II oppure la model III.

Tra scelta tra questi ultimi due modelli dipende dalle considerazioni fatte sugli operatori.

 

Gli esempi discussi impiegano analisi che non sono distruttive del campione.

Spesso gli studi gage R&R sono distruttivi, come avviene quando si devono analizzare i tempi o l’intensità di una esplosione, la resistenza di un materiale alla rottura, il tempo in cui un farmaco degrada alle varie condizioni ambientali (temperatura, umidità, esposizione alla luce, ecc.).

Se le prove non sono distruttive oppure sono distruttive, il disegno sperimentale deve essere impostato in modo diverso.

 

Nel caso di prove non distruttive, come quelle impostate nei due esempi precedenti, i due fattori presi in considerazione (Operatori e Campioni) sono crossed.

Tutti gli Operatori analizzano ripetutamente (2 o 3 volte) lo stesso Campione.

Nel caso di prove distruttive, i due fattori presi in considerazione (Operatori e Campioni) sono nested o meglio

-  i Campioni sono nested entro Operatori.

Ne consegue che non è più possibile analizzare l’interazione Operatori per Campioni, che rappresenta sempre un aspetto importante, come evidenziato nei due esempi svolti.

 

ESEMPIO 3. (ANOVA MODEL II. Tratto, dal website online di L. M. Bland (May 2004), che riporta l’articolo di Doug Altman e di Martin Bland How do I analyse observer variation studies?).

Mediante apparecchiatura ad ultrasuoni, 4 medici hanno valutato la circonferenza addominale del feto in 3 donne in gravidanza. Ogni medico ha ripetuto la misura 3 volte in modo indipendente, con i risultati riportati nella tabella seguente:

 

 

Circonferenza addominale (cm) con ultrasuoni

 

Medico

Paziente  I

Paziente II

Paziente III

Prov 1

Prov 2

Prov 3

Prov 1

Prov 2

Prov 3

Prov 1

Prov 2

Prov 3

A

13,6

13,3

12,9

14,7

14,8

14,7

17,1

17,1

18,3

B

13,8

14,2

13,2

14,9

14,1

14,5

17,2

17,5

17,6

C

13,2

13,1

13,1

14,5

14,2

13,8

16,3

15,2

16,1

D

13,7

13,7

13,4

14,4

14,3

13,6

16,8

16,8

17,5

 

 

Stimare le componenti della varianza dovuta ai medici.

E’ un disegno sperimentale Model II o a effetti random, in quanto ovviamente le pazienti sono solamente un campione di tutte quelle possibili e l’interesse della ricerca è rivolta esplicitamente a valutare se tra gli utenti dell’apparecchiatura (i medici) esiste in generale (nella popolazione dei medici) una varianza grande.


E’ un’ANOVA a due criteri, dove

-  i medici sono  = 4,

-  le pazienti sono  = 3,

- le repliche di ogni medico sulla stessa paziente sono  = 3,

 L’output del computer è

 

 

Fattori

SQ

GDL

F

P

Totale

90,4222

35

2,5835

---

---

Pazienti

79,9439

2

39,9719

250,26

<0,0001

Medici

3,9089

3

1,3030

8,16

0,0006

 Interazione

2,7361

6

0,4560

2,86

0,0300

Errore

3,8333

24

0,1597

---

---

 

 

(Come facile dedurre dai valori, i tre test F sono stati calcolati ponendo al denominatore la varianza d’errore )

 

Le varianze attese sono

 

Fonte

GDL

Varianze

Totale

 = 35

----

Pazienti

 = 2

Medici

 = 3

 Interazione

 = 6

Errore

 = 24

 

 

Con i dati dell’esempio, le componenti della varianza sono le seguenti

1 – Per l’errore:   =  0,1597

2 – Per l’interazione:   =  = 0,4560

 da cui

 

3 – Per i medici :    = = 1,3030

 da cui

 

 

4 – Per le pazienti:  =  = 39,9719

da cui

 

Da questi, è ora possibile calcolare la , vale a dire la varianza delle osservazioni sullo stesso paziente da parte di due medici, con

 = 0,1597 + 0,0988 + 0,0941 = 0,3526

 poiché quella tra le pazienti non deve essere presa in considerazione.

Diventa possibile osservare che la varianza strumentale ( = 0,3526), considerando anche le differenze tra medici e la loro interazione con le caratteristiche delle pazienti, è più del doppio di quella dovuta a un singolo medico o entro medici ( = 0,1597).

 

Sempre secondo Bland, con questi dati è possibile stimare anche

-  la differenza massima probabile (maximum difference  likely) tra le misure dello stesso medico o operatore, che corrisponde al concetto di ripetibilità (repeatability),

 con

 

-  la differenza massima probabile tra le misure di più medici o operatore,

 con

 

-  la varianza totale  delle misure di differenti medici su differenti soggetti

 con

 

-  il coefficiente di correlazione intra-classe (intra-class correlation coefficient) o ICC per le misure di differenti medici o operatori

 con

 

- il coefficiente di correlazione intra-classe entro medici, cioè per le misure dello stesso medico,

 con

 

Questa ultima ICC (intra-class correlation coefficient) risulta maggiore della precedente, in quanto l’utilizzo di medici differenti aumenta la variazione delle misure.

Come già evidenziato in precedenza, una difficoltà che può presentarsi in questo metodo di analisi è che una varianza potrebbe risultare negativa. E’ logicamente impossibile, trattandosi di un quadrato, anche se effettivamente avviene per variazione casuale dei dati. La soluzione del problema consiste nell’attribuire zero al valore negativo della varianza.

 

Le condizioni di validità di questa metodologia fondata sull’ANOVA sono due:

-  la deviazione standard entro soggetti è indipendente dalla media,

- gli errori entro soggetti sono distribuiti in modo normale, almeno approssimativamente.

Ma non sempre queste condizioni sono rispettate. Per giungere a una soluzione anche a questi casi e per ulteriori approfondimenti della metodologia, si rinvia all’articolo di Bland qui riportato e a quello di C. G. Moertel e J. A. Hanley del 1976  The effect of measuring error in the results of therapeutic trials in advanced cancer (sulla rivista Cancer Vol. 38 pp.: 388 – 394).

 

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007