LA REGRESSIONE LINEARE SEMPLICE

 

 

 

16.21.    DEVIANZA DI TIPO I, II, III, IV, V, VI NELL’ANALISI DELLA REGRESSIONE.

 

 

Nell’ultima tabella, che rappresenta l’output di un programma informatico compare la scritta:

-  Somma dei quadrati  Tipo III  (Sum of Squares  Type III)

 

Sempre sollecitati ad analizzare ogni aspetto dell’output, molti utenti di programmi informatici cercano di comprendere quale sia il significato di Type III e quali siano le differenze dalla normale Devianza SQ (in inglese, SS) fino ad ora utilizzata.

Ai fini pratici, se interessa solamente interpretare i risultati dell’analisi della varianza, il comportamento corretto più semplice è ignorare tale dicitura e agire come in tutte le condizioni precedenti.

Ma spesso è anche importante capire quale indicazione metodologica sottintenda l’espressione Sum of Squares Type III e quali sono gli altri eventuali tipi di Devianza. Se si vuole raggiungere una visione più ampia e costantemente aggiornata dei metodi statistici, in questo settore è utile sapere che

-   questi programmi che utilizzano la regressione per effettuare un test ANOVA

-   possono riportare Devianze (SQ o SS)  con sei diciture differenti: Type I, Tipe II, Type III e Type IV, alle quali più recentemente sono state aggiunte altre due, la Type V e la Type VI.

 

Esse sono collegate a vari aspetti della programmazione dell’esperimento e quindi a caratteristiche dei dati campionari raccolti, che richiedono una elaborazione statistica differente, sempre quando si ricorre alla regressione per effettuare un test ANOVA. I parametri che incidono sulla scelta tra questi diversi metodi per calcolare le devianze sono

-   il numero di livelli di una stessa variabile,

-   il numero di variabili o fattori implicati per analisi congiunte degli effetti principali e delle loro interazioni di vario ordine,

-   il numero di dati in ogni casella se è costante (come nella tabella all’inizio di questo paragrafo) oppure differente, vale a dire se sono utilizzati campioni bilanciati oppure sbilanciati,

-   la estensione di questo bilanciamento fino al fatto che tutte le caselle abbiano almeno un dato oppure una o più siano vuote.

 

Quando una stessa variabile ha più modalità categoriali, ad esempio se la nausea fosse stata misurata in quattro gruppi di marziani posti nella seguenti quattro differenti condizioni sperimentali, come

(1) Controllo      (2) Esposti al fumo     (3) Dopo somministrazione di alcol     (4) Dopo fumo e alcol

 la trasformazione in un codice binario, per effettuare un’ANOVA attraverso la regressione, può essere realizzata nella costruzione di quattro variabile dummy:

- D1: Assegnare 1 al gruppo 1 e 0 a tutti gli altri tre (2,3,4) ;

- D2: Assegnare 1 al gruppo 2 e 0 a tutti gli altri tre (1,3,4);

- D3: Assegnare 1 al gruppo 3 e 0 a tutti gli altri tre (1,2,4);

- D4: Assegnare 1 al gruppo 1 e 0 a tutti gli altri (1,2,3).

 

Con una formulazione matematica più corretta e sintetica, si può scrivere

 

 

Se l’analisi della varianza viene condotta mediante la regressione multipla, il suo modello di tipo additivo è

 

 e in essa la quantità di nausea è stimata sulla base dei valori medi dei 4 gruppi a confronto.

Ma in questo modello, per la loro costruzione da una variabile categoriale o qualitativa mediante una variabile dummy, questi quattro gruppi non sono tra loro indipendenti, come potrebbero esserli i gruppi di quattro differenti variabili quantitative (quando tra loro non c’è correlazione).

 

Questa impostazione è analoga, ma differente, da quella che è ricavabile da un disegno sperimentale con  due variabili binarie qualitative.

Ad esempio, se se i marziani fossero stati classificati

-  per una prima variabile, in controlli ed esposti al fumo,

-  per una seconda variabile, in maschifemmine,

 per valutare se nel livello di nausea esistono differenze significative entro ogni variabile, la trasformazione in variabile dummy avrebbe potuto essere

- D1: Assegnare 1 al gruppo degli esposti e 0 al controllo;

- D2: Assegnare 1 al gruppo dei maschi e 0 alle femmine;

 costruendo il modello additivo dei due fattori con la loro interazione

 e dove l’interazione verifica se il fumo passivo ha effetti diversi tra maschi e femmine.

Sono possibili anche codifiche alternative a quelle presentate, ma per approfondimenti si rinvia a testi specialistici.

 

Quando le categorie predittive sono organizzate come in una analisi fattoriale della varianza (factorial ANOVA) e il numero di osservazioni è uguale in tutte le celle (campioni bilanciati),

-  tutti gli effetti principali e quelli delle interazioni sono tra loro indipendenti.

 

Come nel modello classico, le devianze godono della proprietà additiva:

SQ totale = SD dei singoli fattori + SQ delle interazioni + SQ d’errore


 

Ma quando il numero di osservazioni entro ogni cella è variabile, gli effetti principali e le interazioni sono tra loro interdipendenti o correlati. Ne deriva che le devianze non godono più della proprietà additiva, in quanto diventano parzialmente incluse una nell’altra.

Su parla allora di contained effects, in cui la definizione di un contained effect  è

-   un effetto E1 (ad esempio, l’interazione AB) è contained in un altro effetto E2 se

1 –   entrambi gli effetti coinvolgono la stessa variabile predittiva continua; ad esempio, quando A, B, C sono variabili predittive categoriali mentre X è una variabile predittiva continua e nel modello sono inclusi gli effetti  delle variabili ABX e ACX;

2 – quando una categoria E1 è inclusa in un’altra categoria predittiva E2 oppure la prima categoria è una interazione compresa nella seconda, come avviene con l’interazione di primo livello AB che è inclusa in quella di secondo livello ABC.

Per mantenere la proprietà additiva, l’ultima devianza è calcolata per differenza di tutte le precedenti da quella totale.

Ne deriva che, quando l’ultima viene cambiata, si ricavano stime differenti.

La seconda conseguenza è che, con più devianze da stimare, la procedure della regressione deve essere ripetuta più volte.

Dal tentativo di risolvere questa serie di problemi, derivano le sei differenti modalità di calcolo delle devianze prima elencate.

 

A – Si ha la devianza di Tipo I (Type I Sum of Squares), chiamata anche devianza sequenziale o gerachica (sequential or hierarchical sums of squares), quando la devianza totale è suddivisa nelle sue componenti in modo sequenziale. La devianza di un effetto può essere determinata sottraendo, alla devianza di un effetto che lo contiene, quella di un effetto che non lo contiene.

E’ la proprietà additiva di cui gode un disegno bilanciato, quando gli effetti entrano nel modello nel loro ordine naturale,

- sia con variabili sono di tipo qualitativo

 - sia con variabili quantitative nella regressione polinomiale e si passa dai livelli di ordine inferiore a quelli di ordine superiore

- sia quando la regressione è applicata a variabili dummy non in una ANOVA crossed ma in una ANOVA Nested.

 

Le devianze di Tipo I forniscono una scomposizione completa di quella totale.

Questo Tipo di Devianza ha tuttavia un limite, detto della perdita dell’invarianza dell’ordine di entrata nel modello (the lack of invariance to order of entry into the model), poiché quanto prima affermato non è vero per ogni tipo di somme di devianze.

 

B - La devianza di Tipo II (Type II Sum of Squares), chiamata anche devianza parzialmente sequenziale (partially sequential sums of squares), gode della proprietà additiva precedente, ma è calcolata in modo differente, controllando tutti gli effetti di livello uguale o inferiore.

Diversamente dalla precedente, è invariante rispetto all’ordine con il quale le variabili entrano nel modello, ma è da utilizzare sempre con disegni bilanciati (lo stesso numero di dati per livello) e in un disegno sperimentale nested o gerarchico.

 

C - La devianza di Tipo III (Type III Sum of Squares) è utilizzata in sostituzione delle prime due, quando i campioni non sono bilanciati (hanno un numero diverso di osservazioni per casella), purché nessuna sia vuota, ma contenga almeno una osservazione.

 

D - La devianza di Tipo IV (Type IV Sum of Squares) è stata costruita per test bilanciati, finalizzati alla verifica di effetti di ordine inferiore, in un disegno  ANOVA con celle vuote. Tuttavia ora il suo uso non è raccomandata per questa analisi, in quanto verifiche successive alla sua divulgazione hanno dimostrato che non è invariante rispetto all’ordine dei livelli, presi in considerazione nel modello.

Inoltre, come già la devianza di Tipo III, serve per verificare ipotesi con funzioni complesse di distribuzione delle celle vuote in interazioni di ordine elevato, che ordinariamente sono prive di un reale significato disciplinare. Con verifiche e confronti a posteriori, è stato dimostrato che non raggiunge gli scopi per i quali è stata costruita. Quindi non riveste alcun interesse pratico.

S. R. Searle nel suo volume del 1987 Linear models for unbalanced data, (New York, Wiley) a pag. 463-464 afferma  In general, (Type IV) hypotheses determined in this nature are not necessarily of any interest.; e inoltre This characteristic of Type IV sums of squares for rows depending on the sequence of rows establishes their non-uniqueness, and this in turn emphasizes that the hypotheses they are testing are by no means necessarily of any general interest.

Di conseguenza, anche i pochi autori che ne propongono ancora l’uso raccomandano molta cautela, soprattutto a livello di interpretazione dei risultati. Inoltre, in una ANOVA senza celle vuote, la devianza di Tipo IV è uguale a quella di Tipo III.

In conclusione, l’uso della devianza di tipo IV è giudicato non appropriato o non necessario.

 

E - La devianza di Tipo V (Type V Sum of Squares) è stata sviluppata come alternativa a quella di Tipo IV, per testare ipotesi in una ANOVA con celle vuote. Questo tipo di devianza è ampiamente utilizzata nel disegno fattoriale frazionale (Fractional Factorial Design), che ha numerose applicazioni nelle ricerche di ingegneria e negli esperimenti biologici o farmacologici di laboratorio. Offre il vantaggio di poter confrontare tutti i totali marginali, quindi tra loro i diversi livelli dello stesso fattore, in esperimenti binari che considerano la presenza-assenza del fattore. E’ una combinazione dei metodi analizzati con la Devianza Type I e la Devianza Type III.

La Devianza Type V non è invariante, rispetto all’ordine con il quale gli effetti sono introdotti nel modello.

 

F - La devianza di Tipo VI (Type VI Sum of Squares) è chiamata anche Effective Hypothesis Sums of Squares. I test effective hypothesis (effective hypothesis tests) sviluppati da R. R. Hocking  nel 1996 con il testo Methods and Applications of Linear Models. Regression and the Analysis of Variance (New York, Wiley) sono basati sulla filosofia che la sola stima non ambigua di un effetto è data dalla proporzione di variabilità totale, che è attribuibile esclusivamente al suo effetto. E una codifica dummy di più parametri di una variabile predittiva categoriale generalmente non può esser utilizzata, per stime uniche di effetti di ordine basso, appunto perché la quantità di devianza stimata, come evidenziato ripetutamente in precedenza, dipende spesso dal loro inserimento in effetti di ordine superiore. La devianza di Tipo VI è ritenuta una stima onesta e non ambigua della variabilità attribuibile unicamente a ogni effetto.

Nel caso di celle vuote, con questa devianza diminuiscono i gradi di libertà. Per l’analisi di effetti con poche celle, tutte vuote, può anche avere gradi di libertà uguali a zero.

Generalmente, questa devianza non può essere utilizzata per disegni nested o mixed.

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007