analisi della varianza (ANOVA  I)

a un CRITERIO di classificazione

E CONFRONTI TRA PIU’ MEDIE

 

 

 

10.5.   CONFRONTI MULTIPLI A POSTERIORI O POST HOC (UMCP)

 

 

Se, nel confronto tra le medie di k gruppi, con il test F è stata rifiutata l’ipotesi nulla

H0: m1  =  m2  = m3  = … = mk

si pone il problema di verificare tra quali esista una differenza  significativa.

A questo scopo, i confronti a priori propongono i metodi migliori, poiché hanno una probabilità a maggiore di risultare significativi e permettono un confronto tra tutte le medie in modo logico ed ordinato.

Ma con la diffusione dei computer,

- in questi decenni i confronti multipli o a posteriori hanno acquisito un rilevante vantaggio pratico,

dal momento che sono riportati in molti programmi informatici insieme con l’ANOVA e possono essere applicati con facilità.

Sono quindi usati con frequenza maggiore di quelli a priori, anche se i calcoli sono più complessi e la preferenza ad essi accordata nelle pubblicazioni spesso appare illogica, ai fini di una corretta analisi statistica, che deve sempre preferire i test più potenti nel rispetto della protezione.

 

Recentemente, anche i confronti a priori sono stati inseriti negli stessi programmi informatici. Di conseguenza, ora è possibile ritornare ad una scelta fondata solamente su criteri statistici corretti, non su convenienze pratiche.

Scegliere i confronti da effettuare sulla base dei risultati dell’esperimento, eventualmente dopo il calcolo delle medie e quindi dell’identificazione di quelle che tra loro sono più simili o differenti, è sbagliato secondo la logica statistica: altera la stima della probabilità a. Tuttavia, in vari casi, i test a posteriori sono necessari.

 

I confronti multipli o a posteriori (nei testi in italiano confronti non prestabiliti o non pianificati, nei testi in inglese post-hoc comparisons, incidental comparisons o multiple comparisons oppure l’acronimo UMCP da Unplanned Multiple Comparison Procedures ) sono utili quando non è possibile programmare i confronti a priori, al momento del disegno sperimentale, per carenza d’informazione. Quando i trattamenti non possono essere classificati in gruppi, tra loro ortogonali, che spieghino più utilmente di altri la differenza complessiva, rimane solo la possibilità di effettuare tutti i confronti tra le medie o loro combinazioni, alla ricerca di quelle differenze che hanno determinato la significatività totale.

 

E’ detta “procedura di dragaggio” e serve per individuare le differenze da studiare successivamente in modo più approfondito, con analisi biologiche, ecologiche, chimiche o ambientali, alla ricerca delle cause possibili. Le ipotesi di lavoro non sono dedotte da una precedente conoscenza delle leggi della natura, ma partono dalle differenze sperimentali osservate, nella convinzione che, se esistono, devono pure avere una causa. Il rischio di tale approccio è di “inventarsi” comunque una spiegazione scientifica all’interno della disciplina, apparentemente giustificata dalla significatività statistica; spesso, si presentano argomentazioni esterne, che non dimostrano né la consistenza né la correttezza della procedura statistica utilizzata.

 

In alcuni testi, i confronti a posteriori sono presentati come alternativi all’analisi della varianza a un criterio di classificazione. La maggioranza degli autori, per un principio di cautela che verrà spesso ricordato, suggerisce di applicarli solo dopo che l’analisi della varianza ha permesso di rifiutare l’ipotesi nulla sull’uguaglianza delle medie. Da qui il termine post-hoc.

In generale, essi hanno le stesse condizioni di validità del test F di Fisher e del test t di Student: normalità della popolazione (o degli errori) e omogeneità della varianza. I vari test di confronto multiplo non sono tutti ugualmente robusti rispetto all’allontanamento da queste assunzioni; in tutti, la non omoschedasticità è più grave e determina variazioni anche sensibili nelle probabilità d’errore di Tipo I e di Tipo II.

 

Per questi confronti sono stati proposti diversi metodi, che come impostazione logica derivano dal test t di Student per ipotesi bilaterali e dagli intervalli fiduciali. La scelta del test più adeguato dipende da tre serie di problemi tra loro collegati, che hanno avuto soluzioni differenti e hanno determinato tante proposte di test differenti:

-  la stima esatta della probabilità a di ogni confronto, la cui somma non deve superare la probabilità a totale prefissata;

-  il numero totale p di confronti che si effettuano e i diversi modi per calcolarlo;

-  le procedure di inferenza simultanea, cioè il calcolo di un intervallo fiduciale valido per tutti i confronti; in essi l’uguaglianza della dimensione (n) dei campioni è desiderabile, in quanto permette di avere la potenza e la robustezza massime, ma non è indispensabile e pone alcuni problemi sulla stima di a e b.

 

La probabilità di commettere un errore di I tipo, cioè la probabilità a di trovare una differenza significativa quando in realtà essa non esiste, è corretta per il singolo confronto tra due medie. Questo tasso d’errore, chiamato con termine tecnico comparison-wise, all’aumentare del numero di confronti determina un tasso d’errore per tutto l’esperimento, chiamato experiment-wise, notevolmente maggiore. E’ la terminologia

-  introdotta nel 1959 da T. A. Ryan (con l’articolo Multiple comparisons in psychological research, pubblicato su Psychological Bulletin, vol. 56, pp. 26-47),

-  sviluppando concetti già presentati da J. W: Tukey nel 1949 (nell’articolo Comparing individual means in the analysis of variance, pubblicato su Biometrics, vol. 5, pp. 99-114)

-  e da H. O. Hartley nel 1955 (con l’articolo Some recent developments in analysis of variance, pubblicato in Communications in Pure and Applied Mathematics, vol. 8, pp. 47-72).

Nel 1980, B. E. Huitema (nel volume The analysis of covariance and alternatives, pubblicato da Wiley Interscience, New York) ha introdotto il termine family-wise.

 

La differenza tra comparison-wise, experiment-wise e family-wise può essere spiegata con un esempio semplice.

Se si effettua un test t di Student tra due medie con a = 0.05, tale confronto (comparisonwise) ha una probabilità di 0,95 di affermare il vero e una probabilità (p) 0,05 di commettere un errore di Tipo I. Con n prove, indicando con r il numero di eventi (errori),

 la probabilità di avere r = 0 errori è

 

Prob (r = 0) =

 

Se i confronti sono n = 10, la probabilità che l’insieme di tutti i confronti, cioè tutto l’esperimento (experimentwise), non commetta un errore di Tipo I (r = 0)

 è

Prob (r = 0) =

 

In una analisi della varianza a più fattori, ad esempio con Trattamenti e Blocchi oppure a quadrati latini, family-wise è la probabilità di errore per gruppi di confronti in ogni fattore sperimentale. Tuttavia, spesso experimentwise e familywise sono usati come sinonimi.

 

Approfondendo due concetti già espressi all’inizio del paragrafo, da questa presentazione dei problemi emerge che, anche nella scelta del test più adatto ai confronti multipli, si deve dare la preferenza a quello più potente; come spesso desiderato dal ricercatore, cioè a quello che ha la probabilità maggiore di rifiutare l’ipotesi nulla in un singolo confronto.

Tuttavia, occorre anche non superare la probabilità prescelta per tutto l’esperimento (aT), cioè la protezione complessiva contro l’errore di I tipo.

Nella scelta del test a posteriori, quindi è necessario un compromesso tra

-  comparisonwise (a), collegata alla potenza del singolo test e

-  experimentwise (aT), collegata al principio di cautela o protezione di tutta la serie di test.

 

La ricerca del difficile equilibrio tra le esigenze contrastanti della potenza e della protezione, per il quale non è ancora stato trovato una soluzione universalmente condivisa, ha determinato una molteplicità di proposte. Esse variano in funzione delle differenti situazioni sperimentali (gruppi bilanciati; confronti singoli tra tutte le medie o solo tra alcune) e dei diversi rischi che il ricercatore intende correre rispetto alle probabilità a e b. Di conseguenza, i confronti multipli sono tra gli argomenti ancora più dibattuti ed in maggiore evoluzione della statistica univariata. Su molti argomenti, i pareri degli esperti sono differenti, quando non contrastanti.

 

Il primo metodo di protezione, quindi per non innalzare troppo la probabilità d’errore di Tipo I dell’experimentwise, suggerito da tutti i testi moderni, è la prassi già citata di

-  fare precedere ai confronti multipli un’ANOVA e di

-  effettuare i confronti a posteriori solo quando con essa si è rifiutata l’ipotesi nulla.

 

Un test non pianificato è detto protetto (protected), quando esso è applicato solamente dopo che il test F dell’ANOVA sia risultato significativo. Con questo accorgimento, si evita che anche un solo confronto tra due medie risulti significativo, quando l’analisi della varianza su tutti i dati non ha rifiutato l’ipotesi nulla. Questo contrasto tra conclusioni è possibile, poiché i due test (l’ANOVA e un test non pianificato tra due medie) utilizzano probabilità a non identiche. Inoltre, mentre l’analisi della varianza trova tutti concordi nella procedura e, a partire dagli stessi dati, porta tutti alle medesime conclusioni, i confronti multipli a posteriori, fondati su logiche differenti, possono portare a risultati divergenti.

In altri testi, questi confronti vengono chiamati contrasti non-ortogonali,  in quanto le probabilità dei vari confronti sono correlate tra loro. Ad esempio, se prima si confronta un placebo con due farmaci e poi lo stesso placebo con uno solo dei due farmaci, questo secondo confronto risulterà più o meno significativo se lo è stato anche il precedente. Occorre quindi utilizzare una probabilità a inferiore per ogni singolo test di confronto, cioè applicare un test più conservativo.


 

Negli ultimi anni, i programmi informatici hanno ampliato il numero di test da applicare, senza che i manuali relativi ne illustrino la logica e la procedura statistica. Tra i confronti multipli più citati in letteratura e più frequentemente proposti nei pacchetti informatici, sono da ricordare:

1 – il principio di Bonferroni o diseguaglianza di Boole e il metodo di Dunn-Sidak;

2 – la procedura LSD di Fisher e la modifica di Winer;

3 - il test di Tukey o precedura HSD con l’estensione di Kramer;

4 - il test di Student-Newman-Keuls, spesso citato come test SNK o test Q;

5 - il test di Scheffé con l’estensione di Gabriel;

6 - il test di Dunnett per confronti a coppie tra un controllo e vari trattamenti;

7 – il campo di variazione multiplo di Duncan;

8 – la procedura per i confronti sequenziali di Holm e il metodo di Shaffer.

 

 

10.5.1   il principio di Bonferroni E IL METODO DI DUNN-SIDAK

Al matematico italiano Bonferroni è attribuita la relazione sulla diseguaglianza della probabilità, non la sua prima applicazione statistica. Secondo essa, la stima di a è molto semplice:

-  per effettuare p volte il test t di Student mantenendo costante la probabilità totale aT (experiment-wise),

-  la probabilità a di ogni confronto (comparison-wise) deve essere minore di aT/p.

 

La disuguaglianza di Bonferroni

 può essere scritta come

a  <  aT / p

 

Per esempio, quando con 3 confronti la probabilità totale aT di commettere un errore di Tipo I non deve essere superiore a 0.05, la probabilità a di ogni singolo confronto deve essere minore di 0.0166 (0.05/3); se i confronti fossero 4, la probabilità a di ogni confronto non deve superare 0.0125 (0.05/4).

 

In altri testi è chiamata disuguaglianza di Boole. Essa afferma che, se A1, A2, ..., An sono eventi compatibili, la probabilità che almeno uno si verifichi è minore o al più uguale alla somma delle probabilità che ciascuno di essi ha di verificarsi, indipendentemente dagli altri. Essa può essere scritta come

 

In realtà, come sarà più avanti approfondito, la relazione tra a  e  aT  non è lineare ma esponenziale. Per una stima più accurata della probabilità comparisonwise sulla base di quella dell’experimentwise, è utile ricordare che

1         la probabilità d’errore complessivo (aT) è legata

2          alla probabilità di errore di ogni confronto (a) e

1         al numero di confronti da effettuare (p)

 secondo la relazione esponenziale

aT =  1 – (1 - a)p

Per esempio, con aT = 0.05   e   p = 5,

 la probabilità a di ogni confronto non è uguale a 0.01 (0.05/5)

a  = 1 – 0.951/5   =   1 – 0.98979  =  0.01021

 ma a 0.01021, con una differenza relativa, rispetto alla stima del Bonferroni del 2,1 per cento;

 

Sempre con  aT  = 0.05  ma con  p = 10,  non è più uguale a 0.005 (0.05/10)

a  =  1 – 0.951/10  =  1 – 0.99488  =  0.00512

 ma a 0.00512, con un aumento relativo del 2,4 per cento rispetto alla stima prudenziale o cautelativa del Bonferroni.

 

E’ il metodo di stima dell’a comparisonwise detta di Dunn-Sidak (dalla proposte indipendenti di di O. J. Dunn e di Sidak), come descritto da H. K. Ury nel suo articolo del 1976 (A comparison of four procedures for multiple comparisons among means – pairwise contrasts for arbitrary sample sizes, pubblicato su Tecnometrics Vol. 18, pp. 89-97) e  da R. R. Sokal e F. J. Rohlf già nella seconda edizione del loro testo nel 1981 (Biometry 2nd  ed. W. H. Freeman, San Francisco, California, USA).

Per la stima della probabilità a comparisonwise in entrambi i metodi, è implicito che si debba predeterminare p, il numero di confronti non ortogonali che si vogliono effettuare.

 

A causa di questa approssimazione nella stima della probabilità, la proposta di Bonferroni è ritenuta sostanzialmente accettabile quando si effettuano pochi confronti, perché le differenze tra le due stime sono minime. Ma quando i confronti superano 6-7, il valore di a stimato per ognuno di essi diventa troppo piccolo; di conseguenza, il metodo è ancora accettato da alcuni, ma molti altri autori lo ritengono troppo cautelativo.

Con il metodo di Bonferroni, utilizzabile anche con la probabilità stimata secondo Dunn-Sidak, per il confronto tra le medie di due gruppi non bilanciati si ricorre al t di Student per 2 campioni indipendenti:

 

t(Bonferroni) ( aT, p, n)  = 

 dove

aT  =  la probabilità prefissata globale per tutti i confronti (di solito, 0.05 o 0.01),

-  p  =  il numero di confronti che si intendono eseguire

n  =  sono i gdl della varianza d’errore s2e utilizzata.

 

Se si vuole valutare se la differenza tra due medie è maggiore di una quantità prefissata (, in modo analogo al test t di Student per 2 campioni indipendenti,

 la formula precedente diventa

 

t(Bonferroni) ( aT, p, n)  = 

 

Rispetto al test t di Student per due campioni indipendenti, questo metodo offre due vantaggi, tra loro collegati:

- utilizza la varianza d’errore  s2e  calcolata con l’ANOVA tra tutti i gruppi, al posto della varianza associata s2p  dei due soli gruppi a confronto;

- usa i gradi di libertà della varianza d’errore s2e (n) per la scelta del valore di t, al posto di quelli derivati solo dal numero dei dati presenti nei due gruppi a confronto (nA-1 + nB – 1).

 

Nel caso di 2 campioni con lo stesso numero (n) d’osservazioni o repliche (detti campioni bilanciati), il valore del t(Bonferroni)  è più rapidamente calcolato

 con la formula equivalente

t(Bonferroni) ( aT, p, n) = 

 

Essa evidenzia una differenza significativa tra ogni coppia di medie alla probabilità totale aT prefissata, quando il valore calcolato supera il valore critico riportato nella tabella successiva.


 

Valori critici del test t di Bonferroni

 

-   p =  numero di confronti simultanei

-   gdl  o  n = gradi di libertà della varianza d’errore

 

aT = 0.05

 

NUMERO p DI CONFRONTI SIMULTANEI

n

2

3

4

5

6

7

8

9

10

5

3,17

3,54

3,81

4,04

4,22

4,38

4,53

4,66

4,78

7

2,84

3,13

3,34

3,50

3,64

3,76

3,86

3,95

4,03

10

2,64

2,87

3,04

3,17

3,28

3,37

3,45

3,52

3,58

12

2,56

2,78

2,94

3,06

3,15

3,24

3,31

3,37

3,43

15

2,49

2,69

2,84

2,95

3,04

3,11

3,18

3,24

3,29

20

2,42

2,61

2,75

2,85

2,93

3,00

3,06

3,11

3,16

24

2,39

2,58

2,70

2,80

2,88

2,94

3,00

3,05

3,09

30

2,36

2,54

2,66

2,75

2,83

2,89

2,94

2,99

3,03

40

2,33

2,50

2,62

2,71

2,78

2,84

2,89

2,93

2,97

60

2,30

2,47

2,58

2,66

2,73

2,79

2,84

2,88

2,92

120

2,27

2,43

2,54

2,62

2,68

2,74

2,79

2,83

2,86

¥

2,24

2,39

2,50

2,58

2,64

2,69

2,74

2,77

2,81

 

aT = 0.01

 

NUMERO p DI CONFRONTI SIMULTANEI

n

2

3

4

5

6

7

8

9

10

5

4,78

5,25

5,60

5,89

6,15

6,36

6,56

6,70

6,86

7

4,03

4,36

4,59

4,78

4,95

5,09

5,21

5,31

5,40

10

3,58

3,83

4,01

4,15

4,27

4,37

4,45

4,53

4,59

12

3,43

3,65

3,80

3,93

4,04

4,13

4,20

4,26

4,32

15

3,29

3,48

3,62

3,74

3,82

3,90

3,97

4,02

4,07

20

3,16

3,33

3,46

3,55

3,63

3,70

3,76

3,80

3,85

24

3,09

3,26

3,38

3,47

3,54

3,61

3,66

3,70

3,74

30

3,03

3,19

3,30

3,39

3,46

3,52

3,57

3,61

3,65

40

2,97

3,12

3,23

3,31

3,38

3,43

3,48

3,51

3,55

60

2,92

3,06

3,16

3,24

3,30

3,34

3,39

3,42

3,46

120

2,86

2,99

3,09

3,16

3,22

3,27

3,31

3,34

3,37

¥

2,81

2,93

3,02

3,09

3,16

3,19

3,24

3,26

3,29

 


 

E’ possibile ricavare il valore critico del t anche da una tabella dettagliata dei valori F di Fisher (usando la colonna con 1 gdl per la varianza al numeratore),

 per la nota relazione

 

Tuttavia per t ed F esiste un problema pratico: non sempre questi valori sono disponibili alla probabilità a richiesta.

Per esempio, con 3 confronti alla probabilità complessiva aT = 0.05 occorrerebbe disporre di una tabella che fornisce il valore di t o di F alla probabilità a = 0.0167.

 

Quando non si dispone di tabelle come la precedente, ma solo di quella per il test t di Student, è semplice ottenere i valori del t di Bonferroni solamente quando il numero di confronti è 5 oppure 10 o 20, poiché con aT uguale a 0.05 (experimentwise) la probabilità a di ogni confronto (comparisonwise) diventa rispettivamente 0.01 oppure 0.005 o 0.001, valori riportati in quasi tutte le tavole sinottiche.

 

Quando i campioni non sono delle stesse dimensioni n, più recentemente vari autori hanno aggiunto una ulteriore cautela.

Al posto della formula generale precedente,

 

t(Bonferroni) ( aT, p, n)  = 

 

 propongono di utilizzare la formula per due campioni bilanciati

 

t(Bonferroni) ( a, p, n) = 

 con n uguale al valore minore tra n1 e n2

E’ ovvio che non si supera la probabilità experimentwise (aT) prefissata. Ma, come in tutte le modalità di protezione, il test perde in potenza nella comparisonwise (a); di conseguenza, altri ricercatori la ritengono troppo cautelativa. In una visione metodologica più generale, quando si effettuano queste scelte il dibattito verte sul contrastante conflitto d’interesse tra il ricercatore, che cerca la potenza maggiore, e il referee, che deve garantire la protezione maggiore, al fine di non rifiutare l’ipotesi nulla con troppa facilità.

 

ESEMPIO. Con le stesse misure d’inquinamento (utilizzate nell’esempio del paragrafo precedente per i confronti a priori) rilevate in 5 zone, delle quali sono stati riportati le medie e il numero di osservazioni:

 

 

ZONE

A

B

C

D

E

Medie

208,2

199,8

141,0

123,3

119,1

6

5

6

6

7

 

 

 verificare con il test t di Bonferroni tra quali medie esiste una differenza significativa.

 

Risposta.   Secondo alcuni autori di testi di statistica, i campioni dovrebbero essere bilanciati. Altri sostengono che, con leggere differenze nel numero di osservazioni, è lecito l’uso di questo test, ricorrendo alla formula generale che considera il diverso numero di osservazioni per gruppo.

Con 5 medie, si hanno 10 differenze, che possono essere presentate in modo chiaro ed utile in una tabella con tutti i confronti:

 

 

Confronti

Medie

Differenze

1)     A vs B

208,2 - 199,8

8,4

2)     A vs C

208,2 - 141,4

66,8

3)     A vs D

208,2 - 123,3

84,9

4)     A vs E

208,8 - 119,1

89,7

5)     B vs C

199,8 - 141,4

58,4

6)     B vs D

199,8 - 123,3

76,5

7)     B vs E

199,8 - 119,1

80,7

8)     C vs D

141,4 - 123,3

18,1

9)     C vs E

141,4 - 119,1

22,3

10)   D vs E

123,3 - 119,1

4,2

 

 

Le differenze sono da considerare in valore assoluto, in quanto i confronti multipli comportano solo test bilaterali.

(Ricordare: nell’analisi della varianza con i 5 gruppi è stata rifiutata l’ipotesi nulla e che la varianza d’errore s2e  è risultata uguale a 146,5 con 25 gdl.

 

Per ogni confronto si calcola il valore del t(Bonferroni) e si confronta il risultato con i valori critici riportati nella tabella.

 

Per esempio, A vs B diventa

 

t(Bonferroni) =    =  =  =  = 1,14

 

 e fornisce un valore di t = 1,14 per un numero di confronti p = 10 e gdl = 25.

Quando il numero esatto di gdl non è riportato nella tabella dei valori critici, per trovare il valore critico nella tabella si utilizzano i gdl immediatamente inferiori (24 nella tabella), in quanto rappresenta la scelta più cautelativa.

Per p = 10 e alla probabilità complessiva a = 0.05 il valore critico riportato è 3,09.

Il valore calcolato (1,14) è inferiore: non si può rifiutare l’ipotesi nulla e quindi la media di A e quella di B non differiscono in modo significativo.

 

Il confronto A vs D diventa

 

t(Bonferroni) =    =  =  =  = 12,13

 

 e stima un valore del t = 12,13 da confrontare sempre con il valore critico di 3,09. Infatti sono invariati sia la probabilità a totale, sia il numero p di confronti, sia i gdl della varianza d’errore.

Alla probabilità a = 0.01 il valore critico, sempre per p = 10 e gdl = 24, risulta uguale a 3,74.

Di conseguenza, la differenza di questo confronto (208,2 e 123,3) risulta significativa: le due medie (A vs D) differiscono tra loro con probabilità a< 0.01.

 

Poiché le ultime due medie a confronto (A vs D) hanno lo stesso numero d’osservazioni (6), si può ottenere lo stesso risultato più rapidamente con

 

t(Bonferroni) =    =  =  = 12,13

 

Se questi confronti sono eseguiti con programmi informatici e quindi il ricercatore per ognuno di essi dispone anche della probabilità a calcolata in modo preciso, la decisione sulla significatività per aT = 0.05 è semplice: con 10 confronti, sono significativi tutti i confronti con a £ 0.005

 

 

10.5.2   la procedura LSD di Fisher E LA MODIFICA DI WINER

Per non effettuare tutti i singoli confronti tra più medie e riuscire ugualmente ad avere la visione generale delle differenze significative, un modo rapido è il calcolo di una differenza minima.

Il metodo è analogo all’intervallo fiduciale di una differenza tra due medie, con il test t di Student. In vari testi di lingua inglese, l’idea di condurre tutti i possibili confronti tra coppie di medie è attribuita a Fisher, per la presentazione dettagliata del metodo nel volume del 1935 The design of experiments (edito da Oliver and Boyd di Edinburgh).

Chiamata in inglese Least Significant Difference e tradotta in italiano come Differenza Minima Significativa (meno spesso, in modo letterale, come Differenza Meno Significativa), è abbreviata in LSD.

 

Disponendo di k medie, ognuna calcolata su n dati, con il t di Student si ottiene l’intervallo di confidenza per una generica coppia di medie ( e ).

 Sono significative tutte le p differenze (con D  = -) che in valore assoluto superano la quantità LSD, stimata

 con

LSD = ×

 

 dove

-  ta/2 = percentile con probabilità a/2 della distribuzione t con gdl 2(n-1),

n = gdl della varianza d’errore stimata con l’ANOVA, come stima più corretta della varianza campionaria (s2) di ogni gruppo.

 

Disponendo di k = 4 medie,

-  le p = 6 differenze sono riportate in una tabella come la seguente


 

 

MEDIE

 

(1)

(2)

(3)

(4)

 

MEDIE

MEDIE

DIFFERENZE (Dij)

(2)     

D12 = -

---

---

---

(3)    

D13 = -

D23 = -

---

---

(4)    

D14 = -

D24 = -

D34 = -

---

 

 

Sono significative tutte le differenze (Dij) maggiori di LSD.

 

Pensando che il t di Student, che considera i gdl e fornisce un intervallo maggiore della distribuzione Z, inglobasse anche i rischi della relazione tra comparisonwise ed esperimentwise, Fisher non entrò nel dibattito su queste probabilità né su quella della relazione tra a e b. Questo metodo è ritenuto corretto per una singola differenza, ma non per più differenze. Per utilizzarlo, già Fisher nel 1935 proponeva il test LSD protetto (protected LSD test), richiedendo l’applicazione del principio di cautela già ricordato, cioè di effettuare i confronti a coppie solo quando il test F dell’ANOVA è significativo.

Nel 1971 B. J. Winer (vedi il volume Statistical principles in experimental design. 2nd ed. McGraw-Hill, New York, USA) ha modificato l’approccio LSD di Fisher, proponendo di utilizzare il metodo di Bonferroni per calcolare la probabilità a del comparisonwise.

Con la generazione di numeri casuali, S. G. Carmer e M. R. Swanson nel 1973 (con l’articolo An evaluation of ten pairwaise multiple comparison procedures by Monte Carlo methods, pubblicato su JASA, n. 68, pp. 66-74) hanno dimostrato che questa precauzione è una cautela efficiente contro gli errori di Tipo I.

 

Ritornando al discorso generale sull’evoluzione delle metodologie, nei confronti multipli simultanei si pone un problema non trascurabile quando i gruppi a confronto non hanno lo stesso numero n di osservazioni. Da vari autori di testi di statistica applicata, viene quindi suggerito di utilizzare come n il numero minimo tra tutti i gruppi a confronto.

Con gli stessi dati dell’esempio precedente


 

ZONE

A

B

C

D

E

Medie

208,2

199,8

141,0

123,3

119,1

6

5

6

6

7

 

 

 in cui la varianza d’errore s2e  è risultata uguale a 146,5 con 25 gdl,

-  assumendo n = 5 come dimensione comune a tutti i gruppi (scelta cautelativa) e che

-  alla probabilità a = 0.05 il valore di t per 25 gdl è uguale a 2,06

 la Differenza Minima Significativa (LSD)

 

LSD = 2,06 ×= 11,15

 risulta uguale a 11,15.

E’ significativa qualsiasi differenza tra le 5 medie che superi questa quantità.

 

Per evitare una scelta così prudenziale altri testi suggeriscono il metodo della interpolazione armonica.

Quando i k gruppi sono di dimensioni (ni) non troppo differenti, è possibile stimare un valore  corretto, dato dal rapporto

 

 

Con i dati dell’esempio,

  risulta uguale a 5,93.

Si osservi che il valore ottenuto è inferiore alla media aritmetica di 6, ma superiore al numero minimo di 5.

 

Con una distribuzione non bilanciata, la quantità d’informazione media è inferiore a quella di una distribuzione bilanciata, che ovviamente abbia lo stesso numero totale di osservazioni. Con 5,93 al posto del 5 precedente (ritenuti da molti troppo cautelativo), si ottiene un errore standard minore e quindi un valore di LSD minore. Il test diventa più potente.

Con gli stessi dati dell’esempio precedente,

 si ottiene

LSD = 2,06 ×= 10,24

 una Differenza Minima Significativa pari a 10,24.

 

Con LSD = 10,24 sono significative le differenze indicate con l’asterisco

 

 

 

MEDIE

 

A

B

C

D

E

 

208,2

199,8

141,0

123,3

119,1

MEDIE

DIFFERENZE

B      199,8

8,4

---

---

---

---

C      141,0

67,2*

58,8*

---

---

---

D      123,3

85,5*

76,5*

17,7*

---

---

E     119,1

89,1*

80,7*

21,9*

4,2

---

 

 

I risultati di questi confronti a coppie sono spesso rappresentati con un modo grafico differente. Per convenzione, con una linea continua o tratteggiata si congiungono le medie che non sono significativamente diverse tra loro.

Con i dati dell’esempio, riportato anche nella tabella in cui

-  sia A e B

-  sia D e E

 non sono significativamente differenti, si ottiene

A       B       C       D       E

 

Un’altra convenzione grafica, ugualmente diffusa e di altrettanto facile comprensione, consiste nel riportare le medie

208,2     199,8     141,0     123,3     119,1

A            A            B           C           C

e nell’indicare con la stessa lettera quelle che tra loro non sono significativamente differenti.

 

Spesso viene usata una terza convenzione grafica, data dalla combinazione di queste due tecniche, quale

208,2     199,8     141,0     123,3     119,1

A  A  A  A          B           C  C  C  C

 in cui la linea tratteggiata è ottenuta con la ripetizione della stessa lettera.

 

In situazione più complesse quando si hanno molte medie che differiscono tra loro per quantità ridotte, si determinano linee o serie di lettere a livelli diversi,

quali

A       B       C       D       E

                                                                              -----------

                                                                    -----------

 

Alla informazione precedente

-  la media di A non è significativamente diversa da quella di B

-  la media di D non è significativamente diversa da quella di E

 in questo caso è aggiunta l’informazione di una differenza non significativa tra le medie C-D  e tra le medie B-C.

 

Gli output dei programmi informatici utilizzano le varie modalità:

-  questi metodi grafici,

-  il semplice elenco tabellare dei confronti,

-  la matrice triangolare delle differenze.

 

 

10.5.3   Il test HSD di Tukey E la prOcedura DI TUKEY-KRAMER

Il metodo di confronti multipli più diffuso è il test proposto da J. W. Tukey nel 1949 (vedi Comparing individual means in the analysis of variance, pubblicato su Biometrics vol. 5, pp. 99). Questa metodologia è stata sviluppata dall’autore in un lavoro non pubblicato del Dipartimento di Statistica dell’Università di Princeton del 1953 (The problem of multiple comparisons), ripresa in rapporti scientifici e presentata nel suo volume del 1977 (Exploratory data analysis. Reading, MA, Addison – Wesley).

Il test è chiamato anche wholly significant difference test, perché pone attenzione all’experimentwise. Come proposto dallo stesso autore, frequentemente è denominato pure honestly significant difference test, da cui l’acronimo HSD, perché vuole essere un compromesso onesto tra experimentwise e comparisonwise. In letteratura è citato anche con vari nomi differenti: T methodTukey’s A methodTukey’s w methodsimultaneous test.

Serve per confrontare tra loro k medie, escludendo loro somme, per cui il numero p di confronti da effettuare è

p =  = k(k-1)/2

Per evitare gli errori insiti nel metodo di Fisher, la nuova proposta di Tukey è il campo (o intervallo) di variazione studentizzato (studentized range distribution) o Q studentizzato. Con un campione di k medie, ognuna con n osservazioni (campioni bilanciati), se è rispettata la condizione di omoschedaticità, si ottiene una stima del campo di variazione, da cui si derivano i valori critici alle varie probabilità, mediante

Q =

 dove

 è la varianza d’errore ottenuta con l’ANOVA sui k gruppi.

 

Per un confronto simultaneo tra le p coppie di medie, il livello di significatività è costruito sul caso peggiore (appunto sulla differenza massima, data da ); di conseguenza, molti autori di testi di statistica ritengono che fornisca una probabilità experimentwise appropriata per il complesso dei confronti.

 

Con p differenze, si rifiuta l’ipotesi nulla

H0: mi = mj      contro       H1: mi ¹ mj

 e risultano statisticamente significative quelle differenze che, in valore assoluto, sono maggiori dell'intervallo di confidenza o campo di variazione critico W

W =

 dove

a   è la probabilità complessiva prescelta,

k    il numero di medie a confronto,

n    sono i gradi di libertà della varianza d'errore s2e ,

-  n  è il numero d’osservazioni di ogni gruppo (in campioni bilanciati),

-  Q   è il valore fornito dalla tabella alla probabilità aT per k gruppi e gdl n (della varianza d’errore).

 


Valori critici del Q per il test  W di Tukey e per il test SNK

-  k = numero di medie a confronto (totale o parziale)

n = gradi di libertà della varianza d’errore

aT = 0.05

INDICE k DEL CONFRONTO

n

2

3

4

5

6

7

8

9

10

8

3,261

4,041

4,529

4,886

5,167

5,399

5,597

5,767

5,918

9

3,199

3,949

4,415

4,756

5,024

5,244

5,432

5,595

5,739

10

3,151

3,877

4,327

4,654

4,912

5,124

5,305

5,461

5,599

11

3,113

3,820

4,256

4,574

4,823

5,028

5,202

5,353

5,487

12

3,082

3,773

4,199

4,508

4,751

4,950

5,119

5,265

5,395

13

3,055

3,735

4,151

4,453

4,690

4,885

5,049

5,192

5,318

14

3,033

3,702

4,111

4,407

4,639

4,829

4,990

5,131

5,254

15

3,014

3,674

4,076

4,367

4,595

4,782

4,940

5,077

5,198

16

2,998

3,649

4,046

4,333

4,557

4,741

4,897

5,031

5,150

17

2,984

3,628

4,020

4,303

4,524

4,705

4,858

4,991

5,108

18

2,971

3,609

3,997

4,277

4,495

4,673

4,824

4,956

5,071

19

2,960

3,593

3,977

4,253

4,469

4,645

4,794

4,924

5,038

20

2,950

3,578

3,958

4,232

4,445

4,620

4,768

4,896

5,008

24

2,919

3,532

3,901

4,166

4,373

4,541

4,684

4,807

4,915

30

2,888

3,486

3,845

4,102

4,302

4,464

4,602

4,720

4,824

40

2,858

3,442

3,791

4,039

4,232

4,389

4,521

4,635

4,735

60

2,829

3,399

3,737

3,977

4,163

4,314

4,441

4,550

4,646

 120

2,800

3,356

3,685

3,917

4,096

4,241

4,363

4,468

4,560

¥

2,772

3,314

3,633

3,858

4,030

4,170

4,286

4,387

4,474

 

aT = 0.025

INDICE k DEL CONFRONTO

n

2

3

4

5

6

7

8

9

10

8

3,892

4,714

5,233

5,616

5,919

6,169

6,382

6,568

6,732

9

3,797

4,578

5,069

5,430

5,715

5,950

6,151

6,325

6,479

10

3,725

4,474

4,943

5,287

5,558

5,782

5,972

6,138

6,285

11

3,367

4,391

4,843

5,173

5,433

5,648

5,831

5,989

6,130

12

3,620

4,325

4,762

5,081

5,332

5,540

5,716

5,869

6,004

13

3,582

4,269

4,694

5,004

5,248

5,449

5,620

5,769

5,900

14

3,550

4,222

4,638

4,940

5,178

5,374

5,540

5,684

5,811

15

3,522

4,182

4,589

4,885

5,118

5,309

5,471

5,612

5,737

16

3,498

4,148

4,548

4,838

5,066

5,253

5,412

5,550

5,672

17

3,477

4,118

4,512

4,797

5,020

5,204

5,361

5,496

5,615

18

3,458

4,092

4,480

4,761

4,981

5,162

5,315

5,448

5,565

19

3,442

4,068

4,451

4,728

4,945

5,123

5,275

5,405

5,521

20

3,427

4,047

4,426

4,700

4,914

5,089

5,238

5,368

5,481

24

3,381

3,983

4,347

4,610

4,816

4,984

5,126

5,250

5,358

30

3,337

3,919

4,271

4,523

4,720

4,881

5,017

5,134

5,238

40

3,294

3,858

4,197

4,439

4,627

4,780

4,910

5,022

5,120

60

3,251

3,798

4,124

4,356

4,536

4,682

4,806

4,912

5,006

120

3,210

3,739

4,053

4,276

4,447

4,587

4,704

4,805

4,894

¥

3,170

3,682

3,984

4,197

4,361

4,494

4,605

4,700

4,784

Valori critici del Q per il test  W di Tukey e per il test SNK

-  k = numero di medie a confronto (totale o parziale)

n = gradi di libertà della varianza d’errore

aT = 0.01

INDICE k DEL CONFRONTO

n

2

3

4

5

6

7

8

9

10

8

4,746

5,635

6,204

6,625

6,960

7,237

7,474

7,681

7,863

9

4,596

5,428

5,957

6,348

6,658

6,915

7,134

7,325

7,495

10

4,482

5,270

5,769

6,136

6,428

6,669

6,875

7,055

7,213

11

4,392

5,146

5,621

5,970

6,247

6,476

6,672

6,842

6,992

12

4,320

5,046

5,502

5,836

6,101

6,321

6,507

6,670

6,814

13

4,260

4,964

5,404

5,727

5,981

6,192

6,372

6,528

6,667

14

4,210

4,895

5,322

5,634

5,881

6,085

6,258

6,409

6,543

15

4,168

4,836

5,252

5,556

5,796

5,994

6,162

6,309

6,439

16

4,131

4,786

5,192

5,489

5,722

5,915

6,079

6,222

6,349

17

4,099

4,742

5,140

5,430

5,659

5,847

6,007

6,147

6,270

18

4,071

4,703

5,094

5,379

5,603

5,788

5,944

6,081

6,201

19

4,046

4,670

5,054

5,334

5,554

5,735

5,889

6,022

6,141

20

4,024

4,639

5,018

5,294

5,510

5,688

5,839

5,970

6,087

24

3,956

4,546

4,907

5,168

5,374

5,542

5,685

5,809

5,919

30

3,889

4,455

4,799

5,048

5,242

5,401

5,536

5,653

5,756

40

3,825

4,367

4,696

4,931

5,114

5,265

5,392

5,502

5,559

60

3,762

4,282

4,595

4,818

4,991

5,133

5,253

5,356

5,447

120

3,702

4,200

4,497

4,709

4,872

5,005

5,118

5,214

5,299

¥

3,643

4,120

4,403

4,603

4,757

4,882

4,987

5,078

5,157

 

aT = 0.001

INDICE k DEL CONFRONTO

n

2

3

4

5

6

7

8

9

10

8

7,130

8,250

8,978

9,522

9,958

10,32

10,64

10,91

11,15

9

6,762

7,768

8,419

8,906

9,295

9,619

9,897

10,14

10,36

10

6,487

7,411

8,006

8,450

8,804

9,099

9,352

9,573

9,769

11

6,275

7,136

7,687

8,098

8,426

8,699

8,933

9,138

9,319

12

6,106

6,917

7,436

7,821

8,127

8,383

8,601

8,793

8,962

13

5,970

6,740

7,231

7,595

7,885

8,126

8,333

8,513

8,673

14

5,856

6,594

7,062

7,409

7,685

7,915

8,110

8,282

8,434

15

5,760

6,470

6,920

7,252

7,517

7,736

7,925

8,088

8,234

16

5,678

6,365

6,799

7,119

7,374

7,585

7,766

7,923

8,063

17

5,608

6,275

6,695

7,005

7,250

7,454

7,629

7,781

7,916

18

5,546

6,196

6,604

6,905

7,143

7,341

7,510

7,657

7,788

19

5,492

6,127

6,525

6,817

7,049

7,242

7,405

7,549

7,676

20

5,444

6,065

6,454

6,740

6,966

7,154

7,313

7,453

7,577

24

5,297

5,877

6,238

6,503

6,712

6,884

7,031

7,159

7,272

30

5,156

5,698

6,033

6,278

6,470

6,628

6,763

6,880

6,984

40

5,022

5,528

5,838

6,063

6,240

6,386

6,509

6,616

6,711

60

4,894

5,365

5,653

5,860

6,022

6,155

6,268

6,366

6,451

120

4,771

5,221

5,476

5,667

5,815

5,937

6,039

6,128

6,206

¥

4,654

5,063

5,309

5,484

5,619

5,730

5,823

5,903

5,973


ESEMPIO.   Stimare le differenze significative tra le 5 medie utilizzate negli esempi precedenti, alle probabilità a = 0.05  e  a = 0.01.

 

Risposta. Dalla tabella di distribuzione dei valori critici del Q studentizzato, scegliere il valore di Q per:

-  la probabilità a = 0.05  e   a = 0.01;

-  il numero di trattamenti o medie k, che con i dati dell’esempio è uguale a 5;

-  i gradi di libertà della varianza d’errore (n), che nell’esempio sono uguali a 25; nella tabella dei valori critici scegliere il numero inferiore più vicino (24), in quanto più cautelativo di quello superiore (30); un altro metodo, più preciso ma leggermente più difficile, suggerisce di stimare il valore di Q mediante l’interpolazione armonica tra i gdl riportati in tabella (24 e 30).

Nella tabella dei valori critici (riportata in precedenza), il valore di Q

-  alla probabilità a = 0.05 è uguale a 4,166

-  alla probabilità a = 0.01 è uguale a 5,168.

 

Ricordando che la varianza d’errore   = 146,5

 calcolare il campo di variazione critico o intervallo di confidenza per un generico contrasto semplice tra tutte le p = 10 differenze tra le k = 5 medie, mediante il valore di HSD.

 

Alla probabilità  a = 0.05

 

 HSD =  = 4,166 x 4,962 = 20,67

 

 HSD risulta uguale a 20,67

 

 mentre alla probabilità a = 0.01

 

 HSD =  = 5,168 x 4,962 = 25,64

 

 HSD è uguale a 25,64.

Successivamente, è utile costruire la matrice triangolare delle differenze tra le 5 medie ed effettuare i confronti con le due HSD calcolate per le due probabilità. Dall’analisi risulta che

-  con probabilità a £ 0.01 sono significative le differenze superiori a 25,64,

-  con probabilità a £ 0.05 sono significative quelle comprese tra 25,64 e 20,67

-  le differenze minori di 20,67 non sono significative, avendo probabilità a > 0.05.

(Le prime possono essere contrassegnate da un doppio asterisco; le seconde da un solo asterisco).

 

 

 

MEDIE

 

A

B

C

D

E

 

208,2

199,8

141,0

123,3

119,1

MEDIE

DIFFERENZE

B      199,8

8,4

---

---

---

---

C      141,0

67,2**

58,8**

---

---

---

D      123,3

85,5**

76,5**

17,7

---

---

E     119,1

89,1**

80,7**

21,9*

4,2

---

 

 

L’interpretazione della tabella porta alle conclusione che

-  sono molto significative (a £ 0.01) le differenze (in grassetto con due asterischi ) tra la media C, la media D e la media E rispetto sia alla media A che alla B

-  è significativa (0.01 < a< 0.05) la differenza tra la media C e la E.

Esse sono le cause della differenza complessiva tra le 5 medie, valutata in precedenza con il test F.

(Questa tecnica era usata alcuni anni fa; ora i computer permettono di riportare il valore esatto di a per ogni confronto e quindi di avere una visione più dettagliata di ogni probabilità, forse a discapito della sintesi).

E’ importante osservare come il valore di HSD sia molto maggiore di quello LSD di Fisher: la potenza di ogni singolo confronto è minore, in quanto per esso il valore di probabilità a del comparisonwise è minore, ma il test risulta molto più cautelativo, per non superare la probabilità aT dell’experimentwise prefissata.

 

Per l’importanza che questo test ha assunto tra i confronti multipli, a ulteriore chiarimento della metodologia è qui riproposta la presentazione di George E. P. Box, William G. Hunter e J. Stuart Hunter (nel testo Statistics for Experimenters. An introdution to Design, Data Analysis and Model Building, pubblicato nel 1978 da John Wiley & Sons, New York, p. 653).

La procedura di Tukey per il confronto simultaneo tra k medie richiede il calcolo dell’intervallo di confidenza tra tutte le differenze tra coppie di singole medie (  e  ) con

 

( - ) ±

 

 dove

- Qp,n   è il valore di q studentizzato per il confronto tra p medie, con gdl n della varianza d’errore.

 

ESEMPIO. Individua quali differenze sono significative tra le 7 medie  

 

Trattamenti

A

B

C

D

E

F

G

53

52

57

55

55

60

50

9,2

8,7

8,8

9,8

10,2

8,3

8,0

 

 

ognuna con 4  dati (n = 4) e la varianza entro gruppo , riportate nella tabella.

 

1 – Dapprima si calcola una varianza comune a tutti i gruppi (o varianza d’errore) s2 = 9,0 che in questo caso, con campioni bilanciati, è uguale alla media delle varianze

 =  3 (9,2 + 8,7 + 8,8 + 9,8 + 10,2 + 8,3 + 8,0) / 21 = 9,0

 e ha gdl n = 21, pari a k(n-1) = 7 (4-1).

 

2 – Successivamente, per a = 0.05 e con

 = 3,26

 (tratto dalle tabelle relative)

 alla probabilità del 95% si stima un intervallo fiduciale o differenza minima significativa delle differenze tra le medie

 

±  =

 

 pari a 6,91 senza considerare il segno.

 

3- Con le sette medie precedenti, si può costruire la matrice

 

Trattamenti

A = 53

B = 52

C = 57

D = 55

E = 55

F = 60

G = 50

A = 53

---

---

---

---

---

---

---

B = 52

1

---

---

---

---

---

---

C = 57

-4

-5

---

---

---

---

---

D = 55

-2

-3

2

---

---

---

---

E = 55

-2

-3

2

0

---

---

---

F = 60

-7*

-8*

-3

-5

-5

---

---

G = 50

3

2

7*

5

5

-10*

---

 

 

 delle 21 differenze: tra esse sono significative alla probabilità aT = 0.05 le quattro in grassetto e con l’asterisco.

 

 

Il risultato dei confronti simultanei è approssimato, non calibrato sui dati di ogni differenza, se il calcolo è esteso a tutti i p confronti e n è variabile. Per calcolare un solo valore nonostante l’uso di gruppi con un numero diverso di osservazioni, come illustrato nel paragrafo precedente è possibile:

-  la scelta più cautelativa, quella del numero n di osservazioni minore tra tutti i gruppi a confronto, che può sollevare obiezioni sulla potenza (valore a comparisonwise troppo basso);

-  la stima della media armonica, che per certi confronti può sollevare obiezioni sulla protezione (valore aT o dell’experimentwise troppo alto, superiore al valore prefissato).

 

Il metodo dei confronti simultanei appena presentato è corretto, solo con campioni bilanciati.

A C. Y. Kramer, per un articolo del 1956, (vedi Extension of multiple range tests to group means with unequal numbers of replications pubblicato su Biometrics  vol. 12, pp. 307-310) è attribuita l’estensione della procedura originaria di Tukey a campioni non bilanciati. Il test di Tukey in alcuni testi è quindi chiamato anche test di Tukey-Kramer

Se i trattamenti hanno un numero (n) di repliche diverso, per ogni confronto tra due generici gruppi A e B, quindi con  nA ¹ nB

 si può stimare W mediante

W =   

 

La procedura di Tukey-Kramer può applicata in modo ripetuto confrontando tutte le singole differenze tra coppie di medie. In questo caso, le conclusioni dipendono dalla procedura, che è innovativa:

-  dopo aver ordinato le medie dalla maggiore alla minore (con k = 5 dalla 1a a 5a),

-  si confrontano le due che stanno agli estremi;

-  se il test F dell’ANOVA è risultato significativo anche la loro differenza risulta significativa;

-  si procede verso l’interno, valutando la significatività della differenza maggiore tra la 1a media e la 4a oppure la 2a media e la 5a;  essa risulterà appena minore dell’ultima valutata;

-  se anche essa risulta significativa, si continua a procedere verso l’interno, con differenze sempre minori, fino alla prima che risulta non-significativa;

-  a questo punto si cessa il confronto, poiché si assume che tutte le differenze tra le medie comprese entro  queste ultime due non possano più essere ritenute significative.

 

Da questa metodologia (chiamata step-up procedure o stepwise approach), sempre per evitare errori di Tipo I, è stata derivata la cautela che caratterizza questo test:

-  non considerare come significativamente differenti due medie, quando sono comprese entro due già ritenute non significative.

 

 

10.5.4   il test di Student-Newman-Keuls o test SNK

Il test di Student-Newman-Keuls o test SNK, citato anche come test q studentizzato come il test di Tukey, è stato proposto da D. Newman nel 1939 (vedi The distribution of the range in samples from a normal population, expressed in terms of an independent estimate of the standard deviation pubblicato su Biometrika vol. 31, pp. 20-30) e completato da M. Keuls nel 1952 (vedi The use of the “studentized range” in connection with an analysis of variance pubblicato su una rivista del tutto sconosciuta al mondo degli statistici, Euphytica vol. 1, pp. 112-122).

Per valutare la significatività di ognuna delle p differenze tra le k medie a confronto,

-  utilizza la stessa metodologia di Tukey, appena descritta,

-  le stesse tabelle di distribuzione dei valori critici,

-  ma con una differenza fondamentale nel calcolo dei gruppi a confronto.

 

Con la procedura stepwise di Tukey, il valore di Q(a,k,n) studentizzato dipende dal numero totale p di confronti che è costante ed esso dal numero k di medie.

Con la metodologia SNK, il numero di medie a confronto varia in funzione del rango occupato dalle due medie a confronto. Si introduce il concetto di passi avanti, che corrisponde al numero di medie implicate effettivamente in un confronto specifico.

 

 

ZONE

E

D

C

B

A

Medie

119,1

123,3

141,0

199,8

208,2

Rango

1

2

3

4

5

 

 

Se, come nell’esempio precedente, le medie sono 5 e il confronto è effettuato tra la minore (119,1) e la maggiore (208,2), questa ultima è 5 passi avanti alla precedente e il valore di k è uguale a 5.

Il secondo confronto valuta la significatività della differenza tra la 1a media e la 4a oppure tra la 2a e la 5a: in entrambi i casi, k = 4. Proseguendo nella stessa logica, k scende progressivamente a 3 e infine a 2, quando si confrontano due medie che occupano ranghi vicini.

Con 5 medie, il metodo SNK permette di effettuare 10 confronti. Nella tabella sottostante, sono riportati tutti i possibili confronti semplici, con l’ordine ed il relativo valore dell’indice k:

 

 

Ordine

Confronto

K

1

5a  vs  1a

5

2

5a  vs  2a

4

3

5a  vs  3a

3

4

5a  vs  4a

2

5

4a  vs  1a

4

6

4a  vs  2a

3

7

4a  vs  3a

2

8

3a  vs  1a

3

9

3a  vs  2a

2

10

2a  vs  1a

2

 

 

Per illustrare la metodologia del test di Student-Neuman-Keuls, è utile seguire due esempi riportati nel testo di Robert Sokal e James Rolhf del 1969 (BIOMETRY. The principles and practice of statistics in biological research. Edito da W. H. Freman and Company, San Francisco):

A)       il primo per campioni bilanciati;

B)       il secondo per campioni con un numero differente di osservazioni.

 

A)  Come applicazione ad un’analisi con campioni bilanciati, si assuma di disporre di 5 campioni, ognuno con 9 osservazioni, per verificare tra quali medie esista una differenza significativa, avendo fissato il valore dell’experimentwise a a = 0.05   e   a = 0.01.

 

Dopo aver effettuato il test F per l’ANOVA, risultato significativo con

-  varianza d’errore  = 5,68 e  gdl n = 40,

 si ordinano le medie in ordine crescente

 

 

Campione

A

B

C

D

E

Media

58,1

58,4

59,5

64,3

68,9

Osservazioni

9

9

9

9

9

 

 

Per ogni confronto si deve calcolare la differenza minima significativa, cioè il valore LSR (least significant range) mediante

LSR =

 dove

a è la probabilità desiderata: nell’esempio è uguale prima a 0.05 poi a 0.01

-  k è il numero di medie a confronto: con il metodo SNK in questo esempio varia da 5 a 2

n è il numero di gdl della varianza d’errore: nell’esempio è 40

è la varianza d’errore: nell’esempio è 5,68

 è il numero di osservazioni di ogni campione: nell’esempio è 9.

 

A questo scopo, dalla tabella dei valori critici del q per il test W di Tukey e il test SNK, si rilevano

 

Q

K

2

3

4

5

a = 0.05

2,858

3,442

3,791

4,039

a = 0.01

3,825

4,367

4,696

4,931

 

 i valori  di q per a, k e n richiesti.

 

Confrontando la media minore con la maggiore, quindi per k = 5,

-  alla probabilità a = 0.05

 si ottiene LSR = 3,207

-  alla probabilità a = 0.01

 si ottiene LSR = 3,915

 

Confrontando la 2a media con la 5a e la 1a media con la 4a, quindi per k = 4,

-  alla probabilità a = 0.05

 si ottiene LSR = 3,010

-  alla probabilità a = 0.01

 si ottiene LSR = 3,729

 

Per i tre confronti con k = 3,

-  alla probabilità a = 0.05

 si ottiene LSR = 2,733

-  alla probabilità a = 0.01

 si ottiene LSR = 3,467

 

Per i quattro confronti con k = 2,

-  alla probabilità a = 0.05

 si ottiene LSR = 2,269

-  alla probabilità a = 0.01

 si ottiene LSR = 3,037

Le differenze tra medie e i corrispondenti valori di LSR alle probabilità a = 0.05 e a = 0.01 possono essere vantaggiosamente riportate in una tabella per confronti più agevoli

 

 

Confronto

K

Differenza

LSR  a = 0.05

LSR  a = 0.01

1)   5a  vs  1a

5

68,9-58,1=10,8

3,207

3,915

2)   5a  vs  2a

4

68,9-58,4=10,5

3,010

3,729

3)   5a  vs  3a

3

68,9-59,5=  9,4

2,733

3,467

4)   5a  vs  4a

2

68,9-64,3=  4,6

2,269

3,037

5)   4a  vs  1a

4

64,3-58,1=  6,2

3,010

3,729

6)   4a  vs  2a

3

64,3-58,4=  5,9

2,733

3,467

7)   4a  vs  3a

2

64,3-59,5=  4,8

2,269

3,037

8)   3a  vs  1a

3

59,5-58,1=  1,4

2,733

3,467

9)   3a  vs  2a

2

59,5-58,4=  1,1

2,269

3,037

10)  2a  vs  1a

2

58,4-58,1=  0,3

2,269

3,037

 

 

Dalla sua lettura emerge che

-  sono significativi alla probabilità a < 0.01 i primi sette confronti (perché le loro differenze sono maggiori dei corrispondenti valori LSR calcolati, anche con a = 0.01),

-  non sono significativi gli ultimi tre (perché le loro differenze sono minori dei corrispondenti valori LSR calcolati, con a = 0.05).

Questa sintesi può essere espressa con modalità diverse.

Ricorrendo solo a due, limitatamente ai confronti per a = 0.05 l’informazione contenuta nella tabella può essere espressa

-  con simboli

mA = mB = mC <mD < mE

-  in forma grafica

Media         58,1       58,4        59,5        64,3         68,9

Gruppo     A           B            C             D             E


 

B)  Come seconda applicazione, si prenda un’analisi con campioni non bilanciati. Si supponga di voler confrontare le medie di 4 gruppi (già ordinate per rango), con il numero di osservazioni e la varianza entro gruppo riportate nella tabella successiva,

 

Campione

A

B

C

D

Media  

3,51

3,84

5,14

6,38

Osservazioni

15

12

9

18

Varianza  

0,036

0,044

0,021

0,033

 

per verificare tra quali medie esista una differenza significativa, sia con a = 0.05  sia con a = 0.01.

Assumendo che le 4 varianze entro siano uguali, si può calcolare la varianza comune, che nell’ANOVA è varianza d’errore. Essa risulta

 

 

 = 0,3434 con gdl n = 50.

 

I confronti da effettuare tra le 4 medie sono 6

 

Ordine

Confronto

K

1

4a  vs  1a

4

2

4a  vs  2a

3

3

4a  vs  3a

2

4

3a  vs  1a

3

5

3a  vs  2a

2

6

2a  vs  1a

2

 

 applicando per ognuno la formula

 

LSD =   

 

 dove i valori di Q sono presi dalla tabella dei valori critici del q per il test W (o LSD) di Tukey e il test SNK, mediante interpolazione tra n = 40 e n = 60 poiché n = 50 non è riportato.

Essi sono

 

Q

K

2

3

4

a = 0.05

2,865

3,421

3,764

a = 0.01

3,793

4,324

4,645

 

 per a = 0.05 e a = 0.01, con k che varia da 2 a 4 e con n = 50.

 

La significatività delle 6 differenze è valutata con altrettante serie di calcoli.

 

1--  quindi k = 4,

-  alla probabilità a = 0.05

LSR

 si ottiene LSR = 0,545

-  alla probabilità a = 0.01

LSR

 si ottiene LSR = 0,673

 

2 - Confrontando la 4a media (6,38) con la 2a (3,84) e quindi k = 3,

- alla probabilità a = 0.05

LSR

 si ottiene LSR = 0,528

- alla probabilità a = 0.01

LSR

 si ottiene LSR = 0,667

 

3 - media (6,38) con la 3a (5,14) e quindi k = 2,

- alla probabilità a = 0.05

LSR

 si ottiene LSR = 0,485

- alla probabilità a = 0.01

LSR

 si ottiene LSR = 0,642

 

4 - media (5,14) con la 1a (3,51) e quindi k = 3,

- alla probabilità a = 0.05

LSR

 si ottiene LSR = 0,598

- alla probabilità a = 0.01

LSR

 si ottiene LSR = 0,755

 

5 - media (5,14) con la 2a (3,84) e quindi k = 2,

- alla probabilità a = 0.05

LSR

 si ottiene LSR = 0,523

- alla probabilità a = 0.01

LSR

 si ottiene LSR = 0,693

 

6- media (3,84) con la 1a (3,51) e quindi k = 2,

- alla probabilità a = 0.05

LSR

 si ottiene LSR = 0,460

- alla probabilità a = 0.01

LSR

 si ottiene LSR = 0,609

 

La differenza di ogni confronto e il corrispondente valore LSR per a = 0.05 e a = 0.01 possono essere riportati in una tabella per comparazioni sintetiche più agevoli

 

 

Confronto

K

Differenza

LSR  a = 0.05

LSR  a = 0.01

1)   4a  vs  1a

4

6,38-3,51=2,87

0,545

0,673

2)   4a  vs  2a

3

6,38-3,84=2,54

0,528

0,667

3)   4a  vs  3a

2

6,38-5,14=1,24

0,485

0,642

4)   3a  vs  1a

3

5,14-3,51=1,63

0,598

0,755

5)   3a  vs  2a

2

5,14-3,84=1,30

0,523

0,693

6)   2a  vs  1a

2

3,84-3,51=0,33

0,460

0,609

 

 

Dalla sua lettura emerge che

- sono significative le prime 5 differenze ad una probabilità a < 0.01 perché sono tutte maggiori del loro valore LSR corrispondente,

-  mentre la sesta non è significativa, perché minore del valore LSD alla probabilità a = 0.05.

Questi risultati possono essere rappresentati sia con le due modalità precedenti, sia con altre modalità. Tra queste ultime

-  la matrice triangolare delle differenze

 

 

MEDIE

A = 3,51

B = 3,84

C = 5,14

D = 6,38

B = 3,84

0,33

---

---

---

C = 5,14

1,63**

1,30**

---

---

D = 6,38

2,87**

2,54**

1,24**

 

 

 nella quale

- le differenze in grassetto e con 2 asterischi sono significative con probabilità a < 0.01

- la differenza non asteriscata e in carattere normale non è significativa;


Tra le precedenti,

- la forma grafica

Gruppo     A           B            C             D

 

 leggibile nello stesso modo, in riferimento ad una probabilità a prestabilita (che in questo caso è uguale sia per a = 0.05 che per  a = 0.01.

 

 

10.5.5   il test di Scheffé con l’estensione di Gabriel

La procedura di Henry. A. Scheffé  (statistico americano nato nel 1907 e morto nel 1977) è stata presentata con un articolo nel 1953 (vedi A method for judging all possible contrasts in the analysis of variance pubblicato su Biometrika vol. 40, pp. 87-104) e riproposta nel suo testo del 1959 (vedi The analysis of variance John Wiley & Sons, New York, USA). Con le modifiche suggerite da K. R. Gabriel  nel 1978 (nell’articolo A simple method of multiple comparisons of means, pubblicato da Journal of the American Statistical Association vol. 73, pp. 724-729), il metodo è stato esteso a tutti i possibili confronti tra medie semplici e complesse, cioè tra medie singole e tra medie date dalla somma di due o più gruppi.

E’ tra i test più versatili tra quelli presenti in letteratura e nei programmi informatici: offre il vantaggio di eseguire anche confronti complessi, ma è anche il meno potente e aumenta la probabilità d’errore di Tipo II accrescendo l numero di confronti; inoltre non utilizza le proposte più recenti sul calcolo di a.

 

La procedura generale del confronto tra due medie generiche, può essere spiegata illustrando nei dettagli l’esempio riportato da Jerrold H. Zar nel suo testo del 1999 (Biostatistical Analysis, 4th ed. Prentice Hall, Upper Saddler River, New Jersey, pp. 663 + pp. 212).

A un esperimento con 5 campioni bilanciati, ognuno di 6 osservazioni, le cui medie sono riportate nella tabella seguente

 

Campione

A

B

C

D

E

Media  

32,1

40,2

44,1

41,1

58,3

Osservazioni

6

6

6

6

6

 

 

 è stata applicata l’ANOVA


 

Devianza

DF

 

Totale

2.437

29

----

Tra

2.193

4

548,25

Errore

244

25

9,76

 

 

 ottenendo un test F significativo

 poiché il risultato è maggiore del valore critico, che per gdl 4 e 25 alla probabilità a = 0.001 è 7,27 come risulta dai valori critici riportati nella tabella relativa.

Applicando la formula generale del test t per due campioni indipendenti già proposta da Bonferroni, il cui risultato nel test di Scheffé è indicato con S,

S =

 

 sono significative alla probabilità a tutte le differenze tra due generiche medie (  e  ), quando S in valore assoluto supera il valore critico Sa , ottenuto con

 

Sa  = 

 dove

-  k è il numero di gruppi a confronto,

-  F è il valore critico preso dalla distribuzione di Fisher-Snedecor per la probabilità a, e con i gdl corrispondenti a quelli della varianza d’errore nell’ANOVA (k-1 e n-k)

 

Con i dati dell’esempio, per verificare

 

H0:      contro     H1:

 

- dapprima si stima il valore critico Sa. Dopo aver prefissato il livello di significatività a = 0.05 e aver rilevato che il valore di F (per gdl 4 e 25) è 2,76 con  k = 5 si ottiene

 

Sa  = 

 un valore critico Sa = 3,323

- Successivamente, si calcola S

 

S =

 che risulta uguale a 6,589.

Poiché S (6,589) > Sa (3,323) si rifiuta l’ipotesi nulla alla stessa probabilità a.

 

Un altro metodo per calcolare S è la tecnica dei contrasti multipli

 mediante

S =

Con gli stessi dati dell’esempio precedente,

 

S =

 

 si ottiene il medesimo risultato  S = 6,589.

 

Nel caso del confronto tra due medie semplici,

H0: mD - mC = 0     contro     H1: mD - mC ¹ 0

 

-  la stima di Sa resta invariata poiché essa è valida per tutti i confronti possibili

 

Sa  = 

 dipendendo solo dal numero (k) di medie, dalla probabilità a e dai gdl della varianza d’errore ()

-  mentre S con la formula generale

 

S =

 

- e con la formula dei contrasti multipli

 

S =

 

 risulta uguale a 1,664.

In questo caso non è possibile rifiutare l’ipotesi nulla, poiché il valore S (1,664) < Sa (3,323), il valore critico.

 

L’intervallo di confidenza di una differenza tra due generiche medie (  e  ) può essere ottenuto

-  sia con il metodo di Tukey

 

-  sia con la tecnica dei contrasti

 

Ad esempio, alla probabilità a = 0.05 l’intervallo fiduciale della differenza D

 

D =

-  con la formula generale è


 

 

 

-  con i contrasti è

 

 

 fornendo lo stesso risultato di –9,7 ± 4,795 .

Con i dati dell’esempio utilizzato in precedenza per gli altri metodi

 

ZONE

A

B

C

D

E

Medie

208,2

199,8

141,0

123,3

119,1

6

6

6

6

6

 

 dove

-  k = 5   e   n = 6

-  s2e = 146,5

-  F  per a = 0.05, e gdl 4, 25 = 2,76

 si ottiene la differenza minima significativa,

il valore MSD o LSD

MSD = × =  = 23,21

 uguale a 23,21

Con

-  F  per a = 0.01, e gdl 4, 25 = 4,18

MSD = × =  = 28,51

 si ottiene un MSD uguale a 28,51.

 

Nella tabella triangolare delle differenze tra singole medie

 

 

MEDIE

 

A

B

C

D

E

 

208,2

199,8

141,0

123,3

119,1

MEDIE

DIFFERENZE

B      199,8

8,4

---

---

---

---

C      141,0

67,2**

58,8**

---

---

---

D      123,3

85,5**

76,5**

17,7

---

---

E     119,1

89,1**

80,7**

21,9

4,2

---

 

 

 con la stessa tecnica già illustrata in precedenza, nella tabella delle k(k-1)/2 differenze semplici si evidenziano con

-  un asterisco tutte le differenze che sono significative ad una probabilità a compresa tra 0.05 e 0.01

-  due asterischi tutte le differenze significative ad una probabilità a minore di 0.01

 

E’ importante osservare che il valore la differenza (21,9) tra la media C (141,0) e la media E (119,1) non è significativa alla probabilità a = 0.05, mentre la era con il test di Tukey.

Più in generale, in questo esempio, con Scheffé la differenza minima significativa sulle 5 medie è

-  23,21 alla probabilità a = 0.05

-  28,51 alla probabilità a = 0.01

 mentre con il test di Tukey era

-  20,67 alla probabilità a = 0.05

-  25,64 alla probabilità a = 0.01

Questo confronto tra Tukey e Scheffé evidenzia visivamente la relazione inversa tra versatilità, (che caratterizza il test di Scheffé) e potenza di un test (maggiore in quello di Tukey, che permette solo i confronti singoli).


 

10.5.6   Il test di C. W. Dunnett è stato proposto nel 1955 (vedi: A multiple comparison procedure for comparing several treatments with a control pubblicato su Journal of the American Statistical Association vol. 50, pp. 1096-1121); le tavole dei suoi valori critici sono state presentate nel 1964 (in New tables for multiple comparisons with a control pubblicate da  Biometrics vol 20, 482- 491); il metodo ha avuto illustrazioni successive, quali le due del 1980 (la prima, con l’articolo Pairwise multiple comparisons in the homogeneous variance, unequal sample size case pubblicato su Journal of the American Statistical Association vol. 75, pp. 789-795 e la seconda con Pairwise multiple comparisons in the unequal varince case nelle pagine successive dello stesso volume,  Journal of the American Statistical Association vol. 75, pp. 796-800).

Il test è utile in un caso particolare: il confronto di due o più trattamenti con un controllo.

In numero di confronti da effettuare diminuisce rispetto quelli possibili tra tutte le singole medie, come con Tukey: è uguale al numero di trattamenti, escludendo il controllo.

Con 5 gruppi, fra cui un controllo e 4 trattamenti, non è più uguale a 10 () ma a 4.

 

Sulla base per principio del Bonferroni, aumenta quindi la potenza di ogni confronto, poiché

-  con una probabilità experimentwise aT = 0.05

-  la probabilità a comparisonwise diventa uguale 0.0125 (0.05 /4).

Ovviamente questa scelta riduce la versatilità del test: si verifica la significatività della differenza tra ogni trattamento ed il controllo, senza poter dire nulla sulle eventuali differenze tra i trattamenti, cioè se uno è migliore o peggiore degli altri in modo significativo.

 

Il test Q di Dunnett utilizza la stessa formula del test di Tukey

(con la medesima simbologia)

 =  

 dove

-  c  =  gruppo di controllo o placebo

-  i  =  trattamento in oggetto, per il quale si effettua il confronto con il controllo

-  p = numero di confronti (uguale al numero di gruppi (k) meno 1).

 


Valori critici del Q per il test di Dunnett bilaterale

-  k = numero di medie a confronto (compreso il controllo)

n = gradi di libertà della varianza d’errore

aT = 0.05 bilaterale

NUMERO k DI MEDIE A CONFRONTO

n

2

3

4

5

6

7

8

9

10

8

2,31

2,67

2,88

3,02

3,13

3,22

3,29

3,35

3,41

9

2,26

2,61

2,81

2,95

3,05

3,14

3,20

3,26

3,32

10

2,23

2,57

2,76

2,89

2,99

3,07

3,14

3,19

3,24

11

2,20

2,53

2,72

2,84

2,94

3,02

3,08

3,14

3,19

12

2,18

2,50

2,68

2,81

2,90

2,98

3,04

3,09

3,14

13

2,16

2,48

2,65

2,78

2,87

2,94

3,00

3,06

3,10

14

2,14

2,46

2,63

2,75

2,84

2,91

2,97

3,02

3,07

15

2,13

2,44

2,61

2,73

2,82

2,89

2,95

3,00

3,04

16

2,12

2,42

2,59

2,71

2,80

2,87

2,92

2,97

3,02

17

2,11

2,41

2,58

2,69

2,78

2,85

2,90

2,95

3,00

18

2,10

2,40

2,56

2,68

2,76

2,83

2,89

2,94

2,98

19

2,09

2,39

2,55

2,66

2,75

2,81

2,87

2,92

2,96

20

2,09

2,38

2,54

2,65

2,73

2,80

2,86

2,90

2,95

24

2,06

2,35

2,51

2,61

2,70

2,76

2,81

2,86

2,90

30

2,04

2,32

2,47

2,58

2,66

2,72

2,77

2,82

2,86

40

2,02

2,29

2,44

2,54

2,62

2,68

2,73

2,77

2,81

60

2,00

2,27

2,41

2,51

2,58

2,64

2,69

2,73

2,77

120

1,98

2,24

2,38

2,47

2,55

2,60

2,65

2,69

2,73

¥

1,96

2,21

2,35

2,44

2,51

2,57

2,61

2,65

2,69

 

aT = 0.01 bilaterale

NUMERO k DI MEDIE A CONFRONTO

n

2

3

4

5

6

7

8

9

10

8

3,36

3,77

4,00

4,17

4,29

4,40

4,48

4,56

4,62

9

3,25

3,63

3,85

4,01

4,12

4,22

4,30

4,37

4,43

10

3,17

3,53

3,74

3,88

3,99

4,08

4,16

4,22

4,28

11

3,11

3,45

3,65

3,79

3,89

3,98

4,05

4,11

4,16

12

3,05

3,39

3,58

3,71

3,81

3,89

3,96

4,02

4,07

13

3,01

3,33

3,52

3,65

3,74

3,82

3,89

3,94

3,99

14

2,98

3,29

3,47

3,59

3,69

3,76

3,83

3,88

3,93

15

2,95

3,25

3,43

3,55

3,64

3,71

3,78

3,83

3,88

16

2,92

3,22

3,39

3,51

3,60

3,67

3,73

3,78

3,83

17

2,90

3,19

3,36

3,47

3,56

3,63

3,69

3,74

3,79

18

2,88

3,17

3,33

3,44

3,53

3,60

3,66

3,71

3,75

19

2,86

3,15

3,31

3,42

3,50

3,57

3,63

3,68

3,72

20

2,85

3,13

3,29

3,40

3,48

3,55

3,60

3,65

3,69

24

2,80

3,07

3,22

3,32

3,40

3,47

3,52

3,57

3,61

30

2,75

3,01

3,15

3,25

3,33

3,39

3,44

3,49

3,52

40

2,70

2,95

3,09

3,19

3,26

3,32

3,37

3,41

3,44

60

2,66

2,90

3,03

3,12

3,19

3,25

3,29

3,33

3,37

120

2,62

2,85

2,97

3,06

3,12

3,18

3,22

3,26

3,29

¥

2,58

2,79

2,92

3,00

3,06

3,11

3,15

3,19

3,22


Valori critici del Q per il test di Dunnett unilaterale

-  k = numero di medie a confronto (compreso il controllo)

n = gradi di libertà della varianza d’errore

aT = 0.05 unilaterale

NUMERO k DI MEDIE A CONFRONTO

n

2

3

4

5

6

7

8

9

10

8

1,86

2,22

2,42

2,55

2,66

2,74

2,81

2,87

2,92

9

1,83

2,18

2,37

2,50

2,60

2,68

2,75

2,81

2,86

10

1,81

2,15

2,34

2,47

2,56

2,64

2,70

2,76

2,81

11

1,80

2,13

2,31

2,44

2,53

2,60

2,67

2,72

2,77

12

1,78

2,11

2,29

2,41

2,50

2,58

2,64

2,69

2,74

13

1,77

2,09

2,27

2,39

2,48

2,55

2,61

2,66

2,71

14

1,76

2,08

2,25

2,37

2,46

2,53

2,59

2,64

2,69

15

1,75

2,07

2,24

2,36

2,44

2,51

2,57

2,62

2,67

16

1,75

2,06

2,23

2,34

2,43

2,50

2,56

2,61

2,65

17

1,74

2,05

2,22

2,33

2,42

2,49

2,54

2,59

2,64

18

1,73

2,04

2,21

2,32

2,41

2,48

2,53

2,58

2,62

19

1,73

2,03

2,20

2,31

2,40

2,47

2,52

2,57

2,61

20

1,72

2,03

2,19

2,30

2,39

2,46

2,51

2,56

2,60

24

1,71

2,01

2,17

2,28

2,36

2,43

2,48

2,53

2,57

30

1,70

1,99

2,15

2,25

2,33

2,40

2,45

2,50

2,54

40

1,68

1,97

2,13

2,23

2,31

2,37

2,42

2,47

2,51

60

1,67

1,95

2,10

2,21

2,28

2,35

2,39

2,44

2,48

120

1,66

1,93

2,08

2,18

2,26

2,32

2,37

2,41

2,45

¥

1,64

1,92

2,06

2,16

2,23

2,29

2,34

2,38

2,42

 

aT = 0.01 unilaterale

NUMERO k DI MEDIE A CONFRONTO

n

2

3

4

5

6

7

8

9

10

8

2,90

3,29

3,51

3,67

3,79

3,88

3,96

4,03

4,09

9

2,82

3,19

3,40

3,55

3,66

3,75

3,82

3,89

3,94

10

2,76

3,11

3,31

3,45

3,56

3,64

3,71

3,78

3,83

11

2,72

3,06

3,25

3,38

3,48

3,56

3,63

3,69

3,74

12

2,68

3,01

3,19

3,32

3,42

3,50

3,56

3,62

3,67

13

2,65

2,97

3,15

3,27

3,37

3,44

3,51

3,56

3,61

14

2,62

2,94

3,11

3,23

3,32

3,40

3,46

3,51

3,56

15

2,60

2,91

3,08

3,20

3,29

3,36

3,42

3,47

3,52

16

2,58

2,88

3,05

3,17

3,26

3,33

3,39

3,44

3,48

17

2,57

2,86

3,03

3,14

3,23

3,30

3,36

3,41

3,45

18

2,55

2,84

3,01

3,12

3,21

3,27

3,33

3,38

3,42

19

2,54

2,83

2,99

3,10

3,18

3,25

3,31

3,36

3,40

20

2,53

2,81

2,97

3,08

3,17

3,23

3,29

3,34

3,38

24

2,49

2,77

2,92

3,03

3,11

3,17

3,22

3,27

3,31

30

2,46

2,72

2,87

2,97

3,05

3,11

3,16

3,21

3,24

40

2,42

2,68

2,82

2,92

2,99

3,05

3,10

3,14

3,18

60

2,39

2,64

2,78

2,87

2,94

3,00

3,04

3,08

3,12

120

2,36

2,60

2,73

2,82

2,89

2,94

2,99

3,03

3,06

¥

2,33

2,56

2,68

2,77

2,84

2,89

2,93

2,97

3,00


 

A differenza degli altri test per confronti multipli, che a parità del numero totale di osservazioni raggiungono la potenza maggiore quando tutti i gruppi sono bilanciati, nel confronto tra vari trattamenti con un controllo si ottiene una utilizzazione migliore dei dati quando il controllo è di dimensioni ragionevolmente maggiori di quella dei trattamenti.

Infatti, il controllo entra in tutti i confronti ed un numero più alto di osservazioni in esso aumenta la potenza di ogni confronto, anche se determina una parziale penalizzazione per il mancato bilanciamento.

Quando si programma un esperimento sul quale deve essere applicato il test di Dunnett, è conveniente che

-  nc, il numero di dati del controllo, sia più numeroso di

ni, il numero dei dati di ogni trattamento,

-  in funzione del numero di trattamenti p

 secondo la relazione

 

Ad esempio, in un esperimento con 7 dati in ognuno dei k =  5 gruppi (il controllo più 4 trattamenti e quindi 35 osservazioni in tutto), si ottiene la migliore utilizzazione complessiva

 

nc = 7×  = 14

 quando

-  14 cavie sono dedicate al controllo e

-  le rimanenti 22 sono suddivise tra i 4 trattamenti.

E’ una indicazione approssimata, in quanto è semplice verificare che

 nella formula

 =

 

 si ottiene il valore massimo di Q (quindi il risultato più significativo)

 quando (a parità di tutti gli altri parametri)

 = Xmin

 la somma dei due rapporti ha il valore minimo,

 ovviamente mantenendo costante il numero totale n di dati.

 

Una stima più precisa ed una verifica degli effetti di questa concentrazione delle osservazioni sul campione di controllo può essere ottenuta con un confronto dettagliato delle varie possibili distribuzioni del numero complessivo di cavie disponibili nei vari gruppi.

Con 35 osservazioni in totale,

- nel caso di campioni bilanciati  e quindi nc = 7  e  ni = 7 si avrebbe  = 0,2857

- nel caso di nc = 11  e  ni = 6 si avrebbe   =  0,0909 + 0,1667 = 0,2576

- nel caso di nc = 15  e  ni = 5 si avrebbe   = 0,0667 + 0,2000 = 0,2667

- nel caso di nc = 19  e  ni = 4 si avrebbe   = 0,0526 +  0,2500 = 0,3026

Per ottenere la maggiore potenza del test, con 35 cavie e 5 gruppi, la scelta più vantaggiosa è collocare 11 cavie nel gruppo di controllo e 6 in ognuno degli altri 4 trattamenti.

 

 

ESEMPIO 1.  Si è voluto esaminare l'effetto di 6 diverse sostanze tossiche sull'accrescimento somatico di una specie planctonica (misurati in mm dopo 20 giorni dalla schiusa delle uova), per verificare quali di esse riducano significativamente le dimensioni medie (test unilaterale) allo stato adulto.

Con i seguenti risultati ottenuti in laboratorio:

 

 

 

CONTROLLO

SOSTANZE  TOSSICHE

 

 

A

B

C

D

E

F

Media

3,25

2,80

2,18

2,96

2,24

2,39

2,67

Osservazioni

10

7

7

7

7

7

7

 

 

 per un totale di 52 osservazioni, di cui 10 nel gruppo controllo.

L'analisi della varianza con  ha permesso di rifiutare l’ipotesi nulla; la varianza d'errore  con 45 gdl è risultata uguale a 0,36. Verificare quali sostanze hanno un effetto significativo alla probabilità a = 0.05 e quali anche alla probabilità a = 0.01 in rapporto al controllo.

 

Risposta.  I confronti da effettuare sono 6. E’ possibile stimare una differenza minima significativa (MDS) unica, poiché i trattamenti hanno tutti lo stesso numero d’osservazioni

 

 

Con i dati dell’esempio (p = 6 e gdl = 40), nella tavola dei valori critici

-  alla probabilità a = 0.05 il valore del Q di Dunnett è uguale a 2,62

-  alla probabilità a = 0.01 è uguale a  3,26.

 

Pertanto,

-  alla probabilità a = 0.05

 il valore della MDS

 

  =    =  2,62 × 0,296  =  0,775

 

 è uguale a 0,775 e

 

- alla probabilità a = 0.01

 

  =    =  3,26 × 0,296  =  0,965

 

 MDS è uguale a 0,965.

 

Si calcolano le differenze dei 6 trattamenti rispetto al controllo e si verifica la loro significatività mediante il confronto con i due valori MDS stimati. Possono essere segnate con

-  due asterischi le differenze maggiori del valore 0,965 e

-   un asterisco le differenze comprese tra 0,965 e 0,775.


 

 

A

3,25 - 2,80 = 0,45

B

3,25 – 2,18 = 1,07**

C

3,25 - 2,96 = 0,29

D

3,25 – 2,24 = 1,01**

E

3,25 - 2,39 = 0,86*

F

3,25 - 2,67 = 0,58

 

 

La tabella evidenzia che, delle 6 sostanze tossiche esaminate nell’esperimento, rispetto al controllo hanno un effetto molto significativo (a < 0.01) la B e la D, mentre ha un effetto significativo (a < 0.05) la E. Le sostanze A, C ed F non hanno ridotto la crescita in modo significativo rispetto al controllo (a > 0.05).

 

ESEMPIO 2.  Questo secondo esempio è tratto dal testo di  George E. P. Box, William G. Hunter e J. Stuart Hunter (nel testo: “Statistics for Experimenters. An introdution to Design, Data Analysis and Model Building”, pubblicato nel 1978 da John Wiley & Sons, New York, pp. 653) che individua nel metodo di Tukey e in quello di Dunnett le due proposte fondamentali, per analisi da effettuare con calcoli manuali.

La procedura di Dunnett  per il confronto tra k medie con la media di un campione standard o controllo richiede ovviamente il calcolo e l’analisi di  k-1  differenze.

Per ogni differenza ( - ) tra la media di un generico trattamento i () e la media del controllo () si stima un intervallo fiduciale

( - ) ±

in cui,

-  al posto del valore di q studentizzato, viene utilizzato

-  quello di t per k confronti, con gdl n e la  probabilità a/2.

 

Con le 7 medie di prima in cui G sia il controllo

 

 

Trattamenti

A

B

C

D

E

F

G = Controllo

Ni

4

4

4

4

4

4

4

53

52

57

55

55

60

50

 

 

 alla probabilità del 95% dove t7, 21, 0.025 =  2,80

 si stima una differenza minima significativa

 

±   =  ±2,80  = ±5,94

 

 che risulta uguale a 5,94 (osservare che è minore del valore precedente, in quanto stimato non per k(k-1)/2 confronti ma per k-1).

Di conseguenza, tra le 6 differenze riportate nella tabella successiva

 

 

Trattamenti

A

B

C

D

E

F

53

52

57

55

55

60

Differenze   -

3

2

7

5

5

10

 

 

Sono significativamente diverse, dalla media del controllo, la media del trattamento C e quella del trattamento F.

 

Il test di Dunnett è proposto spesso come test unilaterale, dopo aver scelto se il controllo deve avere media maggiore o minore rispetto a tutti i trattamenti. La probabilità a è dimezzata rispetto ai precedenti test bilaterali e quindi il confronto diventa ancor più potente, come evidenziano le relative tabelle dei valori critici.

 

 

10.5.7   Nel dibattito sui confronti multipli post-hoc, un posto di rilievo è occupato dal test di D. B. Duncan. E’ stato presentato nei primi anni ‘50 e gli articoli più citati in letteratura sono due, entrambi pubblicati sulla importante rivista Biometrics; il primo del 1955 (Multiple range and multiple F tests, Biometrics vol. 11, pp. 1-42), il secondo del 1957 (Multiple range tests for correlalated and heteroscedastic means, Biometrics vol. 13, pp. 164-176).

Chiamato test del campo di variazione multiplo, ha una base teorica fondata su due considerazioni, che lo contraddistinguono nel dibattito statistico del periodo:

A)       il campo di variazione, stimato come per il test SNK,

B)       la probabilità a di ogni confronto, che ne  rappresenta l’aspetto originale e la caratteristica distintiva.

 

A) Quando, con metodologia post-hoc, si confrontano k medie, è conveniente disporle in ordine di grandezza, di solito dalla minore alla maggiore. Per effettuare p confronti in modo organizzato, come nel test SNK il campo di variazione q studentizzato

 

 

 è influenzato solamente dal numero di medie coinvolte in quel confronto specifico (la formula riportata è valida nel caso di esperimenti con gruppi bilanciati, ognuno di n dati).

Da questa considerazione deriva logicamente che, variando il numero di medie, cambia nella stessa direzione anche la variazione dello scarto tra le media più alta e quella inferiore. Lo stesso concetto può essere espresso con altre parole. Quando si confrontano tra loro due medie vicine, il loro campo di variazione dipende solo da esse, non dal numero totale di medie implicate in tutto l’esperimento o dal confronto precedente tra 3 medie.

Come giù illustrato nel test SNK, diventa logico utilizzare valori critici del q studentizzato che diminuiscono, quando cala il numero di medie implicate direttamente in un confronto specifico.

Per non alterare eccessivamente il valore aT experimentwise, anche in questa procedura è applicato lo stesso principio di cautela del test SNK: non può essere considerata significativa una differenza tra due medie, se esse sono comprese entro un’altra coppia la cui differenza non è risultata significativa. E’ un risultato possibile, anche se ovviamente la differenza è minore, in quanto si usa un valore critico q inferiore.

 

Il concetto nuovo che contraddistingue la procedura di Duncan è il livello di protezione a: esso non è costante per tutto l’esperimento,

-  non dipende da p, il numero totale di confronti,

-  ma da r, il numero di passi che separano le due medie di ogni confronto specifico.

La probabilità a di rifiutare erroneamente l’ipotesi nulla in un confronto è

 

 dove

-  r è il numero di passi che separano le due medie in quel confronto specifico.

Nel caso di due medie vicine, quindi con r = 2, il livello di protezione è uguale a 1-a e la significatività del singolo confronto a resta uguale a quella totale prefissata aT poiché

 

 

Per due medie non adiacenti, al crescere del numero (r) di passi, il livello di protezione o probabilità comparisonwise si riduce progressivamente, rendendo il test di Duncan sempre più potente nei confronti dei test fondati sul valore del Q. Per una indicazione semplice di questo effetto, è sufficiente confrontare la tabella di Duncan con quella del Q studentizzato per il test SNK e il test W di Tukey: alla stessa probabilità a e per i medesimi gdl, il valore di Duncan è minore di quello della tabella Q, in modo sempre più accentuato al crescere di r.

 

Ad esempio,

 

 

a = 0.05

n = 30

Valori critici al variare di r

2

3

4

5

6

7

8

Tukey

4,602

4,602

4,602

4,602

4,602

4,602

4,602

SNK

2,888

3,486

3,895

4,102

4,302

4,464

4,602

Duncan

2,89

3,04

3,12

3,20

3,25

3,29

3,32

 

 

 per a = 0.05  e  gdl della varianza d’errore n = 30

 il confronto dei valori critici conferma questa asserzione (i valori di Duncan sono approssimati alla seconda cifra decimale)

 

ESEMPIO. Utilizzando gli stessi dati di esempi precedenti, riportati in tabella.

 


 

Zone

A

B

C

D

E

Medie

208,2

199,8

141,0

123,3

119,1

 

6

6

6

6

6

 

 supponendo

-  un numero di osservazioni o repliche costante in ogni gruppo: n = 6,

-  una varianza d’errore s2e uguale a 146,5

-   gdl n = 25

 è possibile verificare la significativa della differenza tra ogni coppia di medie.

Dopo aver ordinato le medie in ordine decrescente (o crescente, come altri preferiscono), in relazione al rango di ognuna di esse, si stima il numero di passi r, che in questo caso, con 5 medie, può variare da 2 a 5.

 

Utilizzando la stessa tecnica del test di Tukey, per i confronti simultanei delle 10 differenze risultano significative quelle superiori alla differenza minima significativa (MDS o LSD), ottenuta con la solita formula

 

MDS =  =

 dove

-  C(a, r,n) = valore riportato nella tabella di Duncan.

 

La tecnica è differente da quella di Tukey e risulta uguale a quella illustrata per il test SNK, in quanto il valore critico C(0.05, r, 25) varia in funzione dei passi che separano le due medie in quel confronto specifico.

I risultati ottenuti possono essere presentati con tutte le tecniche già illustrate per il test di Tukey e quello SNK (elenco dei confronti, tabella triangolare della differenza, metodi grafici, …).

 


Punteggi per il test del campo di variazione multiplo di Duncan

a = 0.05

 

 

n

r = numero di passi ordinati tra le medie

2

3

4

5

6

7

8

9

10

12

14

16

18

20

 

1

18.0

18.0

18.0

18.0

18.0

18.0

18.0

18.0

18.0

18.0

18.0

18.0

18.0

18.0

 

2

6.09

6.09

6.09

6.09

6.09

6.09

6.09

6.09

6.09

6.09

6.09

6.09

6.09

6.09

 

3

4.50

4.50

4.50

4.50

4.50

4.50

4.50

4.50

4.50

4.50

4.50

4.50

4.50

4.50

 

4

3.93

4.01

4.02

4.02

4.02

4.02

4.02

4.02

4.02

4.02

4.02

4.02

4.02

4.02

 

5

3.64

3.74

3.79

3.83

3.83

3.83

3.83

3.83

3.83

3.83

3.83

3.83

3.83

3.83

 

6

3.46

3.58

3.64

3.68

3.68

3.68

3.68

3.68

3.68

3.68

3.68

3.68

3.68

3.68

 

7

3.35

3.47

3.54

3.58

3.60

3.61

3.61

3.61

3.61

3.61

3.61

3.61

3.61

3.61

 

8

3.26

3.39

3.47

3.52

3.55

3.56

3.56

3.56

3.56

3.56

3.56

3.56

3.56

3.56

 

9

3.20

3.34

3.41

3.47

3.50

3.52

3.52

3.52

3.52

3.52

3.52

3.52

3.52

3.52

 

10

3.15

3.30

3.37

3.43

3.46

3.47

3.47

3.47

3.47

3.47

3.47

3.47

3.47

3.48

 

1l

3.11

3.27

3.35

3.39

3.43

3.44

3.45

3.46

3.46

3.46

3.46

3.46

3.47

3.48

 

12

3.08

3.23

3.33

3.36

3.40

3.42

3.44

3.44

3.46

3.46

3.46

3.46

3.47

3.48

 

13

3.06

3.21

3.30

3.35

3.38

3.41

3.42

3.44

3.45

3.45

3.46

3.46

3.47

3.47

 

14

3.03

3.18

3.27

3.33

3.37

3.39

3.41

3.42

3.44

3.45

3.46

3.46

3.47

3.47

 

15

3.01

3.16

3.25

3.31

3.36

3.38

3.40

3.42

3.43

3.44

3.45

3.46

3.47

3.47

 

16

3.00

3.15

3.23

3.30

3.34

3.37

3.39

3.41

3.43

3.44

3.45

3.46

3.47

3.47

 

17

2.98

3.13

3.22

3.28

3.33

3.36

3.38

3.40

3.42

3.44

3.45

3.46

3.47

3.47

 

18

2.97

3.12

3.21

3.27

3.32

3.35

3.37

3.39

3.41

3.43

3.45

3.46

3.47

3.47

 

19

2.96

3.11

3.19

3.26

3.31

3.35

3.37

3.39

3.41

3.43

3.44

3.46

3.47

3.47

 

20

2.95

3.10

3.18

3.25

3.30

3.34

3.36

3.38

3.40

3.43

3.44

3.46

3.46

3.47

 

22

2.93

3.08

3.17

3.24

3.29

3.32

3.35

3.37

3.39

3.42

3.44

3.45

3.46

3.47

 

24

2.92

3.07

3.15

3.22

3.28

3.31

3.34

3.37

3.38

3.41

3.44

3.45

3.46

3.47

 

26

2.91

3.06

3.14

3.21

3.27

3.30

3.34

3.36

3.38

3.41

3.43

3.45

3.46

3.47

 

28

2.90

3.04

3.13

3.20

3.26

3.30

3.33

3.35

3.37

3.40

3.43

3.45

3.46

3.47

 

30

2.89

3.04

3.12

3.20

3.25

3.29

3.32

3.35

3.37

3.40

3.43

3.44

3.46

3.47

 

40

2.86

3.01

3.10

3.17

3.22

3.27

3.30

3.33

3.35

3.39

3.42

3.44

3.46

3.47

 

60

2.83

2.98

3.08

3.14

3.20

3.24

3.28

3.31

3.33

3.37

3.40

3.43

3.45

3.47

 

100

2.80

2.95

3.05

3.12

3.18

3.22

3.26

3.29

3.32

3.36

3.40

3.42

3.45

3.47

 

¥

2.77

2.92

3.02

3.09

3.15

3.19

3.23

3.26

3.29

3.34

3.38

3.41

3.44

3.47

 

 


Punteggi per il test del campo di variazione multiplo di Duncan

a = 0.01

 

 

n

r = numero di passi ordinati tra le medie

2

3

4

5

6

7

8

9

10

12

14

16

18

20

 

1

90.0

90.0

90.0

90.0

90.0

90.0

90.0

90.0

90.0

90.0

90.0

90.0

90.0

90.0

 

2

14.0

14.0

14.0

14.0

14.0

14.0

14.0

14.0

14.0

14.0

14.0

14.0

14.0

14.0

 

3

8.26

8.50

8.60

8.70

8.80

8.90

8.90

9.00

9.00

9.00

9.10

9.20

9.30

9.30

 

4

6.51

6.80

6.90

7.00

7.10

7.10

7.20

7.20

7.30

7.30

7.40

7.40

7.50

7.50

 

5

5.70

5.96

6.11

6.18

6.26

6.33

6.40

6.44

6.50

6.60

6.60

6.70

6.70

6.80

 

6

5.24

5.51

5.65

5.73

5.81

5.88

5.95

6.00

6.00

6.10

6.20

6.20

6.30

6.30

 

7

4.95

5.22

5.37

5.45

5.53

5.61

5.69

5.73

5.80

5.80

5.90

5.90

6.00

6.00

 

8

4.74

5.00

5.14

5.23

5.32

5.40

5.47

5.51

5.50

5.60

5.70

5.70

5.80

5.80

 

9

4.60

4.86

4.99

5.08

5.17

5.25

5.32

5.36

5.40

5.50

5.50

5.60

5.70

5.70

 

10

4.48

4.73

4.88

4.96

5.06

5.13

5.20

5.24

5.28

5.36

5.42

5.48

5.54

5.55

 

11

4.39

4.63

4.77

4.86

4.94

5.01

5.06

5.12

5.15

5.24

5.28

5.34

5.38

5.39

 

12

4.32

4.55

4.68

4.76

4.84

4.92

4.96

5.02

5.07

5.13

5.17

5.22

5.23

5.26

 

13

4.26

4.48

4.62

4.69

4.74

4.84

4.88

4.94

4.98

5.04

5.08

5.13

5.14

5.15

 

14

4.21

4.42

4.55

4.63

4.70

4.78

4.83

4.87

4.91

4.96

5.00

5.04

5.06

5.07

 

15

4.17

4.37

4.50

4.58

4.64

4.72

4.77

4.81

4.84

4.90

4.94

4.97

4.99

5.00

 

16

4.13

4.34

4.45

4.54

4.60

4.67

4.72

4.76

4.79

4.84

4.88

4.91

4.93

4.94

 

17

4.10

4.30

4.41

4.50

4.56

4.63

4.68

4.72

4.75

4.80

4.83

4.86

4.88

4.89

 

18

4.07

4.27

4.38

4.46

4.53

4.59

4.64

4.68

4.71

4.76

4.79

4.82

4.84

4.85

 

19

4.05

4.24

4.35

4.43

4.50

4.56

4.61

4.64

4.67

4.72

4.76

4.79

4.81

4.82

 

20

4.02

4.22

4.33

4.40

4.47

4.53

4.58

4.61

4.65

4.69

4.73

4.76

4.78

4.79

 

22

3.99

4.17

4.28

4.36

4.42

4.48

4.53

4.57

4.60

4.65

4.68

4.71

4.74

4.75

 

24

3.96

4.14

4.24

4.33

4.39

4.44

4.49

4.53

4.57

4.62

4.64

4.67

4.70

4.72

 

26

3.93

4.11

4.21

4.30

4.36

4.41

4.46

4.50

4.53

4.58

4.62

4.65

4.67

4.69

 

28

3.91

3.08

4.18

4.28

4.34

4.39

4.43

4.47

4.51

4.56

4.60

4.62

4.65

4.67

 

30

3.89

4.06

4.16

4.22

4.32

4.36

4.41

4.45

4.48

4.54

4.58

4.61

4.63

4.65

 

40

3.82

3.99

4.10

4.17

4.24

4.30

4.34

4.37

4.41

4.46

4.51

4.54

4.57

4.59

 

60

3.76

3.92

4.03

4.12

4.17

4.23

4.27

4.31

4.34

4.39

4.44

4.47

4.50

4.53

 

100

3.71

3.86

3.93

4.06

4.11

4.17

4.21

4.25

4.29

4.35

4.38

4.42

4.45

4.48

 

¥

3.64

3.80

3.90

3.98

4.04

4.09

4.14

4.17

4.20

4.26

4.31

4.34

4.38

4.41

 

 


 

Per esempio,

- dopo aver scelto C = 3,15 con n = 245 perché non è riportato il valore di C per n = 25, i due confronti che distano 4 passi (5a  vs  2a  e  4a  vs  1a ) hanno entrambi una differenza significativa poiché superiore

MDS

  a 15,56;

-  tutti i confronti che distano 2 passi sono significativi se la loro differenza è superiore

 

MDS

 a 14,43.

La tabella sottostante riporta

-  tutti i confronti semplici tra le 5 medie (colonne 1 e 2),

-  con il numero r di passi che separano le due medie (colonna 3),

-  le due medie a confronto e la loro differenza (colonne 4 e 5),

-  il valore critico di Q e quello di Duncan per il numero r di passi che li separano (colonne 6 e 7).

 

 

(1)

(2)

(3)

(4)

(5)

(6)

(7)

Ordine

Confronto

r passi

Medie

Differenza

Q

DUNCAN

1

5a  vs  1a

5

208,2 – 119,1

89,1

4,166

3,22

2

5a  vs  2a

4

208,2 – 123,3

84,9

3,901

3,15

3

5a  vs  3a

3

208,2 – 141,0

67,2

3,532

3,07

4

5a  vs  4a

2

208,2 – 199,8

8,4

2,919

2,92

5

4a  vs  1a

4

199,8 – 119,1

80,7

3,901

3,15

6

4a  vs  2a

3

199,8 – 123,3

76,5

3,532

3,07

7

4a  vs  3a

2

199,8 – 141,0

58,8

2,919

2,92

8

3a  vs  1a

3

141,0 – 119,1

21,9

3,532

3,07

9

3a  vs  2a

2

141,0 –123,3

17,7

2,919

2,92

10

2a  vs  1a

2

123,3 – 119,1

4,2

2,919

2,92

 

 

Come tutti gli altri test per i confronti multipli, anche quello di Duncan presenta differenti gradi di combinazione tra specificità e sensitività. Quando dalla stima della differenza minima significativa per ogni singolo confronto si passa alla stima di una quantità valida per tutti i confronti, il test aumenta la versatilità, ma diminuisce in potenza e quindi il valore della MDS cresce.


10.5.8   TEST MULTIPLI SEQUENZIALI DI HOLM E CONFRONTO CON IL TEST DI BONFERRONI; CENNI SUL METODO DI SHAFFER

Nel 1979 S. Holm (con l’articolo A simple sequentially rejective multiple test procedure, pubblicato da Scandinavian Journal of Statistics vol. 6, pp. 65-70) ha proposto un metodo che può essere interpretato come un aggiornamento della procedura di Bonferroni, alla luce dei concetti di Duncan sul calcolo della probabilità a comparisonwise.

Come quello di Bonferroni, questo test

- può essere applicato sia per confronti semplici o tra coppie di singole medie, sia per confronti complessi o tra due mescolanze di più gruppi, sia tra una singola media ed una mescolanza;

-  accetta un numero p qualsiasi di confronti, che può essere notevolmente maggiore della sola combinazione di k medie due a due;

-  utilizza indifferentemente sia campioni bilanciati sia campioni formati da un numero differente di osservazioni;

-  ricorre alla stessa formula generale per il confronto tra le medie di due campioni indipendenti con

t(aT, p, n) =

 

Rispetto al test di Bonferroni, il test di Holm

-  aumenta la potenza, diminuendo la probabilità a comparisonwise per le differenze minori;

-  accresce la complessità, con stime differenti del livello a comparisonwise per ogni differenza,

-  diminuisce la generalità, non utilizzando la differenza minima significativa ma tanti confronti specifici.

A differenza del test di Bonferroni, il test di Holm permette di rifiutare l’ipotesi nulla per un confronto specifico, quindi la differenza tra due medie risulta significativa, se la probabilità ad essa associata con la formula precedente è minore di quella critica stimata con il metodo dei passi di Duncan. Mentre nel test di Bonferroni questa probabilità a comparisonwise è

 

 dove

aT è la probabilità 0.05 oppure 0.01 prefissata dell’experimentwise,

 è il numero totale di confronti programmati,

 nel test di Holm la probabilità a comparisonwise è

 

 

 dove, in aggiunta alla simbologia precedente,

 è la graduatoria del confronto, iniziando con 1 per quello che ha determinato la differenza massima e aumentandolo di una unità per ogni confronto successivo fino all’ultimo, p, che è quello che ha determinato la differenza minima.

Per il principio di cautela, cioè per non aumentare troppo  la probabilità aT experimentwise,

-  la serie di confronti inizia dalle due medie che determinano la differenza massima e

-  termina quando per la prima volta non è possibile rifiutare H0, poiché tutte le differenze minori di questa a loro volta non possono essere considerate significative.

 

La procedura può essere spiegata svolgendo una applicazione di questo test in tutti i suoi passaggi logici e metodologici. L’esempio, illustrato in tutti i dettagli, è tratto dal volume di John Neter, Michael H. Kutner, Christopher J. Nachtsheim, William Wasserman del 1996 (Applied Linear Statistical Models, 4rt ed. stampato da WCB Mc-Graw-Hill, Boston, pp. XV + 1408).

Per determinare la significatività di ogni confronto,

-  non utilizza i valori critici, ma la probabilità a comparisonwise.

Con 4 campioni, aventi media e numero di osservazioni riportati nella tabella successiva

 

 

Campione

A

B

C

D

Totale

Media 

14,6

13,4

19,5

27,2

 = 18,63

Osservazioni 

5

5

4

5

 = 19

 

 

 è stata applicata l’ANOVA

 

 

Devianza

DF

 

Totale

746,42

18

----

Tra

588,22

3

196,07

Errore

158,20

15

10,55

 

 ottenendo un test F significativo.

 

Per effettuare i confronti multipli post-hoc secondo il metodo di Holm, si deve

-  fissare il livello di significatività aT experimentwise; nell’esempio è  0.05;

-  prestabilire il numero e il tipo di confronti ai quali si è interessati; nell’esempio sono 6 contrasti (Li), con le seguenti ipotesi bilaterali:

 

1)         H0: L1  = 

            H1: L1  = 

 

2)         H0: L2  = 

            H1: L2  = 

 

3)         H0: L3  = 

            H1: L3  = 

 

4)         H0: L4  = 

            H1: L4  = 

 

5)         H0: L5  = 

            H1: L5  = 

 

6)         H0: L6  = 

            H1: L6  = 

 

 anche se ne possono esistere diversi altri, quali

 

7)         H0: L7  = 

            H1: L7  = 

 

8)         H0: L8  = 

            H1: L8  = 

 

Per ognuno di questi confronti, mediante la formula generale del test t di Bonferroni,

 

t(aT, p, n) =

 dove

a è la probabilità comparisonwise per quella differenza specifica;

-  p è il numero di confronti prestabilito; nell’esempio p = 6;

n sono i gdl della varianza d’errore; nell’esempio n = 15;

 è la varianza d’errore ottenuta nell’ANOVA preliminare; nell’esempio  = 10,55;

  e   sono le medie aritmetiche,

 e  è il numero di osservazioni sulle quali sono calcolate le due medie a confronto.

 

Con i dati dell’esempio, si possono calcolare i 6 valori t, ognuno per ogni contrasto (Li) e la loro probabilità P in una distribuzione t bilaterale:

 

1)                  

 con P = 0.00005

 

2)                  

 con P = 0.0466

 

3)                  

 con P = 0.5880

 

4)                   

 con P = 0.0396

 

5)                  

 con P = 0.000008

 

6)                  

 con P = 0.0030.

 

Per una più agevole comprensione dei risultati e per ordinare i confronti (colonna 1) in funzione della differenza tra le due medie, è conveniente costruire una tabella con i valori del test t di Bonferroni (colonna 2) appena ottenuti, riportando la probabilità P  (colonna 3) ad essi associata.

 

 

 (1)

(2)

(3)

(4)

(5)

(6)

Li

P

Rango  D

Conclusione

1

-6,267

0.00002

2

0.01000

Significativo

2

-2,178

0.0466

5

---

Non sign.

3

0,584

0.5880

6

---

Non sign.

4

-2,249

0.0396

4

0.01667

Non sign.

5

-6,718

0.000008

1

0.00833

Significativo

6

-3,354

0.0030

3

0,01250

Significativo

 

 

Successivamente, essi vengono ordinati per il rango della differenza (colonna 4), iniziando l’analisi dei risultati da quella maggiore (rango 1 del contrasto L5). Dal confronto tra la probabilità critica (colonna 5) e quella relativa al valore t di Bonferroni (colonna 3), si deduce la significatività (colonna 6). La serie dei passaggi logici è riportata in dettaglio:

 

1)       La distanza maggiore è quella stimata con il contrasto 5 (L5), poiché ad essa corrisponde una valore di t uguale a  6,718 (il maggiore, in valore assoluto) e la probabilità ad esso associata è 0.000008 (la minore). Per aT = 0.05 la probabilità a comparisonwise di questo contrasto è 0.00833 (0.05/6) poiché i confronti sono 6. Dato che la probabilità del contrasto (0.000008) è minore di quella critica (0.00833) ad essa associata, si rifiuta l’ipotesi nulla: la differenza è significativa per una  aT = 0.05.

2)       Il secondo contrasto da prendere in considerazione è L1 poiché il rango della sua differenza è 2, come indicano il valore di t (6,267) in ordine decrescente e la probabilità ad esso associata (0.003) in ordine crescente. Per aT = 0.05 la probabilità a comparisonwise di questo contrasto è 0.01 (0.05/5) poiché ora i confronti implicati sono 5. Dato che la probabilità del contrasto (0.003) è minore di quella critica (0.01) ad essa associata, si rifiuta l’ipotesi nulla: la differenza è significativa per una  aT = 0.05.

3)       Il terzo contrasto da prendere in considerazione è L6 poiché il rango della sua differenza è 3, come indicano il valore di t (3,354) in ordine decrescente e la probabilità ad essa associata (0.003) in ordine crescente. Per aT = 0.05 experimentwise, la probabilità a comparisonwise di questo contrasto è 0.0125 (0.05/4) poiché ora i confronti sono 4. Dato che la probabilità del contrasto (0.003) è minore di quella critica (0.0125) ad essa associata, si rifiuta l’ipotesi nulla: la differenza è significativa per una  aT = 0.05.

4)       Il quarto contrasto da prendere in considerazione è L4 poiché il rango della sua differenza è 4, come indicano il valore di t (2,249) e la probabilità ad essa associata (0.0396). Per aT = 0.05 experimentwise, la probabilità a comparisonwise di questo contrasto è 0.01667 (0.05/3) poiché i confronti implicati ora sono 3. Dato che la probabilità del contrasto (0.0396) è maggiore di quella critica (0.01667) ad essa associata, non è possibile rifiutare l’ipotesi nulla: la differenza non è significativa per una  aT = 0.05.

5)       I restanti due contrasti L2 e L3, le cui differenze hanno rango 5 e 6 rispettivamente, non sono significativi, perché le loro differenze sono minori dell’ultima, che è risultata non significativa.

 

Se la probabilità predeterminata dell’experimentwise fosse stata aT = 0.01 le probabilità critiche (colonna 5) sarebbero state

a = 0.00167 (0.01/6) per la differenza di rango 1,

a = 0.00200 (0.01/5) per la differenza di rango 2,

a = 0.00250 (0.01/4) per la differenza di rango 3,

a = 0.00333 (0.01/3) per la differenza di rango 4,

 continuando fino al primo contrasto che non sarebbe risultato significativo. Con i dati dell’esempio precedente, la prima differenza a non risultare significativa sarebbe stato sempre quella di rango 4.

 

Per quasi tutti i confronti multipli citati, sono state proposte metodologie integrative: alcune per aumentarne la potenza, altre la semplicità, altre ancora la versatilità. Per il test di Holm, è citata con relativa frequenza la procedura proposta da J. P. Shaffer nel 1986 (Modified sequentially rejective multiple test procedure, pubblicata da Scandinavian Journal of Statistics vol. 6, pp. 65-70). Essa determina un ulteriore incremento della potenza, al costo di un aumento della complessità, prendendo in considerazione le interrelazioni logiche tra le k ipotesi formulate.

Nell’esempio precedente con 6 confronti, alcune ipotesi sono tra loro logicamente correlate, come la prima e la seconda, la prima e la quarta: risultando significativa la prima, varia la probabilità che risulti significativa anche la seconda. Sulla base di questa assunzione e con raggruppamenti specifici nella successione logica dei calcoli, ha costruito una metodologia che alza il valore critico della probabilità a di alcuni confronti oltre quanto possibile con il metodo di Holm, che già aumenta la potenza di quello del Bonferroni.

 

 

10.5.9   CENNI SU ALTRI TEST

I programmi informatici più recenti propongono una scelta molto ampia. Per fornirne un elenco rapido e arricchire ulteriormente l’informazione su questi test, per abituare ad un linguaggio differente e a valutazioni diverse, per mostrare la oggettiva difficoltà di una persona ancora inesperta a comprendere queste metodologie, è riportata la illustrazione di alcuni metodi proposta da una libreria informatica a grande diffusione.

 

“I test usati più di frequente per confronti multipli sono il test di Bonferroni e i test delle differenze significative di Tukey. Il test di Bonferroni, basato sulla statistica t di Student, consente di correggere il livello di significatività osservato in base al fatto che vengono eseguiti confronti multipli. Il test t di Sidàk corregge inoltre il test di significatività ed è più restrittivo del test di Bonferroni. Il test delle differenze significative di Tukey utilizza la statistica di intervallo studentizzato per effettuare tutti i confronti a coppie tra gruppi e imposta il tasso di errore sperimentale al valore del tasso di errore per l’insieme di tutti i confronti per coppie. Quando si eseguono test su un elevato numero di coppie di medie, il test delle differenze significative di Tukey risulta più efficace rispetto al test di Bonferroni. Nel caso di un numero limitato di coppie, risulta invece più efficace il test di Bonferroni.”

 

“GT2 di Hochberg è simile al test delle differenze significative di Tukey, ma viene utilizzato il modulo massimo studentizzato. In genere il test di Tukey risulta più efficace. Anche il test dei confronti a coppie di Gabriel utilizza il modulo massimo studentizzato ed è in genere più indicativo del test di Hochberg (GT2) quando le dimensioni delle celle siano diverse. Se la variabilità delle dimensioni delle celle risulta molto alta, il test di Gabriel può diventare poco conservativo.”

 

“Il test t per confronti multipli a coppie di Dunnett confronta un insieme di trattamenti con una media di controllo singola. L’ultima categoria è la categoria di controllo di default. In alternativa, è possibile scegliere la prima categoria. E’ inoltre possibile scegliere un test a 2 vie oppure a 1 via. Per verificare che la media in qualsiasi livello del fattore (ad eccezione della categoria di controllo) non sia uguale a quella della categoria di controllo, è necessario utilizzare un test a due sensi.” Per verificare se la media di qualsiasi livello del fattore è minore o maggiore di quella della categoria di controllo è necessario definire la direzione della differenza.

 

Ryan, Einot, Gabriel e Welsch (R-E-G-W) hanno sviluppato due test ad intervalli decrescenti multipli. Le procedure a multipli decrescenti verificano in primo luogo se tutte le medie sono uguali. Se le medie non risultano tutte uguali, il test di uguaglianza viene eseguito su un sottoinsieme di medie. Il test R-E-G-W-F è basato su un test F, mentre R-E-G-W-Q è basato su un intervallo studentizzato. Questi test risultano più efficaci rispetto ai test a intervallo multiplo di Duncan e Student-Newman-Keuls, che sono pure procedure multiple stepdown. E’ tuttavia consigliabile non usarli con celle di dimensioni non uguali.”

 

“Quando le varianze non sono uguali, è necessario usare il test Tamhane (T2) (test per confronti a coppie conservativo basato su un test t), il test di Dunnett T3 (test per confronti a coppie basato sul modulo studentizzato), il test per confronti a coppie di Games-Howell (a volte poco conservativo) o il test C di Dunnett (test per confronti a coppie basato sull’intervallo studentizzato).”

 

“Il test a intervallo multiplo di Duncan, Student-Newman-Keuls (S-N-K) e il test b di Tukey sono test a intervallo che classificano le medie raggruppate e calcolano un valore di intervallo. Questi test sono usati meno frequentemente dei test descritti in precedenza.”

 

“Il test t di Waller-Duncan utilizza un approccio bayesiano”; “è un test a intervallo che usa la media armonica della dimensione campionaria nel caso di dimensioni campionarie non uguali.“

 

“Il livello di significatività del test di Scheffé consente la verifica di tutte le possibili combinazioni lineari delle medie di gruppo, non dei soli confronti a coppie disponibili in questa funzione. Di conseguenza il test di Scheffé risulta spesso più conservativo rispetto ad altri test ovvero per ottenere un livello sufficiente di significatività è richiesta una differenza tra le medie maggiore.”

 

“Il test per confronti a coppie multipli Differenza Meno Significativa o LSD, è equivalente a più test t tra tutte le coppie di gruppi. Lo svantaggio associato a questo test è che non viene eseguito alcun tentativo di correzione del livello di significatività osservata per confronti multipli.”


 

10.5.10   DIBATTITO SUL TEST POST-HOC MIGLIORE

Il confronto tra due o più metodologie post-hoc, allo scopo di scegliere la “migliore”, è un problema non semplice e che non ha una soluzione unica, poiché i parametri in gioco sono numerosi e tra loro contrastanti. Per ogni test, occorre infatti tenere in considerazione

1)  la consistenza,

2)  la semplicità,

3)  la flessibilità o versatilità,

4)  il tasso d’errore di Tipo I o probabilità a,

5)  la potenza o tasso d’errore di Tipo II, detto anche accuratezza,

6)  la dimensione del campione.

 

Semplicità, errore di Tipo I o probabilità a, potenza (1-b) o errore di Tipo II, dimensione del campione sono concetti semplici o già illustrati nel programma già svolto. Nuovo e più complesso è il concetto di consistenza, applicato ai confronti multipli post-hoc.

Una procedura di confronti multipli è definita inconsistente, quando per una generica coppia di medie (m1  e  m2), la probabilità che risultino differenti (quindi che la loro differenza risulti significativa) dipende dal numero totale di medie coinvolte nell’esperimento. La procedura invece è detta consistente quando la significatività della differenza dipende solamente dai quattro parametri che ne definiscono la potenza:

a)       la dimensione della differenza (d),

b)       l’errore standard di questa differenza (),

c)        i gradi di libertà della varianza d’errore (n),

d)       il livello di significatività experimentwise o familywise prescelto (aT).

 

Quasi tutti i testi di Statistica, indicati nei paragrafi precedenti, quando illustrano più confronti multipli forniscono anche consigli sulla loro utilizzazione. Tra i lavori specifici che confrontano i risultati, per la ricerca ambientale può essere citato l’articolo di R. W. Day e G. P. Quinn del 1989 (Comparisons of treatments after an analysis of variance in Ecology, pubblicato su Ecological Monographs Vol. 54 (4), pp. 433-463, la rivista della Ecological Society of America); tra i volumi che presentano alcune metodologie in modo semplice, può essere ricordato quello di Rupert G. Miller jr. del 1981 (Simultaneous Statistical Inference, 2nd ed. Springer-Verlag, New York, pp. 300).

 

I confronti multipli o a posteriori sono uno dei settori in maggiore evoluzione, nell’attuale ricerca statistica. Di conseguenza, vengono proposti metodi nuovi e non esiste ancora unanimità sulle scelte più adeguate. Tuttavia è possibile indicare il test più potente, in funzione dello scopo specifico e del bilanciamento dei gruppi. Alcune indicazioni sulla scelta sono forniti in vari testi.

1 – Se il confronto è tra un controllo e k gruppi, il più vantaggioso è il test di Dunnett;  ovviamente non si hanno risposte sul trattamento migliore, ma solo sulle differenze tra ognuno di essi con il controllo.

2 – Se interessano tutti i confronti possibili senza aver predeterminato quali, il test più adatto è quello di Scheffé; ma esso risulta quello meno potente, poiché accetta anche un numero infinito di confronti, quando esso può solo essere finito.

3 – Per confronti singoli e con campioni bilanciati, la procedura HSD è la più semplice, rapida e versatile; inoltre permette la costruzione della matrice delle differenze, con una visione complessiva dei confronti.

4 – Il test SNK risulta più potente di quello di Tukey, ma è meno rapido, stimando intervalli in funzione dei passi che separano le due medie a confronto.

5 – Il test di Duncan è quello più potente, ma i referee delle riviste internazionali non sono unanimi sul rispetto della probabilità aT experimentwise o di tutta la famiglia dei confronti.

6 – Se il numero di confronti è limitato e predefinito, il test di Bonferroni è adatto; il test di Dunn-Sidak è più potente , ma quello preferibile appare il test di Holm, che non è molto più complesso ed aumenta ancora in potenza.

7 – Se in gruppi a confronto non sono bilanciati, la scelta di n minimo porta vantaggi nella semplicità e versatilità, ma fa perdere potenza, in particolare se i gruppi hanno dimensioni nettamente differenti; la stima di n con la media armonica determina vantaggi nella potenza, ma determina valori approssimati; la scelta più corretta appare la ripetizione della formula generale per ogni contrasto, ma il procedimento richiede molto più tempo.

 

 

  

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007