analisi della varianza (ANOVA I) a un CRITERIO di classificazione E CONFRONTI TRA PIU’ MEDIE
10.7. STIMA DELLA DIMENSIONE N DI K GRUPPI CAMPIONARI PER L’ANOVA
Al momento di programmare il confronto tra più medie campionarie, un problema fondamentale è sapere quanti dati è necessario raccogliere, ovviamente allo scopo di rendere il test significativo. Le dimensioni n di ognuno dei k campioni dipendono essenzialmente da 4 variabili, che occorre conoscere o determinare al momento della programmazione: 1 – la differenza minima d tra almeno 2 medie, di cui si intende verificare la significatività; la scelta del valore dipende dalla conoscenza del fenomeno o da uno studio preliminare; quanto minore è d tanto maggiore deve essere la dimensione n di ogni campione;
2 – la deviazione standard s, tratta dalla corrispondente varianza d’errore; anche in questo caso deve essere nota attraverso dati riportati in letteratura, per l’esperienza del ricercatore oppure determinata da un esperimento pilota; quanto minore è s tanto minore può essere la dimensione n di ogni campione;
3 – la probabilità a, alla quale si vuole che la differenza d risulti significativa, in un test bilaterale; di norma è fissato uguale a 0.05 oppure a 0.01; quanto minore è a tanto maggiore deve essere la dimensione n di ogni campione;
4 – la potenza 1 - b del test, la probabilità di rifiutare l’ipotesi nulla quando è falsa, tratta da una distribuzione per test unilaterali; è prassi accettare una probabilità pari a 80% oppure 90%, corrispondente ad una probabilità di b uguale a 0.20 oppure 0.10; tanto minore è b, tanto maggiore è la potenza richiesta al test e quindi tanto maggiore deve essere anche la dimensione n di ogni campione.
Nel caso di un’analisi della varianza in cui si confrontano le medie di k gruppi, ognuno con n dati, i gdl n dell’errore standard sono quelli della varianza d’errore, quindi uguali a n = k×(n-1). Poiché è sufficiente che sia significativa la differenza tra 2 delle k medie a confronto, - per la probabilità a, si ricorre alla distribuzione t di Student per un test bilaterale; - per la probabilità b, alla stessa distribuzione t di Student, ma per un test unilaterale. Affinché il test sia sufficientemente potente, n deve essere maggiore od uguale a
La stessa relazione è più frequentemente scritta come
(gli indici di t, entro parentesi, non sono stati riportati a pedice per renderli di lettura più facile).
E’ da sottolineare che la formula richiede di conoscere - il rapporto s / d, spesso indicato con j; è più facile da ottenere che non i singoli valori, in quanto simile ad un coefficiente di variazione; per utilizzare un valore indicativo, quando non si hanno informazioni è utile ricordare che l’esperienza ha dimostrato che il valore j » 0,2 è piccolo (variabilità ridotta rispetto alla media); j » 0,5 è medio; j » 0,7 è grande (variabilità ampia rispetto al valore della media);
- il valore di t alla probabilità b deve essere preso dalla tabella dei valori critici e nello stesso modo con il quale viene scelto quello della probabilità a per un test bilaterale. Per prassi, la probabilità di b è circa 4-5 volte quella di a; di conseguenza quando si ha a = 0.01 si sceglie un valore di b = 0.05, quando si ha a = 0.05 si sceglie un valore di b = 0.20. Sarebbe possibile prendere anche un valore di b = 0.5, che corrisponde alla probabilità del 50% che il campione raccolto non risulti significativo alla probabilità a prefissata; in questo caso, il valore di t ha distribuzione simmetrica ed è uguale a 0.
Quando, come tabella dei valori critici, si dispone solo di una distribuzione bilaterale, (vantaggiosa per trovare direttamente il valore di a) per trovare il valore di b si deve utilizzare la colonna 2b. Il calcolo di n è ottenuto con un processo iterativo, quando non è possibile ricorrere a metodi grafici. Di seguito è riportato il processo di calcolo, in quanto utile a comprendere i fattori in gioco nella scelta delle dimensioni del campione; sono anche le informazioni richieste dai programmi informatici più diffusi. Il valore di t dipende dal numero n di gdl, determinato sulla base del numero k di gruppi e soprattutto del numero n di osservazioni entro ogni gruppo: n = k×(n-1).
Il metodo iterativo richiede: a) una prima stima di n, considerando che ogni gruppo abbia almeno n = 5-6 osservazioni; con 4 gruppi, il valore di n diventa uguale a 16 – 20 e sulla base di questi gdl si scelgono i due valori di t (quello alla probabilità a e quello alla probabilità b); b) se il calcolo determina un valore di n maggiore dei 5-6 preventivati (ad esempio 10), si stima un nuovo n (uguale a 36 poiché (10-1) x 4 = 36) e si scelgono dalla tabella sinottica due nuovi valori di t; c) dopo il nuovo calcolo, spesso si può osservare che il terzo valore di n è vicino al secondo: si sceglie quello più cautelativo, arrotondato all’unità per eccesso. Se la differenza tra il terzo valore di n ed il secondo fosse ritenuta ancora importante, si effettua un nuovo calcolo dopo aver modificato i valori di t corrispondenti ai nuovi gdl; quasi sempre la quarta stima è molto simile alla terza e con essa termina il processo iterativo.
ESEMPIO. Mediante un’analisi della varianza con 4 gruppi (un controllo e tre trattamenti), si intende dimostrare la significatività di una differenza (tra il controllo ed uno dei tre trattamenti) uguale a 11. Dai dati già raccolti, è noto che la varianza è uguale a 150 e quindi s è uguale a 12,2 (arrotondato alla prima cifra decimale), mentre il rapporto j (s / d) è uguale a 0, 9. Quanti dati n occorre raccogliere per ognuno dei 4 campioni, affinché il test ANOVA risulti significativo alla probabilità a uguale a 0.05 e con una potenza (1 - b) uguale al 90 per cento?
Risposta. Si utilizza la formula
in cui, con i dati del problema, si ha che j (s / d) = 0,9 a = 0.05 e b = 0.10
Nel 1° tentativo, si scelgono i valori dei gdl e i valori di t corrispondenti, solo sulla base del buon senso (l’esperienza): con k = 4 e n = 20, se si ipotizza a priori che sia sufficiente n = 6, poiché n = k×(n-1) si devono scegliere i due valori di t con 20 gdl. Dalla tabella dei valori critici si ricava che - t di a (0.05, 20) = 2,086 (in una distribuzione per test bilaterale), - t di b (0.10, 20) = 1,325 (in una distribuzione per test unilaterale, corrispondente alla colonna 0.20 se la distribuzione è bilaterale).
Dai parametri fissati, con la formula sopra riportata si ottiene un valore di n n ³ 2 × 0,92 × (2,086 + 1,325)2 = 2 × 0,81 × 11.635 = 18,85 uguale a 19, per arrotondamento all’unità superiore. Si può osservare che il valore stimato (19) è molto maggiore di quello ipotizzato all’inizio (6). Di conseguenza, il valore di t utilizzato con 20 gdl è errato e troppo grande in quanto fondato su pochi gdl. Si deve quindi procedere ad una iterazione, con un secondo tentativo di calcolo fondato su un valore di t più preciso.
Nel 2° tentativo, prendendo come riferimento delle dimensioni di ogni gruppo n = 19, il valore di n è 4 x 18 = 72. Poiché poche tabelle riportano i valori esatti di t per questo numero di gradi di libertà, ma approssimativamente per decine, come scelta cautelativa si utilizza n uguale a 70, che fornisce un valore di t maggiore di quello con 80 gdl e quindi anche un n maggiore.
I nuovi valori di t sono: - per a = 0.05 in un test bilaterale, t(0.05, 70) = 1,994 - per b = 0.10 in un test unilaterale, t(0.10, 70) = 1,294
La nuova stima di n n ³ 2 × 0,92 × (1,994 + 1,294)2 = 2 × 0,81 × 10,81 = 17,51 risulta uguale a 18 per arrotondamento all’unità superiore. Poiché il nuovo valore (18) non differisce sensibilmente dal valore calcolato in precedenza (19), si può concludere che per ognuno dei 4 gruppi sono sufficienti 18 o 19 dati.
L’esempio mette in evidenza che per poter utilizzare pochi dati, quindi avere un risparmio in costo di materiale e di tempo richiesti dall’esperimento, - è vantaggioso rendere il valore di j (s / d) il minimo possibile, agendo - sulla differenza, affinché sia grande e - sulla varianza affinché sia piccola.
| |
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |