VERIFICA DELLE IPOTESI

TEST PER UN CAMPIONE SULLA TENDENZA CENTRALE CON VARIANZA NOTA

E TEST SULLA VARIANZA

CON INTERVALLI DI CONFIDENZA

 

 

 

4.4.   I FATTORI CHE DETERMINANO LA POTENZA DI UN TEST

 

 

Il complemento di b (quindi 1-b) misura la potenza di un test statistico (da power; in alcuni testi italiani di statistica è chiamata anche forza). Essa è definita come la probabilità di rifiutare l’ipotesi nulla H0, quando l’ipotesi alternativa H1 è vera. in altri termini, nel confronto tra medie la potenza è la probabilità di non trovare una differenza, quando esiste.

I fattori che, con modalità ed intensità differente, incidono sulla potenza di un test sono sei:

1 - il livello di significatività (a);

2 - la dimensione della differenza (d se della popolazione oppure d se campionaria), di cui si vuole verificare la significatività;

3 - la variabilità dei dati: s2 oppure s2 da cui dipende la scelta della distribuzione, che sarà Z oppure t nel caso di medie;

4 - la direzione dell’ipotesi (unilaterale oppure bilaterale);

5 - la dimensione () del campione;

6 - le caratteristiche del test (a grandi linee, parametrico oppure non-parametrico, ma con differenze rilevanti entro questi due gruppi).

 

Per una più esatta comprensione delle componenti che determinano la potenza di un test e una sua successiva stima quantitativa, è utile approfondire i concetti attinenti a questi sei fattori.

 

1) Per il livello di significatività, la prassi didattica induce il giovane ricercatore a decidere che un esperimento è significativo, solo quando la probabilità stimata con il test è inferiore al valore critico convenzionale prefissato, di norma scelto tra a = 0.05, a = 0.01, a = 0.001. Nelle pubblicazioni scientifiche, sono i limiti condivisi da tutti, senza discussione. L’errore logico più frequente è che ad essi è attribuito un potere discriminante assoluto; ma, trattandosi di probabilità, è un approccio fuorviante.

In realtà, soprattutto nella professione e quando è richiesta una decisione importante, il timore di commettere un errore di I tipo deve far abbassare al ricercatore il livello di significatività a. Ma, riducendo il valore di a, egli diminuisce la probabilità di scoprire differenze che nella realtà esistono; in altri termini, egli aumenta la probabilità b di commettere un errore di II tipo.

Il rischio a implica la conclusione che esiste una differenza significativa.

Di norma, è quanto si desidera e si vuole dimostrare con un test. Ma tale conclusione può indurre a una decisione, che a posteriori potrebbe rivelarsi errata, con conseguenze gravi. E’ quindi importante deciderne il valore sulla base di un bilancio tra i vantaggi e gli svantaggi che ne derivano.

In termini elementari, il valore da attribuire ad a dipende dalla riposta a una domanda: “Quanto perdo se sbaglio?”:

 

Due esempi possono chiarire meglio i due contrastanti interessi entro i quali il ricercatore può trovarsi e quindi i criteri tra la scelta del rischio a e il timore di b, già in parte evidenziati nella presentazione delle caratteristiche dell’approccio decisionale.

 

ESEMPIO 1.  Il direttore di un’azienda pensa di essere in grado di mettere sul mercato un farmaco nuovo, che assicuri una più alta percentuale di guarigione.

Si supponga che questa azienda si trovi in ottime condizioni economiche, con una buona immagine sul mercato, con prodotti ritenuti di alta qualità e che il guadagno dato dalla vendita del nuovo prodotto sia importante, ma percentualmente piccolo rispetto al fatturato totale; pure riconoscendo che occorre sempre migliorare per restare sul mercato.

In queste condizioni, il rischio a che l’azienda corre nell’immettere sul mercato il nuovo farmaco può essere grave. Potrebbe accadere che, dopo un buon periodo di vendite, con nuove ricerche e studi più approfonditi, il farmaco non si dimostri realmente più efficace del precedente. La pubblicità negativa di questa notizia, sostenuta dalle ditte concorrenti, potrebbe rovinare l’immagine della società e di tutti i suoi prodotti. Ne potrebbe derivare una perdita economica importante.

In tale contesto, colui che deve prendere la decisione se immettere il prodotto sul mercato tenderà a tenere molto basso il livello a (per esempio, a = 0.0001 e non certamente a = 0.05), per ridurre al minimo il pericolo che il prodotto non sia realmente più efficace del precedente.

La conseguenza di questa scelta è un aumento del rischio b. Ovvero del rischio di non mettere sul mercato un prodotto realmente più efficace. Più in generale di non essere innovativi, di avere solo prodotti che progressivamente invecchiano.

Quando si deve prendere una decisione, un parametro importante è il prodotto

Rischio a  x  Costo dell’errore a

 che va confrontato con il risultato del prodotto

Rischio b  x  Costo dell’errore b

 

Un rischio a molto basso rende minima la probabilità di mettere sul mercato un farmaco non effettivamente migliore del precedente. Ovviamente, il responsabile non può eccedere in questa cautela, in quanto non immetterebbe più sul mercato alcun prodotto nuovo. Non diversamente dallo studente universitario che, per il timore essere respinto, non si presenti mai a sostenere un esame. Non punta neppure sulla fortuna (1-b) di poter affrontare domande su argomenti che ha studiato e non raggiungerebbe mai la laurea. In ogni scelta come nella non-scelta, è sempre insisto un rischio di errare. Il problema scientifico è come

quantificarli statisticamente

-  e valutarne le conseguenze nella disciplina o negli affari.

 

ESEMPIO 2.  Si supponga ora che il nuovo farmaco anti-tumorale sia prodotto e sperimentato da un'azienda in difficoltà economiche gravi: che essa si trovi nelle condizioni di dover assolutamente aumentare le vendite, se vuole evitare il fallimento. L’eventuale danno a, determinato dal fallimento del lancio di un farmaco nuovo reclamizzato come migliore, per l’azienda è ovviamente quasi inesistente. Il responsabile della ditta tenderà a tenere molto elevato il livello di a (per esempio, a uguale a 0.10 o addirittura 0.20 e non certamente 0.05). Gli conviene sperare che, nonostante il risultato non brillante del test, il farmaco nuovo sia effettivamente migliore di quello precedente o della concorrenza. L’azienda ha interesse ad assumere un rischio molto elevato di mettere sul mercato un prodotto nuovo. Essa avrà una nuova opportunità.

Con questa scelta di un rischio a alto, si determina una diminuzione del rischio b, cioè di accettare l’ipotesi nulla, quando in realtà il farmaco è più efficace.

 

2)  La dimensione della differenza (d oppure d) tra il valore osservato e il valore atteso nell'ipotesi nulla è il secondo fattore che incide sulla potenza di un test. Frequentemente, i test riguardano la differenza tra medie, che è indicata

-  con  quando è sperimentale,

- con  quando fa riferimento a quella teorica o attesa.

La potenza di un test statistico è funzione crescente della differenza, presa in valore assoluto.

 

E’ intuitivo che sia più facile rilevare differenze grandi di quelle piccole.


 

Mediante la distribuzione normale, una esemplificazione chiara è fornita dal test

- per verificare se esiste una differenza significativa tra la media campionaria () e quella della popolazione (),

-  quando sia nota la deviazione standard () della popolazione

-  ed ovviamente la dimensione del campione ()

 mediante la formula

 

Si può agevolmente dedurre che il valore di Z sarà tanto più grande, quindi il test risulterà maggiormente significativo, quanto più grande è la differenza  tra la media campionaria () e quella dell’ipotesi (m):

Misurare la potenza di un test serve in molti casi.

Ad esempio, per dimostrare la significatività della differenza tra le medie di 2 campioni -.

Essa non deve essere scelta sulla base della differenza più piccola che è possibile dimostrare statisticamente significativa. E’ utile scegliere il valore di d in rapporto a una differenza ritenuta importante nella disciplina scientifica in cui si applica il test.

Ad esempio, dimostrare che un farmaco abbassa la pressione solamente di due punti in più di un altro è molto difficile, cioè avrà un rischio b molto alto, e nel contempo sarà privo di rilevanza medica. Per avere rilevanza medica, la differenza nella pressione massima di un paziente deve essere molto più alta. Sarà anche molto più facile scoprirla; quindi il suo errore b sarà minore.

 

3  -  La variabilità dei dati è il terzo fattore.

La potenza di un test è funzione decrescente della varianza.

Le formule riportate per l’analisi della differenza richiedono che si conosca la deviazione standard s della popolazione. Nella pratica, è raro conoscere s prima dell’esperimento, anche se può essere stimata da ricerche precedenti, da dati rintracciati in letteratura o dall’esperienza del ricercatore. Si ricorre quindi alla deviazione standard del campione (), con la quale nel test occorre utilizzare non la distribuzione normale standardizzata Z, ma la distribuzione t di  Student, che sarà presentata nel capitolo successivo.

Riprendendo la formula precedente

è evidente che

-  all’aumentare di s, diminuisce il valore di Z e quindi la potenza (1 - b) del test nell’evidenziare un effetto di grandezza assoluta d =

 

Molto spesso, l’influenza della differenza d e della deviazione standard s, derivati dai medesimi dati, vengono considerate assieme,

 mediante il rapporto

f  =  d / s

Questo indice f (chiamato phi)

-  è un rapporto di valori ( e ) stimati dagli stessi dati;

-  rispetto ai parametri originari  ( e ) ha il rilevante vantaggio pratico di essere adimensionale, un campo di variazione minore  e di essere più stabile, con valori che di norma variano tra 0,5 e 2.

Ne consegue che l’indice f offre il vantaggio di ridurre il numero di situazioni da prendere in considerazione e di non richiedere di conoscere né la differenza d né la deviazione standard s.

Questi concetti su f (phi) e sulla sua utilizzazione saranno ripresi in particolare nei grafici per il calcolo delle cosiddette potenza a posteriori  e potenza a priori .

Con funzioni del tutto simili al f (phi) e sulla base degli stessi concetti, in alcuni grafici e in altri testi di statistica, come illustrato nel paragrafo successivo, è utilizzato il parametr

o l

 determinato dalla relazione

 dove

-  è la media dell’ipotesi nulla H0

-  è la media dell’ipotesi alternativa H1

-  è la  deviazione standard vera.

 

4)   L'ipotesi alternativa H1, da verificare con un test, può essere bilaterale oppure unilaterale.

E' bilaterale quando ci si chiede se tra la media del gruppo A e quella del gruppo B esiste una differenza significativa (H1: mA ¹ mB) , senza sapere a priori quale è logico che sia la migliore.

E' unilaterale quando è possibile escludere a priori, come privo di significato e risultato solo di errori nella conduzione dell’esperimento, il fatto che la media di un campione possa essere minore o maggiore dell’altra. In questo caso, si ricorre al test statistico per verificare solamente se la media di B sia significativamente superiore a quella di A o viceversa; non entrambi i casi

H1: mA < mB   oppure   H1: mA > mB

 

Per esempio, in tossicologia

 

-  si ha un test bilaterale (H1: mA ¹ mB) quando si confronta l'effetto di due sostanze (A e B) sull'accrescimento di due gruppi di animali, per valutare quale abbia l’effetto maggiore: sono due risposte alternative, che lo sperimentatore ritiene ugualmente logiche e possibili;

 

-  si ha invece un test unilaterale (H1: mA < mB   oppure   H1: mA > mB) quando si confrontano i risultati di un principio attivo con il placebo. E' evidente che da questo secondo confronto non ci si può ragionevolmente aspettare che gli animali ai quali è stato somministrato il tossico abbiano risultati migliori nella crescita e nella sopravvivenza di coloro ai quali è stato somministrato il placebo. L'unica domanda razionale è se gli animali ai quali è stato somministrato il tossico abbiano un accrescimento significativamente minore di quelli trattati con il placebo.

Se da un esperimento risultasse che il gruppo al quale è stato somministrato il tossico ha prestazioni medie migliori dell’altro gruppo, potremmo solo pensare di avere sbagliato nella sua programmazione. Sarebbe anche illogico e inutile proseguire l’analisi, con qualunque test statistico.

 

I concetti su test bilaterale e test unilaterale spesso sono espressi sinteticamente con un grafico.

 

 

      


 

La differenza tra test unilaterale e test bilaterale non è solamente una questione teorica: è una scelta con effetti pratici rilevanti sulla potenza (1- b) del test, poiché è importante per la determinazione della zona di rifiuto dell'ipotesi nulla.

In un test unilaterale, essa sarà solamente in una coda della distribuzione.

In un test bilaterale, essa sarà equamente divisa nelle due code della distribuzione.

In una distribuzione normale, prendendo come livello di significatività il 5%,

-  in un test ad una coda l'area di rifiuto dell'ipotesi nulla inizia dal valore critico Z = 1,645

-  in un test a due code essa inizia dal valore critico Z = 1,96.

 

In un test condotto

-  allo stesso livello di significatività (),

-  con una identica deviazione standard (),

la medesima differenza in valore assoluto (d),

un uguale numero di dati (),

 l’ipotesi unilaterale determina un risultato che è sempre più potente della corrispondente ipotesi bilaterale, poiché il valore critico al quale si rifiuta l’ipotesi nulla è sistematicamente minore, in valore assoluto.

Un test unilaterale è quindi sempre preferibile. Ma un’ipotesi unilaterale richiede una quantità d’informazione superiore, non disponibile in tutte le situazioni sperimentali, sui risultati possibili che potranno essere ottenuti.

 

5)   La dimensione del campione () è il parametro che ha l'effetto più importante sulla potenza di un test, nella fase di programmazione dell’esperimento e di valutazione dei risultati, in quanto strettamente legato al comportamento del ricercatore.

Applicando sempre l'equazione

è semplice osservare che il valore di Z

-  è direttamente proporzionale alla radice quadrata del numero di dati del campione ().

 

Nel caso di un campione, utilizzato in tutto il paragrafo come esempio per tradurre i vari concetti in formule e quindi per quantificarli come richiede la statistica, la stima delle dimensioni minime del campione è determinato con

 dove si deve prefissare

-  uno specifico livello di significatività a, da cui dipende ,

-  la direzione dell’ipotesi da verificare, da cui dipende ancora (se in unilaterale oppure bilaterale)

-  la varianza della popolazione 

-  la differenza d che si vuole dimostrare significativa, stimata come differenza tra m0 e m1.

 

6)  A partire dagli stessi dati, non tutti i test hanno la stessa capacità di rifiutare l'ipotesi nulla quando è falsa.

E’ quindi molto importante scegliere il test più adatto,

-  in rapporto alle caratteristiche dei dati (qualitativi o quantitativi),

-  al tipo di scala o di misura (scale di rango, misure di intervalli o di rapporti),

-  alla variabilità dei dati,

-  alla simmetria della distribuzione,

-  alla omoschedasticità dei gruppi a confronto.

 

Test diversi hanno condizioni di validità differenti e sono più o meno robusti: forniscono risultati che sono diversamente influenzati dal mancato rispetto delle condizioni di validità.

E' già stato fatto osservare che, con un numero ridotto di osservazioni suddivise in vari gruppi, il metodo esatto di Fisher è più potente del test .

Nei test di statistica non parametrica che verranno presentati, si farà sovente un confronto di potenza rispetto agli altri test, soprattutto a quelli corrispondenti di statistica parametrica. E' infatti molto importante utilizzare il test più potente, in funzione del tipo di scala ed in accordo con le caratteristiche dei dati. Ad esempio, per il confronto tra le tendenze centrali in due campioni dipendenti possono essere utilizzati:

-  il test dei segni, il test T di Wilcoxon e il test di casualizzazione, tra quelli non parametrici;

- l'analisi della varianza a un criterio di classificazione oppure a due o più criteri, tra quelli parametrici.

Errare nella scelta del test significa non scegliere il più potente per quelle condizioni specifiche. Il risultato può essere quello di non rifiutare l’ipotesi nulla (che sappiamo falsa), rendendo inutile la ricerca.


 

Di norma, quanto più i postulati su cui il test è fondato sono scarsi o deboli, in termini positivi si dice quanto più le condizioni di validità molto generali, tanto più i risultati ottenuti devono essere ritenuti validi da tutti. Con i test non parametrici è meno probabile ottenere risultati significativi, rispetto a quelli parametrici; ma l’eventuale significatività molto difficilmente può essere contestata.

Questi confronti tra test differenti sono validi, quando utilizzano campioni con lo stesso numero di osservazioni. Infatti, il numero di dati è un parametro che incide direttamente sulla potenza-efficienza di un test.

 

Il concetto di potenza-efficienza di un test rispetto a un altro è fondato sul numero di osservazioni necessario al secondo per avere la stessa potenza del primo.

Tale relazione è misurata con il rapporto

 

 dove

 Na e Nb sono rispettivamente il numero di dati utilizzati nei due test A e B.

 

Per esempio, se

-  il test A richiede 30 osservazioni per avere la stessa potenza del test B con 20 osservazioni,

-  la potenza di A sarà 20/30 x 100 di B e corrisponde al 66%.

Significa che ogni 6,6 osservazioni per il test B occorrono 10 osservazioni per A, se si vuole la stessa potenza.

 

Quando è possibile aumentare il numero di osservazioni o rifiutare comunque l’ipotesi nulla alla probabilità prefissata, può essere preferibile avere un test con condizioni di validità meno restrittive (test non parametrico) anche se meno potente del corrispondente test parametrico, perché le conclusioni non potranno essere contestate.

 

Nella scelta del test, è sempre importante scegliere il punto di equilibrio tra

- il test più potente (in inglese detto anche liberal test), che permette di rifiutare l'ipotesi nulla con probabilità maggiore,

- il test più conservativo (conservative test), che rifiuta l'ipotesi nulla con probabilità minore, spesso determinato dal fatto di porre più attenzione al rispetto totale delle condizioni di validità.

 

Secondo le caratteristiche dei dati, in particolare in rapporto alla loro variabilità, quando si analizzano più fattori diventa importante scegliere il disegno sperimentale più adatto, cioè quell'organizzazione dell'esperimento e di raccolta dei dati che quello che rende massima l’efficienza - potenza dell’analisi. Si parla allora di efficienza relativa (il concetto verrà ripreso nei capitoli dedicati all’analisi della varianza). 

 

Sperimentazioni condotte correttamente e analizzate con metodi appropriati possono non evidenziare differenze reali e quantitativamente importanti nella disciplina studiata, a causa di un campione troppo piccolo, non di grado in fornire una potenza sufficiente per rendere l’effetto statisticamente significativo. L’analisi della potenza permette di valutare in modo critico i risultati, al fine di ripetere l’esperimento con un numero di dati adeguato.

 

Altre volte, la stima della potenza può evidenziare la necessità di un campione troppo grande, per essere attuato nelle condizioni reali in cui il ricercatore si trova. I limiti di tempo e di risorse sono un aspetto molto importante in qualsiasi ricerca. La causa principale della non significatività sarebbe allora da ricercare nell’effetto troppo piccolo che si vuole analizzare o nella grande variabilità dei dati.

Comunque, se la conclusione è che la potenza del test evidenzia la necessità di un campione che superi le possibilità reali del ricercatore, per i tempi richiesti nella raccolta dei dati oppure per i costi dell’esperimento o per l’impossibilità oggettiva di disporre di tanti casi, si è raggiunto un risultato ugualmente importante per la ricerca.

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007