VERIFICA DELLE IPOTESITEST PER UN CAMPIONE SULLA TENDENZA CENTRALE CON VARIANZA NOTAE TEST SULLA VARIANZA CON INTERVALLI DI CONFIDENZA
4.12. STIMA DELLA DIFFERENZA TRA DUE MEDIE CON UN ERRORE O UN INTERVALLO DI CONFIDENZA PREFISSATI, NEL CASO DI VARIANZA NOTA
In varie condizioni sperimentali, al ricercatore è richiesto non di effettuare un test di confronto sulla significatività della differenza tra le due medie come nei paragrafi precedenti, ma solamente - di calcolare la differenza reale d tra le due medie vere , - con la precisione minima desiderata o l’errore massimo prestabilito.
Sebbene apparentemente simili ai test precedenti sulla significatività della differenza tra due medie, queste stime sulla precisione della differenza tra due medie sono in realtà nettamente differenti, poiché in questo caso - nella stima di , le dimensioni minime dei due campioni, - non è implicato il rischio , ma solamente quello , in quanto non si tratta di un confronto.
Il problema è risolvibile partendo dai concetti sull’intervallo di confidenza della differenza . Sempre nelle condizioni di validità illustrate per la significatività della differenza tra le medie di due campioni indipendenti, che si riferiscono soprattutto alla normalità delle due distribuzioni, - i limiti e dell’intervallo di confidenza (confidence interval in italiano tradotto anche con intervallo di fiducia o intervallo fiduciale) della differenza reale tra le medie di due campioni indipendenti - alla probabilità a predeterminata sono calcolati con due formule differenti, (1) se le varianze sono uguali oppure (2) differenti.
1 – Quando le varianze sono uguali (), i limiti e della differenza tra le due medie vere sono
2 – Quando le varianze diverse (), i limiti e della differenza tra le due medie sono
Con questa ultima formula, la lunghezza dell’intervallo intorno alla differenza tra le due medie (), indicata con , alla probabilità a - è ricavata da
Da essa si deduce che, affinché la differenza calcolata dai dati campionari rispetto alla differenza abbia un errore non superiore a , alla probabilità a richiesta, - la dimensione del campione 1 deve essere almeno
- la dimensione del campione 2 deve essere almeno
ESEMPIO 1 (CALCOLO DELL’INTERVALLO). Una rapida analisi preliminare di pochi campioni sulla quantità di principio attivo immesso nel farmaco da una ditta concorrente in due tempi differenti (indicati rispettivamente con 1 e 2) ha dato i seguenti risultati:
Quale è la differenza () tra le due medie reali, alla probabilità a = 0.01?
Risposta. Assumendo le due deviazioni standard campionarie e come stime di quelle vere e , si può utilizzare la formula
- per la probabilità = 0.01 bilaterale con Z = 2,576 dalla relazione
si ricava che alla probabilità prefissata la differenza reale d è compresa tra - il limite inferiore L1 = -0,038 - il limite inferiore L2 = +1,974
ESEMPIO 2 (CALCOLO DI PER L’ERRORE PRESTABILITO). In un prodotto industriale che quasi sempre richiede stime molto precise, un campo di variazione della differenza reale d che oscilla tra il vantaggio di un campione (L1 = -0,038) e il vantaggio dell’altro (L2 = +1,974), come calcolato nell’esempio precedente, può essere ritenuto eccessivo ai fini pratici. Per ottenere una misura della differenza tra le due medie che si discosti da quella reale d di una quantità non superiore a 0,2 unità, con probabilità a = 0.01, quanti dati () sono necessari in ognuno dei due campioni?
Risposta. Assumendo le due deviazioni standard campionarie = 0,62 e = 0,55 come stime di quelle della popolazione e con gli altri parametri indicati nella domanda, quindi con - = 0,62 e = 0,55 - = 0,2 - Z = 2,576 per la probabilità = 0.01 bilaterale
1 - la dimensione del campione 1 deve essere
almeno uguale o superiore a = 121 2 - la dimensione del campione 2 deve essere
almeno uguale o superiore a = 107.
Nella presentazione di questi metodi, si è assunto che sia nota la varianza delle due popolazioni, dalle quali sono stati estratti i due campioni. In realtà, nella prassi della ricerca spesso questa varianza vera non è nota e le uniche informazioni disponibili sono i dati campionari raccolti. Pertanto, come stima migliore della varianza della popolazione, si deve utilizzare la varianza campionaria . Questa sostituzione del valore campionario al posto di quello vero ha conseguenze molto importanti: - non è più possibile utilizzare la distribuzione normale ridotta - ma occorre la distribuzione di Student, il cui uso è spiegato in un capitolo successivo. Il calcolo di diventa un po’ più complesso, in quanto il valore di dipende da quello di , che a sua volta dipende da o meglio dai suoi gradi di libertà. La soluzione è ottenuta in modo iterativo, con approssimazioni successive, seguendo le modalità spiegate nel capitolo sul test t di Student.
Il calcolo di con , come effettuato in questo paragrafo per avere una differenza con una precisione prestabilita, è un metodo approssimato. E’ detto anche metodo asintotico, in quanto è valido per campioni grandi, poiché nei modelli matematici è richiesto che essi siano tendenzialmente infiniti. Ma questo metodo con è veloce e il risultato è vicino a quello più corretto ottenuto con , sempre quando è abbastanza grande.
Nella pratica sperimentale, per queste analisi un campione è ritento grande quando ³ 30.
| |||
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |