trasformazionI dei dati; test per normalita’ e PER OUTLIER
13.8. CENNI DEL TEST DI CRAMER-VON MISES PER UN CAMPIONE E PER DUE CAMPIONI INDIPENDENTI
Il test di Cramér e von Mises, riportato in alcuni programmi informatici e spesso citato in varie pubblicazioni per cui è utile che sia conosciuto almeno nei suoi aspetti principali, è fondato su una logica del tutto simile a quella del test di Kolmogorov-Smirnov. La metodologia è stata proposta alla fine degli anni ’20 con l’articolo di H. Cramér del 1928 On the composition of elementary errors (pubblicato sulla rivista Skandinavisk Aktuarietidskrift, Vol. 11, pp. 13-74 e pp. 141-180) e all’inizio degli anni ’30 nel volume di R. von Mises del 1931, pubblicato in tedesco, Wahrscheinlichkeitsrechnung und Ihre Anwendung in der Statistik und Theoretischen Physik (edito da F. Deutiche, Leipzig). E’ stata perfezionata da N. V. Smirnov nel 1936 per quanto riguarda le caratteristiche della distribuzione dei valori critici con l’articolo, in francese, Sur la distribution de W2 (criterium de M. R. v. Mises) (pubblicato su Comptes Rendus, Paris, Vol. 202, pp. 449-452). Il test di Kolmogorov-Smirnov e molto più frequentemente utilizzato e è riportato in quasi tutte le librerie informatiche. Il test di Cramér von Mises gode del vantaggio di essere più semplice.
Come il test di Kolmogorov-Smirnov, può essere applicato - nel caso di un solo campione, per verificare la bontà dell’adattamento, - nel caso di due campioni indipendenti, per verificare se appartengono alla stessa popolazione o comunque a popolazioni identiche.
Per verificare l’accordo tra una distribuzione campionaria e una distribuzione attesa di qualsiasi forma, è necessario che la variabile casuale sia continua. Come in tutti i test per la bontà dell’adattamento, l’ipotesi riguarda tutti i parametri della distribuzione (media, varainza, simmetria, curtosi): quando il test risulta significativo, la distribuzione osservata si differenzia da quella attesa per almeno un parametro, senza alcuna informazione su quale esso sia. Ovviamente il test è utile quando il parametro non è noto; soprattutto quando la differenza può essere determinata da un concorso di più parametri.
E’ un test generalista, in cui l’ipotesi nulla è che il campione osservato appartenga alla popolazione teorica indicata. Appunto perché dipendente da più fattori, l’ipotesi alternativa è quasi sempre bilaterale. Limitando anche in questo caso la spiegazione alla comprensione dei programmi informatici, quindi senza entrare nel dettaglio delle procedure di calcolo,
1 - dopo aver costruito le n classi della distribuzione osservata e della distribuzione attesa, sulla base della legge matematica o statistica prescelta
2 - si stima il valore di un indicatore che è uguale a = dove - F(xi) è lo scarto tra osservato ed atteso nella classe i.
3 - Si rifiuta l’ipotesi nulla, quindi c’è disaccordo tra distribuzione osservata e distribuzione attesa, quando supera il valore critico Ca , riportato nella tabella seguente.
Con n > 10, si possono usare i seguenti valori critici Ca per la probabilità a prefissata.
Quando la distribuzione attesa è costruita sulla base di uno o più parametri (media, varianza, simmetria, curtosi) calcolati nella distribuzione osservata, il valore di è inferiore. Sono stati stimati valori critici anche per queste analisi più specifiche che considerano contemporanemamente k parametri.
La metodologia per il caso di due campioni indipendenti, può essere illustrata con la presentazione di un esempio. Si supponga di avere il campione A
con un numero di osservazioni m = 8 e il campione B
con un numero di osservazioni n = 12. Esiste una differenza significativa tra le due distribuzioni?
Risposta. 1 – Delle due serie di dati, si forma una distribuzione unica, mantenendo l’informazione sul gruppo di appartenza di ogni valore
come risulta nella tabella, leggendo insieme la colonna del campione A e la colonna del campione B
2 - Poiché il numero di osservazioni, con spesso nel caso di due campioni indipendenti, è diverso, si trasformano i valori nelle rispettive proporzioni e si costruiscono sia la cumulata del campione A sia la cumulata del campione B (colonna 3 e 4)
3 – Si costruisce la serie delle differenze D (colonna 5), dove D = Cum. A – Cum.B
4 – Si costruisce la serie delle differenze al quadrato (D2 della colonna 6) e se ne ricava la somma (S), ottenendo = S = 2,00254
5 – Attraverso la relazione
con i dati dell’esempio di trova W2 = 0,48.
6 – In un test bilaterale, come di solito nel confronto generico tra due distribuzioni di dati, - alla probabilità a = 0.05 il valore critico è 0,461 - alla probabilità a = 0.01 il valore critico è 0,743
7 – Poiché il valore calcolato (0,48) si colloca tra la probabiltà 0.05 e 0.01 è possibile rifiutare l’ipotesi nulla con probabilità P < 0.05 di commettere un errore di Tipo I. Le due distribuzioni non appartengono alla stessa popolazione.
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Manuale di Statistica per la Ricerca e la Professione © Lamberto Soliani - Dipartimento di Scienze Ambientali, Università di Parma (apr 05 ed) ebook version by SixSigmaIn Team - © 2007 |