elementi di statistica  descrittiva

Per  DISTRIBUZIONI  UNIVARIATe

 

 

1.2.   IL DISEGNO SPERIMENTALE, IL CAMPIONAMENTO E L'INFERENZA

 

 

Per condurre in modo corretto una ricerca scientifica, cioè per raccogliere un campione con un numero sufficiente di dati, tenendo in considerazione sia le condizioni esistenti nella popolazione, sia la successiva applicazione dei test, occorre seguire alcuni passaggi metodologici, riassumibili in 4 fasi:

-  il disegno sperimentale,

-  il campionamento,

-  la descrizione statistica,

-  la scelta dei test per l’inferenza.

 

1 - Il disegno sperimentale è necessario per scegliere e programmare le osservazioni in natura e le ripetizioni in laboratorio, in funzione della ricerca e delle ipotesi esplicative. Già nella prima fase della ricerca, chiamata con termine tecnico appunto “disegno sperimentale” (dall’inglese experimental design e tradotto più correttamente in italiano con programmazione dell’esperimento), occorre avere chiara la formulazione dell'ipotesi che si intende verificare. Raccogliere i dati prima di aver chiaramente espresso le finalità della ricerca conduce spesso ad analisi non adeguate e quindi a risultati poco attendibili.

Con la formulazione dell’ipotesi, si deve rispondere alle domande:

-  “Le eventuali differenze riscontrate tra due o più gruppi di dati, oppure di una serie di osservazioni con quanto è atteso, possono essere imputabili a fattori causali specifici o solamente a fattori casuali ignoti?

-  Le differenze riscontrate sono generate dalla naturale variabilità delle misure e del materiale utilizzato oppure più probabilmente esiste una causa specifica che le ha determinate?

 

2 - Il campionamento permette di raccogliere i dati in funzione dello scopo della ricerca, rispettando le caratteristiche della popolazione o universo dei dati.

Uno dei problemi fondamentali della statistica è come raccogliere solamente un numero limitato di dati (per motivi economici, di tempo, di oggetti effettivamente disponibili, cioè per limiti oggettivi che quasi sempre esistono in qualsiasi ricerca sperimentale), ma attraverso la loro analisi pervenire ugualmente a conclusioni generali, che possano essere estese a tutta la popolazione.

 

3 - La descrizione delle caratteristiche statistiche dell’insieme dei dati raccolti deve permettere a tutti di verificare sia l'adeguatezza del disegno sperimentale e del campionamento, sia la correttezza delle analisi attuate e dei risultati ottenuti.

 

4 - I test devono essere già programmati nella fase del disegno sperimentale, poiché è da essi che dipende il tipo di campionamento.

Il test è un processo logico-matematico che porta alla conclusione di non poter respingere oppure di poter respingere l'ipotesi della casualità, mediante il calcolo di probabilità specifiche di commettere un errore con queste affermazioni.

L’ipotesi che il risultato ottenuto con i dati sperimentali raccolti sia dovuto solo al caso è chiamata ipotesi nulla e è indicata con H0. Di norma, con essa si afferma che le differenze tra due o più gruppi, quelle tra un gruppo e il valore atteso oppure le tendenze riscontrate siano imputabili essenzialmente al caso.

Per esempio, confrontando il tempo di guarigione tra due gruppi di ammalati ai quali siano stati somministrati due farmaci differenti, con l’ipotesi nulla H0 si sostiene che il risultato ottenuto non dipende da una effettiva differenza tra i due principi attivi, ma che esso è dovuto al caso. Se nell’esperimento il farmaco A è risultato migliore del farmaco B, se si accetta l’ipotesi nulla implicitamente si afferma che, con un nuovo esperimento nelle stesse condizioni, si potrebbe ottenere il risultato opposto.

Per giungere a queste conclusioni si deve ricorrere all’inferenza, che può essere definita come la capacità di trarre conclusioni generali (sulla popolazione od universo) utilizzando solo un numero limitato di dati variabili (campione).

 

Il disegno sperimentale ed il campionamento sono le due fasi preliminari

-  sia alla raccolta dei dati in natura,

-  sia per una corretta impostazione degli esperimenti in laboratorio.

Tuttavia, la presentazione didattica e la corretta comprensione di questi argomenti richiedono concetti complessi e metodologie sofisticate, non sempre facili né intuitivi. Per questi motivi, il disegno sperimentale e il campionamento sono sempre trattati nella fase finale di un corso di statistica applicata, quando è già stata raggiunta sufficiente familiarità con la terminologia, con i concetti e i metodi fondamentali dell’inferenza.

 

Nell’apprendimento e nell’uso della statistica, il primo passo è comprendere come solamente una corretta applicazione del campionamento e una scelta appropriata dei test permettano di rispondere alla domanda inferenziale di verifica dell'ipotesi nulla. Con essa si pone il seguente quesito:

" Nell'ipotesi che le differenze fra gruppi di osservazioni empiriche siano dovute a fattori esclusivamente casuali, quale è la probabilità che fra tutte le alternative possibili si presenti proprio la situazione descritta dai dati raccolti o una ancora più estrema?"

Se tale probabilità risulta alta, convenzionalmente uguale o superiore al 5%, si imputeranno le differenze a fattori puramente casuali.

Al contrario, se la probabilità risulta bassa, inferiore al valore prefissato, si accetta come verosimile che le differenze siano dovute a fattori non casuali, rientranti tra i criteri che distinguono i gruppi di dati.

 

La procedura dell’inferenza statistica è semplice, nelle linee logiche generali. Tuttavia, le analisi e le conclusioni trovano complicazioni per l’elevata variabilità dei dati, a motivo soprattutto di tre cause che, in ordine crescente d’importanza, sono:

 

- gli errori di misurazione, generati da strumenti e da differenze nell'abilità dei ricercatori;

- l'operare su campioni, per cui i dati utilizzati in una ricerca non sono mai identici a quelli rilevati in qualsiasi altra;

- la presenza di vari fattori contingenti di disturbo che, come il tempo e la località, possono incidere diversamente sul fenomeno in osservazione, con intensità e direzioni ignote.

 

Pure se espressi in modo sintetico, questi concetti definiscono il contenuto della statistica moderna: la raccolta, la presentazione e la elaborazione numerica delle informazioni, per agevolare l'analisi dei dati ed i processi decisionali.

 

In un corso completo di statistica applicata, è importante avere in ogni momento una visione complessiva degli argomenti. Il loro elenco è utile anche per comprendere le diverse parti in cui viene distinta la statistica, nel percorso di apprendimento dei concetti e delle procedure.

 

La statistica moderna può essere distinta in tre parti: descrittiva, matematica, inferenziale.

 

1 - La statistica descrittiva spiega come i dati raccolti devono essere riportati in tabella, rappresentati in grafici e sintetizzati in indici matematici, allo scopo di individuare le caratteristiche fondamentali del campione.

 

2 - La statistica matematica presenta le distribuzioni teoriche sia per misure discrete sia per misure continue, allo scopo di illustrarne le caratteristiche fondamentali, le relazioni che esistono tra esse, gli usi possibili;

 

3 - L’inferenza statistica, la parte nettamente prevalente del corso, serve per la verifica delle ipotesi. Essa può essere distinta in vari capitoli, in rapporto

-  alle caratteristiche dei dati (se permettono o meno il ricorso alla distribuzione normale: statistica parametrica  e non parametrica

-  al numero di variabili (se una, due o più: statistica univariata, bivariata, multivariata).

 

La prima parte dell’inferenza, di solito affrontata in un corso, è la statistica univariata parametrica. Come argomenti, essa comprende il test t di Student e il test F di Fisher-Snedecor o analisi della varianza:

-  il primo serve sia per confrontare la media di un campione con una media attesa o teorica, sia per confrontare le medie di due campioni;

-  il secondo rappresenta la sua generalizzazione e permette il confronto simultaneo tra più medie, considerando uno solo oppure più fattori di variabilità.

Appunto perché fondati sulla distribuzione normale, questi test richiedono condizioni di validità restrittive (discusse nei capitoli seguenti), che non sempre i dati raccolti e la misura utilizzata permettono di rispettare.

 

E’ una situazione che si presenta con frequenza elevata nella ricerca applicata, a causa della estrema variabilità dei dati e della presenza di valori anomali. In queste condizioni si ricorre alla statistica univariata non parametrica, che è formata da una serie innumerevole di test.

Di norma essi sono raggruppati sulla base dei campioni ai quali viene applicata: test per un campione, per due campioni dipendenti e indipendenti, test per k campioni dipendenti e indipendenti.

 

Quando per ogni individuo o situazione si raccolgono informazioni relative a due variabili, è possibile analizzare le relazioni che intercorrono tra esse, mediante sia la regressione e la correlazione parametriche, sia la regressione e la correlazione non parametriche. Si parla allora di statistica bivariata parametrica e di statistica bivariata non parametrica.

 

Quando i dati raccolti sono relativi a più variabili, si deve ricorrere alla statistica multivariata. Per molte analisi è solamente parametrica. Più recentemente sono stati proposti metodi, detti di ricampionamento, che sono definiti test di statistica non parametrica.

 

In questo corso, verranno presentati i metodi relativi

-  alla statistica univariata e bivariata sia parametrica che non parametrica.

Alla fine sono presentati anche il bootstrap e il jackknife, test non parametrici applicabili sia distribuzioni univariate, sia bivariate che multivariate.

La serie completa degli argomenti e il loro ordine sono riportati nell'indice del testo, organizzato in capitoli e entro capitoli in paragrafi.

 

Questi concetti possono essere schematizzati in una tabella, che offre il vantaggio confrontare le finalità dei tre tipi di statistica


 

I - STATISTICA DESCRITTIVA

a)      Come si presentano i dati in tabelle e grafici.

b)      Indici sintetici che descrivono la distribuzione dei dati:

tendenza centrale, variabilità, forma.

 

II – STATISTICA MATEMATICA

Calcolo delle probabilità. Distribuzioni teoriche:

binomiale, poissoniana, ipergeometrica, normale, …

 

III – STATISTICA INFERENZIALE

(dedurre leggi generali, disponendo di un campione di dati variabili)

a)      Ipotesi parametriche (su media, varianza, …) e ipotesi funzionali (su tutta la distribuzione).

b)      Distribuzioni univariate, bivariate, multivariate.

c)       Statistica parametrica e non parametrica.

d)      Test per uno, due e più campioni.

 

 

 

La statistica inferenziale permette di trarre conclusioni su tutti i dati di una popolazione, quando se ne conoscono solamente pochi, raggruppati in uno o più campioni.

Si supponga di voler conoscere la velocità d'accrescimento somatico di una determinata specie animale o vegetale. E’ ovvio che non è possibile rintracciare e misurare tutti gli individui di quella specie, la popolazione od universo; se non altro per il tempo e le risorse che sono richiesti da questa operazione, oltre alla difficoltà teorica rappresentata dal suo continuo rinnovarsi per effetto di nuove nascite e delle morti.

 

E’ possibile utilizzare non tutta la popolazione ma solamente alcune unità, una frazione limitatissima della popolazione: in termini tecnici, un campione.

Quando poi si trattasse di misurare rapporti tra organi di una specie animale, è ovvio che non è possibile sezionare tutti gli individui della specie. Nello stesso modo, per contare i globuli rossi o quelli bianchi di una persona, non è possibile estrarre tutto il sangue per un conteggio totale, ma si effettua un prelievo limitato a pochi centimetri cubici.


 

LA PROCEDURA PER UN

TEST D’INFERENZA

Dal Campione variabile all’Universo

La logica o filosofia scientifica per la scoperta delle leggi della natura

 

 

I – IPOTESI

Ipotesi nulla, ipotesi alternativa

 

II - RACCOLTA DEI DATI

Tipo di scala; caratteristiche della distribuzione dei dati

 

III - SCELTA DEL TEST

Sulla base dell'ipotesi, del tipo di scala e delle caratteristiche dei dati

 

IV - RISULTATO DEL TEST- PROBABILITA'

Probabilità di ottenere quel risultato, nella condizione espressa dall'ipotesi nulla

 

V – DECISIONE - SCELTA TRA LE DUE IPOTESI

Probabilità a

 

VI – ANALISI DEL TEST E DEI DATI PER UN NUOVO ESPERIMENTO

Potenza a posteriori e a priori, probabilità b

 

 

Tuttavia le conclusioni non devono essere limitate ai pochi (o anche molti) casi realmente raccolti, misurati ed analizzati; ma devono essere generali, estese a tutti gli individui della specie o a tutto l’organismo.

Ricoprono effettivo interesse non le conclusioni che restano limitate al caso del campione, ai dati utilizzati, ma quelle che sono estese a tutta la popolazione o universo. Solo in questo modo, la ricerca riveste una importanza generale e contribuisce alla costruzione di teorie scientifiche, di modelli o semplicemente di ipotesi che possono essere universalmente validi.

Una condizione essenziale e preliminare all’uso dei metodi di statistica inferenziale è che il campione sia corretto, che non riporti in modo distorto od alterato la frequenza delle caratteristiche presenti nella popolazione.

Lo schema precedente elenca i vari passaggi logici che sono necessari. Nello svolgimento del programma, saranno descritti dettagliatamente in tutte le loro fasi.

 

 

 

Manuale di Statistica per la Ricerca e la Professione  © Lamberto Soliani   - Dipartimento di Scienze Ambientali, Università di Parma  (apr 05 ed)  ebook version by SixSigmaIn Team  - © 2007