LE BASI DELLA STATISTICA E LA RACCOLTA DEI DATIm.docente.unife.it/.../biostatistica-1/Slide1.pdf ·...

18
LE BASI DELLA STATISTICA E LA RACCOLTA DEI DATI Tre punti importanti o Dati e ipotesi In tutte le discipline scientifiche che studiano gli organismi viventi, molto raramente i dati ottenuti attraverso un esperimento oppure raccolti in natura ci permettono di giungere ad una conclusione con una certezza del 100%. La statistica ci aiuta in maniera oggettiva, numericamente, ad analizzare le diverse ipotesi: lo studio e l'interpretazione dei fenomeni biologici dipende quindi strettamente dal metodo statistico. o Statistica e computer Il personal computer non ha reso inutile l'insegnamento della statistica. Nelle analisi statistiche il personal computer svolge solo le funzioni più noiose e meno importanti: ricordare le formule e applicarle velocemente ai dati riducendo il rischio di fare errori. Bisogna però capire il principio di un’analisi, decidere se tale analisi è adatta ai dati disponibili, e saperne interpretare il risultato. o Formule, test, concetti, ed esempi Alla fine di un corso universitario di statistica destinato alle lauree nelle scienze della vita, uno studente non dovrebbe ricordarsi solo gli aspetti tecnici o matematici di questa disciplina. Risulterà invece fondamentale aver capito a cosa serve la statistica, quando serve, e perché funziona in quel modo. A tale scopo aiuta molto avere sempre in mente uno o più esempi specifici per ogni tipo di analisi.

Transcript of LE BASI DELLA STATISTICA E LA RACCOLTA DEI DATIm.docente.unife.it/.../biostatistica-1/Slide1.pdf ·...

Page 1: LE BASI DELLA STATISTICA E LA RACCOLTA DEI DATIm.docente.unife.it/.../biostatistica-1/Slide1.pdf · 6 Popolazioni e campioni √ Tutti i gatti caduti dagli edifici di New York √

LE BASI DELLA STATISTICA E LA RACCOLTA DEI DATI

� Tre punti importanti o Dati e ipotesi

� In tutte le discipline scientifiche che studiano gli organismi viventi, molto raramente i dati ottenuti attraverso un esperimento oppure raccolti in natura ci permettono di giungere ad una conclusione con una certezza del 100%.

� La statistica ci aiuta in maniera oggettiva, numericamente, ad analizzare le diverse ipotesi: lo studio e l'interpretazione dei fenomeni biologici dipende quindi strettamente dal metodo statistico.

o Statistica e computer

� Il personal computer non ha reso inutile l'insegnamento della statistica. � Nelle analisi statistiche il personal computer svolge solo le funzioni più noiose e

meno importanti: ricordare le formule e applicarle velocemente ai dati riducendo il rischio di fare errori. Bisogna però capire il principio di un’analisi, decidere se tale analisi è adatta ai dati disponibili, e saperne interpretare il risultato.

o Formule, test, concetti, ed esempi

� Alla fine di un corso universitario di statistica destinato alle lauree nelle scienze della vita, uno studente non dovrebbe ricordarsi solo gli aspetti tecnici o matematici di questa disciplina. Risulterà invece fondamentale aver capito a cosa serve la statistica, quando serve, e perché funziona in quel modo. A tale scopo aiuta molto avere sempre in mente uno o più esempi specifici per ogni tipo di analisi.

Page 2: LE BASI DELLA STATISTICA E LA RACCOLTA DEI DATIm.docente.unife.it/.../biostatistica-1/Slide1.pdf · 6 Popolazioni e campioni √ Tutti i gatti caduti dagli edifici di New York √

2

Cos’è la statistica?

� Lo studio scientifico dei dati. Quando l’applicazione dei metodi statistici ha lo scopo di descrivere e comprendere i fenomeni di tipo biologico, si preferisce a volte utilizzare il termine “biometria”.

� La statistica descrittiva viene utilizzata per riassumere e rappresentare i dati

o 100 persone scelte a caso: quanti figli hanno? (se avesse intervistato altre 100 persone, sempre scelte a caso, avrebbe ottenuto una media diversa)

o dove preferite fare le vacanze? o Percentuale guarigioni in 50 pazienti controllo e 50 pazienti trattati (il risultato implica che il

farmaco sia efficace?) o La statistica descrittiva può essere anche molto complessa, ed è sempre molto utile come

indagine preliminare dei risultati ottenuti, ma alla fine ci fornisce solo una sintesi dei dati e/o ci facilita la loro lettura attraverso un grafico.

Page 3: LE BASI DELLA STATISTICA E LA RACCOLTA DEI DATIm.docente.unife.it/.../biostatistica-1/Slide1.pdf · 6 Popolazioni e campioni √ Tutti i gatti caduti dagli edifici di New York √

3

� La statistica inferenziale (la “vera” statistica) ci permette di generalizzare, con un certo grado di sicurezza, le conclusioni suggerite dall’analisi dei dati raccolti.

o Per esempio, se dall’analisi di un campione di 100 individui calcolo il valore medio del

numero medio di figli, la statistica inferenziale mi permette di dire qualcosa sulla media del numero di figli nella popolazione dalla quale proviene il campione.

o In questo caso, attraverso il calcolo di una statistica (la media nel campione) possiamo

dire qualcosa riguardo ad un parametro (la media nella popolazione): � Stima di parametri

o Test (o verifica) delle ipotesi: una volta definite delle ipotesi e analizzato un campione, di

definire oggettivamente, assegnando un livello di probabilità (ossia di certezza), quale ipotesi è maggiormente compatibile con i dati.

� Nell’esempio precedente del farmaco, definite le due ipotesi “il farmaco funziona” e “il

farmaco non funziona”, la statistica inferenziale ci permette di dire qualcosa in generale, nella popolazione cioè, sull’efficacia del farmaco, e non solo sulla differenza osservata in un campione di 100 pazienti.

Page 4: LE BASI DELLA STATISTICA E LA RACCOLTA DEI DATIm.docente.unife.it/.../biostatistica-1/Slide1.pdf · 6 Popolazioni e campioni √ Tutti i gatti caduti dagli edifici di New York √

4

Il processo inferenziale. Tutta la statistica inferenziale, e cioè tutta la statistica “vera”, è basata su questo processo, che permette, con un certo grado di certezza, di estendere alla popolazione (il fenomeno in senso lato) le conclusioni ottenute osservando un campione (una parte del fenomeno).

Page 5: LE BASI DELLA STATISTICA E LA RACCOLTA DEI DATIm.docente.unife.it/.../biostatistica-1/Slide1.pdf · 6 Popolazioni e campioni √ Tutti i gatti caduti dagli edifici di New York √

5

� Il campione: è semplicemente l'insieme degli elementi (detti anche unità campionarie o sperimentali) sui quali effettuiamo misure o osservazioni (per esempio, 20 marmotte catturate con trappole). o Costituisce una frazione della popolazione statistica, un gruppo più grande di elementi che

potenzialmente potremmo osservare e misurare. � La popolazione: può corrispondere ad un insieme finito di individui che hanno alcune

caratteristiche in comune (per esempio, tutte le marmotte che vivono nelle Alpi) o In generale, comunque, si preferisce definire la popolazione statistica come un insieme

infinito di elementi

� La statistica: definisce generalmente una disciplina scientifica, le scienze statistiche, ma una statistica è anche una qualsiasi misura ottenuta elaborando i dati raccolti nel campione. o Numero medio di parassiti osservati in 10 trote o Numero di pettirossi catturati con una rete in una giornata è una statistica.

� Una parte del processo inferenziale consiste nell'utilizzo delle statistiche per stimare alcune caratteristiche della popolazione, dette parametri.

� Numero medio di parassiti nella popolazione (e non solo nel campione) � Numero di pettirossi in una certa area, stimato partire dal numero di individui rimasti

imprigionati nella rete in un giorno. � I parametri si riferiscono alle popolazioni, sono generalmente ignoti, e si indicano quasi sempre

con lettere greche. Le statistiche si riferiscono al campione, sono calcolabili, si indicano con lettere latine, e si utilizzano per stimare i parametri.

Page 6: LE BASI DELLA STATISTICA E LA RACCOLTA DEI DATIm.docente.unife.it/.../biostatistica-1/Slide1.pdf · 6 Popolazioni e campioni √ Tutti i gatti caduti dagli edifici di New York √

6

Popolazioni e campioni

√ Tutti i gatti caduti dagli edifici di New York √ Tutti i geni del genoma umano √ Tutti gli individui maggiorenni in Australia √ Tutto i serpenti volanti del paradiso nel Borneo

o http://homepage.mac.com/j.socha/video/video.html √ Tutti i bambini asmatici di Milano √ I gatti caduti portati in un singolo ambulatorio in un certo intervallo di tempo √ 20 geni umani √ Un pub in Australia frequentato da maggiorenni √ Otto serpenti volanti del Borneo √ 50 bambini asmatici a Milano

Page 7: LE BASI DELLA STATISTICA E LA RACCOLTA DEI DATIm.docente.unife.it/.../biostatistica-1/Slide1.pdf · 6 Popolazioni e campioni √ Tutti i gatti caduti dagli edifici di New York √

7

Un esempio sull’inferenza statistica

� I maschi di trota fario sono più grandi delle femmine?

o Un biologo evoluzionista e un allevatore sono interessati alla domanda

� Pesano 40 individui adulti, 20 maschi e 20 femmine

o Media dei maschi = 1,05 kg o Media delle femmine = 0,92 o Cosa concludere??

� Nulla

o la trota nella popolazione non è costituita solamente da 40 individui

o la semplice intuizione dei fenomeni biologici e degli organismi viventi suggerisce che un secondo campione di 20 maschi e 20 femmine avrebbe potuto dare un risultato diverso

� E’ possibile fidarsi di risultati ottenuti in un campione se un ipotetico secondo campione potrebbe fornire risultati opposti? NO!

Page 8: LE BASI DELLA STATISTICA E LA RACCOLTA DEI DATIm.docente.unife.it/.../biostatistica-1/Slide1.pdf · 6 Popolazioni e campioni √ Tutti i gatti caduti dagli edifici di New York √

8

La variabilità sperimentale può portare per puro effetto del caso a risultati diversi in diversi campionamenti:

Page 9: LE BASI DELLA STATISTICA E LA RACCOLTA DEI DATIm.docente.unife.it/.../biostatistica-1/Slide1.pdf · 6 Popolazioni e campioni √ Tutti i gatti caduti dagli edifici di New York √

9

� Il peso degli individui è influenzato da un numero elevatissimo di fattori, molti dei quali

incontrollabili dallo sperimentatore o sconosciuti, e non solo, eventualmente, dall'appartenenza al sesso maschile o a quello femminile.

� Questa situazione è molto frequente nell'analisi dei fenomeni biologici perché esiste un'alta

variabilità da individuo a individuo, ed è proprio per questo motivo che abbiamo bisogno del metodo statistico.

� A partire dall'osservazione parziale di un fenomeno (il campione di 40 trote), la statistica ci

permette di trarre delle conclusioni valide in generale, quasi come se avessimo osservato interamente il fenomeno stesso (in questo caso la popolazione di tutte le trote).

� Quindi, prima di applicare il test statistico appropriato ai 40 pesi misurati, potremmo solamente

dire: o nel nostro campione, i maschi do trota sono mediamente più grandi delle femmine.

� Dopo aver applicato il test statistico, invece, potremmo, per esempio, giungere ad una

conclusione di questo genere: o l'analisi statistica indica che in generale i maschi di trota pesano di più delle femmine, e

tale affermazione ha una probabilità di essere errata inferiore al 5%.

Page 10: LE BASI DELLA STATISTICA E LA RACCOLTA DEI DATIm.docente.unife.it/.../biostatistica-1/Slide1.pdf · 6 Popolazioni e campioni √ Tutti i gatti caduti dagli edifici di New York √

10

Quando si può fare a meno del metodo statistico?

� Assenza di variabilità: se tutti i 20 maschi avessero esattamente lo stesso peso, per esempio 1,10 chilogrammi, e tutte le 20 femmine pesassero invece per esempio 0.97 chilogrammi

� se il biologo evoluzionista e l'allevatore avessero pesato un numero enorme di trote

� Riuscite a immaginare molte variabili biologiche che si comportino come al punto 1 qui sopra?

� Oppure,ad un esperimento in campo biomedico nel quale tutti gli individui ai quali è stato somministrato un farmaco reagiscono nello stesso modo?

� E riuscite altresì a pensare ad una raccolta di dati estesa come quella al punto 2?

Page 11: LE BASI DELLA STATISTICA E LA RACCOLTA DEI DATIm.docente.unife.it/.../biostatistica-1/Slide1.pdf · 6 Popolazioni e campioni √ Tutti i gatti caduti dagli edifici di New York √

11

Un esperimento: i rospi sono destrimani? Un altro esempio sull’importanza della statistica inferenziale

Page 12: LE BASI DELLA STATISTICA E LA RACCOLTA DEI DATIm.docente.unife.it/.../biostatistica-1/Slide1.pdf · 6 Popolazioni e campioni √ Tutti i gatti caduti dagli edifici di New York √

12

La raccolta dei dati: campioni buoni e campioni men o buoni

� Le osservazioni che vogliamo analizzare possono provenire da un campionamento (per esempio, i pesi delle trote, ma anche le concentrazioni di un certo composto chimico in diversi terreni) oppure da un esperimento (per esempio, lo stato di salute dei pazienti trattati o meno con un farmaco). In entrambi i casi, il campione dei dati, deve essere rappresentativo della popolazione.

� Campioni casuali e campioni distorti � Stime corrette e stime distorte � Stime precise e stime imprecise

Page 13: LE BASI DELLA STATISTICA E LA RACCOLTA DEI DATIm.docente.unife.it/.../biostatistica-1/Slide1.pdf · 6 Popolazioni e campioni √ Tutti i gatti caduti dagli edifici di New York √

13

Un campione distorto: perché?

Page 14: LE BASI DELLA STATISTICA E LA RACCOLTA DEI DATIm.docente.unife.it/.../biostatistica-1/Slide1.pdf · 6 Popolazioni e campioni √ Tutti i gatti caduti dagli edifici di New York √

14

Un campione non è casuale, ma distorto, quando, 1) gli individui non hanno tutti la stessa probabilità di essere campionati, e/o 2) la probabilità di un individuo di essere campionato dipende dal fatto che sia stato campionato un altro individuo Esempi: - un botanico raccoglie solo piante più alte, o più vicine alla strada - si fanno sondaggi telefonici - si usano trappole o reti che selezionano gli animali - campiono più individui in una stessa famiglia

Page 15: LE BASI DELLA STATISTICA E LA RACCOLTA DEI DATIm.docente.unife.it/.../biostatistica-1/Slide1.pdf · 6 Popolazioni e campioni √ Tutti i gatti caduti dagli edifici di New York √

15

Page 16: LE BASI DELLA STATISTICA E LA RACCOLTA DEI DATIm.docente.unife.it/.../biostatistica-1/Slide1.pdf · 6 Popolazioni e campioni √ Tutti i gatti caduti dagli edifici di New York √

16

Il campione di convenienza e il campione di volontari sono spesso distorti (non rappresentativi) Esempi di campioni di convenienza - Lesioni dei gatti che cadono dai cornicioni stimati sulla base dei gatti “ospedalizzati” - Merluzzi stimati sulla base della pesca - Inchieste telefoniche Esempi di campione di volontari (uomo) - Campioni provenienti da individui pagati - Campioni di individui che si offrono di rispondere a domande “imbarazzanti” Come si ottiene un campione casuale? E’ sempre possibile ottenerlo? Vediamo un esempio con i 5699 alberi nella foresta di Harvard

Page 17: LE BASI DELLA STATISTICA E LA RACCOLTA DEI DATIm.docente.unife.it/.../biostatistica-1/Slide1.pdf · 6 Popolazioni e campioni √ Tutti i gatti caduti dagli edifici di New York √

17

Page 18: LE BASI DELLA STATISTICA E LA RACCOLTA DEI DATIm.docente.unife.it/.../biostatistica-1/Slide1.pdf · 6 Popolazioni e campioni √ Tutti i gatti caduti dagli edifici di New York √

18

Studi sperimentali e studi osservazionali Nei primi, lo sperimentatore assegna casualmente diversi trattamenti agli individui Per esempio, topi scelti a caso riceveranno un trattamento oppure no. Nei secondi, è la natura che assegna i trattamenti Per esempio, analizzo la relazione tra colorazione e predazione: non scelgo io il colore da assegnare a ciascun individuo. Oppure, studio la relazione tra fumo e tumore: non scelgo io i soggetti a cui somministrare il “trattamento fumo” Negli studi osservazionali, una relazione può essere dovuta ad una causa comune, non ad una relazione di causa ed effetto tra le due variabili analizzate. Per esempio, i pesci rossi sono meno predati di quelli rosa, ma in realtà potrebbe esserci una terza variabile (salute media) che determina colore e livello di predazione. Oppure, potrebbero essere gli individui più depressi che fumano, e il rischio di tumore potrebbe dipendere dalla depressione e non dal fumo. Se da uno studio osservazionale passo ad uno studio sperimentale (per esempio, in un campione pesci, metà scelti a caso li coloro di rosso e metà di rosa; oppure, scelgo a caso un certo numero di topi e li metto in gabbie con fumo, un altro numero in gabbie senza fumo), posso capire molto di più riguardo le relazioni di causa ed effetto.