inferenza - med.unipmn.itmagnani/pdf/inferenza.pdf · Statistica medica 15 La verifica di ipotesi...

28
Statistica medica 1 Inferenza statistica L’inferenza statistica è un insieme di metodi con cui si cerca di trarre una conclusione sulla popolazione sulla base di alcune informazioni ricavate da un campione estratto da quella popolazione. Il percorso dell’inferenza statistica si svolge secondo le seguenti fasi: 1. estrazione di un campione della popolazione 2. calcolo delle statistiche campionarie, cioè dei valori corrispondenti ai dati contenuti nel campione 3. stima dei parametri nella popolazione in base ai risultati forniti dal campione.

Transcript of inferenza - med.unipmn.itmagnani/pdf/inferenza.pdf · Statistica medica 15 La verifica di ipotesi...

Page 1: inferenza - med.unipmn.itmagnani/pdf/inferenza.pdf · Statistica medica 15 La verifica di ipotesi • Le ipotesi di ricerca sono un insieme di congettureo di supposizioni che possono

Statistica medica 1

Inferenza statistica

L’inferenza statistica è un insieme di metodi con cui si cerca di

trarre una conclusione sulla popolazione sulla base di alcune

informazioni ricavate da un campione estratto da quella

popolazione.

Il percorso dell’inferenza statistica si svolge secondo le seguenti

fasi:

1. estrazione di un campione della popolazione

2. calcolo delle statistiche campionarie, cioè dei valori

corrispondenti ai dati contenuti nel campione

3. stima dei parametri nella popolazione in base ai risultati

forniti dal campione.

Page 2: inferenza - med.unipmn.itmagnani/pdf/inferenza.pdf · Statistica medica 15 La verifica di ipotesi • Le ipotesi di ricerca sono un insieme di congettureo di supposizioni che possono

Statistica medica 2

Popolazione: • insieme che raccoglie tutte le osservazioni possibili,

relativamente ad una data variabile o ad un dato fenomeno.

• può essere finita (comunque molto grande) o infinita

Page 3: inferenza - med.unipmn.itmagnani/pdf/inferenza.pdf · Statistica medica 15 La verifica di ipotesi • Le ipotesi di ricerca sono un insieme di congettureo di supposizioni che possono

Statistica medica 3

Campione:

• raccolta finita di elementi estratti da una popolazione

• scopo dell’estrazione è quello di ottenere informazioni sulla

popolazione

• pertanto il campione deve essere rappresentativo della

popolazione da cui viene estratto (‘non viziato’)

• per corrispondere a queste esigenze il campione viene

individuato con un campionamento casuale.

Page 4: inferenza - med.unipmn.itmagnani/pdf/inferenza.pdf · Statistica medica 15 La verifica di ipotesi • Le ipotesi di ricerca sono un insieme di congettureo di supposizioni che possono

Statistica medica 4

In un campionamento casuale semplice tutti gli individui nella popolazione hanno uguale probabilità di essere inclusi nel campione.

- individui nella popolazione = "unità di campionamento"

- popolazione oggetto dello studio = "popolazione bersaglio"

- popolazione effettivamente campionabile (al netto dell'effetto

di fattori di selezione) = "popolazione studio " o base di

campionamento

Page 5: inferenza - med.unipmn.itmagnani/pdf/inferenza.pdf · Statistica medica 15 La verifica di ipotesi • Le ipotesi di ricerca sono un insieme di congettureo di supposizioni che possono

Statistica medica 5

Page 6: inferenza - med.unipmn.itmagnani/pdf/inferenza.pdf · Statistica medica 15 La verifica di ipotesi • Le ipotesi di ricerca sono un insieme di congettureo di supposizioni che possono

Statistica medica 6

• Una stima puntuale è un procedimento attraverso il quale a

partire dalle informazioni tratte da un campione si ottiene

come risultato un singolo valore numerico usato come stima

del parametro dell’intera popolazione Es: x = (? i xi ) / n

• Una stima intervallare è un procedimento attraverso il

quale a partire dalle informazioni tratte da un campione si ha

come risultato un insieme di valori che con un certo grado di

fiducia conterrà il parametro da stimare

Page 7: inferenza - med.unipmn.itmagnani/pdf/inferenza.pdf · Statistica medica 15 La verifica di ipotesi • Le ipotesi di ricerca sono un insieme di congettureo di supposizioni che possono

Statistica medica 7

Ø Campioni ripetuti dalla stessa popolazione forniscono medie campionarie diverse

Ø Ciascuna di queste medie campionarie costituisce una stima non distorta del parametro (media della popolazione) ma non può essere usata come stima del parametro da sola, senza tenere conto dell’incertezza causata dall’errore campionario.

Page 8: inferenza - med.unipmn.itmagnani/pdf/inferenza.pdf · Statistica medica 15 La verifica di ipotesi • Le ipotesi di ricerca sono un insieme di congettureo di supposizioni che possono

Statistica medica 8

- La media delle medie campionarie corrisponde alla media

della popolazione (µ)

- La variabilità della distribuzione delle medie campionarie è

inferiore alla variabilità nella popolazione. Campioni più grandi

daranno una distribuzione con variabilità inferiore.

- La forma della distribuzione di frequenza delle medie

campionarie è gaussiana o normale

Page 9: inferenza - med.unipmn.itmagnani/pdf/inferenza.pdf · Statistica medica 15 La verifica di ipotesi • Le ipotesi di ricerca sono un insieme di congettureo di supposizioni che possono

Statistica medica 9

La forma della distribuzione normale È la distribuzione di probabilità che meglio rappresenta molte variabili biologiche

Page 10: inferenza - med.unipmn.itmagnani/pdf/inferenza.pdf · Statistica medica 15 La verifica di ipotesi • Le ipotesi di ricerca sono un insieme di congettureo di supposizioni che possono

Statistica medica 10

Esempio: Quale sarà la probabilità di osservare un soggetto con una statura inferiore a m 1,5928 data una popolazione con altezza media 1,730 e deviazione standard 0,07 (distribuzione di partenza assunta come normale)?

z = (1,5928 - 1,730) / 0,07 = - 1,96

P(z<-1.96) = 0.025

σµ−

=x

z

Page 11: inferenza - med.unipmn.itmagnani/pdf/inferenza.pdf · Statistica medica 15 La verifica di ipotesi • Le ipotesi di ricerca sono un insieme di congettureo di supposizioni che possono

Statistica medica 11

Es: stima intervallare della media campionaria x : x + coefficiente di attendibilità x errore standard z1- a/2 o t1- a/2 (s / n ) o (s / n ) Se poniamo come grado di fiducia (livello di confidenza) che siamo disposti ad accettare 1- a = 0,95 allora l’interpretazione dell’intervallo è la seguente:

Page 12: inferenza - med.unipmn.itmagnani/pdf/inferenza.pdf · Statistica medica 15 La verifica di ipotesi • Le ipotesi di ricerca sono un insieme di congettureo di supposizioni che possono

Statistica medica 12

P=0,025 P=0,025 | x | = 1,960

0,95

Page 13: inferenza - med.unipmn.itmagnani/pdf/inferenza.pdf · Statistica medica 15 La verifica di ipotesi • Le ipotesi di ricerca sono un insieme di congettureo di supposizioni che possono

Statistica medica 13

Interpretazione dell’intervallo di confidenza: Estraendo tutti i possibili campioni da una popolazione distribuita normalmente, il 95% degli intervalli conterrà la media della popolazione ossia abbiamo un grado di fiducia del 95% che la media della popolazione si trovi tra i due valori estremi dell’intervallo. Esempio: Dati i valori (micromoli per minuto per grammo di tessuto) dell’attività di un certo enzima misurato nel tessuto gastrico normale di 35 pazienti con carcinoma gastrico:

Page 14: inferenza - med.unipmn.itmagnani/pdf/inferenza.pdf · Statistica medica 15 La verifica di ipotesi • Le ipotesi di ricerca sono un insieme di congettureo di supposizioni che possono

Statistica medica 14

Costruire un intervallo di confidenza al 95% per la media della popolazione. x + t1- a/2 x (s / n ) : (0,717971– 2,0 x 0,086311; 0,717971 + 2,0 x 0,086311) = (0,54; 0,89)

Con un grado di fiducia del 95%, la media della popolazione è compresa tra 0,54 e 0,89.

Numerical Summaries for X Number 35 Min 0,262

Mean 0,717971 Q1 0,3955 St Dev 0,510623 Median 0,55

Coeff of Var 0,711203

Q3 0,7775

Skew 1,980941 Max 2,464

Page 15: inferenza - med.unipmn.itmagnani/pdf/inferenza.pdf · Statistica medica 15 La verifica di ipotesi • Le ipotesi di ricerca sono un insieme di congettureo di supposizioni che possono

Statistica medica 15

La verifica di ipotesi

• Le ipotesi di ricerca sono un insieme di congetture o di supposizioni che possono essere il risultato di anni di osservazione da parte del ricercatore e che motivano la ricerca

• Le ipotesi statistiche sono ipotesi che possono essere

formulate in modo da poter essere valutate da adeguate tecniche statistiche

Nella verifica di ipotesi si deve quindi formulare la cosiddetta ipotesi nulla H0 che è l’ipotesi che deve essere saggiata.

Page 16: inferenza - med.unipmn.itmagnani/pdf/inferenza.pdf · Statistica medica 15 La verifica di ipotesi • Le ipotesi di ricerca sono un insieme di congettureo di supposizioni che possono

Statistica medica 16

Ø Se l’ipotesi nulla non è rifiutata si può concludere che i dati sui quali si effettua il test statistico non forniscono prove sufficienti per rifiutarla.

Ø Se invece l’ipotesi nulla viene rifiutata allora i dati saranno

compatibili con l’ipotesi alternativa H1 (ipotesi di lavoro) che riteniamo vera dato che il test ha portato al rifiuto dell’ipotesi nulla.

N.B. Con la verifica di ipotesi non arriviamo ad una dimostrazione di un’ipotesi, ma otteniamo un’indicazione del fatto che l’ipotesi è supportata dai dati disponibili.

Page 17: inferenza - med.unipmn.itmagnani/pdf/inferenza.pdf · Statistica medica 15 La verifica di ipotesi • Le ipotesi di ricerca sono un insieme di congettureo di supposizioni che possono

Statistica medica 17

La statistica test è una statistica che può essere calcolata a partire dai dati del campione.

Formula generale della statistica test =

(statistica di interesse-parametro ipotizzato) / (errore standard della statistica di interesse

Quindi: Data la distribuzione della statistica test, rifiuto l’ipotesi nulla se il valore della statistica test cade nella regione di rifiuto, mentre accetto l’ipotesi nulla se la statistica test cade nella regione di accettazione dell’ipotesi nulla.

Page 18: inferenza - med.unipmn.itmagnani/pdf/inferenza.pdf · Statistica medica 15 La verifica di ipotesi • Le ipotesi di ricerca sono un insieme di congettureo di supposizioni che possono

Statistica medica 18

Come posso definire la regione di accettazione e la regione di rifiuto? Fisso il livello di significatività a che è definito come la probabilità di rifiutare l’ipotesi nulla quando è vera : errore di prima specie. Poiché rifiutare l’ipotesi nulla quando è vera rappresenta un errore, dobbiamo quindi fissare un valore di a piccolo. Di solito a viene posto uguale a 0.05.

Page 19: inferenza - med.unipmn.itmagnani/pdf/inferenza.pdf · Statistica medica 15 La verifica di ipotesi • Le ipotesi di ricerca sono un insieme di congettureo di supposizioni che possono

Statistica medica 19

§ Nel test bidirezionale (test a due code) la regione di rifiuto è

divisa in due parti o due code della distribuzione della statistica test. § Un test unidirezionale è un test in cui la regione di rifiuto si

trova in una o in un’altra coda della distribuzione.

Page 20: inferenza - med.unipmn.itmagnani/pdf/inferenza.pdf · Statistica medica 15 La verifica di ipotesi • Le ipotesi di ricerca sono un insieme di congettureo di supposizioni che possono

Statistica medica 20

L’errore che si commette se accettiamo l’ipotesi nulla quando è falsa si chiama errore di II specie : ß

Possibile IPOTESI NULLA scelta VERA FALSA Non rifiutare H0 Scelta corretta ß Rifiutare H0 a Scelta corretta

Page 21: inferenza - med.unipmn.itmagnani/pdf/inferenza.pdf · Statistica medica 15 La verifica di ipotesi • Le ipotesi di ricerca sono un insieme di congettureo di supposizioni che possono

Statistica medica 21

Il Procedimento

Formulare Ho Calcolare la statistica test sui dati

Calcolare la plausibilità di Ho visti i dati Conclusione Non rifiuto Ho Rifiuto Ho

Page 22: inferenza - med.unipmn.itmagnani/pdf/inferenza.pdf · Statistica medica 15 La verifica di ipotesi • Le ipotesi di ricerca sono un insieme di congettureo di supposizioni che possono

Statistica medica 22

Esempio: I seguenti dati rappresentano le circonferenze (cm) della testa alla nascita di 15 bambini: 33.38 32.15 33.99 34.10 33.97 34.34 33.95 33.85 34.23 32.73 33.46 34.13 34.45 34.19 34.05 Voglio saggiare l’ipotesi nulla: H0 : µ = 34.5 contro H1 : µ = 34.5

Page 23: inferenza - med.unipmn.itmagnani/pdf/inferenza.pdf · Statistica medica 15 La verifica di ipotesi • Le ipotesi di ricerca sono un insieme di congettureo di supposizioni che possono

Statistica medica 23

Assumiamo che la statistica test appropriata sia la statistica t. Fissiamo a = 0,05 T = ( x – 34,5) / (s / n ) = (33,798-34,5)/(0,63/3,87) = -4,31 La probabilità di osservare un valore di t < -4,31 è pari a 0,00036 e la probabilità di osservare un valore di t > 4,31 = 0,00036

Sample Data Sample Size 15 Mean 33,798

Standard Deviation 0,630297

Page 24: inferenza - med.unipmn.itmagnani/pdf/inferenza.pdf · Statistica medica 15 La verifica di ipotesi • Le ipotesi di ricerca sono un insieme di congettureo di supposizioni che possono

Statistica medica 24

p-value = 0,00072 p < a quindi rifiuto l’ipotesi nulla µ = 34.5

Page 25: inferenza - med.unipmn.itmagnani/pdf/inferenza.pdf · Statistica medica 15 La verifica di ipotesi • Le ipotesi di ricerca sono un insieme di congettureo di supposizioni che possono

Statistica medica 25

Il valore p è la probabilità di osservare sotto l’ipotesi nulla un valore della statistica test maggiore o uguale (nel verso appropriato) di quello realmente calcolato. Se il valore di p è minore o uguale ad a allora rifiutiamo l’ipotesi nulla; se invece il valore di p è maggiore di a non rifiutiamo l’ipotesi nulla.

Page 26: inferenza - med.unipmn.itmagnani/pdf/inferenza.pdf · Statistica medica 15 La verifica di ipotesi • Le ipotesi di ricerca sono un insieme di congettureo di supposizioni che possono

Statistica medica 26

Esercizio:

1.Ipotizzo in base a dati di laboratorio che il fumo di tabacco

aumenti i valori pressori nei forti fumatori (H1)

2. H0: 'i forti fumatori hanno la stessa pressione media della

popolazione'.

3. Fisso l'errore α al 5%; sono interessato ad eventuali

scostamenti in entrambe le direzioni (test di ipotesi bilaterale o 'a

2 code')

4. Programmo uno studio in cui viene misurata la pressione

arteriosa sistolica a 36 soggetti.

Page 27: inferenza - med.unipmn.itmagnani/pdf/inferenza.pdf · Statistica medica 15 La verifica di ipotesi • Le ipotesi di ricerca sono un insieme di congettureo di supposizioni che possono

Statistica medica 27

5. La variabile 'pressione arteriosa' nella popolazione ha

distribuzione gaussiana. Il valore medio nella popolazione è 165.

Non conosco il valore della deviazione standard nella

popolazione.

6. Il test statistico è il test t di student.

7. Conduco lo studio ed ottengo i seguenti risultati.

Media = 172,8

Deviazione standard= 24,25

L’errore standard sarà quindi = 4,04

Page 28: inferenza - med.unipmn.itmagnani/pdf/inferenza.pdf · Statistica medica 15 La verifica di ipotesi • Le ipotesi di ricerca sono un insieme di congettureo di supposizioni che possono

Statistica medica 28

8a Calcolo del test

t = (Media campione – media popolazione) / Errore standard =

(172,8 – 165) / 4,04 = 7,8 / 4,04 = 1,93

La probabilità che il campione sia stato estratto da una

popolazione con media pari a 165 mmHg è compresa tra 0,05 e

0,10.

Non escludo pertanto l’ipotesi nulla che il campione sia stato estratto da una popolazione con tale media.