LEZIONI DI STATISTICA MEDICA - ddsp.univr.it · x Z TEOREMA Sia X una variabile aleatoria continua...

Post on 14-Feb-2019

232 views 0 download

Transcript of LEZIONI DI STATISTICA MEDICA - ddsp.univr.it · x Z TEOREMA Sia X una variabile aleatoria continua...

LEZIONI DI LEZIONI DI STATISTICA MEDICASTATISTICA MEDICA

-- DDistribuzioneistribuzione binomialebinomiale

-- Distribuzione NormaleDistribuzione Normale

Sezione di Epidemiologia & Statistica Medica

Università degli Studi di Verona

A.A. 2010/2011

DISTRIBUZIONI TEORICHE DI PROBABILITA’

DISTRIBUZIONE DI PROBABILITA’: insieme delle probabilità

associate a tutti i possibili eventi casuali di uno spazio campionario

La somma delle singole probabilità deve dare 1.

Esempio

• Il lancio di 3 monete può casualmente portare a ottenere da 0 a 3 teste.

La probabilità associata all’evento testa

per una moneta è 0.5.

},,,,,,,{ TTTTTCTCTCTTTCCCTCCCTCCCS =

L’evento composto dei 3 lanci porta ad una probabilità

specifica per ogni possibile esito.

P(0_T)=P(1°lancio sia C)*P(2°lancio sia C)*P(3°lancio sia C)=

=(1-0.5)*(1-0.5)*(1-0.5)=0.125

P(1_T)=P(1°lancio sia T)*P(2°lancio sia C)*P(3°lancio sia C) +

+ P(1°lancio sia C)*P(2°lancio sia T)*P(3°lancio sia C) +

+ P(1°lancio sia C)*P(2°lancio sia C)*P(3°lancio sia T) =

=(0.5)*(1-0.5)*(1-0.5)+

+(1-0.5)*(0.5)*(1-0.5)+

+(1-0.5)*(1-0.5)*(0.5) =0.375

Regola probabilità indipendenti:

0.12513

0.37532

0.37531

0.12510

PROBABILITA’EVENTI FAVOREVOLI

N. TESTA

P(2_T)=…………………=0.375

P(3_T)=…………………=0.125

OTTENIAMO:

• Esempi:

• Numero di figli maschi in una famiglia di 3 figli

• Numero di aborti su 4 gravidanze

• Numero di interventi di bypass coronarico riusciti su 10 interventi effettuati

• Numero di soggetti con ictus in un reparto di cardiologia con 23 soggetti

VARIABILI CASUALI DISCRETE

La distribuzione di probabilità di una variabile casuale discreta

prevede che ad ogni possibile determinazione della variabile

casuale sia associata la probabilità del verificarsi di tale

determinazione.

Se le possibile determinazioni della variabile casuale sono k e se la

probabilità della determinazione i-esima (i=1,…,k) è indicata con

pi , allora:

1) pi ≥0

2) Σi pi =1

ESPERIMENTO BERNOULLIANO

Solo 2 possibili esiti in ogni prova:

Esempi:

Successo

(S)

Insuccesso

(I)

1. Stato di vita

2. Lancio di una moneta

Pr(S)=π Pr(I)=1-Pr(S)=1-π

Prove

indipendenti

VARIABILE CASUALE BERNOULLIANA

Variabile che assume solo due valori con definite probabilità

Esempio:Consideriamo la variabile casuale bernoulliana X= “Avere gruppo

sanguigno B”; sappiamo che la probabilità di appartenere a tale gruppo sanguigno vale 0.08. La sua distribuzione di probabilità sarà:

X= 1 avere gruppo sanguigno B Pr(X=1)=0.08= πX= 0 non avere gruppo sanguigno B Pr(X=0)=1-0.08=0.92=1- π

Distribuzione di probabilità di X:

X f(X)

1 0.080 0.92

π1

1-π0

f(X)X

Esempio (N=2): Calcoliamo la distribuzione di probabilità della

variabile casuale X= avere il gruppo B, su 2 soggetti presi a caso dalla popolazione (prove indipendenti9.

X f(X)

no B, no B 0 0.85B, not B 1 0.07not B, B 1 0.07B, B 2 0.01

Pr(X=0)=(1- π)(1- π)=0.92*0.92=0.8464

Pr(X=1)=2*π(1- π)=2*0.08*0.92=0.1472

Pr(X=2)=π* π=0.08*0.08=0.0064

Esperimento bernoulliano ripetuto

0.0

0.5

1.0

0 1 2

DISTRIBUZIONE BINOMIALE

La distribuzione binomiale ‘modellizza’ la probabilità di n successi

su N esperimenti

ESEMPIO:

Numero di maschi in una famiglia di 3 figli ( la probabilità che un neonato

sia maschio è 0.52):

N u m e r o d i m a s c h i P r o b a b i l i t à

0 0 .1 11 0 .3 62 0 .3 93 0 .1 4

Esempi:

•Numero di aborti su 4 gravidanze

•Numero di interventi di bypass coronarico riusciti su 10

interventi

{ })()1()!(!

!)( xnx pp

xnx

nxXP −−

−==

DISTRIBUZIONE BINOMIALE

dove:n!= n*(n-1)+(n-2)*…*2*1

Esempio:La probabilità per un bambino tra 0 e 3 anni di subire una lussazione della

spalla è 0.3. In una famiglia con 3 gemellini di 3 anni, qual è la probabilità

che 0, 1 , 2 o tutti e 3 abbiano subito una lussazione della spalla?

SISINO

SINOSI

NOSISI

SISISI

NONOSI

NOSINO

SINONO

NONONO

3°2°1°

0

1

2

3

{ })()1()!(!

!)( xnx pp

xnx

nxXP −−

−==

DISTRIBUZIONE BINOMIALE

{ } { } 343.0)7.0(*1*1)3.01(3.0)!03(!0

!3)0( 3)03(0 ==−

−== −XP

{ } { } 441.0)7.0(*3.0*3)3.01(3.0)!13(!1

!3)1( 2)13(1 ==−

−== −XP

{ } { } 189.0)7.0(*3.0*3)3.01(3.0)!23(!2

!3)2( 12)23(2 ==−

−== −XP

{ } { } 027.01*3.0*1)3.01(3.0)!33(!3

!3)3( 3)33(3 ==−

−== −XP

1027.0189.0441.0343.0)(3

0

=+++==∑=i

iXP

0

0,1

0,2

0,3

0,4

0,5

0 1 2 3

P(X

=i)

Visualizzazione grafica della distribuzione binomiale di probabilità

Se in una scuola ci sono 16 famiglie con 3 gemellini ciascuna, quante famiglie mi aspetto aver avuto 0, 1, 2, 3 lussazioni? E = P(A) • N

E(0) = 0.343*16 = 5.49

E(1) = 0.441*16 = 7.06

E(2) = 0.189*16 = 3.02

E(3) = 0.027*16 = 0.43 012345678

0 1 2 3

N

ESERCIZIO

In un ambulatorio di analisi arrivano successivamente due provette dal reparto di endocrinologia. Se la probabilità, per un paziente ricoverato, di avere diabete è di 0.2, qual è la probabilità che i risultati delle analisi di glicemia risultino alterati?

{ } 64.08.0*2.0)!02(!0

!2)0( )02(0 =

−== −XP

{ } 32.08.0*2.0)!12(!1

!2)1( )12(1 =

−== −XP

{ } 04.0)8.0(2.0)!22(!2

!2)2( )22(0 =

−== −XP

Se arrivano allo stesso laboratorio 20 coppie di provette da reparti di endocrinologia differenti, in quanti reparti mio aspetto avere risultati della glicemia alterati per un solo valore?

E(1) = 0.32*20= 6.4

VARIABILI CASUALI CONTINUEDISTRIBUZIONE NORMALE (o di Gauss)

La distribuzione normale è particolarmente adatta a ‘modellizzare’

e descrivere molte variabili sia fisiche che biologiche

Si può immaginare come una distribuzione binomiale che, per un numero infinito di prove diventa continua

ESEMPI•Altezza di un campione di 10000 soggetti

•Livello di emoglobina nel sangue in 1000 soggetti

ESEMPI

0

5

10

15

20

25

30

25-30 30-35 35-40 40-45 45-50 50-55 55-60 60-65 65-70 70-75 75-80 80-85

Pressione arteriosa diastolica (mmHg) di 121 scolar i

0

2000

4000

6000

8000

10000

12000

14000

150-

152

152-

154

154-

156

156-

158

158-

160

160-

162

162-

164

164-

166

166-

168

168-

170

170-

172

172-

174

174-

176

176-

178

178-

180

180-

182

182-

184

Distribuzione della frequenza assoluta dell'Altezza (cm) in un campione di 71800 maschi adulti

ESEMPI

CARATTERISTICHE DELLA DISTRIBUZIONE DI PROBABILITA’ NORMALE

CARATTERISTICHE DELLA DISTRIBUZIONE DI PROBABILITA’ NORMALE

•e’ unimodale, simmetrica attorno alla media;

• e’ univocamente determinata dai due parametri µ e σ,

rispettivamente media e deviazione standard;

•media, moda, mediana coincidono;

CARATTERISTICHE DELLA DISTRIBUZIONE DI PROBABILITA’NORMALE (continua)

•sono rappresentati tutti i valori compresi tra -∞ e +∞, al

tendere di x a -∞ e +∞ la curva tende asintoticamente a 0;

•l’area sottesa dalla curva, come tutte le distribuzioni di

probabilita’ continue e’ 1;

•la distanza dei punti di flesso dalla media e’ pari alla

deviazione standard σ;

CARATTERISTICHE DELLA DISTRIBUZIONE DI PROBABILITA’NORMALE (continua)

• La frazione di area compresa tra due valori della

variabile e’ assimilabile alla probabilità di riscontrare

casualmente una misura entro tale intervallo;

• La probabilità di un singolo punto e’ praticamente

nulla.

MA COME CALCOLAREL’AREA?

−−=

2

2

2

)(exp

2

1)(

σµ

πσx

Xf

DEVIATA NORMALE STANDARDIZZATA

•La forma specifica di ogni distribuzione normale dipende dai parametri µ e σ

•E’ possibile ricondurre qualsiasi distribuzione normale a un’unica distribuzione che prende il nome di DEVIATA NORMALE STANDARDIZZATA

DEVIATA NORMALE STANDARDIZZATA

σµ−= x

Z

TEOREMA

Sia X una variabile aleatoria continua distribuita normalmente:

N (µ, σ),

allora la nuova variabile Z avrà una distribuzione normale con

µ = 0 e σ = 1: N(0, 1)

ESEMPIO

Tra i non diabetici il livello ematico di glucosio a digiuno è distribuito

normalmente con media 105 mg/100 ml e deviazione standard 9 mg/100

ml.

a) Calcolare la probabilità che un soggetto non diabetico abbia un livello

di glicemia compreso tra 90 e 125 mg/100 ml.

22.29

105125

67.19

10590

22

11

=−=−=

−=−=−=

σµ

σµ

xz

xz

-1.67 2.22

-1.67 2.22

Dalle tabelle della curva Gussiana:

P(-1.67<X<=0)=0.4525

P(0<=X<2.22)=0.4868

P(-1.67<X<2.22)==0.4525+0.4868=0.9393

b) Qual è il livello di glicemia al di sotto del quale cade il 10% della

popolazione dei non diabetici.

mlmgx

xx

100/5.93105928.1

,9

10528.1

=+∗−=

−=−=−σ

µ

c) Determinare i livelli di glicemia entro i quali cadono il 95% dei non diabetici

mlmgx

xx

100/36.87105996.1

,9

10596.1

=+∗−=

−=−=−σ

µ

mlmgx

xx

100/64.122105996.1

,9

10596.1

=+∗=

−=−=σ

µ

NB: 95% p=0.95 0.475 a sx e 0.475 a dx di µ.

Livelli al 95% : (87.36, 122.64)

ESERCIZIO

Il livello di colesterolo totale di una determinata popolazione sono

approssimativamente distribuiti in modo normale con media 200 mg/100ml

e d.s. 20 mg/100ml.

1) Qual è la probabilità che una persona presa a caso da tale popolazione

abbia un valore di colesterolo compreso tra 160 e 175 mg/100ml

cc

ESERCIZIO

La durata della gestazione per donne sane e’ mediamente pari a 280 gg, con

una deviazione standard di 10 gg.

Supponendo che la durata della gestazione sia distribuita normalmente,

determinate la proporzione di donne sane con durata superiore a 1 settimana

e la proporzione con durata superiore a 2 settimane.

ESERCIZIO

La durata della gestazione per donne sane e’ mediamente pari a 280 gg, con

una deviazione standard di 10 gg.

Supponendo che la durata della gestazione sia distribuita normalmente,

determinate la proporzione di donne sane con durata superiore a 1 settimana

e la proporzione con durata superiore a 2 settimane.

P(x>287)=P(Z>(287-280)/10)=P(Z>0.7)=0.242

P(x>294)=P(Z>(294-280)/10)=P(Z>0.1.4)=0.0.81

4 0 5 0 6 0 7 0 8 0 9 0 1 0 0 1 1 0P e s o ( K g )

Den

sità

di p

roba

bilit

ൠµ µ µ = 5 5 K gσσσσ = 4 K g σσσσ = 1 0 K g

µ µ µ µ = 8 5 K g

deviata normale standardizzata (z)

dens

ità d

i pro

babi

lità

-3 -2 -1 0 +1 +2 +3

Esistono delle tavole (tavole della z) che danno la probabilità che

Z sia maggiore di un valore qualsiasi.

z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641 0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247 0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859 0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483 0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121

0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776 0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451 0,7 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148 0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867 0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611

1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379 1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170 1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985 1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823 1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681

1,5 0,0668 0,0655 0,06430 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559 1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455 1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367 1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294 1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233

P(Z≥z)

Qual è la probabilità che Z sia maggiore o uguale a 1,87?

z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641 0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247 0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859 0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483 0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121

0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776 0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451 0,7 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148 0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867 0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611

1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379 1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170 1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985 1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823 1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681

1,5 0,0668 0,0655 0,06430 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559 1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455 1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367 1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294 1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233

P(Z≥z) 0,0307 = 3,07%

Qual è la probabilità che Z sia maggiore o uguale a 0,75?

z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641 0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247 0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859 0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483 0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121

0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776 0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451 0,7 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148 0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867 0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611

1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379 1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170 1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985 1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823 1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681

1,5 0,0668 0,0655 0,06430 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559 1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455 1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367 1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294 1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233

P(Z≥z) 0,2266 = 22,66%

Esercizio 1:

A. Utilizzando le tavole di Z, calcolare la probabilità che:

1. Z>1.30

2. Z<-0.85

3. 0.50<Z<1.05

B. Utlizzando le tavole di Z, calcolare quel valore che ha una probabilità del 35%

di essere superato.

Esercizio 2: Si supponga che nella popolazione maschile adulta

italiana la variabile “peso in kg” sia: X~N(75, 8):

A. Utilizzando le tavole di Z, calcolare la probabilità che:

1. Un soggetto preso a caso abbia un peso ≤63 kg

2. Un soggetto abbia un peso compreso tra 69 e 92

B. Qual è il valore del peso tale per cui l’80% ha valori inferiori?

Soluzione:

Esercizio 1:

Soluzione:

1. Quale % di non diabetici ha livelli compresi tra 90 e 125 mg/ml

2. Qual è il valore di glicemia tale per cui il 90% dei soggetti ha valori superiori

3. Quali livelli di glicemia comprendono il 95% dei non diabetici

1. Calcoliamo il valore di Z relativo 90: z = (90-105)/9 =-1.67

e quello relativo a 125: z = (125-105)/9 =2.22

P(-1.67≤Z≤2.22)=1-[P(Z≤-1.67)+P(Z>2.22)]=1-[P(Z>1.67)+P(Z>2.22)]=

=1-(0.049+0.013)=0.938=93.8%

Si assuma che tra i non diabetici, il livello ematico di glucosio a digiuno sia distribuito in maniera approssimativamente normale con media=105 mg/mled una deviazione standard= 9 mg/ml.Calcolare:

X= livello ematico di glucosio

2. Cerco il valore di Z tale per cui:

P(Z≤c)=0.1 C=-1.28 -1.28=(x-105)/9 X=93.5

3. Livelli di glicemia che comprendono il 95% dei non diabetici

Pr(µµµµ -1.96 σσσσ ≤x ≤ µµµµ -1.96 σσσσ)=0.95

Quindi l’intervallo ricercato sarà:

µµµµ ∓∓∓∓1.96 σσσσ= 105 ∓∓∓∓1.96 9 87.4-122.6