La distribuzione normale e normale standardizzata La disuguaglinaza di Chebischev.

19
La distribuzione normale e normale standardizzata La disuguaglinaza di Chebischev

Transcript of La distribuzione normale e normale standardizzata La disuguaglinaza di Chebischev.

Page 1: La distribuzione normale e normale standardizzata La disuguaglinaza di Chebischev.

La distribuzione normale e normale standardizzata

La disuguaglinaza di Chebischev

Page 2: La distribuzione normale e normale standardizzata La disuguaglinaza di Chebischev.

Presi un insieme di misure {x1 x2 , … , xN} ed un numero k 1 , La proporzione di misure rispetto al totale che distano dal valore medio non più di k volte “lo scarto quadratico medio” è almeno

211k

Il significato di questo teorema si può comprendere con l’aiuto della figura per la popolazione mostrata il teorema afferma che la proporzione della popolazione che sta nell’intervallo da m-ks a m+ks (L’area ombreggiata sotto la curva) deve essere almeno 1- 1 / k2 . Questo è il valore estremo inferiore della proporzione

Disuguaglianza di Chebychev Disuguaglianza di Chebychev

Page 3: La distribuzione normale e normale standardizzata La disuguaglinaza di Chebischev.

Per ogni k1, sia s la deviazione standard, e sia Sk definito come

Si ha che : nS#kk 211

Cioè almeno una frazione 211k

dei dati cade

nell’intervallo )ksx,ksx(

S ={i , 1 i n :|x -x| <k×s}k i

Disuguaglianza di Chebychev Disuguaglianza di Chebychev

Page 4: La distribuzione normale e normale standardizzata La disuguaglinaza di Chebischev.

La regola empirica (distribuzione normale)

x x

99.7% delle osservazioni cadono nell’intervallo ( -3sd, +3sd)x x

95.4% nell’intervallo ( -2sd, +2sd)x x

x x 68.2% nell’intervallo ( -sd, +sd)x x

Osservazioni

Questa regola si applica a dati continui che hanno una distribuzione normale

Page 5: La distribuzione normale e normale standardizzata La disuguaglinaza di Chebischev.

Contenuti della lezione

A livello delle singole osservazioni

• La distribuzione normale

• Lo z score

• La distribuzione normale standardizzata

Page 6: La distribuzione normale e normale standardizzata La disuguaglinaza di Chebischev.

La distribuzione normaleCurva simmetrica

a forma di campana

Media

Distribuzione simmetrica e unimodale (media=moda=mediana)

Caratterizzata da due parametri indipendenti: media e SD

Al variare di questi parametri la curva modifica la sua posizione.

La conoscenza di questi 2 parametri permette di calcolare la probabilità degli eventi di interesse.

Page 7: La distribuzione normale e normale standardizzata La disuguaglinaza di Chebischev.

Come varia la forma della curva al variare dei parametri

Esempio: Distribuzione delle altezze negli adulti maschi e femmine

Maschi

Media=175

SD=7

Femmine

Media=161

SD=6.3

161 175 Altezze

Page 8: La distribuzione normale e normale standardizzata La disuguaglinaza di Chebischev.

Esempio:

Livello di Frequenza Albumina (numero di pazienti)

20 2 22 6 24 7 26 9 28 21 30 20 32 28 34 39 36 28 38 22 40 12 42 11 44 4 46 3 48 1 50 1 52 1 56 1

---------- 216

Livello di albumina nel sangue in 216 pazienti affetti da cirrosi biliare primaria

Distribuzione del livello di albumina in pazienti cirrotici n=216

Fre

quen

za

Albumina0 20 40 60 80

0

.2

Distribuzione empirica

Distribuzione teorica

Media: =33.8, Deviazione Standard: =5.9

Page 9: La distribuzione normale e normale standardizzata La disuguaglinaza di Chebischev.

Distribuzione del livello di albumina in pazienti cirrotici n=216

Fre

quen

za

Albumina0 20 40 60 80

0

.2

Probabilità empirica

(12+11+4+3+1+1+1+1)/216=0.16

Probabilità teorica (area sotto la curva)

Qual è la probabilità di osservare un paziente con valore di albumina superiore o uguale a 40? Qual è la frequenza dei

pazienti con valori di albumina ….[Pr(x40)]

15.029.540

2

9.5

8.33

2

1

dxe

x

L’area totale sotto la curva è pari a 1

Prevede la conoscenza dei valori osservati e delle loro frequenze

Prevede la conoscenza della media e della deviazione statndard dei valori

2)(

2

2

1

x

exf

Espressione matematica

Page 10: La distribuzione normale e normale standardizzata La disuguaglinaza di Chebischev.

La regola empirica (distribuzione normale)

Questa regola si applica a dati continui che hanno una distribuzione normale

x x

99.7% delle osservazioni cadono nell’intervallo ( -3sd, +3sd)x x

95.4% nell’intervallo ( -2sd, +2sd)x x

x x

68.2% nell’intervallo ( -sd, +sd)x x

Osservazioni

Page 11: La distribuzione normale e normale standardizzata La disuguaglinaza di Chebischev.

Lo Z score

Lo z score è una trasformazione che permette di esprimere il fenomeno di interesse su una scala a-dimensionale.

DefinizioneLo z score, è la distanza (espressa in termini di deviazioni standard) tra un valore e la media. Esso è calcolato nel seguente modo:

z = (x-media) SD

Osservazioni

Page 12: La distribuzione normale e normale standardizzata La disuguaglinaza di Chebischev.

Esempio

Livello di albumina z-score frequenza 20 (20-33.8)/5.9 = -2.3 222 (22-33.8)/5.9 = -2 624 (24-33.8)/5.9 = -1.7 726 (26-33.8)/5.9 = -1.3 928 (28-33.8)/5.9 = -1 2130 (30-33.8)/5.9 = -0.6 2032 (32-33.8)/5.9 = -0.3 2834 (34-33.8)/5.9 = 0.03 3936 (36-33.8)/5.9 = 0.37 2838 (38-33.8)/5.9 = 0.71 2240 (40-33.8)/5.9 = 1.05 1242 (42-33.8)/5.9 = 1.39 1144 (44-33.8)/5.9 = 1.73 446 (46-33.8)/5.9 = 2.07 348 (48-33.8)/5.9 = 2.41 150 (50-33.8)/5.9 = 2.75 152 (52-33.8)/5.9 = 3.08 156 (56-33.8)/5.9 = 3.76 1

Media osservazioni=33.8 sd=5.9

Valori frequenti

Valori meno frequenti

Valori meno frequenti

Osservazioni

Page 13: La distribuzione normale e normale standardizzata La disuguaglinaza di Chebischev.

Valori non comuniValori non comuni Valori comuni

-3 -2 -1 0 1 2 3 Z

Se i dati (osservazioni) si distribuiscono “normalmente” vale la seguente regola:

Osservazioni

Page 14: La distribuzione normale e normale standardizzata La disuguaglinaza di Chebischev.

La distribuzione dello z score

Data una serie di valori distribuiti normalmente, la trasformazione di ogni osservazione in z score genera una nuova distribuzione:

La distribuzione normale La distribuzione normale standardizzata

Lo z score calcolato su valori normali si distribuisce normalmente con media zero e SD pari a 1

La normale standardizzata (media=0, sd=1)

SD

mediaxz

Osservazioni

Page 15: La distribuzione normale e normale standardizzata La disuguaglinaza di Chebischev.

Area sotto la curva (normale standardizzata)

Table 1

Osservazioni

Page 16: La distribuzione normale e normale standardizzata La disuguaglinaza di Chebischev.

99.7% degli z cadono

nell’intervallo (-3,+3)

95.4% nell’intervallo (-2,+2)

68.2% nell’intervall

o (-1,+1)

-3 -2 -1 0 1 2 3

La regola empirica (distribuzione normale standardizzata)Osservazioni

Page 17: La distribuzione normale e normale standardizzata La disuguaglinaza di Chebischev.

La distribuzione normale standardizzata

La distribuzione normale standardizzata è una distribuzione normale con parametri: Media=0, SD=1

Espressione matematica

2)(

2

2

1z

ezf

Le probabilità associate ad ogni valore di z sono note (di solite riportate in tabelle).

Osservazioni

Page 18: La distribuzione normale e normale standardizzata La disuguaglinaza di Chebischev.

Soluzione

a) Calcolo dello z-score

Esempio

71.184.5

5.3446.44

z

Il livello medio di albumina nel sangue di pazienti con cirrosi biliare è pari a 34.5 g/l con SD pari a 5.84 g/l

a) calcolare la probabilità di estrarre un paziente con valore superiore a 44.46

Pr(x>44.46)

b) calcolare la probabilità di estrarre un paziente con valore superiore a 40Pr(x>40)

la probabilità è pari a 1-(0.5+0.4564) = 0.044 (4%)

b) Calcolo dello z-score 94.084.5

5.3440

z

la probabilità è pari a 1-(0.5+0.3264) = 0.174 (17.4%)

Osservazioni

Page 19: La distribuzione normale e normale standardizzata La disuguaglinaza di Chebischev.

…la volta scorsa avevamo introdotto il concetto di distribuzione delle media aritmetica

… ci eravamo chiesti: quando è affidabile la stima della media calcolata sul campione?

… dipende dalla sua distribuzione…

… per grandi campioni la distribuzione è normale … con media pari al valore della media della popolazione e deviazione standard pari a SE

Campioni