La distribuzione normale e normale standardizzata La disuguaglinaza di Chebischev.
-
Upload
nunziatina-vacca -
Category
Documents
-
view
259 -
download
0
Transcript of La distribuzione normale e normale standardizzata La disuguaglinaza di Chebischev.
La distribuzione normale e normale standardizzata
La disuguaglinaza di Chebischev
Presi un insieme di misure {x1 x2 , … , xN} ed un numero k 1 , La proporzione di misure rispetto al totale che distano dal valore medio non più di k volte “lo scarto quadratico medio” è almeno
211k
Il significato di questo teorema si può comprendere con l’aiuto della figura per la popolazione mostrata il teorema afferma che la proporzione della popolazione che sta nell’intervallo da m-ks a m+ks (L’area ombreggiata sotto la curva) deve essere almeno 1- 1 / k2 . Questo è il valore estremo inferiore della proporzione
Disuguaglianza di Chebychev Disuguaglianza di Chebychev
Per ogni k1, sia s la deviazione standard, e sia Sk definito come
Si ha che : nS#kk 211
Cioè almeno una frazione 211k
dei dati cade
nell’intervallo )ksx,ksx(
S ={i , 1 i n :|x -x| <k×s}k i
Disuguaglianza di Chebychev Disuguaglianza di Chebychev
La regola empirica (distribuzione normale)
x x
99.7% delle osservazioni cadono nell’intervallo ( -3sd, +3sd)x x
95.4% nell’intervallo ( -2sd, +2sd)x x
x x 68.2% nell’intervallo ( -sd, +sd)x x
Osservazioni
Questa regola si applica a dati continui che hanno una distribuzione normale
Contenuti della lezione
A livello delle singole osservazioni
• La distribuzione normale
• Lo z score
• La distribuzione normale standardizzata
La distribuzione normaleCurva simmetrica
a forma di campana
Media
Distribuzione simmetrica e unimodale (media=moda=mediana)
Caratterizzata da due parametri indipendenti: media e SD
Al variare di questi parametri la curva modifica la sua posizione.
La conoscenza di questi 2 parametri permette di calcolare la probabilità degli eventi di interesse.
Come varia la forma della curva al variare dei parametri
Esempio: Distribuzione delle altezze negli adulti maschi e femmine
Maschi
Media=175
SD=7
Femmine
Media=161
SD=6.3
161 175 Altezze
Esempio:
Livello di Frequenza Albumina (numero di pazienti)
20 2 22 6 24 7 26 9 28 21 30 20 32 28 34 39 36 28 38 22 40 12 42 11 44 4 46 3 48 1 50 1 52 1 56 1
---------- 216
Livello di albumina nel sangue in 216 pazienti affetti da cirrosi biliare primaria
Distribuzione del livello di albumina in pazienti cirrotici n=216
Fre
quen
za
Albumina0 20 40 60 80
0
.2
Distribuzione empirica
Distribuzione teorica
Media: =33.8, Deviazione Standard: =5.9
Distribuzione del livello di albumina in pazienti cirrotici n=216
Fre
quen
za
Albumina0 20 40 60 80
0
.2
Probabilità empirica
(12+11+4+3+1+1+1+1)/216=0.16
Probabilità teorica (area sotto la curva)
Qual è la probabilità di osservare un paziente con valore di albumina superiore o uguale a 40? Qual è la frequenza dei
pazienti con valori di albumina ….[Pr(x40)]
15.029.540
2
9.5
8.33
2
1
dxe
x
L’area totale sotto la curva è pari a 1
Prevede la conoscenza dei valori osservati e delle loro frequenze
Prevede la conoscenza della media e della deviazione statndard dei valori
2)(
2
2
1
x
exf
Espressione matematica
La regola empirica (distribuzione normale)
Questa regola si applica a dati continui che hanno una distribuzione normale
x x
99.7% delle osservazioni cadono nell’intervallo ( -3sd, +3sd)x x
95.4% nell’intervallo ( -2sd, +2sd)x x
x x
68.2% nell’intervallo ( -sd, +sd)x x
Osservazioni
Lo Z score
Lo z score è una trasformazione che permette di esprimere il fenomeno di interesse su una scala a-dimensionale.
DefinizioneLo z score, è la distanza (espressa in termini di deviazioni standard) tra un valore e la media. Esso è calcolato nel seguente modo:
z = (x-media) SD
Osservazioni
Esempio
Livello di albumina z-score frequenza 20 (20-33.8)/5.9 = -2.3 222 (22-33.8)/5.9 = -2 624 (24-33.8)/5.9 = -1.7 726 (26-33.8)/5.9 = -1.3 928 (28-33.8)/5.9 = -1 2130 (30-33.8)/5.9 = -0.6 2032 (32-33.8)/5.9 = -0.3 2834 (34-33.8)/5.9 = 0.03 3936 (36-33.8)/5.9 = 0.37 2838 (38-33.8)/5.9 = 0.71 2240 (40-33.8)/5.9 = 1.05 1242 (42-33.8)/5.9 = 1.39 1144 (44-33.8)/5.9 = 1.73 446 (46-33.8)/5.9 = 2.07 348 (48-33.8)/5.9 = 2.41 150 (50-33.8)/5.9 = 2.75 152 (52-33.8)/5.9 = 3.08 156 (56-33.8)/5.9 = 3.76 1
Media osservazioni=33.8 sd=5.9
Valori frequenti
Valori meno frequenti
Valori meno frequenti
Osservazioni
Valori non comuniValori non comuni Valori comuni
-3 -2 -1 0 1 2 3 Z
Se i dati (osservazioni) si distribuiscono “normalmente” vale la seguente regola:
Osservazioni
La distribuzione dello z score
Data una serie di valori distribuiti normalmente, la trasformazione di ogni osservazione in z score genera una nuova distribuzione:
La distribuzione normale La distribuzione normale standardizzata
Lo z score calcolato su valori normali si distribuisce normalmente con media zero e SD pari a 1
La normale standardizzata (media=0, sd=1)
SD
mediaxz
Osservazioni
Area sotto la curva (normale standardizzata)
Table 1
Osservazioni
99.7% degli z cadono
nell’intervallo (-3,+3)
95.4% nell’intervallo (-2,+2)
68.2% nell’intervall
o (-1,+1)
-3 -2 -1 0 1 2 3
La regola empirica (distribuzione normale standardizzata)Osservazioni
La distribuzione normale standardizzata
La distribuzione normale standardizzata è una distribuzione normale con parametri: Media=0, SD=1
Espressione matematica
2)(
2
2
1z
ezf
Le probabilità associate ad ogni valore di z sono note (di solite riportate in tabelle).
Osservazioni
Soluzione
a) Calcolo dello z-score
Esempio
71.184.5
5.3446.44
z
Il livello medio di albumina nel sangue di pazienti con cirrosi biliare è pari a 34.5 g/l con SD pari a 5.84 g/l
a) calcolare la probabilità di estrarre un paziente con valore superiore a 44.46
Pr(x>44.46)
b) calcolare la probabilità di estrarre un paziente con valore superiore a 40Pr(x>40)
la probabilità è pari a 1-(0.5+0.4564) = 0.044 (4%)
b) Calcolo dello z-score 94.084.5
5.3440
z
la probabilità è pari a 1-(0.5+0.3264) = 0.174 (17.4%)
Osservazioni
…la volta scorsa avevamo introdotto il concetto di distribuzione delle media aritmetica
… ci eravamo chiesti: quando è affidabile la stima della media calcolata sul campione?
… dipende dalla sua distribuzione…
… per grandi campioni la distribuzione è normale … con media pari al valore della media della popolazione e deviazione standard pari a SE
Campioni