Post on 01-May-2015
Matematica e statisticaVersione didascalica: parte 6
• Sito web del corso
http://www.labmat.it
• Docente: Prof. Sergio Invernizzi, Università di Trieste
• e-mail: inverniz@units.it
1.6. Variabili aleatorie finite
• Esperimento E• Spazio campionario • In ogni prova, osservata (misurata) una “variabile” X• Il valore osservato di X dipende da quale degli eventi elementari si verifica nella prova in questione: X è una “variabile aleatoria”.• Nel caso più semplice X assume un numero finito di valori :
con corrispondenti probabilità
1 2 3, , , ..., Np p p p
1 2 3, , , ..., Nx x x x
1.6. Variabili aleatorie finite: esempio
2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12
Nel caso dei due dadi X assume un numero finito di valori :
con corrispondenti probabilità
3 5 6 5 31 2 4 4 2 136 36 36 36 36 36 36 36 36 36 36, , , , , , , , , ,
1.6. Variabili aleatorie finite: esempio
• Esperimento E = lancio di due dadi• Spazio campionario • La v.a. X in questione è null’altro che una applicazione reale X : R definita sulle coppie = (r, v) dalla formula X() = r + v.
come “massa” della controimagine X -1({8}) = {in tali che
se si attribuisce la massa 1 = 100% a tutto lo spazio
15
36# ({8})
( 8)#
XP X
Si noti che è possibile interpretare
1.6.1. Valore atteso e varianza
• 80 lanci di un dado truccato:
x = {1, 1, 1, 2, 4, 1, 5, 3, 1, 2, 5, 1, 1, 2, 1, 5, 1, 2, 3, 4, 4, 2, 1, 1, 4, 1, 1, 6, 1, 6, 1, 1, 3, 2, 2, 6, 2, 1, 1, 1, 1, 2, 3, 1, 2, 1, 1, 6, 3, 6, 1, 1, 3, 6, 5, 4, 1, 2, 2, 4, 2, 2, 1, 3, 1, 5, 2, 1, 4, 4, 1, 2, 1, 5, 1, 2, 2, 5, 1, 3}
• calcolo la media aritmetica:
m = (1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 3 + 3 + 3 + 3 + 3 + 3 + 3 + 3 + 4 + 4 + 4 + 4 + 4 + 4 + 4 + 4 + 5 + 5 + 5 + 5 + 5 + 5 + 5 + 6 + 6 + 6 + 6 + 6 + 6)/80 = 196/80 = 2.45
x <- floor(1+6*runif(80)^2)
(continua)
m = (1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 3 + 3 + 3 + 3 + 3 + 3 + 3 + 3 + 4 + 4 + 4 + 4 + 4 + 4 + 4 + 4 + 5 + 5 + 5 + 5 + 5 + 5 + 5 + 6 + 6 + 6 + 6 + 6 + 6) / 80
= (33 1 + 18 2 + 8 3 + 8 4 + 7 5 + 6 6) / 80
=
33 18 8 8 7 680 80 80 80 80 80
1 2 3 4 5 6
6
1 1 2 2 3 3 4 4 5 5 6 61
1 2 3 4 5 6
1 2 3 4 5 6
k kk
f f f f f f
p x p x p x p x p x p x p x
circa
(continua)
• In generale il valore atteso (baricentro)1
[ ]N
k kk
E X x p
• Deviazione standard
2
1
[ ] ( )N
k kk
Var X x p
• Varianza (momento di inerzia)
2
1
[ ] ( )N
k kk
Var X x p
4.1. Stime dei parametri
1 2 3, , , ..., nX X X X
• Popolazione: X• Numero di prove: n• Campione aleatorio:• Valori osservati: 1 2 3, , , ..., nx x x x
• Non confondere con i valori possibili
• Media campionaria:
• Il valore osservato della media campionaria
1,1
n kk nn X
1,1 [ ]ˆn kk nnm E Xx
1
[ ]N
k kk
E X x p
viene usato come stimatore della media vera
(continua)
• Stimatore Tn di un parametro
corretto (unbiased) : E[Tn] =
coerente (consistent): lim Var[Tn] = 0
• La media campionaria è uno stimatore corretto e coerente
della media vera: vedremo che
(è un teorema: cf. diapositiva 26)
• Stimatore o consuntivo: statistic
• Statistica come scienza: statistics
2[ ] [ ] /n nE M Var M n
Stima della media di 2 dadi
= 7. Facciamo 8 osservazioni m della media campionaria, con diverse dimensioni del campione: n = 5, 10, 50, 200n = 5m osservati: 7.60, 6.00, 8.00, 4.60, 7.80, 6.40, 6.80, 8.20n = 10m osservati: 6.60, 7.70, 8.70, 5.60, 6.40, 6.80, 7.40, 7.00n = 50m osservati: 6.68, 6.42, 7.28, 7.40, 6.96, 6.86, 6.96, 7.48n = 200m osservati: 7.15, 6.80, 7.23, 6.98, 7.08, 7.08, 7.07, 6.88 n = 1000m osservati: 6.94, 6.86, 7.12, 7.01, 6.91, 6.93, 7.02, 7.06
n = 25
n = 200n = 100
n = 50
Qui invece rappresentiamo 250 osservazioni m della media campionaria Mn, con dimensioni del campione:
I valori osservati m della media campionaria Mn sono centrati su e tanto meno dispersi quanto più n è grande, …
I valori osservati m della media campionaria Mn sono centrati su e tanto meno dispersi quanto più n è grande, …
Quindi se n è “grande”, abbiamo una “buona probabilità” che un singolo valore osservato m della media campionaria Mn (ossia la media aritmetica dei valori osservati del campione) sia una “buona” stima per
La stima è migliore tanto più grande è n (la dimensionedel campione).
4.2.1 La varianza campionaria
• Consuntivo varianza campionaria:
La varianza campionaria è uno stimatore corretto e coerente della varianza vera (è un teorema: cf. diapositive 27, 28, 29):
2 2
1,1
1 ( )n k nk nnS X M
2 2
,
2
11
1ˆ ( )k nk nn x m
• Se si dividesse per n si otterrebbe uno stimatore distorto (biased = non corretto) in quanto
2nS
2 2 21[ ]n
nE S
n
• = mn = stima della media• Sx = stima della deviazione standard non distorta • x = stima della deviazione standard distorta• minX, Q1 , Med, Q3 , maxX = “riassunto a 5 numeri” [ box plot ] minimo primo quartile mediana (almeno il 50% ... e almeno il 50% ....) terzo quartile massimo [ NB animazione delle schermate ]
x
• Stime sulla TI-82• Popolazione X = -ln(rand) • n (max 99) valori osservati in L1
• Comando 1-Var Stats L1
Sulla calcolatrice
> x <- -log(runif(99))> x
[1] 0.442406779 1.520114323 0.359739819 1.196004366 1.142232603 0.066834102 [7] 0.948137321 4.632340154 0.122841389 0.725634687 1.002278314 0.731509306[13] 0.439984155 0.087883367 0.327555402 1.131393955 0.412639758 1.432809035[19] 0.468903451 2.481204484 0.346950869 0.073592979 0.549544999 0.796314267[25] 0.237981589 0.432601672 2.591373233 0.273996105 0.268526137 0.031064219[31] 3.709382632 1.710685905 0.186195443 0.915975775 0.065707763 0.097969750[37] 1.010956427 1.277979394 0.047300276 1.085035943 0.069276794 1.654436531[43] 1.046182539 0.991990006 0.314767995 2.068547432 0.120096882 0.478522417[49] 1.356679765 0.251157440 0.137009917 0.417083051 0.307458761 0.390503350[55] 1.220112306 1.397272292 1.359575045 3.397626651 0.270470772 0.303111629[61] 0.586604401 0.419796978 0.586009376 1.145115010 0.472123723 0.531094403[67] 1.432247566 0.241009211 0.218992103 0.876719352 0.281467705 0.492258877[73] 2.223455853 0.269832732 0.060091875 0.398964894 1.157393991 2.870695956[79] 0.115486534 0.255647427 0.556714480 4.165507832 1.140225430 1.054656225[85] 0.718340727 0.597733568 0.603395773 0.795164795 0.839431267 0.009448098[91] 0.089948549 0.452019811 0.226443560 2.096750485 2.878146447 1.253159978[97] 0.756498358 1.250687755 1.910004276
> summary(x) Min. 1st Qu. Median Mean 3rd Qu. Max. 0.009448 0.272200 0.586000 0.898600 1.177000 4.632000
Stesso esempio con R
BoxPlot (riassunto a 5 numeri)
Min 1Quart. Mediana 3Quart. “Max” dati “anomali”
Media vs Mediana
• Centralità & Dispersione
• Scale a rapporti: usare preferibilmente• Media & Deviazione standard
• Scale qualitative: usare preferibilmente• Mediana & Quartili (riassunto a 5 numeri)
(nel Curriculum Vitae inserire boxplot dei voti)
1.6.2. Formule per E[X] e Var[X]
• Valore atteso di aX+b
1,
1,
1, 1,
(
( )
( )
(
[ ( )]
[ ]
[ ]
)
)
k kk N
k kk N
k k kk N k N
f x p
ax b
f x ax b
p
a x p
E f X
E aX b
b p
aE X b
1.6.2. Formule per E[X] e Var[X]
• Varianza come valore atteso
1,
2
1
2
2
,
[ ( )]
[( [ ])
( ) (
]
(
[ ]
[ ])
)
( [ ])
k kk N
k kk N
f x p
x E X
E f X
E X E X
Var X
x E
p
f x X
1.6.2. Formule per E[X] e Var[X]
• Varianza di aX+b• Poniamo aX+b al posto di X nella formula precedente
2
2
[ ] [( [ ]) ]
[ ] [( [
[(
]) ]a
E a
X b aX b
Var X E X E X
Var E E X b
b
a
X
[ ]aE X b 2
2 2
2 2 2
]) ]
[ ( [ ]) ]
[( [ ]) ] [ ]
E a X E X
a aE X E VX ar X
1.6.2. Formule per E[X] e Var[X]
• Valore atteso di X+Y
• P{ {X = xk} {Y = yj } } = pkj
• 1,1,
1, 1, 1, 1,
1, 1,
( )
( ) (
]
[ ] [ ]
)
[ k N k j kjj M
k kj j kjk N j M j M k N
k k j jk N j M
x y p
x p y
E
p
x p y
X Y
E X Eq Y
1.6.2. Formule per E[X] e Var[X]
• Valore atteso di XY per variabili indipendenti
• P{ {X = xk} {Y = yj } } = pkj
= P{X = xk} P{Y = yj } = pk qj
•
1,1,
1, 1,
1, 1,
[ ]
[ ] [
)
]
(k N k j kjj M
k j k jk N j M
k k j jk N j M
x y p
x y p q
x p y
E
q
XY
E X E Y
1.6.2. Formule per E[X] e Var[X]
• Varianza di X+Y
[ ] [ ] 2 [
[ , ] [
, ] [ ]
( [ ]) ( [ ])]
Var X Y Var X Cov X Y Var Y
Cov X Y E X E X Y E Y
• Per variabili indipendenti: Cov[X,Y] = 0• Varianza di X+Y per variabili indipendenti
[ ]
[ , ]
[ ] [ ]
0
Var X Y Var X V
Cov X
ar Y
Y
1.6.2. Formule per E[X] e Var[X]
• Covarianza zero non implica indipendenza!• Lanciamo i due dadi R e V per 100 volte. Valutiamo : • La variabile doppia (R, V) • La variabile doppia (X,Y) = (R + V, R – V ):
1.6.2. Formule per E[X] e Var[X]
• X = R + V e Y = R – V sono evidentemente v.a. dipendenti
(ad esempio se X=12 non puo' che essere Y=0, e se X=11 non
puo' che essere Y=1 oppure Y=-1), ma la covarianza è nulla.
In generale applicare funzioni
X = f(R,V) e Y = g(R,V) a due
variabili R e V indipendenti
fornisce due variabili dipendenti
X e Y con dipendenza di tipo
talvolta inaspettato (cf. CD).
1.6.2. Formule per E[X] e Var[X]
• ... la covarianza è nulla:
[( [ ]) ( [ ])]
[ , ] [(
[
[ ]) ( [
]
]
, E X E X Y E Y
Cov R V R V E R V E R
Cov X Y
V R V E R V
2 2
2 2 2
)]
[( 2 [ ]) ( )]
[ 2 [ ] 2 [ ]
[ ] [ ]
]
[ ] [ ] 2 [ ]
E R V E R R V
E
E R
R V R E R V E V
E R
E
E V E R
V
22 [ ]E V 2 2[ ] [0 ]E R E V
Standardizzazione
2 2 2
[ ]
[ ]
(1/ ) ( / )
(1/ ) [ ] / ( [ ] ) /
(1/ ) [ ] (1/
[ ] 0
1)[ ]
XZ
E X
Var X
X
E X E XE Z
Var Z Var X
Standardizzazione della media
La media campionaria è uno stimatore corretto e coerente
1,
1, 1,
2
1, 1,
2 2
2
2
1, 1,
2 22
1
1 1 1
1 1
1 1
1
[ ] [ ] [ ]
[ ] [ ] ( ) [ ]
( ) [ ] ( )
( )
/
/
n kk n
n k kk n k n
n k kk n k n
kk n k n
nn
n
n
n n n
n n
n n
n
M X
E M E X E X n
Var M Var X Var
n
X
Var X
M
n
MZ
n
n
2 2
1,
2 2
1,
2 2
1,
1
2
1,
2
1,
2
1,
,
1,
11 ( )
( ) ( )
( 1) [( ) ( )]
[( ) 2( )( ) ( ) ]
( )
( ) )
(( ) )2( )
2( ) ((
kk
n k nk n
k n k n
n k nk n
k k n nk n
kk n
kk n
n
k n
n
k
k nn
n n
n
X
X
S X M
X M X M
n S X M
X X M M
X
X
M
n n M
M
M
2
1,
2
1,
2
1,
2
2
2
2
2
( )
( )
( )
)
( )2( )
2
( )
( )( )
( )
kk n
kk n
kk n
n
n
n
n
n nX
X
X
M
n M
n
n n
M
M
n
n
M
M
La varianza campionariaè uno stimatore corretto
2
1,
2 2
22 2 2
2 2
( )[( 1) ] [ ] [( ) ]
[( ) ] [ ] ( 1)
[ ]
kk nn n
k n
n
XE n S E n nE M
nE X nVar M n n nn
E S
La varianza campionariaè uno stimatore corretto
2 2 2 2[ ] [( ) ]n nVar S E S
La varianza campionariaè uno stimatore coerente
Per lo sviluppo del binomio questo richiede il calcolo diIl risultato :
4[ ]nE S
42 4
4
3[ ] 0
1n
nVar S
n n
Dove si assume finito.4
4 [( ) ]E X