Matematica e statistica Versione didascalica: parte 6 Sito web del corso Docente: Prof. Sergio...

32
Matematica e statistica Versione didascalica: parte 6 Sito web del corso http://www.labmat.it Docente: Prof. Sergio Invernizzi, Università di Trieste e-mail: [email protected]

Transcript of Matematica e statistica Versione didascalica: parte 6 Sito web del corso Docente: Prof. Sergio...

Page 1: Matematica e statistica Versione didascalica: parte 6 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

Matematica e statisticaVersione didascalica: parte 6

• Sito web del corso

http://www.labmat.it

• Docente: Prof. Sergio Invernizzi, Università di Trieste

• e-mail: [email protected]

Page 2: Matematica e statistica Versione didascalica: parte 6 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

1.6. Variabili aleatorie finite

• Esperimento E• Spazio campionario • In ogni prova, osservata (misurata) una “variabile” X• Il valore osservato di X dipende da quale degli eventi elementari si verifica nella prova in questione: X è una “variabile aleatoria”.• Nel caso più semplice X assume un numero finito di valori :

con corrispondenti probabilità

1 2 3, , , ..., Np p p p

1 2 3, , , ..., Nx x x x

Page 3: Matematica e statistica Versione didascalica: parte 6 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

1.6. Variabili aleatorie finite: esempio

2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12

Nel caso dei due dadi X assume un numero finito di valori :

con corrispondenti probabilità

3 5 6 5 31 2 4 4 2 136 36 36 36 36 36 36 36 36 36 36, , , , , , , , , ,

Page 4: Matematica e statistica Versione didascalica: parte 6 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

1.6. Variabili aleatorie finite: esempio

• Esperimento E = lancio di due dadi• Spazio campionario • La v.a. X in questione è null’altro che una applicazione reale X : R definita sulle coppie = (r, v) dalla formula X() = r + v.

Page 5: Matematica e statistica Versione didascalica: parte 6 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

come “massa” della controimagine X -1({8}) = {in tali che

se si attribuisce la massa 1 = 100% a tutto lo spazio

15

36# ({8})

( 8)#

XP X

Si noti che è possibile interpretare

Page 6: Matematica e statistica Versione didascalica: parte 6 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

1.6.1. Valore atteso e varianza

• 80 lanci di un dado truccato:

x = {1, 1, 1, 2, 4, 1, 5, 3, 1, 2, 5, 1, 1, 2, 1, 5, 1, 2, 3, 4, 4, 2, 1, 1, 4, 1, 1, 6, 1, 6, 1, 1, 3, 2, 2, 6, 2, 1, 1, 1, 1, 2, 3, 1, 2, 1, 1, 6, 3, 6, 1, 1, 3, 6, 5, 4, 1, 2, 2, 4, 2, 2, 1, 3, 1, 5, 2, 1, 4, 4, 1, 2, 1, 5, 1, 2, 2, 5, 1, 3}

• calcolo la media aritmetica:

m = (1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 3 + 3 + 3 + 3 + 3 + 3 + 3 + 3 + 4 + 4 + 4 + 4 + 4 + 4 + 4 + 4 + 5 + 5 + 5 + 5 + 5 + 5 + 5 + 6 + 6 + 6 + 6 + 6 + 6)/80 = 196/80 = 2.45

x <- floor(1+6*runif(80)^2)

Page 7: Matematica e statistica Versione didascalica: parte 6 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

(continua)

m = (1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 3 + 3 + 3 + 3 + 3 + 3 + 3 + 3 + 4 + 4 + 4 + 4 + 4 + 4 + 4 + 4 + 5 + 5 + 5 + 5 + 5 + 5 + 5 + 6 + 6 + 6 + 6 + 6 + 6) / 80

= (33 1 + 18 2 + 8 3 + 8 4 + 7 5 + 6 6) / 80

=

33 18 8 8 7 680 80 80 80 80 80

1 2 3 4 5 6

6

1 1 2 2 3 3 4 4 5 5 6 61

1 2 3 4 5 6

1 2 3 4 5 6

k kk

f f f f f f

p x p x p x p x p x p x p x

circa

Page 8: Matematica e statistica Versione didascalica: parte 6 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

(continua)

• In generale il valore atteso (baricentro)1

[ ]N

k kk

E X x p

• Deviazione standard

2

1

[ ] ( )N

k kk

Var X x p

• Varianza (momento di inerzia)

2

1

[ ] ( )N

k kk

Var X x p

Page 9: Matematica e statistica Versione didascalica: parte 6 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

4.1. Stime dei parametri

1 2 3, , , ..., nX X X X

• Popolazione: X• Numero di prove: n• Campione aleatorio:• Valori osservati: 1 2 3, , , ..., nx x x x

• Non confondere con i valori possibili

• Media campionaria:

• Il valore osservato della media campionaria

1,1

n kk nn X

1,1 [ ]ˆn kk nnm E Xx

1

[ ]N

k kk

E X x p

viene usato come stimatore della media vera

Page 10: Matematica e statistica Versione didascalica: parte 6 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

(continua)

• Stimatore Tn di un parametro

corretto (unbiased) : E[Tn] =

coerente (consistent): lim Var[Tn] = 0

• La media campionaria è uno stimatore corretto e coerente

della media vera: vedremo che

(è un teorema: cf. diapositiva 26)

• Stimatore o consuntivo: statistic

• Statistica come scienza: statistics

2[ ] [ ] /n nE M Var M n

Page 11: Matematica e statistica Versione didascalica: parte 6 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

Stima della media di 2 dadi

= 7. Facciamo 8 osservazioni m della media campionaria, con diverse dimensioni del campione: n = 5, 10, 50, 200n = 5m osservati: 7.60, 6.00, 8.00, 4.60, 7.80, 6.40, 6.80, 8.20n = 10m osservati: 6.60, 7.70, 8.70, 5.60, 6.40, 6.80, 7.40, 7.00n = 50m osservati: 6.68, 6.42, 7.28, 7.40, 6.96, 6.86, 6.96, 7.48n = 200m osservati: 7.15, 6.80, 7.23, 6.98, 7.08, 7.08, 7.07, 6.88 n = 1000m osservati: 6.94, 6.86, 7.12, 7.01, 6.91, 6.93, 7.02, 7.06

Page 12: Matematica e statistica Versione didascalica: parte 6 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

n = 25

n = 200n = 100

n = 50

Qui invece rappresentiamo 250 osservazioni m della media campionaria Mn, con dimensioni del campione:

I valori osservati m della media campionaria Mn sono centrati su e tanto meno dispersi quanto più n è grande, …

Page 13: Matematica e statistica Versione didascalica: parte 6 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

I valori osservati m della media campionaria Mn sono centrati su e tanto meno dispersi quanto più n è grande, …

Quindi se n è “grande”, abbiamo una “buona probabilità” che un singolo valore osservato m della media campionaria Mn (ossia la media aritmetica dei valori osservati del campione) sia una “buona” stima per

La stima è migliore tanto più grande è n (la dimensionedel campione).

Page 14: Matematica e statistica Versione didascalica: parte 6 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

4.2.1 La varianza campionaria

• Consuntivo varianza campionaria:

La varianza campionaria è uno stimatore corretto e coerente della varianza vera (è un teorema: cf. diapositive 27, 28, 29):

2 2

1,1

1 ( )n k nk nnS X M

2 2

,

2

11

1ˆ ( )k nk nn x m

• Se si dividesse per n si otterrebbe uno stimatore distorto (biased = non corretto) in quanto

2nS

2 2 21[ ]n

nE S

n

Page 15: Matematica e statistica Versione didascalica: parte 6 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

• = mn = stima della media• Sx = stima della deviazione standard non distorta • x = stima della deviazione standard distorta• minX, Q1 , Med, Q3 , maxX = “riassunto a 5 numeri” [ box plot ] minimo primo quartile mediana (almeno il 50% ... e almeno il 50% ....) terzo quartile massimo [ NB animazione delle schermate ]

x

• Stime sulla TI-82• Popolazione X = -ln(rand) • n (max 99) valori osservati in L1

• Comando 1-Var Stats L1

Sulla calcolatrice

Page 16: Matematica e statistica Versione didascalica: parte 6 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

> x <- -log(runif(99))> x

[1] 0.442406779 1.520114323 0.359739819 1.196004366 1.142232603 0.066834102 [7] 0.948137321 4.632340154 0.122841389 0.725634687 1.002278314 0.731509306[13] 0.439984155 0.087883367 0.327555402 1.131393955 0.412639758 1.432809035[19] 0.468903451 2.481204484 0.346950869 0.073592979 0.549544999 0.796314267[25] 0.237981589 0.432601672 2.591373233 0.273996105 0.268526137 0.031064219[31] 3.709382632 1.710685905 0.186195443 0.915975775 0.065707763 0.097969750[37] 1.010956427 1.277979394 0.047300276 1.085035943 0.069276794 1.654436531[43] 1.046182539 0.991990006 0.314767995 2.068547432 0.120096882 0.478522417[49] 1.356679765 0.251157440 0.137009917 0.417083051 0.307458761 0.390503350[55] 1.220112306 1.397272292 1.359575045 3.397626651 0.270470772 0.303111629[61] 0.586604401 0.419796978 0.586009376 1.145115010 0.472123723 0.531094403[67] 1.432247566 0.241009211 0.218992103 0.876719352 0.281467705 0.492258877[73] 2.223455853 0.269832732 0.060091875 0.398964894 1.157393991 2.870695956[79] 0.115486534 0.255647427 0.556714480 4.165507832 1.140225430 1.054656225[85] 0.718340727 0.597733568 0.603395773 0.795164795 0.839431267 0.009448098[91] 0.089948549 0.452019811 0.226443560 2.096750485 2.878146447 1.253159978[97] 0.756498358 1.250687755 1.910004276

> summary(x) Min. 1st Qu. Median Mean 3rd Qu. Max. 0.009448 0.272200 0.586000 0.898600 1.177000 4.632000

Stesso esempio con R

Page 17: Matematica e statistica Versione didascalica: parte 6 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

BoxPlot (riassunto a 5 numeri)

Min 1Quart. Mediana 3Quart. “Max” dati “anomali”

Page 18: Matematica e statistica Versione didascalica: parte 6 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

Media vs Mediana

• Centralità & Dispersione

• Scale a rapporti: usare preferibilmente• Media & Deviazione standard

• Scale qualitative: usare preferibilmente• Mediana & Quartili (riassunto a 5 numeri)

(nel Curriculum Vitae inserire boxplot dei voti)

Page 19: Matematica e statistica Versione didascalica: parte 6 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

1.6.2. Formule per E[X] e Var[X]

• Valore atteso di aX+b

1,

1,

1, 1,

(

( )

( )

(

[ ( )]

[ ]

[ ]

)

)

k kk N

k kk N

k k kk N k N

f x p

ax b

f x ax b

p

a x p

E f X

E aX b

b p

aE X b

Page 20: Matematica e statistica Versione didascalica: parte 6 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

1.6.2. Formule per E[X] e Var[X]

• Varianza come valore atteso

1,

2

1

2

2

,

[ ( )]

[( [ ])

( ) (

]

(

[ ]

[ ])

)

( [ ])

k kk N

k kk N

f x p

x E X

E f X

E X E X

Var X

x E

p

f x X

Page 21: Matematica e statistica Versione didascalica: parte 6 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

1.6.2. Formule per E[X] e Var[X]

• Varianza di aX+b• Poniamo aX+b al posto di X nella formula precedente

2

2

[ ] [( [ ]) ]

[ ] [( [

[(

]) ]a

E a

X b aX b

Var X E X E X

Var E E X b

b

a

X

[ ]aE X b 2

2 2

2 2 2

]) ]

[ ( [ ]) ]

[( [ ]) ] [ ]

E a X E X

a aE X E VX ar X

Page 22: Matematica e statistica Versione didascalica: parte 6 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

1.6.2. Formule per E[X] e Var[X]

• Valore atteso di X+Y

• P{ {X = xk} {Y = yj } } = pkj

• 1,1,

1, 1, 1, 1,

1, 1,

( )

( ) (

]

[ ] [ ]

)

[ k N k j kjj M

k kj j kjk N j M j M k N

k k j jk N j M

x y p

x p y

E

p

x p y

X Y

E X Eq Y

Page 23: Matematica e statistica Versione didascalica: parte 6 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

1.6.2. Formule per E[X] e Var[X]

• Valore atteso di XY per variabili indipendenti

• P{ {X = xk} {Y = yj } } = pkj

= P{X = xk} P{Y = yj } = pk qj

1,1,

1, 1,

1, 1,

[ ]

[ ] [

)

]

(k N k j kjj M

k j k jk N j M

k k j jk N j M

x y p

x y p q

x p y

E

q

XY

E X E Y

Page 24: Matematica e statistica Versione didascalica: parte 6 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

1.6.2. Formule per E[X] e Var[X]

• Varianza di X+Y

[ ] [ ] 2 [

[ , ] [

, ] [ ]

( [ ]) ( [ ])]

Var X Y Var X Cov X Y Var Y

Cov X Y E X E X Y E Y

• Per variabili indipendenti: Cov[X,Y] = 0• Varianza di X+Y per variabili indipendenti

[ ]

[ , ]

[ ] [ ]

0

Var X Y Var X V

Cov X

ar Y

Y

Page 25: Matematica e statistica Versione didascalica: parte 6 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

1.6.2. Formule per E[X] e Var[X]

• Covarianza zero non implica indipendenza!• Lanciamo i due dadi R e V per 100 volte. Valutiamo : • La variabile doppia (R, V) • La variabile doppia (X,Y) = (R + V, R – V ):

Page 26: Matematica e statistica Versione didascalica: parte 6 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

1.6.2. Formule per E[X] e Var[X]

• X = R + V e Y = R – V sono evidentemente v.a. dipendenti

(ad esempio se X=12 non puo' che essere Y=0, e se X=11 non

puo' che essere Y=1 oppure Y=-1), ma la covarianza è nulla.

In generale applicare funzioni

X = f(R,V) e Y = g(R,V) a due

variabili R e V indipendenti

fornisce due variabili dipendenti

X e Y con dipendenza di tipo

talvolta inaspettato (cf. CD).

Page 27: Matematica e statistica Versione didascalica: parte 6 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

1.6.2. Formule per E[X] e Var[X]

• ... la covarianza è nulla:

[( [ ]) ( [ ])]

[ , ] [(

[

[ ]) ( [

]

]

, E X E X Y E Y

Cov R V R V E R V E R

Cov X Y

V R V E R V

2 2

2 2 2

)]

[( 2 [ ]) ( )]

[ 2 [ ] 2 [ ]

[ ] [ ]

]

[ ] [ ] 2 [ ]

E R V E R R V

E

E R

R V R E R V E V

E R

E

E V E R

V

22 [ ]E V 2 2[ ] [0 ]E R E V

Page 28: Matematica e statistica Versione didascalica: parte 6 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

Standardizzazione

2 2 2

[ ]

[ ]

(1/ ) ( / )

(1/ ) [ ] / ( [ ] ) /

(1/ ) [ ] (1/

[ ] 0

1)[ ]

XZ

E X

Var X

X

E X E XE Z

Var Z Var X

Page 29: Matematica e statistica Versione didascalica: parte 6 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

Standardizzazione della media

La media campionaria è uno stimatore corretto e coerente

1,

1, 1,

2

1, 1,

2 2

2

2

1, 1,

2 22

1

1 1 1

1 1

1 1

1

[ ] [ ] [ ]

[ ] [ ] ( ) [ ]

( ) [ ] ( )

( )

/

/

n kk n

n k kk n k n

n k kk n k n

kk n k n

nn

n

n

n n n

n n

n n

n

M X

E M E X E X n

Var M Var X Var

n

X

Var X

M

n

MZ

n

n

Page 30: Matematica e statistica Versione didascalica: parte 6 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

2 2

1,

2 2

1,

2 2

1,

1

2

1,

2

1,

2

1,

,

1,

11 ( )

( ) ( )

( 1) [( ) ( )]

[( ) 2( )( ) ( ) ]

( )

( ) )

(( ) )2( )

2( ) ((

kk

n k nk n

k n k n

n k nk n

k k n nk n

kk n

kk n

n

k n

n

k

k nn

n n

n

X

X

S X M

X M X M

n S X M

X X M M

X

X

M

n n M

M

M

2

1,

2

1,

2

1,

2

2

2

2

2

( )

( )

( )

)

( )2( )

2

( )

( )( )

( )

kk n

kk n

kk n

n

n

n

n

n nX

X

X

M

n M

n

n n

M

M

n

n

M

M

La varianza campionariaè uno stimatore corretto

Page 31: Matematica e statistica Versione didascalica: parte 6 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

2

1,

2 2

22 2 2

2 2

( )[( 1) ] [ ] [( ) ]

[( ) ] [ ] ( 1)

[ ]

kk nn n

k n

n

XE n S E n nE M

nE X nVar M n n nn

E S

La varianza campionariaè uno stimatore corretto

Page 32: Matematica e statistica Versione didascalica: parte 6 Sito web del corso  Docente: Prof. Sergio Invernizzi, Università di Trieste.

2 2 2 2[ ] [( ) ]n nVar S E S

La varianza campionariaè uno stimatore coerente

Per lo sviluppo del binomio questo richiede il calcolo diIl risultato :

4[ ]nE S

42 4

4

3[ ] 0

1n

nVar S

n n

Dove si assume finito.4

4 [( ) ]E X