Matematica e Statistica per Scienze Ambientali · Matematica e Statistica per Scienze Ambientali...

23
Matematica e Statistica per Scienze Ambientali Variabili aleatorie - Appunti ENRICO ROGORA 1 1 Dipartimento di Matematica ”Sapienza”, Universit ` a di Roma Roma, Gennaio 2013 ENRICO ROGORA Matematica e Statistica

Transcript of Matematica e Statistica per Scienze Ambientali · Matematica e Statistica per Scienze Ambientali...

Page 1: Matematica e Statistica per Scienze Ambientali · Matematica e Statistica per Scienze Ambientali Variabili aleatorie - Appunti ENRICO ROGORA1 ... per ogni possibile esito i per X

Matematica e Statistica per Scienze AmbientaliVariabili aleatorie - Appunti

ENRICO ROGORA1

1Dipartimento di Matematica”Sapienza”, Universita di Roma

Roma, Gennaio 2013

ENRICO ROGORA Matematica e Statistica

Page 2: Matematica e Statistica per Scienze Ambientali · Matematica e Statistica per Scienze Ambientali Variabili aleatorie - Appunti ENRICO ROGORA1 ... per ogni possibile esito i per X

Variabili aleatorieUn numero aleatorio e un esempio di variabile aleatoria. Un altro esempio divariabile aleatoria e il risultato del lancio di una moneta cioe un simboloaleatorio tra Testa e Croce. In generale, una variabile aletoria e un valorealeatorio elementare o indivisibile che puo presentarsi come esito di unesperimento, di una misura o di una osservazione.Di una variabile aleatoria si conoscono i valori possibili e la probabilita diosservare tali valori (nel caso discreto) o la probabilita di osservare valoriappartenenti a un dato intervallo (nel caso continuo).Piu precisamente:

Variabile aleatoria discreta; i possibili valori sono un sottoinsieme di uninsieme numerabile; la distribuzione di probabilita o funzione frequenzadi una variabile aletoria discreta X e definita da una doppia lista

ω1 ω2 · · ·p1 p2 · · ·

dove pi = P(X = ωi).

Variabile aleatoria continue; quando i possibili valori sono un numeroreale (o piu in generale) un elemento di uno spazio vettoriale; ladistribuzione di probabilita di una variabile aleatoria reale X e definita dauna funzione g(x) densita di probabilita, tale che P(a ≤ X ≤ b) =

R ba g.

ENRICO ROGORA Matematica e Statistica

Page 3: Matematica e Statistica per Scienze Ambientali · Matematica e Statistica per Scienze Ambientali Variabili aleatorie - Appunti ENRICO ROGORA1 ... per ogni possibile esito i per X

Variabili aleatorie discreteUna variabile aleatoria finita X a valori in 1,2, . . . ,n ecompletamente definita da un vettore (distribuzione di probabilita ofunzione frequenza ) π = (p1, . . . ,pn) con pi ≥ 0 per ogni i ep1 + · · ·+ pn = 1.Una variabile aleatoria discreta X a valori in N = 1,2, . . . ecompletamente definita da una successione (distribuzione diprobabilita o funzione frequenza ) π = (p1,p2, . . . ) con pi ≥ 0 per ognii e∑∞

i=1 pi = 1.

Esempi1 Variabile dicotomica di parametro p: P(X = k) = pk (1− p)1−k

(k = 0,1).2 Variabile binomiale di parametri p,n:

P(X = k) = pk (1− p)n−k(n

k

), . . . (k = 0, . . . ,n).

3 Variabile geometrica di parametro p: P(X = k) = p(1− p)k

(k = 0,1, . . . ).4 Variabile ipergeometrica di parametri n, k ed r ,

P(X = m) =(rk

m)(n−kr−m)

(nr)

5 Variabile di Poisson di parametro λ, P(X = k) = λk

k! e−λ.ENRICO ROGORA Matematica e Statistica

Page 4: Matematica e Statistica per Scienze Ambientali · Matematica e Statistica per Scienze Ambientali Variabili aleatorie - Appunti ENRICO ROGORA1 ... per ogni possibile esito i per X

Media e varianza di una variabile aleatoria discreta

Se X e una variabile aletoria che assume i valori ω1, . . . , ωn conprobabilita p1, . . . ,pn rispettivamente, il valor medio di X , indicatoE(X ) e

E(X ) = p1ω1 + · · ·+ ωnxn.

La varianza di X e

Var(X ) = E((X − E(X ))2) = p1(ω1 − E(X ))2 + · · ·+ pn(ωn − E(X ))2.

Per esempio, per una variabile dicotomica X tale che P(X = 1) = p,P(X = 0) = 1− p,

E(X ) = p·1+(1−p)·0 = p Var(X ) = (1−p)2·p+(0−p)2(1−p) = p(1−p).

ENRICO ROGORA Matematica e Statistica

Page 5: Matematica e Statistica per Scienze Ambientali · Matematica e Statistica per Scienze Ambientali Variabili aleatorie - Appunti ENRICO ROGORA1 ... per ogni possibile esito i per X

Media e varianza di una variabile aleatoria continua

Se X e una variabile aleatoria a valori reali, la cui distribuzione diprobabilita e descritta dalla densita g(x)

(e quindi P(a ≤ X ≤ b) =∫ b

a g),allora

E(X ) =

∫ +∞

−∞x · g(x) dx

e

Var(X ) =

∫ +∞

−∞(x − E(X ))2g(x) dx = E(X 2)− (E(X ))2

ENRICO ROGORA Matematica e Statistica

Page 6: Matematica e Statistica per Scienze Ambientali · Matematica e Statistica per Scienze Ambientali Variabili aleatorie - Appunti ENRICO ROGORA1 ... per ogni possibile esito i per X

Proprieta di media e varianzaVariabili aleatorie si possono sommare e moltiplicare tra loro perottenere nuove variabili aleatorie.Se X e Y sono due variabili aleatorie di distribuzione pX (x) e pY (y)rispettivamente, e se i valori di aspettazione di entrambe le variabilisono finiti, E(X + Y ) = E(X ) + E(Y ).Piu in generale, se a,b1, . . . ,bn sono costanti e X1, . . . ,Xn sonovariabili aleatorie, allora

E(a + b1X1 + · · ·+ bnXn) = a + b1E(X1) + · · ·+ bnE(Xn)

Se X e una variabile con varianza finita, e se a e b sono due costanti,allora

Var(a + bX ) = b2Var(X ).

inoltre,Var(X ) = E(X 2)− (E(X ))2

DISUGUAGLIANZA DI CHEBYSHEV

P(|X − E(X )| > t) ≤ Var(X )

t2

ENRICO ROGORA Matematica e Statistica

Page 7: Matematica e Statistica per Scienze Ambientali · Matematica e Statistica per Scienze Ambientali Variabili aleatorie - Appunti ENRICO ROGORA1 ... per ogni possibile esito i per X

Distribuzione binomiale

Descrive la probabilita di osservare k teste in n lanci di una moneta:Ω sia l’insieme di tutte le sequenze di lunghezza n di teste e croci.Nell’ipotesi che l’evento esce testa all’i-esimo lancio sia indipendenteda quello che esce agli altri lanci, la probabilita di ogni sequenza epk (1− p)n−k dove p e la probabilita che esca testa in un lancio. L’evento Ek escono k teste in n lanci e costituito da tutte le sequenzecon k teste. Queste sono tante quanti i sottoinsiemi di k elementi cheposso estrarre dall’insieme 1,2, . . . ,n (ogni sottoinseme specificala posizione delle teste nella sequenza). Quindi

p(Ek ) =

(nk

)pk (1− p)n−k

ENRICO ROGORA Matematica e Statistica

Page 8: Matematica e Statistica per Scienze Ambientali · Matematica e Statistica per Scienze Ambientali Variabili aleatorie - Appunti ENRICO ROGORA1 ... per ogni possibile esito i per X

Distribuzione binomiale (II)

p(X = k) =(n

k

)pk (1− p)n−k , E(X ) = np, Var(X ) = np(1− p).

0 1 2 3 4 5 6 7

0.00

0.05

0.10

0.15

0.20

0.25

0.30

Distribuzione binomiale: p=0.3 n=7

numero delle teste

probabilita'

ENRICO ROGORA Matematica e Statistica

Page 9: Matematica e Statistica per Scienze Ambientali · Matematica e Statistica per Scienze Ambientali Variabili aleatorie - Appunti ENRICO ROGORA1 ... per ogni possibile esito i per X

Distribuzione geometrica

P(X = k) = p(1− p)k , E(p) = 1−pp , Var(X ) = 1−p

p2 .

0 2 4 6 8 10

0.00

0.05

0.10

0.15

0.20

0.25

0.30

Distribuzione geometrica: p=0.3

numero di lanci prima di osservare testa

probabilita'

ENRICO ROGORA Matematica e Statistica

Page 10: Matematica e Statistica per Scienze Ambientali · Matematica e Statistica per Scienze Ambientali Variabili aleatorie - Appunti ENRICO ROGORA1 ... per ogni possibile esito i per X

Distribuzione ipergeometrica

Descrive la probabilita di m successi in r estrazioni senzareimbussolamento da una popolazione di n individui di cui k sono da

considerarsi come successi. P(X = m) =(k

m)(n−kr−m)

(nr)

, E(X ) = r ·kn ,

Var(X ) = rk(n−k)(n−r)n·n(n−1) .

0 1 2 3 4 5 6 7

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

Distribuzione ipergeometrica: bianche=8 nere=24 estrazioni=7

numero delle palline bianche estratte

probabilita'

ENRICO ROGORA Matematica e Statistica

Page 11: Matematica e Statistica per Scienze Ambientali · Matematica e Statistica per Scienze Ambientali Variabili aleatorie - Appunti ENRICO ROGORA1 ... per ogni possibile esito i per X

Distribuzione di Poisson

P(X = k) = λk

k! e−λ, E(X ) = λ, Var(X ) = λ.

0 2 4 6 8 10

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

Distribuzione di Poisson: lambda=1.3

numero di particelle alpha emesse in un intervallo di tempo

probabilita'

ENRICO ROGORA Matematica e Statistica

Page 12: Matematica e Statistica per Scienze Ambientali · Matematica e Statistica per Scienze Ambientali Variabili aleatorie - Appunti ENRICO ROGORA1 ... per ogni possibile esito i per X

Variabile aleatoria uniforme

X e una variabile aleatoria uniforme sull’intervallo [a,b] se la suadensita di probabilita e

g(x) =

0 x < a

1b−a 0 ≤ x ≤ 10 x > b

Abbiamo

E(X ) =

∫ +∞

−∞x · g(x) =

∫ b

ax =

x2

2

∣∣∣∣ba

a2 − b2

2

Var(X ) = E(X 2)−(E(X ))2 =

∫ b

ax2−(E(X ))2 =

4(b3 − a3)− 3(b2 − a2)2

12

ENRICO ROGORA Matematica e Statistica

Page 13: Matematica e Statistica per Scienze Ambientali · Matematica e Statistica per Scienze Ambientali Variabili aleatorie - Appunti ENRICO ROGORA1 ... per ogni possibile esito i per X

Variabile aleatoria normaleDensita di probabilita

g(x) =1

σ√

2πe−

(x−µ)2

2σ2

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

Distribuzione normale: media=0,sd=1

x

Dis

tribu

zion

e no

rmal

e

E(X ) = µ e Var(X ) = σ2.∫ µ+σ

µ−σg(x , µ, σ) = 0.683,∫ µ+2∗σ

µ−2∗σ g(x , µ, σ) = 0.955,∫ µ+3σ

µ−3σg(x , µ, σ) = 0.997

ENRICO ROGORA Matematica e Statistica

Page 14: Matematica e Statistica per Scienze Ambientali · Matematica e Statistica per Scienze Ambientali Variabili aleatorie - Appunti ENRICO ROGORA1 ... per ogni possibile esito i per X

Variabile aleatoria normale: applicazioni

Supponiamo che una variabile statistica abbia distribuzioneapprossimativamente normale di parametri µ = 165 e λ = 4.Determinare approssimativamente la probabilita che tale variabileassuma valori nell’intervallo [161,169].Poiche 161 = µ− σ e 169 = µ+ σ, la probabilita richiesta eapprossimativamente∫ 169

161g(x) =

∫ µ+σ

µ−σ

g(x) = 0.683.

ENRICO ROGORA Matematica e Statistica

Page 15: Matematica e Statistica per Scienze Ambientali · Matematica e Statistica per Scienze Ambientali Variabili aleatorie - Appunti ENRICO ROGORA1 ... per ogni possibile esito i per X

Distribuzione congiunta: un esempio

Consderiamo lo spazio campionario relativo al lancio ripetuto tre voltedi una moneta non truccata, Ω = ccc, tcc, ctc, cct , ttc, tct , ctt , ttt econsideriamo le variabili aleatorie X , che conta il il numero delle testeal primo lancio e Y che conta il numero delle teste nei tre lanci. Lecorrispondenti tabelle di probabilita sono

X 0 11/2 1/2

Y 0 1 2 31/8 3/8 3/8 1/8

Possiamo considerare, per ogni possibile esito i per X e ognipossibile esito j per Y la probabilita di osservarecontemporaneamente l’esito i per X e l’esito j per Y , cioeP(X = i ,Y = j). Abbiamo quindi la seguente distribuzione congiunta

0 1 2 30 1/8 2/8 1/8 01 0 1/8 2/8 1/8

ENRICO ROGORA Matematica e Statistica

Page 16: Matematica e Statistica per Scienze Ambientali · Matematica e Statistica per Scienze Ambientali Variabili aleatorie - Appunti ENRICO ROGORA1 ... per ogni possibile esito i per X

Variabili aleatorie - definizione formale

Per definire la distribuzione congiunta di due variabili aleatorienell’esempio precedente, abbiamo sfruttato il fatto che fosseroentrambe definite sullo stesso spazio campionario. Questa non e unlimitazione in quanto ogni variabili aleatoria si puo pensare definita suun opportuno spazio campionario, e in effetti e possibile definireformalmente una variabile aleatoria nel modo seguente.Una variabile aleatoria e una qualsiasi funzione f misurabile, definitada uno spazio di probabilita (Ω,P,p) a valori in uno spazio di misura(X ,Q) (f−1(Q) ∈ P per ogni Q ∈ Q). Nel caso di variabile leatoria avalori in uno spazio finito la condizione di misurabilita eautomaticamente soddisfatta. Per variabili aleatorie reali e sufficiente,per garantire la misurabilita nei contesti che ci interessano, richiedereche la controimmagine di ogni intervallo aperto appartenga allasigma-algebra degli eventi aleatori.

ENRICO ROGORA Matematica e Statistica

Page 17: Matematica e Statistica per Scienze Ambientali · Matematica e Statistica per Scienze Ambientali Variabili aleatorie - Appunti ENRICO ROGORA1 ... per ogni possibile esito i per X

Distribuzione congiunta di una coppia di variabilialeatorie finite

Siano X e Y due variabili aleatorie definite sullo stesso spazio diprobabilita, le cui distribuzioni di probabilita o funzioni frequenzasiano

x1 x2 · · · xnpX (x1) = P(X = x1) pX (x2) = P(X = x2) · · · pX (xn) = P(X = xn)

e

y1 y2 · · · ympY (y1) = P(Y = y1) pY (y2) = P(Y = y2) · · · pY (ym) = P(Y = ym)

La distribuzione congiunta di X e Y e definita dapXY (xi , yj ) = P(X = xi ,Y = yj ).pX e pY si dicono le marginali di pXY e sono legate ad essa dalleformule

pX (x) =m∑

j=1

pXY (x , yj ) pY (y) =n∑

i=1

pXY (xi , y)

ENRICO ROGORA Matematica e Statistica

Page 18: Matematica e Statistica per Scienze Ambientali · Matematica e Statistica per Scienze Ambientali Variabili aleatorie - Appunti ENRICO ROGORA1 ... per ogni possibile esito i per X

Covarianza

La covarianza di due variabili aleatorie X e Y e

Cov(X ,Y ) = E((X − E(X ))(Y − E(Y )).

Si noti che Cov(X ,X ) = Var(X ). Cov(X ,Y ) = E(XY )− E(X )E(Y ).Cov(a + X ,Y ) = Cov(X ,Y ).Vale infine

Var(X + Y ) = Var(X ) + Var(Y ) + 2Cov(X ,Y )

Il coefficiente di correlazione si definisce ponendo

ρ =Cov(X ,Y )√

Var(X )Var(Y )

Si ha che −1 ≤ ρ ≤ 1 e |ρ| = 1 se e solo se Y = aX + b.

ENRICO ROGORA Matematica e Statistica

Page 19: Matematica e Statistica per Scienze Ambientali · Matematica e Statistica per Scienze Ambientali Variabili aleatorie - Appunti ENRICO ROGORA1 ... per ogni possibile esito i per X

Variabili aleatorie discrete indipendenti

Due variabili aleatorie discrete si dicono indipendenti se e solo se perogni i , j gli eventi X = i e Y = j sono indipendenti, ovveroP(X = i ,Y = j) = P(X = i) · P(Y = j), ovvero, se e solo se

pXY (x , y) = pX (x) · pY (y)

In generale abbiamo la formulaP(X = i ,Y = j) = P(X = i |Y = j) · P(Y = j), ovvero, introducendo ladistribuzione condizionata

pX |Y (xi , yj ) =pXY (xi , yj )

pY (yj )

possiamo scrivere

pXY (xi , yj ) = pX |Y (xi , yj ) · pY (yj )

Se X e Y sono indipendenti, allore E(XY ) = E(X )E(Y ) e quindiCov(X ,Y ) = 0 e Var(X + Y ) = Var(X ) + Var(Y ).

ENRICO ROGORA Matematica e Statistica

Page 20: Matematica e Statistica per Scienze Ambientali · Matematica e Statistica per Scienze Ambientali Variabili aleatorie - Appunti ENRICO ROGORA1 ... per ogni possibile esito i per X

Somma di variabili aleatorie indipendenti

Siano X1, . . . ,Xn n variabili aleatorie dicotomiche tali cheP(Xi = 1) = p e P(Xi = 0) = 1− p. Allora, la variabile aleatoriaB(n,p) = X1 + · · ·+ Xn ha distribuzione binomiale di parametri n e pin quanto conta il numero di successi nel lancio ripetuto n volte di unamoneta.Poiche per ipotesi, le Xi sono indipendenti, allora

E(B(n,p)) =n∑

i=1

E(Xi ) = np Var(B(n,p)) =n∑

i=1

Var(Xi ) = np(1−p)

ENRICO ROGORA Matematica e Statistica

Page 21: Matematica e Statistica per Scienze Ambientali · Matematica e Statistica per Scienze Ambientali Variabili aleatorie - Appunti ENRICO ROGORA1 ... per ogni possibile esito i per X

Teorema di convergenza di una successione divariabili aleatorie binomiali a una variabile di Poisson

La distribuzione di Poisson si puo ottenere come limite di distribuzionibinomiali al tendere all’infinito del numero n delle prove e al tendere azero della probabilita p di successo di una singola prova in modo taleche np = λ. La distribuzione binomiale e ponendo np = λ nelladistribuzione binomiale abbiamo

p(k) =n!

k !(n − k)!

n

)k (1− λ

n

)n−k

=

λk

k !

n!

k !(n − k)!

1nk

(1− λ

n

)n (1− λ

n

)−k

Al tendere di n all’infinito, λ/n tende a zero,n!

(n−k)!nk = (n−k)!(n−k)!

n(n−1)···(n−k+1)nk tende a 1,

(1− λ

n

)ntende a e−λ e(

1− λn

)−ktende a 1 e quindi p(k) tende a λk e−λ

k! .

ENRICO ROGORA Matematica e Statistica

Page 22: Matematica e Statistica per Scienze Ambientali · Matematica e Statistica per Scienze Ambientali Variabili aleatorie - Appunti ENRICO ROGORA1 ... per ogni possibile esito i per X

Legge dei grandi numeri

Legge dei grandi numeri per una variabile dicotomica X per cuiP(X = T ) = p:

limn→∞

P(nT

n∈ (p − ε,p + ε)

)= 1.

ENRICO ROGORA Matematica e Statistica

Page 23: Matematica e Statistica per Scienze Ambientali · Matematica e Statistica per Scienze Ambientali Variabili aleatorie - Appunti ENRICO ROGORA1 ... per ogni possibile esito i per X

Realizzazione o valore osservato di una variabilealeatoria

In statistica una realizzazione di una variabile aleatoria e il valoreeffettivamente osservato quando viene fatto l’esperimento.Gli indici statistici calcolati da realizzazioni di una variabile aleatoria senza faruso di un modello probabilistico sono detti empirici.Convenzionalmente, lettere maiuscole denotano variabili aleatorie; lecorrispondenti lettere minuscole denotano le loro realizzazioni. Un modelloprobabilistico per un insieme di dati empirici e una collezione di distribuzionidi probabilita. Si dice parametrico se ogni distribuzione del modello e indicatada un vettore di parametri ristretti ad una determinata regione dello spaziodei parametri.Dai dati empirici la statistica descrittiva calcola la distribuzione empirica enumerosi indici riassuntivi quali media, deviazione standard, correlazione,retta di regressione.A partire da un modello probabilistico dei dati si possono calcolare ladistribuzione teorica e i corrispondenti indici teorici. E possibile misurare laadeguatezza del modello probabilistico misurando la significativita statisticadella deviazione tra grandezze aspettate e grandezze osservate. Un modelloteorico serve a ripulire i dati, stimare parametri nascosti, simulare datiomogenei.

ENRICO ROGORA Matematica e Statistica