Compendio di calcolo delle probabilit`a - unimi.it

37
Compendio di calcolo delle probabilit ` a Massimiliano Goldwurm Dispense per gli studenti del corso di laurea magistrale di Informatica Universit`a degli Studi di Milano Anno accademico 2016-2017 Queste note riassumono le principali nozioni di calcolo delle probabilit`a utilizzate nell’am- bito del corso di “Metodi probabilistici per l’Informatica”, alle quali si fa spesso riferimento nelle stesse dispense del corso. Il materiale considerato include argomenti di base che vengono solita- mente presentati in modo pi` u esaustivo nei corsi di Probabilit` a e Statistica della laurea triennale di Informatica. Alcuni di questi argomenti sono indispensabili per una piena comprensione delle tematiche presente nelle lezioni di “Metodi probabilistici per l’Informatica”, altri sono stati ri- cordati per mantenere un collegamento tra le varie propriet`a e per dare un quadro completo e organico della materia. La loro presentazione in questa sede ` e necessariamente sintetica e non ha alcuna pretesa di completezza. L’enfasi ` e posta sugli aspetti formali delle nozioni trattate mentre in generale le motivazioni e i contenuti intuitivi vengono qui solo accennati. Per bre- vit`a gran parte delle dimostrazioni ` e stata omessa, dando in qualche caso solo le idee principali delle prove; si rimanda ai testi classici di calcolo delle probabilit`a citati nella bibliografia una trattazione pi` u completa.

Transcript of Compendio di calcolo delle probabilit`a - unimi.it

Page 1: Compendio di calcolo delle probabilit`a - unimi.it

Compendio di calcolo delleprobabilita

Massimiliano Goldwurm

Dispense per gli studenti del corso di laurea magistrale di InformaticaUniversita degli Studi di Milano

Anno accademico 2016-2017

Queste note riassumono le principali nozioni di calcolo delle probabilita utilizzate nell’am-bito del corso di “Metodi probabilistici per l’Informatica”, alle quali si fa spesso riferimento nellestesse dispense del corso. Il materiale considerato include argomenti di base che vengono solita-mente presentati in modo piu esaustivo nei corsi di Probabilita e Statistica della laurea triennaledi Informatica. Alcuni di questi argomenti sono indispensabili per una piena comprensione delletematiche presente nelle lezioni di “Metodi probabilistici per l’Informatica”, altri sono stati ri-cordati per mantenere un collegamento tra le varie proprieta e per dare un quadro completo eorganico della materia. La loro presentazione in questa sede e necessariamente sintetica e nonha alcuna pretesa di completezza. L’enfasi e posta sugli aspetti formali delle nozioni trattatementre in generale le motivazioni e i contenuti intuitivi vengono qui solo accennati. Per bre-vita gran parte delle dimostrazioni e stata omessa, dando in qualche caso solo le idee principalidelle prove; si rimanda ai testi classici di calcolo delle probabilita citati nella bibliografia unatrattazione piu completa.

Page 2: Compendio di calcolo delle probabilit`a - unimi.it

Indice

1 Spazi di probabilita 3

2 Variabili aleatorie e funzioni distribuzione 5

3 Momenti 7

4 Esempi notevoli 9

4.1 Bernoulliane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94.2 Binomiali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94.3 Geometriche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104.4 Poissoniane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104.5 Uniformi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114.6 Normali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124.7 Esponenziali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

5 Distribuzioni condizionate 14

6 Disuguaglianze tradizionali 15

7 Variabili aleatorie multidimensionali 15

7.1 Variabili aleatorie indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187.2 Matrici di covarianze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

8 Convergenza stocastica e teoremi limite classici 22

8.1 Convergenza in probabilita e quasi ovunque . . . . . . . . . . . . . . . . . . . . . 228.2 Convergenza in distribuzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

9 Disuguaglianza di Chernoff 26

10 Teoremi limite locali 29

11 Il processo di Poisson 31

2

Page 3: Compendio di calcolo delle probabilit`a - unimi.it

1 Spazi di probabilita

Numerosi concetti fondamentali sono basati sulla nozione di spazio di probabilita. Uno spaziodi probabilita e una tripla (Ω,M, P r) che gode delle seguenti proprieta:

1. Ω e un insieme, detto spazio campione, i cui elementi sono chiamati punti campione oeventi elementari;

2. M e una σ-algebra su Ω, ovvero una famiglia di sottoinsiemi di Ω tale che

- Ω ∈ M,

- per ogni A ∈ M il complementare Ac appartiene a M,

- per ogni sequenza Aii∈N di elementi di M, l’unione⋃

i∈N Ai appartiene M.

Gli elementi di M sono chiamati eventi casuali o semplicemente eventi;

3. Pr e una misura di probabilita su M, ovvero una funzione Pr : M −→ [0, 1] tale che

- Pr(Ω) = 1,

- per ogni sequenza Aii∈N di elementi disgiunti di MPr(

i∈N Ai) =∑

i∈N Pr(Ai) (additivita numerabile).

Possiamo facilmente costruire uno spazio di probabilita su un qualunque insieme finito S. A talfine, sia P(S) la famiglia di tutti i sottoinsiemi di S e denotiamo con #A la cardinalita di unqualunque A ⊆ S. Definiamo la funzione

C : P(S) −→ [0, 1] tale che C(A) =#A

#S.

E evidente che (S,P(S), C) e uno spazio di probabilita.Piu in generale, per ogni funzione p : S −→ [0, 1] tale che

a∈S p(a) = 1, possiamo definirela misura di probabilita P che associa ad ogni A ∈ P(S) il valore P (A) =

a∈A p(a). Si verificafacilmente che la tripla (S,P(S), P ) e uno spazio di probabilita.

Varie altre proprieta possono essere derivate dalle definizioni precedenti. Elenchiamo nelseguito solo le piu semplici.

Dato uno spazio di probabilita (Ω,M, P r) valgono gli enunciati seguenti:

• per ogni A ∈ M, Pr(Ac) = 1− Pr(A);

• per ogni A,B ∈ M, se A ⊆ B allora Pr(A) ≤ Pr(B);

• se A1, A2, . . . , An e un insieme finito di elementi di M disgiunti allora

Pr(⋃n

i=1 Ai) =∑n

i=1 Pr(Ai) (additivita finita).

Inoltre, data una sequenza Ann∈N di eventi casuali, definiamo il limite inferiore e il limitesuperiore di Ann∈N mediante le relazioni

lim infn→+∞

An =⋃

n≥1

k≥n

Ak lim supn→+∞

An =⋂

n≥1

k≥n

Ak .

3

Page 4: Compendio di calcolo delle probabilit`a - unimi.it

Entrambi tali limiti appartengono a M. Il limite inferiore e l’insieme degli elementi ω ∈ Ω cheappartengono a tutti gli insiemi An, n ≥ 1, tranne al piu ad un numero finito di questi; il limitesuperiore e invece l’insieme di tutti gli ω ∈ Ω che appartengono a infiniti insiemi An, n ≥ 1. Loloro probabilita e data da

Pr(lim infn→+∞

An) = limn→+∞

Pr(⋂

k≥n

Ak) Pr(lim supn→+∞

An) = limn→+∞

Pr(⋃

k≥n

Ak)

Si dice anche che Ann∈N converge a un insieme A e scriviamo limn→+∞An = A, se i duelimiti inferiore e superiore coincidono e il loro valore e proprio A. In questo caso A ∈ M ePr(A) = limn→+∞ Pr(An). Ogni successione Ann∈N ⊂ M monotona e convergente e inoltrelimn→+∞An =

n≥1An se la sequenza e non decrescente, mentre limn→+∞An =⋂

n≥1An sela sequenza e non crescente.

Un’altra nozione fondamentale e quella di indipendenza. Dato uno spazio di probabilita(Ω,M, P r), due eventi casuali A,B (∈ M) si dicono indipendenti se Pr(A∩B) = Pr(A)Pr(B).Intuitivamente, due eventi sono indipendenti se l’occorrenza di uno dei due non influisce sullaprobabilita di occorrenza dell’altro. Piu in generale, una famiglia qualsiasi di eventi casualiAjj∈I si dice indipendente se, per ogni sottoinsieme finito di indici S ⊆ I,

Pr(⋂

j∈SAj) =

j∈SPr(Aj)

Fissato uno spazio di probabilita (Ω,M, P r) e dati due eventi A,B ∈ M, con Pr(B) > 0, sidefinisce probabilita condizionata di A rispetto a B il valore

Pr(A | B) =Pr(A ∩B)

Pr(B)

Esso intuitivamente rappresenta la probabilita di A dato che si e verificato l’evento B. Notache la tripla (Ω,M, P rB), dove PrB(A) = Pr(A | B) per ogni A ∈ M, e uno spazio di pro-babilita. Se invece Pr(B) = 0 si pone per convenzione Pr(A | B) = 0. Chiaramente, se Ae B sono indipendenti allora Pr(A | B) = Pr(A) e Pr(B | A) = Pr(B). Inoltre, le seguentiproprieta possono essere facilmente dimostrate a partire dalle definizioni e sono spesso utilizzateper calcolare la probabilita di un evento casuale:

• data una famiglia finita di eventi A1, A2, . . . , An ∈ M tali che Pr(⋂

i Ai) > 0, vale larelazione

Pr(⋂n

i=1 Ai) = Pr(A1) Pr(A2 | A1) Pr(A3 | A1 ∩A2) · · ·Pr(An | A1 ∩ · · · ∩An−1);

• se una famiglia finita o numerabilmente infinita di eventi Ajj∈I ⊆ M forma una par-tizione di Ω allora, per ogni B ∈ M, vale Pr(B) =

j∈I Pr(B ∩Aj) e quindi

Pr(B) =∑

j∈I′Pr(B | Aj)Pr(Aj) (1)

dove I ′ e il sottoinsieme di I degli indici j tali che Pr(Aj) > 0.

4

Page 5: Compendio di calcolo delle probabilit`a - unimi.it

2 Variabili aleatorie e funzioni distribuzione

Una variabile aleatoria (v.a.) su uno spazio di probabilita (Ω,M, P r) e una funzione

X : Ω −→ R

tale che, per ogni a ∈ R, l’insieme ω ∈ Ω | X(ω) ≤ a appartiene a M. Nota che in taledefinizione X dipende da Ω e da M ma non dalla misura di probabilita Pr.

Osserviamo che ogni variabile aleatoria induce uno spazio di probabilita sulla retta reale.Per verificare questa proprieta, denotiamo con B la piu piccola σ-algebra in R contenente tuttigli intervalli di numeri reali. Ricordiamo che gli elementi di B sono chiamati insiemi di Borel;nota che B contiene tutti gli insiemi che si ottengono come unione o intersezione finita o (nu-merabilmente) infinita di intervalli reali. Sia ora X una variabile aleatoria definita su uno spaziodi probabilita (Ω,M, P r). Si puo dimostrare che per ogni A ∈ B l’insieme

X−1(A) = ω ∈ Ω | X(ω) ∈ A

appartiene a M. Di conseguenza possiamo definire la funzione PX : B −→ [0, 1] tale chePX(A) = Pr(X−1(A)) per ogni A ∈ B; cosı si verifica facilmente che (R,B, PX) e uno spazio diprobabilita.

Una nozione naturale in questo contesto e quella di funzione misurabile. Una funzionef : R −→ R e detta misurabile se, per ogni x ∈ R, f−1((−∞, x]) e un insieme di Borel (e quindif−1(A) ∈ B per ogni A ∈ B). Ne segue che se X e una variabile aleatoria e f : R −→ R e unafunzione misurabile, allora anche f(X) e una variabile aleatoria. La nozione di insiemi di Borele di funzione misurabile si estendono facilmente agli spazi multidimensionali Rn per qualunqueintero positivo n.

Per semplificare la notazione si e soliti rappresentare gli insiemi che sono controimmagine divariabili aleatorie senza denotare esplicitamente i punti campione ω ∈ Ω. Cosı per esempio, datiuna variabile aleatoria X su (Ω,M, P r), un punto a ∈ R e un sottoinsieme A ⊆ R, gli insiemiω ∈ Ω | X(ω ≤ a e ω ∈ Ω | X(ω) ∈ A sono denotati rispettivamente dalle espressioniX ≤ a e X ∈ A, mentre le loro probabilita sono espresse da Pr(X ≤ a) e Pr(X ∈ A).

La funzione distribuzione di una variabile aleatoria X su (Ω,M, P r) e definita come lafunzione FX : R −→ [0, 1], tale che

FX(a) = Pr(X ≤ a) per ogni a ∈ R

E facile verificare che ogni funzione distribuzione FX verifica le seguenti proprieta :

1. FX e monotona non decrescente in R;

2. FX e continua dalla destra in ogni punto di R ovvero, per ogni a ∈ R,

lim0<h→0

FX(a+ h) = FX(a)

3. lima→−∞ FX(a) = 0 e lima→+∞ FX(a) = 1 ;

4. per ogni a < b vale Pr(a < X ≤ b) = FX(b)− FX(a).

5

Page 6: Compendio di calcolo delle probabilit`a - unimi.it

Si puo anche dimostrare che ogni funzione F : R −→ [0, 1] che verifica le proprieta 1), 2) e 3)precedenti, e la funzione distribuzione di qualche variabile aleatoria.

Una variabile aleatoria X su (Ω,M, P r) si dice discreta se l’insieme dei suoi valori X(Ω) efinito o infinitamente numerabile. In questo caso, posto X(Ω) = a1, a2, . . ., possiamo definirela funzione pX : a1, a2, . . . −→ [0, 1] tale che

pX(ai) = Pr(X = ai) per ogni ai ∈ X(Ω).

Otteniamo cosı Pr(X ∈ A) =∑

ai∈A pX(ai) per ogni A ⊆ X(Ω). La funzione pX e chiamatafunzione probabilita di X. Si verifica facilmente che, per ogni indice i

FX(ai) =∑

j:aj≤ai

pX(aj), mentre pX(aj) = lim0<h→0

(FX(aj)− FX(aj − h))

permettendo cosı di calcolare FX conoscendo i valori di pX e viceversa. Come esempi di v.a.discreta, nelle sezioni 4.1, 4.2 4.3 e 4.4 ricordiamo le definizioni delle variabili Bernoulliane,binomiali, geometriche e Poissoniane. Se X si concentra in un solo punto, ovvero X(Ω) = aper qualche a ∈ R, diremo che X e una v.a. degenere.

Invece, una variabile aleatoria X su (Ω,M, P r) si dice continua se esiste una funzione fX :R −→ R tale che

1. fX(t) ≥ 0 per ogni t ∈ R;

2. FX(a) =∫ a−∞ fX(t)dt per ogni a ∈ R.

La funzione fX e detta funzione densita di X e i suoi valori coincidono con quelli della derivatadi FX quando quest’ultima e definita.

La funzione densita fX e chiaramente integrabile in tutto R e per ogni a < b vale l’uguaglianza

∫ b

afX(t)dt = Pr(a < X < b)

Nelle sezioni 4.5, 4.6 e 4.7 ricordiamo le definizioni delle variabili uniformi, normali ed esponen-ziali come esempi di v.a. continue.

Osserviamo inoltre che se X e una variabile aleatoria continua, allora Pr(X = a) = 0 perogni a ∈ R; invece fX(a)dt rappresenta la probabilita che X cada in un intervallo di centro a eampiezza infinitesima dt (a meno di infinitesimi di ordine superiore).

Vale la pena ribadire che la funzione distribuzione FX di una generica v.a. X dipende dallaprobabilita con la quale X assume i suoi valori, ma non caratterizza la X come funzione da Ωin R. In altre parole, variabili aleatorie diverse possono avere la stessa funzione distribuzione.Per esempio, considera la variabile X che assume i valori 1 e −1 con ugual probabilita 1/2 edefinisci Y = −X. Nota che le variabili X e Y sono diverse, anzi esse sono totalmente diversenel senso che X(ω) 6= Y (ω) per ogni ω ∈ Ω. Nonostante questo le loro funzioni distribuzionesono identiche ovvero, per ogni a ∈ R,

FX(a) = FY (a) =

0 se a < −11/2 se −1 ≤ a < 11 se 1 ≤ a

6

Page 7: Compendio di calcolo delle probabilit`a - unimi.it

3 Momenti

Sia g : R −→ R una funzione misurabile e sia X una variabile aleatoria discreta tale cheX(Ω) = a1, a2, . . .. Chiamiamo allora valor medio di g(X) il valore

E[g(X)] =∑

i

g(ai)pX(ai)

assumendo che la serie sia assolutamente convergente (ovvero che∑

i |g(ai)|pX(ai) < +∞). Setale serie non converge assolutamente diremo che E[g(X)] non e definito.

Analogamente, se X e una variabile aleatoria continua, definiamo il valor medio di g(X)mediante l’uguaglianza

E[g(X)] =

∫ +∞

−∞g(t)fX(t)dt ,

assumendo che la funzione g(t)fX(t) sia assolutamente integrabile in (−∞,+∞), altrimentidiremo anche in questo caso che E[g(X)] non e definito.

E facile constatare che l’operatore E e lineare e quindi valgono le seguenti relazioni nellequali c, c1 e c2 sono costanti mentre g, g1 e g2 sono funzioni misurabili:

1. E[c] = c,

2. E[cg(X)] = cE[g(X)],

3. E[c1g1(X) + c2g2(X)] = c1E[g1(X)] + c2E[g2(X)],

4. E[g1(X)] ≤ E[g2(X)] se g1(x) ≤ g2(x) per ogni x ∈ R.

In particolare, se g e la funzione identita, otteniamo il valor medio, o semplicemente la media,della variabile aleatoria X:

E[X] =∑

i

aipX(ai) oppure E[X] =

∫ +∞

−∞tfX(t)dt.

Osserviamo che, se X e una variabile aleatoria discreta e assume valori in N, allora

E[X] =∑

k≥1

Pr(X ≥ k)

Come esempi riportiamo nella sezione 4 i valori medi delle variabili aleatorie discrete econtinue che abbiamo citato in precedenza.

Chiaramente si puo definire il valor medio E[g(X)] anche per le variabili aleatorie che nonsono discrete ne continue; questo vale ad esempio per quelleX che assumono un valore particolarea con probabilita 1/2 e distribuiscono la probabilita rimanente in modo uniforme in un intervalloche non contiene a. Tuttavia per definire i momenti in questo caso piu generale occorre introdurrela nozione di integrale di Stieltjes la cui trattazione esula dagli scopi di questo lavoro.

Occorre inoltre segnalare che la definizione di E non dipende dalla rappresentazione dellavariabile aleatoria considerata. Piu precisamente, data una v.a. X e una funzione misurabileg : R −→ R, se definiamo la nuova v.a. Y = g(X) allora E[Y ] = E[g(X)]. Questa uguaglianza edi verifica immediata nel caso discreto. Nel caso continuo, con g derivabile ovunque, essa e una

7

Page 8: Compendio di calcolo delle probabilit`a - unimi.it

conseguenza delle proprieta di derivazione delle funzioni inverse. Nel caso generale invece essaderiva dalle proprieta degli integrali di Stieltjes.

Infine ricordiamo che la media di una variabile aleatoria non e sempre definita. Nel casodiscreto questo accade quando la serie che definisce il valor medio non e convergente, in quellocontinuo quando l’integrale relativo non esiste. Per esempio, se definiamo Y = 2Xp , dove Xp euna variabile aleatoria geometrica di parametro p (0 < p < 1), allora abbiamo

E[Y ] = E[2Xp ] =∑

n≥1

2nqn−1p = 2p∑

n≥0

(2q)n

Quest’ultima serie e convergente solo nel caso 1/2 < p < 1; quindi, per ogni 0 < p ≤ 1/2 lavariabile aleatoria Y non ammette valor medio.

Per ogni intero r > 0, la quantita E[Xr] e chiamata momento r-esimo di X; nel caso discretoe continuo abbiamo rispettivamente

E[Xr] =∑

i

ari pX(ai) oppure E[Xr] =

∫ +∞

−∞trfX(t)dt.

Invece il valore E[(X − E[X])r ] e detto momento centrale r-esimo di X. Di particolareimportanza e il momento centrale secondo, chiamato varianza di X e denotato var(X), mentre√

var(X) e lo scarto quadratico medio. La varianza rappresenta intuitivamente una misura delladispersione di X intorno al suo valor medio; essa rimane invariata traslando la variabile, ovverovar(X) = var(X + c) per ogni costante c. Viene invece amplificata mediante una omotetia, inaltre parole var(cX) = c2var(X).

Il calcolo della varianza si esegue solitamente utilizzando la seguente uguaglianza di facileverifica

var(X) = E[(X − E[X])2] = E[X2]− (E[X])2

Piu in generale e sempre possibile ricavare i momenti centrali di una variabile aleatoria dai suoimomenti semplici:

E[(X − E[X])r ] =

r∑

i=0

(

r

i

)

E[Xi](−E[X])r−i

L’operatore E permette inoltre di definire la funzione generatrice dei momenti mX(t) di unavariabile aleatoria X. Essa e definita come la funzione che associa ad un numero reale t il valore

mX(t) = E[etX ] =

a∈X(Ω)

etapX(a) se X e’ discreta

∫ +∞

−∞etyfX(y)dy se X e’ continua

Chiaramente mX(0) = 1 e possiamo dire che la funzione mX(t) esiste se essa e ben definita in unintervallo aperto non vuoto che include 0. In questo caso si verifica che mX(t) e differenziabilecon continuita in un intorno di 0 e, per ogni intero positivo r, la sua derivata r-esima valutatain 0 coincide con il momento r-esimo di X:

dr

dtrmX(t)

t=0

= E[Xr]

8

Page 9: Compendio di calcolo delle probabilit`a - unimi.it

Quindi, se esiste, la funzione mX(t) e sviluppabile in serie di potenze con centro in 0 e possiamoscrivere

mX(t) =

+∞∑

r=0

E[Xr]

r!tr

E importante osservare che la funzione mX(t) caratterizza interamente la funzione distribuzionedi X. In altre parole, se due variabili aleatorie hanno la stessa funzione generatrice dei momentie questa e ben definita in un intorno aperto di 0, allora hanno la stessa funzione distribuzio-ne; viceversa, e chiaro che se due variabili aleatorie hanno la stessa funzione distribuzione epossiedono funzione generatrice dei momenti, quest’ultima deve essere la stessa.

4 Esempi notevoli

Presentiamo di seguito tre esempi di variabili aleatorie discrete e altrettanti di variabili aleatoriecontinue. Per brevita, d’ora in poi denoteremo con N+ l’insieme degli interi maggiori di 0.

4.1 Bernoulliane

Dato un valore p ∈ (0, 1) e posto q = 1 − p, diciamo che una variabile aleatoria X e unaBernoulliana di parametro p se X puo assumere solo i valori 0 e 1 e le loro probabilita sono leseguenti:

Pr(X = 1) = p , Pr(X = 0) = q

E inoltre facile verificare le seguenti proprieta :

E[X] = p

var(X) = pq

mX(t) = (q + pet)

4.2 Binomiali

Dati i valori p ∈ (0, 1) e n ∈ N+, una variabile aleatoria binomiale di parametri n e p euna variabile che rappresenta il numero di successi in una sequenza di n prove Bernoullianeindipendenti, dove ogni prova ha probabilita di successo p e probabilita di insuccesso q = 1− p.Rappresenteremo tale variabile mediante l’espressione Xnp. Chiaramente i possibili valori diXnp sono 0, 1, . . . , n; inoltre e facile provare che la sua funzione probabilita e data da

pXnp(k) =

(

n

k

)

pkqn−k, per ogni k = 0, 1, . . . , n.

Le sue proprieta fondamentali sono:

E[Xnp] =

n∑

k=1

(

n

k

)

kpkqn−k = np

n∑

k=1

n− 1!

k − 1!n− k!pk−1qn−k = pn(p+ q)n−1 = np

var(Xnp) = E[X2np]− (E[Xnp])

2 =

n∑

k=0

(

n

k

)

k2pkqn−k − (np)2 = npq

mXnp(t) =

n∑

k=0

(

n

k

)

etkpkqn−k = (q + pet)n

9

Page 10: Compendio di calcolo delle probabilit`a - unimi.it

4.3 Geometriche

Un altro esempio e costituito dalla variabile aleatoria geometrica Xp di parametro p, 0 < p ≤ 1.Essa e definita come il numero di prove necessarie per ottenere il primo successo in una sequenzaillimitata di prove Bernoulliane indipendenti, dove p rappresenta di nuovo la probabilita disuccesso. In questo caso, l’insieme dei valori di Xp e quello degli interi positivi N+, mentre lasua funzione di probabilita e definita da

pXp(k) = qk−1p per ogni k ∈ N+

Inoltre i suoi valori medi risultano i seguenti:

E[Xp] = p−1

var(Xp) = qp−2

mXp(t) =pet

1− qet

4.4 Poissoniane

Dato un valore λ > 0, una variabile aleatoria Poissoniana di parametro λ e una v.a. X cheassume valori in N tale che, per ogni k ∈ N,

Pr(X = k) =e−λλk

k!

Si dimostra che i suoi momenti rilevanti sono i seguenti:

E[X] = λ

var(X) = λ

mX(t) = eλ(et−1)

Intuitivamente, le variabili Poissoniane sono tradizionalmente utilizzate per rappresentare inmolti ambiti naturali il numero di occorrenze di un evento casuale (che in ogni istante puo veri-ficarsi o meno) in un certo arco di tempo, supponendo una generale indipendenza dei fenomenie un’ipotesi di uniformita nella loro collocazione nel tempo. Esempi di Poissoniane potrebberoessere il numero dei seguenti eventi verificatisi in un dato lasso di tempo: le chiamate telefonichein un certo distretto, gli incidenti gravi in una data area geografica, le collisioni con meteoritidi un satellite in orbita, il numero di difetti o di guasti di dispositivi elettronici o meccanici.Queste variabili giocano un ruolo determinante nei processi stocastici di Poisson.

Tra le sue proprieta ricordiamo anche:

1. se X e una Poissoniana di parametro λ intero, allora

Pr(X = λ) = Pr(X = λ− 1)

2. ogni Poissoniana X e unimodale intorno al suo valor medio, ovvero

Pr(X = k − 1) < Pr(X = k) per ogni intero positivo k < λ

Pr(X = k − 1) > Pr(X = k) per ogni intero positivo k > λ;

10

Page 11: Compendio di calcolo delle probabilit`a - unimi.it

3. data una costante λ > 0, la distribuzione delle binomiali del tipo Xn, λnn∈N converge, per

n → +∞, alla distribuzione di una Poissoniana di parametro λ. Piu precisamente, perogni k ∈ N, abbiamo

limn→+∞

Pr(Xn, λn= k) =

e−λλk

k!

La dimostrazione dell’ultima proprieta deriva dalla seguente catena di uguaglianze

limn→+∞

Pr(Xn, λn= k) =

(

n

k

)(

λ

n

)k (

1− λ

n

)n−k

=

=λk

k!· n(n− 1) · · · (n− k + 1)

nk·(

1− λ

n

)n

·(

1− λ

n

)−k

→ λk

k!e−λ

infatti, nella seconda riga il secondo e il quarto fattore convergono a 1 mentre per il terzo siapplica il noto limite notevole.

L’interpretazione naturale di questo risultato e la seguente. Eseguiamo n prove Bernoullianeindipendenti con probabilita di successo λ/n, in un intervallo di tempo fissato T , con λ >0 costante, e facciamo crescere n a +∞. Questo significa che infittiamo il numero di proveriducendo contemporaneamente la probabilita di successo, in modo tale che il numero medio disuccessi (λ) rimanga inalterato. Allora la distribuzione del numero totale di successi convergealla distribuzione di una Poissoniana di parametro λ.

4.5 Uniformi

Dati due valori a, b ∈ R tali che a < b, una variabile aleatoria X e uniforme sull’intervallo [a, b]se X e continua e la sua funzione densita e definita da

fX(t) =

0 se t < a oppure t > b1

b−a se a ≤ x ≤ b

La sua funzione distribuzione e quindi

FX(x) =

0 se x < ax−ab−a se a ≤ x ≤ b

1 se x > b

Nota che FX e continua su tutto R ed e derivabile ovunque tranne nei punti a e b.

Le sue principali caratteristiche numeriche sono le seguenti:

E[X] =b+ a

2

var(X) =(b− a)2

12

mX(t) =ebt − eat

(b− a)t

11

Page 12: Compendio di calcolo delle probabilit`a - unimi.it

4.6 Normali

Un altro esempio classico e quello della variabile aleatoria normale (o Gaussiana): fissati duevalori µ, σ ∈ R, dove σ > 0, una v.a. X e una normale µ, σ (in simboli X ∈ N(µ, σ)) se X econtinua e la sua funzione densita e data da

fX(t) =1√2πσ

e−(t−µ)2

2σ2 , −∞ < t < +∞

Verificare che tale funzione sia effettivamente una densita non e immediato come nei casi prece-denti, poiche essa non possiede una primitiva esprimibile in modo esplicito. Per questo motivone diamo qui una prova diretta.

Proposizione 1 La funzione fX(t) definita sopra e una funzione densita.

Dimostrazione. Poiche fX(t) e positiva e integrabile in (−∞,+∞), e sufficiente provare che

∫ +∞

−∞fX(t)dt = 1

A tale scopo dimostriamo che(∫ +∞

−∞fX(t)dt

)2

= 1

L’espressione di sinistra si puo scrivere come un integrale in R2, nella forma

∫ +∞

−∞

∫ +∞

−∞fX(x)fX(y)dxdy =

1

2πσ2

R2

exp

(

−(x− µ)2 + (y − µ)2

2σ2

)

dxdy

Passiamo ora alle coordinate polari sul piano: ponendo x = µ + ρ cos θ, y = µ + ρ sin θ ericordando che lo Jacobiano della trasformazione e

det

[

dxdρ

dxdθ

dydρ

dydθ

]

= det

[

cos θ −ρ sin θsin θ ρ cos θ

]

= ρ

l’integrale precedente diventa

1

2πσ2

∫ 2π

0

∫ +∞

0exp

(

− ρ2

2σ2

)

ρdρdθ

Ora, la funzione exp(

− ρ2

2σ2

)

ρ rispetto alla variabile ρ ammette la primitiva −σ2 exp(

− ρ2

2σ2

)

che valutata tra gli estremi +∞ e 0 fornisce il valore σ2. L’espressione precedente risulta allorauguale a

1

2πσ2

∫ 2π

0σ2dθ = 1

e la proposizione e cosı dimostrata. 2

12

Page 13: Compendio di calcolo delle probabilit`a - unimi.it

La funzione distribuzione di una v.a. X ∈ N(µ, σ2) e chiaramente data da

FX(x) =1√2πσ

∫ x

−∞e−

(t−µ)2

2σ2 dt

Le sue caratteristiche numeriche si ottengono in modo analogo e risultano le seguenti:

E[X] = µ

var(X) = σ2

mX(t) = exp

(

µt+σ2t2

2

)

Nel caso in cui µ = 0 e σ = 1 si dice che X e una normale standard.

Tali variabili aleatorie devono la loro importanza al teorema del limite centrale che ricordiamonella sezione 8.2 e alle sue numerose applicazioni.

4.7 Esponenziali

Dato un valore λ > 0, una variabile aleatoria X e una esponenziale di parametro λ se X econtinua e la sua densita e definita da

fX(t) =

0 se t < 0λe−λt se t ≥ 0

Di conseguenza la distribuzione e data da

FX(x) =

0 se x ≤ 01− e−λx se x > 0

Le sue principali caratteristiche numeriche sono le seguenti:

E[X] =1

λ

var(X) =1

λ2

mX(t) =λ

λ− t

Tali v.a. godono della seguente proprieta che ne giustifica l’utilizzo come modello per lo studiodi tempi di attesa di certi eventi casuali e la cui dimostrazione e una immediata conseguenzadelle definizioni.

Proposizione 2 Se X e una variabile aleatoria esponenziale allora, per ogni a, b > 0,

Pr(X > a+ b | X > a) = Pr(X > b)

Questo significa intuitivamente che X e priva di memoria, ovvero se essa rappresenta il tempo diattesa di un un evento casuale, allora la probabilita di un’attesa superiore a b, una volta attesolo stesso evento per un tempo a, e la stessa che si avrebbe all’inizio del processo.

13

Page 14: Compendio di calcolo delle probabilit`a - unimi.it

5 Distribuzioni condizionate

Osserviamo che la funzione distribuzione di una variabile aleatoria dipende strettamente dallamisura di probabilita considerata. Piu precisamente, data una variabile aleatoria X definita suuno spazio (Ω,M, P r), una modifica della misura Pr induce generalmente un cambiamento deivalori di FX , anche se la famiglia di insiemi M e la stessa variabile X (intesa come funzioneda Ω in R) rimangono inalterate. Formalmente quindi una variabile aleatoria ammette funzionidistribuzioni diverse a seconda della misura di probabilita considerata. In alcuni casi e necessariotuttavia evitare questa ambiguita e occorre legare una variabile aleatoria alla misura di proba-bilita usata. Un esempio di questa situazione occorre nella definizione di funzione distribuzionecondizionata.

Data una variabile aleatoria X su (Ω,M, P r) e un evento B ∈ M tale che Pr(B) > 0,denotiamo con XB la stessa variabile X definita pero sullo spazio (Ω,M, P rB), dove PrB e lamisura di probabilita condizionata definita nella sezione 1. Nota che i valori di XB sono gli stessidi X, ovvero per ogni ω ∈ Ω vale XB(ω) = X(ω). Allora, per ogni a ∈ R, abbiamo

FXB(a) = PrB(X ≤ a) = Pr(X ≤ a | B) =

Pr( (X ≤ a) ∩B )

Pr(B)

Se X e una variabile aleatoria discreta con funzione probabilita pX , allora la corrispondentefunzione di XB e data da

pXB(a) =

pX(a)Pr(B) se a ∈ X(B)

0 altrimenti

Se invece X e continua con funzione densita fX , allora si dimostra facilmente che per ogni t ∈ R

fXB(t) =

fX(t)Pr(B) se t ∈ X(B)

0 altrimenti

Di conseguenza otteniamo il valor medio di XB :

E(XB) =

a∈X(B)

apX(a)

Pr(B)se X e’ discreta

X(B)tfX(t)

Pr(B)dt se X e’ continua

Il valore E(XB) viene spesso denotato nella forma E(X | B) ed e chiamato valor medio di Xcondizionato a B.

Queste nozioni consentono di esprimere il valor medio di una variabile aleatoria usando ivalori medi condizionati agli eventi di una partizione dello spazio campione. Infatti, si puofacilmente dimostrare che se Aii∈I e una partizione finita di Ω, Ai ∈ M e Pr(Ai) > 0 perogni i ∈ I, allora il valor medio di una qualsiasi variabile aleatoria X su (Ω,M, P r) soddisfaun’uguaglianza analoga a quella delle probabilita totali (1):

E(X) =∑

i∈IE(X | Ai)Pr(Ai)

Una classica applicazione dell’equazione precedente riguarda la valutazione del tempo medio dicalcolo dell’algoritmo Quicksort su una istanza S di n elementi, dove Ai rappresenta l’eventoper il quale il pivot scelto dalla procedura e l’i-esimo elemento piu piccolo di S.

14

Page 15: Compendio di calcolo delle probabilit`a - unimi.it

6 Disuguaglianze tradizionali

Ricordiamo due classiche disuguaglianze, basate su valor medio e varianza, che consentono distimare le probabilita dei valori di un variabile aleatoria. La prima e quella di Markov, validaper le variabili positive: se Y e una v.a. che assume solo valori in R+ = x ∈ R | x ≥ 0 epossiede valor medio finito allora, per ogni a > 0, abbiamo

Pr(Y ≥ a) ≤ E[Y ]

a(2)

La sua dimostrazione e piuttosto semplice: se Y e continua allora

Pr(Y ≥ a) =

∫ +∞

afY (t)dt ≤

∫ +∞

a

t

afY (t)dt ≤

E[Y ]

a

Un ragionamento analogo vale nel caso discreto.La seconda disuguaglianza e quella di Chebyshev, che consente di valutare la probabilita che

la distanza di una v.a. dal suo valor medio sia maggiore di una data quantita. Piu precisamente,se X e una variabile aleatoria che ammette varianza finita allora, per ogni a > 0, abbiamo

Pr(|X − E[X]| ≥ a) ≤ var(X)

a2(3)

La sua dimostrazione e una conseguenza della disuguaglianza precedente.Infatti, l’evento |X −E[X]| ≥ a implica (X −E[X])2 ≥ a2 e inoltre (X −E[X])2 una v.a. a

valori non negativi, per cui applicando la (2), otteniamo

Pr(|X − E[X]| ≥ a) ≤ Pr((X − E[X])2 ≥ a2) ≤ E[(X − E[X])2]

a2=

var(X)

a2

7 Variabili aleatorie multidimensionali

In questa sezione ricordiamo brevemente le proprieta essenziali delle variabili aleatorie multidi-mensionali. A tale scopo, fissato n ∈ N denotiamo con R

n l’insieme delle n-ple di numeri reali,che chiameremo anche vettori di dimensione n a coefficienti in R; usiamo inoltre un simbolosottolineato x per denotare una generica n-pla di elementi (x1, x2, . . . , xn).

Dato uno spazio di probabilita (Ω,M, P r) sul quale sono definite n variabili aleatorie

X1,X2, . . . ,Xn

chiamiamo variabile aleatoria n-dimensionale il vettore

X = (X1,X2, . . . ,Xn)

Nota che per ogni t = (t1, t2, . . . , tn) ∈ Rn, l’evento

(X1 ≤ t1,X2 ≤ t2, . . . ,Xn ≤ tn) =n⋂

i=1

ω ∈ Ω : Xi(ω) ≤ ti

appartiene a M e quindi possiamo definire la funzione distribuzione di X

FX : Rn −→ [0, 1]

15

Page 16: Compendio di calcolo delle probabilit`a - unimi.it

tale cheFX(t) = Pr(X1 ≤ t1,X2 ≤ t2, . . . ,Xn ≤ tn)

Tale funzione e anche chiamata funzione distribuzione congiunta delle X1,X2, . . . ,Xn.Essa gode inoltre delle seguenti proprieta che si ottengono direttamente dalla definizione:

1. FX(t) e funzione non decrescente in ogni ti, i = 1, 2, . . . , n;

2. FX(t) e continua da destra in ogni variabile ti, i = 1, 2, . . . , n;

3. usando le espressioni del tipo FX(t1, . . . , ti−1,+∞, ti+1, . . . , tn) per denotare

limx→+∞

FX(t1, . . . , ti−1, x, ti+1, . . . , tn) ,

valgono le relazioni

FX(+∞,+∞, . . . ,+∞) = 1

limti→−∞

FX(t1, t2, . . . , tn) = 0 , per ogni i = 1, 2, . . . , n,

assumendo valori reali arbitrari per i restanti argomenti;

4. la probabilita di cadere in un qualunque parallelepipedo di Rn si puo esprimere attraversola FX e non e mai negativa. Piu precisamente, per ogni a, b ∈ R

n tale che ai < bi(i = 1, 2, . . . , n), vale la relazione

Pr(ai < Xi ≤ bi,∀i = 1, . . . , n) =

FX(b)−n∑

i=1

FX(b(i)) +

n∑

i<j

FX(b(ij))− · · ·+ FX(a) ≥ 0

dove b(i) = (b1, . . . , ai, bi+1, . . . , bn), b(ij) = (b1, . . . , ai, . . . , aj , . . . , bn), ...

Si puo dimostrare che le proprieta sopra enunciate caratterizzano le funzioni distribuzione div.a. n-dimensionali.

Proposizione 3 Una funzione F : Rn −→ R, con n ≥ 2, e una funzione distribuzione di unan-pla di v.a. aleatorie se e solo se essa soddisfa le proprieta 1, 2, 3, e 4 appena definite.

E bene ricordare che la condizione 4 e indispensabile affiche una funzione sia distribuzionemultidimensionale (mentre la stessa cosa non e vera nel caso monodimensionale). Per esempio,nel caso n = 2, la funzione

F (x, y) =

0 se x < 0 oppure y < 0 oppure x+ y < 11 altrimenti

soddisfa le prime tre proprieta ma non la quarta; infatti, posto a = (0, 0) e b = (2, 2), abbiamo

Pr(0 < x ≤ 2, 0 < y ≤ 2) = F (2, 2) − F (0, 2) − F (2, 0) + F (0, 0) = −1

Essa non puo quindi rappresentare una funzione distribuzione.

16

Page 17: Compendio di calcolo delle probabilit`a - unimi.it

Osserviamo inoltre che per ogni i = 1, 2, . . . , n,

FX(t1, . . . , ti−1,+∞, ti+1, . . . , tn) = Pr(Xj ≤ tj ,∀j 6= i)

e che la funzione distribuzione di Xi si ricava passando al limite sulle altre variabili, ovvero

FX1(x) = FX(x,+∞, . . . ,+∞), FX2(x) = FX(+∞, x,+∞, . . . ,+∞), . . . ,

. . . , FXn(x) = FX(+∞, . . . ,+∞, x),

Una v.a. n-dimensionale X si dice discreta se assume un numero finito o una infinita numer-abile di valori in R

n; in questo caso possiamo definire la funzione probabilita pX : X(Ω) −→ [0, 1],tale che pX(a) = Pr(X = a) per ogni a ∈ X(Ω). Chiaramente vale

FX(t) =∑

a∈X(Ω):ai≤ti∀ipX(a)

La stessa variabile X si dice invece continua se esiste una funzione f : Rn −→ R, integrabilein ogni regione t ∈ R

n | ti ≤ xi,∀i = 1, 2, . . . , n per ciascun x ∈ Rn, tale che

FX(x) =

∫ x1

−∞· · ·

∫ xn

−∞f(t1, . . . , tn)dt1 · · · dtn

Anche in questo caso la funzione f e chiamata densita della variabile aleatoria X .Esempi classici sono quelli delle variabili multinomiali, uniformi o multinormali.

1. Consideriamo un esperimento s che puo restituire n risultati diversi, ciascuno con proba-bilita p1, p2, . . . , pn, dove pi ≥ 0 per ogni i e

∑ni=1 pi = 1. Supponiamo di eseguire k prove

indipendenti di s e consideriamo la variabile aleatoria X = (X1, . . . ,Xn) tale che ogni Xi

rappresenta il numero di prove che hanno fornito l’i-esimo risultato. Chiaramente X euna variabile aleatoria discreta e per ogni n-pla (i1, . . . , in) di interi non negativi tali che∑n

j=1 ij = k, abbiamo

Pr(X = (i1, . . . , in)) =k!

∏nj=1 ij !

pi11 pi22 · · · pinn

Tale variabile e chiamata multinomiale di parametri k, p1, p2, . . . , pn.

2. Data una coppia di valori a, b ∈ Rn tale che ai < bi (i = 1, 2, . . . , n), definiamo la funzione

u : Rn −→ R tale che, per ogni t ∈ Rn,

u(t) =

0 se ti ≤ ai per qualche i0 se ti > bi per qualche i∏n

i=11

bi−aialtrimenti

Tale funzione e la densita di una variabile aleatoria uniforme sul parallelepipedo n-dimen-sionale t ∈ R

n | ai < ti ≤ bi,∀i = 1, . . . , n.

3. Piu in generale la distribuzione uniforme su un insieme di Borel G ⊂ Rn di volume V e

definita dalla funzione

g(t) =

1/V se t ∈ G0 altrimenti

17

Page 18: Compendio di calcolo delle probabilit`a - unimi.it

4. Una normale bidimensionale e una variabile X = (X1,X2) continua di densita

fX(t1, t2) =exp

− 12(1−r2)

(

(t1−µ1)2

σ21

− 2r (t1−µ1)σ1

(t2−µ2)σ2

+ (t2−µ2)2

σ22

)

2πσ1σ2√1− r2

dove µ1, µ2 ∈ R, σ1 e σ2 sono reali positivi e −1 < r < 1. Chiaramente µi e σi sono lamedia e la varianza di Xi, i = 1, 2, mentre r e chiamato coefficiente di correlazione.

Dalla forma dell’espressione risulta evidente che fX assume valore costante su ogni ellissedi equazione

(t1 − µ1)2

σ21

− 2r(t1 − µ1)

σ1

(t2 − µ2)

σ2+

(t2 − µ2)2

σ22

= c

con c > 0: in questo modo possiamo facilmente immaginare la forma a campana dellarelativa superficie nello spazio tridimensionale. Tale distribuzione e utile per studiaremolti fenomeni che si verificano nel piano; per esempio e noto sperimentalmente che ipunti nel piano centrati dai colpi sparati da un obice mantenuto ad alzo fisso, obbedisconoad una legge di questo tipo.

7.1 Variabili aleatorie indipendenti

Diciamo che n variabili aleatorie X1,X2 . . . ,Xn, definite sullo stesso spazio di probabilita , sonoindipendenti se la distribuzione FX della variabile multidimensionale X = (X1,X2 . . . ,Xn) e ilprodotto delle funzioni distribuzione FX1 , FX2 , . . . , FXn , ovvero

FX(x) = FX1(x1)FX2(x2) · · ·FXn(xn) ∀x = (x1, . . . , xn) ∈ Rn

Si dimostra facilmente che se la funzione distribuzione di una v.a. multidimensionale X =(X1, . . . ,Xn) e il prodotto di n funzioni non negative G1, . . . , Gn tali che limx→+∞Gi(x) = 1per ogni i, allora le X1, . . . ,Xn sono indipendenti e ciascuna Gi e la funzione distribuzione diXi.

Inoltre n variabili aleatorie continue X1, . . . ,Xn sono indipendenti se e solo se la funzionedensita congiunta fX e il prodotto delle n funzioni densita fX1 , . . . , fXn . Una proprieta analogavale per la funzione probabilita congiunta di v.a. discrete indipendenti.

Per esempio, la funzione densita congiunta di n normali indipendenti X1, . . . ,Xn, ciascunadi parametri µi e σ2

i , e data da

fX(t1, t2, . . . , tn) =(2π)−n/2

σ1σ2 · · · σnexp

−1

2

n∑

i=1

(ti − µi)2

σ2i

Nota che nel caso n = 2 si ottiene la normale bidimensionale con coefficiente di correlazioner = 0.

Date n v.a. continue X1, . . . ,Xn che formano una v.a. multidimensionale X e una funzionemisurabile g : Rn −→ R, la funzione Y = g(X1, . . . ,Xn) e a sua volta una variabile aleatoria ela sua distribuzione e data da

FY (y) =

Dy

fX(t1, . . . , tn)dt1 · · · dtn

18

Page 19: Compendio di calcolo delle probabilit`a - unimi.it

dove Dy = t ∈ Rn | g(t) ≤ y. Una definizione simile e valida nel caso discreto. Possiamo

definire il valor medio di g(X1, . . . ,Xn) mediante le espressioni

E[g(X1, . . . ,Xn)] =∑

a∈X(Ω)

g(a)pX(a)

nel caso discreto, e

E[g(X1, . . . ,Xn)] =

∫ +∞

−∞· · ·

∫ +∞

−∞g(t)fX(t)dt1 · · · dtn

nel caso continuo. Anche in questo caso si prova che la definizione e ben posta, ovvero

E[Y ] = E[g(X1, . . . ,Xn)]

Inoltre, se X e Y sono due variabili aleatorie monodimensionali definite sullo stesso spaziodi probabilita, , la loro covarianza cov(X,Y ) e definita mediante la relazione

cov(X,Y ) = E[(X − µX)(Y − µY )]

dove µX e µY sono la media di X e Y , rispettivamente. Analogamente si chiama coefficiente dicorrelazione di X e Y il valore

rX,Y =cov(X,Y )

σXσY

dove σ2X e σ2

Y sono la varianza di X e Y , rispettivamente. La covarianza e il coefficiente dicorrelazione rappresentano intuitivamente una misura della relazione di dipendenza esistentetra i segni di X − µX e Y − µY . Piu precisamente esse sono positive se X − µX e Y − µY

tendono ad avere lo stesso segno, mentre sono negative in caso contrario. In valore assoluto lacovarianza e amplificata dallo scarto quadratico medio delle due variabili, per questo si utilizzaspesso il coefficiente di correlazione per avere una misura piu rappresentativa del grado dellaloro relazione lineare, in qualche modo indipendente dalle varianze. Si dimostra facilmente che

cov(X,Y ) = E[XY ]− µXµY

e si puo provare (usando la disuguaglianza di Schwartz) che

−1 ≤ r(X,Y ) ≤ 1

E facile provare che se X e Y sono indipendenti allora cov(X,Y ) = 0. Il viceversa in generalenon e vero: esistono variabili aleatorie con covarianza nulla che non sono indipendenti. Peresempio, se U e una uniforme in [0, 1] e definiamo X = cos(2πU), Y = sin(2πU), si verifica checov(X,Y ) = 0: tuttavia e evidente che X e Y non sono indipendenti. Intuitivamente in questocaso, pur essendo le due variabili dipendenti, il segno di una non viene determinato o influenzatodal valore dell’altra.

Di notevole importanza in questo contesto sono le somme di variabili aleatorie. In particolare,date le v.a. X, Y e X1, . . . ,Xn, valgono le seguenti proprieta:

1. E[∑n

i=1Xi] =∑n

i=1 E[Xi];

19

Page 20: Compendio di calcolo delle probabilit`a - unimi.it

2. var(X + Y ) = var(X) + var(Y ) + 2cov(X,Y );

3. se X1, . . . ,Xn sono indipendenti allora

var(n∑

i=1

Xi) =n∑

i=1

var(Xi)

4. se X e Y sono indipendenti e ammettono funzione generatrice dei momenti mX(t), mY (t),allora posto Z = X + Y abbiamo

mZ(t) = mX(t) ·mY (t)

Piu in generale la funzione generatrice dei momenti di una somma di variabili aleatorieindipendenti e il prodotto delle funzioni generatrici dei momenti.

Quest’ultima proprieta consente di derminare la funzione generatrice (e quindi la distribuzione)di somme di variabili aleatorie. Per esempio:

- una binomiale Xn,p e la somma di n bernoulliane indipendenti di parametro p e quindi

mXn,p(t) =

n∏

i=1

(q + pet) =(

q + pet)n

- date n esponenziali indipendenti di parametro λ, X1, . . . ,Xn, la variabile S =∑n

i=1 Xi verifica

mS(t) =

(

λ

λ− t

)n

provando che S possiede una distribuzione gamma di parametri n e λ;

- date n normali indipendenti X1, . . . ,Xn di parametri µi e σ2i ciascuna, la somma S =

∑ni=1Xi

possiede funzione generatrice dei momenti

mS(t) =n∏

i=1

expµit+ (σit)2/2 = exp

tn∑

i=1

µi +t2

2

n∑

i=1

σ2i

e quindi anche S e una normale; la sua media e la sua varianza sono rispettivamenteµ =

∑ni=1 µi e σ2 =

∑ni=1 σ

2i .

7.2 Matrici di covarianze

Concludiamo questa sezione ricordando l’analogo multidimensionale della media e della varianzadi una variabile aleatoria. Data una variabile aleatoria n-dimensionale X = (X1, . . . ,Xn),denotiamo con E[X ] il vettore dei valori medi, ovvero

E[X ] = (E[X1], E[X2], . . . , E[Xn])

Esso e chiaramente definito quando tutte le variabili Xi ammettono valor medio. Tali valoridipendono solo dalle singole variabili aleatorie e non dalle loro eventuali dipendenze.

20

Page 21: Compendio di calcolo delle probabilit`a - unimi.it

La matrice delle covarianze di X e invece definita da

ΓX = [cov(Xi,Xj)]i,j=1,...,n

Chiaramente, quando esiste, ΓX e una matrice simmetrica, nella quale la diagonale principale

e formata dalle varianze delle variabili X1, . . . ,Xn, prese nel loro ordine. E evidente che talematrice dipende dalle relazioni esistenti tra le variabili Xi; se le Xi sono indipendenti ΓX e unamatrice diagonale.

Inoltre, si dimostra che ΓX e semidefinita positiva, ovvero a′ΓXa ≥ 0 per ogni a ∈ Rn

considerato come vettore colonna (come d’abitudine denotiamo con a′ il trasposto di a). Infatti,posto a′ = (a1, a2, . . . , an), si verifica che

a′ΓXa = var(a1X1 + a2X2 + · · · anXn) ≥ 0

Osserva che la condizione var(a1X1 + a2X2 + · · · anXn) = 0 implica che la variabile aleatoriaa X ′ = a1X1 + a2X2 + · · · anXn e degenere e quindi esiste tra le Xi una precisa dipendenzalineare.

Se invece ΓX e definita positiva, ovvero b′ΓXb > 0 per ogni b ∈ Rn diverso dal vettore nullo

0, allora la variabile a X ′ = a1X1 + a2X2 + · · · anXn e degenere se e solo se ai = 0 per ognii. Ricordiamo che una matrice M ∈ R

n×n simmetrica definita positiva e non singolare (ovveroil suo determinante e diverso da 0), possiede tutti gli autovalori reali positivi, e inoltre anchela sua inversa M−1 e simmetrica definita positiva. Infine una M ∈ R

n×n e simmetrica definitapositiva se e solo se esiste una matrice A ∈ R

n×n non singolare, tale che M = AA′.

Un esempio classico e quello delle variabili aleatorie normali multidimensionali. Dati unvettore µ ∈ R

n e una matrice Σ ∈ Rn×n simmetrica definita positiva, definiamo la funzione

fµ,Σ : Rn −→ R+

mediante l’uguaglianza

fµ,Σ(x) =(2π)−n/2

det(Σ)exp

−(x− µ)′Σ−1(x− µ)

2

∀ x ∈ Rn

Si prova che fµ,Σ e una funzione densita di una variabile aleatoria n-dimensionale X di media µe matrice delle covarianze Σ. La corrispondente funzione distribuzione e chiamata legge normale(o gaussiana) multidimensionale di parametri µ e Σ.

Una tale variabile aleatoria puo essere costruita considerando una n-pla di v.a. monodimen-sionali indipendenti U = (U1, U2 . . . , Un), tutte con distribuzione normale di media 0 e varianza1. Dato un vettore µ ∈ R

n e una matrice non singolare A ∈ Rn×n possiamo considerare la

variabile aleatoria Z di dimensione n definita dalla relazione

Z = µ+AU

Si verifica appunto che la Z possiede una distribuzione normale di media µ e matrice dellecovarianze Σ = AA′.

21

Page 22: Compendio di calcolo delle probabilit`a - unimi.it

8 Convergenza stocastica e teoremi limite classici

In questa sezione consideriamo sequenze di variabili aleatorie e ricordiamo le forme principalidi convergenza di tali successioni. I teoremi limite classici, come la legge dei grandi numerio il teorema limite locale, possono essere visti come esempi o casi particolari di convergenzastocastica.

Nelle considerazioni seguenti, per ogni sequenza di variabili aleatorie Xnn∈N, supporremoche tutte le Xn siano definite sul medesimo spazio di probabilita (Ω,M, P r).

8.1 Convergenza in probabilita e quasi ovunque

Data una sequenza di v.a. Xnn∈N e una ulteriore v.a. X, sempre definita sullo stesso spazio(Ω,M, P r), diciamo che Xn converge in probabilita a X se, per ogni ε > 0,

limn→+∞

Pr(|Xn −X| > ε) = 0

Un esempio classico e quello della convergenza a p (variabile aleatoria degenere) di unabinomiale Xn,p quozientata rispetto a n. In altre parole, si verifica che Xn,p/nn≥1 converge ap in probabilita . Infatti, per ogni ε > 0, applicando la disuguaglianza di Chebyshev otteniamo

Pr

(∣

Xn,p

n− p

> ε

)

= Pr(|Xn,p − np| > nε) ≤ var(Xn,p)

ε2n2= O(1/n)

Nello stesso modo si dimostra che per ogni sequenza di v.a. indipendenti Xnn≥1 aventi lastessa media µ e la stessa varianza finita σ2, la sequenza delle somme quozientate

∑ni=1Xi

n

n≥1

converge a µ in probabilita.Questi esempi sono casi particolari di legge debole dei grandi numeri. In generale, si dice

anche che una sequenza di v.a. Xnn≥1, ciascuna delle quali ammette media finita µn, verificala legge debole dei grandi numeri se

∑ni=1(Xi − µi)

n

n≥1

converge a 0 in probabilita. Si puo dimostrare che questo occorre ogniqualvolta le Xn hannovarianza limita da una costante comune.

Date Xnn∈N e X come sopra, diremo invece che la sequenza Xnn∈N converge a X quasiovunque (Xn → X q.o.) se

Pr( limn→+∞

Xn = X) = 1

La definizione e ben posta poiche si prova che l’evento ω ∈ Ω | limn→+∞Xn(ω) = X(ω)appartiene a M. Vale la pena illustrare questa dimostrazione poiche essa si applica in modosostanzialmente invariato alle principali proprieta asintotiche.

Per provare che (limnXn = X) ∈ M, consideriamo per un generico ε > 0 l’evento

(|Xn −X| < ε)

22

Page 23: Compendio di calcolo delle probabilit`a - unimi.it

E chiaro che tale insieme appartiene M. Di conseguenza, per ogni n ∈ N, anche gli insiemi

+∞⋂

j=n

(|Xj −X| < ε) e Aε =+∞⋃

n=0

+∞⋂

j=n

(|Xj −X| < ε)

appartengono a M. Nota che l’insieme Aε coincide con la famiglia di tutti gli ω ∈ Ω per i quali|Xj(ω)−X(ω)| < ε vale definitivamente per j abbastanza grande. Ne segue che scegliendo unasuccessione εm tendente a 0, l’insieme

A =+∞⋂

m=0

Aεm

coincide con l’evento (limnXn = X) e quindi appartiene a M per costruzione.

E immediato verificare che se Xn → X q.o. allora Xnn tende a X in probabilita; si puoprovare che il viceversa in generale non e vero.

Una condizione sufficiente spesso usata per provare la convergenza q.o. e data dalla seguenteproprieta.

Proposizione 4 (Lemma di Borel-Cantelli) Se per ogni ε > 0 la serie

+∞∑

n=0

Pr(|Xn −X| ≥ ε)

e convergente, allora Xn → X q.o. .

Anche in questo caso il viceversa non e sempre vero.

Come esempio, consideriamo la successione di binomiali Xn,pn≥1 con 0 < p < 1 fissato. Sidimostra che Xn,p/n converge a p quasi ovunque. Infatti, per ogni ε > 0, abbiamo

(∣

Xn,p

n− p

≥ ε

)

⊆(

|Xn,p − np|4 ≥ (nε)4)

e di conseguenza per la disuguaglianza di Markov (2),

Pr

(∣

Xn,p

n− p

≥ ε

)

≤ E[

|Xn,p − np|4]

(nε)4

Il momento centrale quarto di Xn,p puo essere calcolato direttamente usando la funzione ge-neratrice dei momenti e si ottiene E[|Xn,p − np|4] = O(n2). Quindi la parte destra dell’ultimadisuguaglianza risulta O(1/n2), termine generale di una serie convergente, per cui la convergenzaq.o. e assicurata dal lemma di Borel-Cantelli.

Piu in generale, si puo dimostrare che se Xnn≥1 e una sequenza di v.a. indipendenti diugual media µ e varianza limitata da una costante, allora

∑ni=1Xn

n→ µ q.o.

23

Page 24: Compendio di calcolo delle probabilit`a - unimi.it

Questi esempi sono casi particolari di legge forte dei grandi numeri. In generale, si dice cheuna sequenza di v.a. Xnn≥1, ognuna con media finita µn, obbedisce alla legge forte dei grandinumeri se la sequenza

∑ni=1(Xi − µi)

n

n≥1

converge a 0 quasi ovunque.

La convergenza quasi ovunque non implica la convergenza dei valori medi, nemmeno quandotali valori sono definiti. Consideriamo per esempio la sequenza di v.a. discrete Xnn≥1 tali che,per ogni n ≥ 1,

Pr(Xn = x) =

1n2 se x = 2n

1− 1n2 se x = 0

0 altrimenti

Poiche Pr(|Xn| > ε) = 1n2 , per il lemma di Borel-Cantelli Xn → 0 q.o., tuttavia E[Xn] = 2n/n2

tende a +∞ al crescere di n.Per trattare la convergenza dei valori medi si utilizzano tradizionalmente altre nozioni limite.

Dato un intero r > 0 diciamo che una sequenza di v.a. Xnn∈N converge a una v.a. X in Lr

(o in media r-esima) selim

n→+∞E[|Xn −X|r] = 0

La convergenza in L2 e anche chiamata convergenza in media quadratica.Applicando note proprieta e in particolare la disuguaglianza di Markov (2) si dimostra

facilmente che

1. la convergenza in Lr implica la convergenza in Ls per ogni r, s, tali che r > s;

2. la convergenza in L1 implica la convergenza in probabilita;

3. se Xnn converge a X in L1 allora limnE[Xn] = E[X].

Osserva in particolare che la convergenza in media quadratica implica la convergenza in proba-bilita.

8.2 Convergenza in distribuzione

Consideriamo una funzione h(x) e una sequenza di funzioni hn(x)n∈N, tutte definite in R avalori in R. Diciamo allora che hn converge debolmente a h se

limn→+∞

hn(x) = h(x)

per ogni x ∈ R di continuita per h.Diciamo inoltre che una sequenza di v.a. Xn converge in distribuzione a una v.a. X

se FXn converge debolmente a FX , ovvero la sequenza delle funzioni distribuzione di Xnconverge debolmente alla funzione distribuzione di X.

E bene segnalare che questa definizione riguarda solo le funzioni distribuzione delle variabili,quindi tale convergenza puo occorrere anche quando i valori delle Xn non si avvicinano pernulla a quelli di X. Per esempio considera le variabili aleatorie Y e Zn tali che

Pr(Y = i) =

1/2 se i = 11/2 se i = −10 altrimenti

Zn =

Y se n pari−Y se n dispari

24

Page 25: Compendio di calcolo delle probabilit`a - unimi.it

Poiche ogni Zn ha la stessa funzione distribuzione di Y e chiaro che Zn converge a Y indistribuzione. Tuttavia la sequenza Zn, come successione di funzioni, non si avvicina a Y inalcun modo, anzi assume ciclicamente i valori opposti.

La convergenza in distribuzione gode delle seguenti proprieta :

1. la convergenza in probabilita implica la convergenza in distribuzione: se Xn → X inprob. allora FXn converge a FX debolmente. Il viceversa non e vero in generale, uncontroesempio e fornito dalle v.a. Y e Zn definite sopra;

2. se Xn converge a X in distribuzione allora FXn converge a FX uniformemente in tuttoR;

3. supponiamo che Xn e X possiedano funzione generatrice dei momenti. Allora Xnconverge a X in distribuzione se e solo se, per ogni t in un intorno di 0,

limn→+∞

mXn(t) = mX(t)

L’esempio fondamentale di convergenza in distribuzione e fornito dal Teorema del LimiteCentrale. In generale si dice che una sequenza di v.a. Xn soddisfa tale teorema se le sommeparziali n-esime della sequenza, opportunamente normalizzate, convergono in distribuzione auna v.a. normale di media 0 e varianza 1 (normale standard). I vari teoremi di limite centralesi differenziano tra loro a seconda delle ipotesi fatte sulla sequenza considerata. Tra i casi piurilevanti ricordiamo il seguente.

Teorema 5 Sia Xn e una sequenza di variabili aleatorie indipendenti di ugual distribuzione,media µ e varianza finita σ2. Allora, al crescere di n, la successione

∑ni=1 Xi − nµ

σ√n

n≥1

converge in distribuzione a una normale standard. In altre parole, per ogni x ∈ R, abbiamo

limn→+∞

Pr

(∑ni=1 Xi − nµ

σ√n

≤ x

)

=1√2π

∫ x

−∞e−

t2

2 dt

La tradizionale dimostrazione di questo teorema nell’ipotesi piu restrittiva che tutte le Xi

possiedano funzione generatrice dei momenti, puo essere descritta intuitivamente nel modo

seguente. Posto Sn =∑n

i=1 Xi−nµ

σ√n

, essendo le Xn indipendenti, si ha che

mSn(t) = E[exp(tSn)] =

n∏

i=1

E

[

exp

(

tXi − µ

σ√n

)]

=

n∏

i=1

mXi−µ

σ

(t/√n)

Poiche le Xi hanno la stessa distribuzione, le funzioni mXi−µ

σ

sono tutte uguali tra loro e si

possono denotare come mY per una qualunque v.a. Y avente la loro stessa distribuzione. Questoprova che

mSn(t) =(

mY (t/√n))n

A questo punto, sviluppando tale funzione in serie di potenze con centro in 0 e passando allimite per n → +∞, si ricava mSn(t) → et

2/2 e quest’ultima e proprio la funzione generatricedei momenti di una normale standard.

25

Page 26: Compendio di calcolo delle probabilit`a - unimi.it

L’esempio classico di applicazione dell’enunciato precedente riguarda le binomiali, poichequeste non sono altro che somme di Bernoulliane indipendenti di ugual distribuzione. Piuprecisamente, consideriamo una v.a. binomiale Xn,p di parametri n e p: essa e una somma din Bernoulliane indipendenti di parametro p, possiede media np e varianza npq; quindi, per ilteorema precedente,

Xn,p−np√npq converge in distribuzione a una normale standard. Questo significa

che per ogni costante x ∈ R

limn→+∞

bnp+x√npqc

j=0

(

n

j

)

pjqn−j =1√2π

∫ x

−∞e−

t2

2 dt

Quest’ultimo risultato e noto come Teorema di De Moivre - Laplace (in grande) ed e uno deiprimi risultati noti di approssimazione a una normale.

9 Disuguaglianza di Chernoff

Nell’analisi degli algoritmi probabilistici e in generale in molte applicazioni occorre spesso va-lutare la coda di una binomiale, ovvero la probabilita che questa variabile aleatoria disti dallamedia per una quantita fissata. Come sappiamo la disuguaglianza di Chebyshev (3) consente dimaggiorare proprio il valore

Pr(|X − E[X]| ≥ ε)

per una qualunque v.a. X dotata di varianza finita e un qualsiasi ε > 0. Nel caso di unabinomiale Xn,p si ottiene la disuguaglianza

Pr(|Xn,p − np| ≥ nε) ≤ pq

nε2(dove q = 1− p) (4)

che suggerisce una convergenza a zero dell’ordine di O(1/n) al crescere di n.Tuttavia, per il teorema del limite centrale, sappiamo che Xn,p converge in distribuzione a

una normale e quindi e lecito aspettarsi che la coda di Xn,p, ovvero la probabilita consideratasopra, si avvicini a zero con una velocita esponenziale. Infatti, applicando il teorema 5, pern → +∞ si ricava

Pr(Xn,p − np ≥ nε) = Pr

(

Xn,p − np√npq

≥√nε√pq

)

∼ 1√2π

∫ +∞√

nε√pq

e−y2/2dy

≤ O

(

n−1/2e−nε2

2pq

)

dove l’ultima disuguaglianza segue dalla relazione

∫ +∞

ye−z2/2dz ≤ e−y2/2

y(y > 0)

ottenuta integrando per parti (fattore derivato −ze−z2/2) ed eliminando il termine negativo.L’espressione esponenzialmente negativa ottenuta sopra e tuttavia una maggiorazione asin-

totica, non fornisce un preciso valore di n oltre il quale siamo sicuri che la probabilita dellacoda sia minore di un δ fissato. Se vogliamo ottenere una valutazione di questo tipo che assicuri

26

Page 27: Compendio di calcolo delle probabilit`a - unimi.it

un’approssimazione esponenziale allo 0, dobbiamo usare una disuguaglianza vera e propria. Aquesto scopo risulta utile la seguente maggiorazione dovuta a Chernoff, la cui dimostrazione puoessere vista come il caso particolare di una piu generale proprieta, la disuguaglianza di Hoeffding,valida per somme di v.a. a valori limitati in un intervallo.

Teorema 6 (Disuguaglianza di Hoeffding) Consideriamo una n-pla di variabili aleatorie in-dipendenti

X1,X2, . . . ,Xn

nella quale ciascuna Xi assuma valori in un intervallo [ai, bi], ai < bi per ogni i, e definiamoSn =

∑ni=1Xi. Allora, per ogni t > 0, vale la relazione

Pr (|Sn − E[Sn]| ≥ t) ≤ 2e− 2t2

∑ni=1

(bi−ai)2

Dimostrazione. Osserviamo che per ogni v.a. X e ogni s > 0, dalla disuguaglianza di Markov(2) si ottiene

Pr(X ≥ t) = Pr(esX ≥ est) ≤ E[

esX]

est(∀t > 0)

Applicando questa disuguaglianza alla variabile Sn−E[Sn] e ricordando l’indipendenza delle Xi

ricaviamo

Pr(Sn − E[Sn] ≥ t) ≤ E[

es(Sn−E[Sn])]

est

=E[

es∑n

i=1(Xi−E[Xi])]

est=

∏ni=1 E

[

es(Xi−E[Xi])]

est

Se applichiamo ora il lemma 7 (provato nel seguito) a ciascun termine dalla produttoria prece-dente otteniamo

Pr(Sn − E[Sn] ≥ t) ≤∏n

i=1 es2(bi−ai)

2

8

est= exp

−st+s2

∑ni=1(bi − ai)

2

8

Quest’ultima espressione assume il valore minimo per s = 4t∑ni=1(bi−ai)2

; sostituendo tale valore

si ricava

Pr(Sn − E[Sn] ≥ t) ≤ exp

− 4t2∑n

i=1(bi − ai)2+

2t2∑n

i=1(bi − ai)2

= exp

− 2t2∑n

i=1(bi − ai)2

Ragionando in modo analogo si prova la stessa disuguaglianza per Pr(E[Sn]− Sn ≥ t) e questoconclude la dimostrazione. 2

Il seguente lemma completa la dimostrazione precedente.

Lemma 7 Sia X una v.a. non degenere a valori nell’intervallo [a, b], con a, b ∈ R e a < b, taleche E[X] = 0. Allora, per ogni s > 0, vale la disuguaglianza

E[esX ] ≤ es2(b−a)2

8

27

Page 28: Compendio di calcolo delle probabilit`a - unimi.it

Dimostrazione. Nota innanzituto che per le nostre ipotesi a < 0 < b. Quindi, fissato un valores > 0 qualsiasi, consideriamo la funzione esx con a ≤ x ≤ b. Poiche esx e convessa (concavaverso l’alto) la sua curva nell’intervallo dato si trova sotto la retta passante per i punti (a, esa)e (b, esb) Questo vuol dire che per ogni x ∈ [a, b]

esx ≤ b− x

b− aesa +

x− a

b− aesb

Quindi, per le proprieta dell’operatore E e ricordando che E[X] = 0, otteniamo

E[esX ] ≤ besa − aesb

b− a= (1− c)esa + cesb

dove c = − ab−a . Ponendo ora u = s(b− a) l’ultima espressione diventa

(

1− c+ ces(b−a))

esa = exp

log(1− c+ ces(b−a))− sc(b− a)

= exp log(1− c+ ceu)− cu = expφ(u) (5)

dove φ(u) = log(1−c+ceu)−cu e una funzione differenziabile in un intorno di 0. Di conseguenzaesiste θ, 0 ≤ θ ≤ u, tale che

φ(u) = φ(0) + φ′(0)u+φ′′(θ)2

u2 ≤ u2

8=

s2(b− a)2

8(6)

dove la disuguaglianza segue dal fatto che (per calcolo diretto) φ(0) = 0 = φ′(0) mentre per ogni

u, φ′′(u) = c(1−c)e−u

(c+(1−c)e−u)2≤ 1/4. Il risultato si ottiene quindi sostituendo il valore ricavato in (6)

nell’equazione (5). 2

Poiche ogni binomiale e la somma di Bernoulliane indipendenti, il teorema precedente implicail seguente risultato.

Corollario 8 (Disuguaglianza di Chernoff) Se Xn,p e una binomiale di parametri n ∈ N ep ∈ (0, 1) allora, per ogni ε > 0, abbiamo

Pr

(∣

Xn,p

n− p

≥ ε

)

≤ 2e−2ε2n

e, piu precisamente,

Pr (Xn,p − np ≥ nε) ≤ e−2ε2n e Pr (Xn,p − np ≤ −nε) ≤ e−2ε2n (7)

Come esempio, considera un algoritmo probabilistico A che su un generico input x restituisceil valore corretto con una probabilita maggiore o uguale a 3/4. Chiaramente una probabilitadi errore di 1/4 non e accettabile e vogliamo quindi descrivere una procedura che restituisca ilvalore corretto con una probabilita vicina ad 1. Il procedimento naturale e quello di eseguire ncomputazioni indipendenti dell’algoritmo A sullo stesso input x e restituire il risultato ottenutopiu frequentemente, ammesso che ne esista uno. Intuitivamente e ovvio che piu n sara grande epiu sara piccola la probabilita di errore. Vogliamo pero disporre di una valutazione precisa: perquali valori di n la probabilita di errore e minore di un quantita δ piccola fissata?

28

Page 29: Compendio di calcolo delle probabilit`a - unimi.it

Per rispondere al quesito, se consideriamo un successo la correttezza di una esecuzione di Asull’input fissato, il numero di successi ottenuti in n prove indipendenti e maggiore del valoredella binomiale Xn,3/4. Di conseguenza la probabilita di errore complessiva e minore o ugualealla probabilita dell’evento (Xn,3/4 ≤ n/2). Applicando ora la disuguaglianza (7) si ottiene

Pr(Xn,3/4 ≤ n/2) = Pr

(

Xn,3/4 −3n

4≤ −n

4

)

≤ e−n8

Quest’ultima quantita e minore di un valore δ > 0 piccolo per ogni n tale che

n ≥ 8 ln1

δ

Per esempio, se δ = 10−3 otteniamo n ≥ 24 ln 10. Poiche 24 ln 10 ≤ 56 possiamo concludere chen = 56 iterazioni dell’algoritmo A sono sufficienti per garantire una probablita di errore minoredi un millesimo. Osserviamo che, in questo caso, la disuguaglianza di Chebyshev (4) avrebbegarantito la stessa probabilita di errore con un numero di iterazioni pari a n = 3000.

10 Teoremi limite locali

La nozione di convergenza discussa nella sezione 8.2 dipende dal comportamento asintotico dellefunzioni distribuzioni, ma non strettamente da quello delle densita (nel caso continuo) o dellefunzioni probabilita (nel caso discreto). Le proprieta che riguardano invece la convergenza diqueste ultime sono generalmente chiamate “proprieta di limite locale” e la loro validita implicaspesso una convergenza in distribuzione. Il viceversa non e tuttavia vero: vi sono casi anche rile-vanti di convergenza in distribuzione senza che si verifichi un’analoga convergenza delle funzionidensita.

Il primo teorema di limite locale e dovuto a De Moivre e risale al 1730. Egli dimostro unodei primi esempi di limite centrale mostrando che la funzione probabilita di una binomiale diparametri n e p = 1/2, opportunamente normalizzata, converge per n → +∞ alla funzionedensita di una normale standard. Il teorema fu generalizzato circa un secolo dopo da Laplace,che provo la medesima proprieta nel caso p generico, 0 < p < 1. Il risultato ha un’immediatarilevanza pratica perche permette di calcolare le probabilita di una binomiale, per elevati valoridel parametro n, senza bisogno di determinare i coefficienti binomiali associati; questi ultimiinfatti in generale non sono facili da calcolare direttamente.

Teorema 9 (di De Moivre - Laplace) Dato un valore p fissato, 0 < p < 1, sia Xn,pn∈N unasequenza di variabili aleatorie binomiali di parametri n e p. Per ogni n, consideriamo i possibilivalori m tali che la quantita

x =m− np√

npq(dove q = 1− p)

rimanga inclusa in un intervallo finito [a, b], con a < b. Allora l’uguaglianza

limn→+∞

√npq · Pr(Xn,p = m) =

1√2π

e−x2

2

vale uniformemente per ogni x ∈ [a, b].

29

Page 30: Compendio di calcolo delle probabilit`a - unimi.it

In altre parole, l’enunciato afferma che a ogni ε > 0 possiamo coordinare un intero ν(ε) tale cheper ogni n ≥ ν, e per tutti i valori m ∈ N e x = m−np√

npq per i quali x ∈ [a, b], vale la relazione

√npq · Pr(Xn,p = m)− e−

x2

2

√2π

≤ ε

La dimostrazione di questo risultato, che qui omettiamo per brevita, e concettualmente semplice.Si tratta di una applicazione della formula di Stirling ai fattoriali che compaiono nel coefficientebinomiale della probabilita

Pr(Xn,p = m) =

(

n

m

)

pmqn−m (8)

L’espressione ottenuta viene poi manipolata con strumenti tradizionali di analisi quali lo sviluppoin serie di Taylor di funzioni logaritmiche, estraendo cosı il termine asintotico principale.

E naturale chiedersi quale sia la valenza applicativa del risultato ovvero, piu concretamente,per quali valori di n e m l’espressione

En,p =e−

x2

2

√2πnpq

puo ragionevolmente sostituire il valore (8). Per farsi un’idea della rapidita della approssimazioneal crescere di n, consideriamo il caso in cui p = q = 1/2 e facciamo assumere a n i valori 25, 100,400, a m gli interi 15, 55, 210 in modo che il corrispondente valore x = m−np√

npq sia sempre uguale

a 1. In queste condizioni la differenza tra i valori Pr(Xn,p = m) e En,p definiti sopra si riducerispettivamente a 6 · 10−4, 8 · 10−5, 13 · 10−6 [2]. Si tratta di quantita molto piccole che possonoessere spesso trascurate, rendendo i due valori confrontati praticamente uguali. Si puo verificareche, intuitivamente, la rapidita di convergenza diminuisce per valori di p che si avvicinano a 0 oa 1 (e quindi q prossimo a 1 e 0, rispettivamente).

L’importanza del teorema limite locale di De Moivre - Laplace consiste proprio nella possi-bilita di calcolare le probabilita Pr(Xn,p = m) usando la funzione densita della normale standard,i cui valori sono stati accuratamente tabulati, evitando cosı il calcolo dei coefficienti binomialiche, per elevati valori di n e m, solitamente non sono facili da determinare.

Il teorema appena illustrato puo essere sostanzialmente esteso alle somme di variabili aleato-rie discrete che soddisfano la seguente condizione.

Diciamo che una variabile aleatoria X definita sullo spazio di probabilita (Ω,M, P r) possiedeuna distribuzione reticolare se esistono due valori a ∈ R e h > 0 tali che l’insieme X(Ω) dei suoipossibili valori soddisfi l’inclusione

X(Ω) ⊆ a+ kh | k ∈ Z

E facile verificare che le variabili aleatorie Bernoulliane, binomiali o Poissoniane sono dotate didistribuzione reticolare. Inoltre, il valore h e chiamato passo della distribuzione di X. Il passoh e detto massimo se non esiste ` > h tale che X(Ω) ⊆ b+ k` | k ∈ Z per qualche b ∈ R. Peresempio, una v.a. che assume solo (e tutti i) valori interi pari possiede passo massimo 2, masoddisfa la condizione anche per il passo 1.

30

Page 31: Compendio di calcolo delle probabilit`a - unimi.it

Si puo dimostrare che condizione necessaria e sufficiente affiche una v.a. X possieda distri-buzione reticolare e che, per qualche reale t 6= 0, il valore assoluto della sua funzione caratteristicain t sia uguale a 1, ovvero

|E[eitX ]| = 1 (qui i rappresenta l’unita immaginaria)

Inoltre, il passo h e massimo se e solo se, per ogni 0 < t < 2πh , vale |E[eitX ]| < 1 mentre

|E[eiX2π/h]| = 1.Si verifica che la somma di variabili aleatorie indipendenti con ugual distribuzione e varianza

finita, dotate di distribuzione reticolare, soddisfa una proprieta di limite locale del tutto similea quella del Teorema di De Moivre - Laplace. La condizione fondamentale che garantisce lavalidita del teorema e basata sulla massimalita del passo.

Teorema 10 Sia Xnn≥1 una sequenza di v.a. indipendenti aventi ugual distribuzione, var-ianza finita σ2 > 0, valor medio µ, dotate di distribuzione reticolare con a e h parametricorrispondenti. Sia inoltre Sn =

∑ni=1Xi e, per ogni k ∈ Z, definiamo

zn,k =an+ kh− nµ√

Allora, condizione necessaria e sufficiente affinche la relazione

limn→+∞

√nσ

hPr(Sn = k) =

1√2π

e−z2n,k2

sia valida uniformemente per ogni k ∈ Z e che il passo h della distribuzione sia massimale.

Anche in questo caso omettiamo la dimostrazione che puo essere trovata in [2].

11 Il processo di Poisson

Ricordiamo che un processo stocastico e una famiglia di variabili aleatorie Xt | t ∈ T definitesul medesimo spazio di probabilita (Ω,M, P r), per un opportuno insieme T di indici che solita-mente rappresentano il tempo. Per esempio, ad ogni t ∈ T la variabile Xt puo rappresentare lostato di un sistema all’istante t. Un caso semplice e quello nel quale T = N e quindi il processoe una successione di variabili aleatorie Xnn∈N definite sul medesimo spazio. In questo casodiciamo che il processo stocastico e a tempo discreto e rappresenta lo stato di un sistema cheevolve solo in istanti fissati (1, 2, . . . , n, . . .).

Se invece T e un insieme continuo, per esempio un intervallo in R, diremo che il processoe a tempo continuo. Un esempio classico di processo di questo tipo e quello di Poisson. Essopuo essere definito intuitivamente da un evento V che si puo verificare ripetutamente a istanticasuali nel tempo a partire da un istante fissato 0. Il tempo viene qui rappresentato mediantevalori reali. Per ogni numero reale t > 0 denotiamo con Xt la variabile aleatoria che rappresentail numero di occorrenze di V nell’intervallo (0, t]:

Xt = ]r ∈ R | 0 < r ≤ t, V si e’ verificato nell’istante r

Cosı l’insieme dei parametri T coincide con R+ e per ogni t ∈ R+, Xt e una variabile aleatoria avalori in N∪+∞. In realta , per le ipotesi aggiuntive che ora introduciamo, sara facile constatareche ogni Xt assume valori solo in N con probabilita non nulla (cioe Pr(Xt = +∞) = 0).

31

Page 32: Compendio di calcolo delle probabilit`a - unimi.it

Per definire tali variabili (che dovranno avere lo stesso spazio di probabilita ) e in particolareper trovare la loro funzione distribuzione, assumiamo alcune ipotesi di regolarita sulle occorrenzedi V.

Innazitutto, supponiamo che in ogni intervallo (0, t] l’occorrenza di V non sia certa e neppureimpossibile. In altre parole, la probabilita che V occorra almeno una volta in (0, t] e diversa da0 e da 1, per ogni t > 0. Inoltre, supponiamo le tre seguenti ipotesi:

1. Incrementi stazionari. Per ogni intero k ∈ N e ogni intervallo A incluso in R+, la probabilitache V si verifichi k volte in A dipende da k e dall’ampiezza di A ma non dalla sua posizionesull’asse reale. Piu precisamente, per ogni a, b > 0 e ogni k ∈ N

Pr(Xa+b −Xa = k) = Pr(Xb = k)

ovvero le variabili Xa+b −Xa e Xb hanno la stessa distribuzione.

2. Assenza di memoria. Per ogni coppia di intervalli disgiunti A, B in R+, il numero dioccorrenze di V in A e in B sono eventi indipendenti. In altre parole, per ogni a, b > 0, levariabili aleatorie Xa+b −Xa e Xa sono indipendenti.

3. Ordinarieta. Per ogni intervallo I di ampiezza ∆t > 0 la probabilita che V si verifichi piudi una volta in I e o(∆t): per ogni a > 0

Pr(Xa+∆t −Xa > 1) = o(∆t) , ovvero

lim∆t→0+

Pr(Xa+∆t −Xa > 1)

∆t= 0

Intuitivamente questo significa che e improbabile che in un intervallo di piccola ampiezzal’evento V si verifichi 2 o piu volte.

Un processo di Poisson viene quindi definito come un processo stocastico a tempo continuonel quale ogni variabile rappresenta il numero di occorrenze (in un dato intervallo di tempo)di un evento casuale che soddisfa le proprieta precedenti. Piu precisamente diamo la seguentedefinizione.

Definizione 1 Un processo di Poisson e un processo stocastico Xtt∈R+ nel quale, per ogniistante t > 0, Xt rappresenta il numero di occorrenze di una dato evento casuale V nell’intervallodi tempo (0, t], nelle seguenti ipotesi:

• l’evento V si puo verificare in un qualunque istante a partire dall’istante 0 e la probabilitache V occorra almeno una volta nell’intervallo (0, t] e diversa da 0 e da 1, per ogni t > 0;

• le occorrenze di V soddisfano le proprieta degli incrementi stazionari, di assenza di memo-ria e di ordinarieta descritte sopra.

Esempi di fenomeni che occorrono in un certo arco di tempo e possono essere modellati daun processo di questo tipo sono i seguenti: il numero di chiamate telefoniche in una data areageografica, il numero di guasti in un apparato meccanico o elettrico, il numero di collisioni dimeteoriti contro un dato satellite, il numero di incidenti stradali che si verificano in una certaregione, il numero di clienti che richiedono un certo servizio ad un opportuno sistema, il numerodi messaggi che arrivano ad una unita di calcolo in una data rete di connessione tra processori.

Determiniamo ora le principali caratteristiche dei processi di Poisson.

32

Page 33: Compendio di calcolo delle probabilit`a - unimi.it

Teorema 11 Sia Xtt∈R+ un processo di Poisson. Allora valgono le seguenti proprieta :

a) esiste un valore λ > 0 tale che, per ogni t > 0,

Pr(Xt = 0) = e−λt

Pr(Xt = 1) = λt+ o(t) (per t → 0)

b) per ogni k ∈ N e ogni t > 0, abbiamo

Pr(Xt = k) = e−λt (λt)k

k!

Nota quindi che ogni Xt e una Poissoniana di parametro λt.

Dimostrazione. Definiamo il valore a = Pr(X1 = 0). Allora, per ogni intero n > 0, possiamosuddividere l’intervallo (0, 1] in n intervallini disgiunti di ampiezza 1/n,

(

i− 1

n,i

n

]

per i = 1, 2, . . . , n

Applicando le ipotesi 1) e 2) otteniamo

a = Pr(X 1n= 0)n

Per ogni k ∈ N, dalle stesse ipotesi si ricava

Pr(Xk = 0) = ak

e spezzando di nuovo l’intervallo (0, k] in n intervallini disgiunti di ugual ampiezza otteniamo

Pr(Xk = 0) = Pr(X kn= 0)n

e quindi Pr(X kn= 0)n = ak che implica

Pr(X kn= 0) = ak/n (9)

Ora osserva che, per ogni numero reale t > 0, posso trovare due interi positivi k, n, tali che

k − 1

n< t ≤ k

n(10)

e poiche Pr(Xt = 0) e monotona non crescente rispetto a t, abbiamo

Pr(X kn= 0) ≤ Pr(Xt = 0) ≤ Pr(Xk−1

n= 0) (11)

Facendo tendere n all’infinito si puo scegliere k in modo che (10) sia sempre valida, ottenendo

limn→+∞

k

n= t e quindi per la (11) e la (9)

Pr(Xt = 0) = limn→+∞

Pr(X kn= 0) = lim

n→+∞ak/n = at

33

Page 34: Compendio di calcolo delle probabilit`a - unimi.it

Questo prova che, per ogni t ∈ R+,

Pr(Xt = 0) = at

Nota che vale a 6= 0 e a 6= 1, altrimenti l’evento V sarebbe banale (ovvero si verificherebbe conprobabilita 0 o 1 in qualche intervallo); di conseguenza 0 < a < 1 e possiamo quindi definireλ > 0 tale che

λ = − log a

Questo implica a = e−λ e dall’uguaglianza data sopra si ricava

Pr(Xt = 0) = e−λt

che prova la prima equazione del punto a). Inoltre, poiche

Pr(Xt = 0) + Pr(Xt = 1) + Pr(Xt > 1) = 1

per l’equazione precedente e l’ipotesi 3) otteniamo

Pr(Xt = 1) = 1− e−λt + o(t) = λt+ o(t) (per t → 0)

che conclude la prova del punto a).

Consideriamo ora l’evento (Xt = k) con t > 0 e k ∈ N arbitrari. Possiamo di nuovo

suddividere l’intervallo (0, t] in n intervallini disgiunti di ugual dimensione, Ij =(

(j−1)tn , jtn

]

per

j = 1, . . . , n, e definire gli eventi αn e βn dati da

αn = (ogni intervallino Ij contiene al piu’ una sola occorrenza di V)βn = (esiste un intervallino I` nel quale V occorre almeno 2 volte)

La probabilita di (Xt = k) puo essere valutata usando gli eventi precedenti:

Pr(Xt = k) = Pr(Xt = k ∩ αn) + Pr(Xt = k ∩ βn) (12)

= Pr(Xt = k / αn)Pr(αn) + Pr(Xt = k / βn)Pr(βn) (13)

Si dimostra ora che Pr(βn) → 0 per n → +∞. Infatti,

Pr(βn) = Pr

(

∃ ` | in

(

(`− 1)t

n,`t

n

]

V occorre almeno 2 volte

)

=

≤n∑

`=1

Pr(

X `tn−X (`−1)t

n

> 1)

=

= n · Pr(X tn> 1) = n · o

(

t

n

)

= t · o(1) → 0 (per n → +∞)

Di conseguenza, Pr(αn) → 1 per n → +∞ e, per l’uguaglianza (13), questo implica

Pr(Xt = k) = limn→+∞

Pr(Xt = k / αn) (14)

34

Page 35: Compendio di calcolo delle probabilit`a - unimi.it

Ora nota che l’evento (Xt = k / αn) equivale all’occorrenza di k successi in n prove Bernoullianeindipendenti di parametro p = Pr(X t

n= 1). Questo implica

Pr(Xt = k / αn) =

(

n

k

)

[

Pr(X tn= 1)

]k [

1− Pr(X tn= 1)

]n−k=

=n(n− 1) · · · (n− k + 1)

k!

[

λt

n+ o(t/n)

]k[

e−λt/n + o(t/n)]n−k

=nk(1 + o(1))

k!

(λt)k

nk(1 + o(1))k e−λ t

n(n−k) (1 + o(t/n))n−k

=(λt)k

k!e−λt (1 + o(1))

Quindi, applicando l’ultima espressione ottenuta alla relazione (14), otteniamo

Pr(Xt = k) =(λt)k

k!e−λt

che conclude la prova del punto b). 2

Un’altra proprieta rilevante dei processi di Poisson riguarda il tempo di attesa tra due oc-correnze consecutive dell’evento V. Si prova infatti facilmente che tale tempo di attesa possiedeuna distribuzione esponenziale di parametro λ.

Teorema 12 Assumendo le ipotesi del teorema precedente, sia τ il tempo di attesa tra dueoccorrenze consecutive dell’evento V. Allora per ogni t > 0,

Pr(τ ≤ t) = 1− e−λt

Dimostrazione. Per la ipotesi 1) abbiamo che, per ogni t ∈ R+, (τ > t) = (Xt = 0). Quindi,per il teorema precedente,

Pr(τ > t) = e−λt

e di conseguenza Pr(τ ≤ t) = 1− e−λt. 2

Per note proprieta delle distribuzioni esponenziali, il teorema precedente implica che il tempodi attesa di k occorrenze di V e una variabile aleatoria con distribuzione gamma di parametriλ e k. Ricordiamo che se Γ e una variabile di questo tipo allora E(Γ) = k

λ , var(Γ) = kλ2 e

mΓ(t) =(

λλ−t

)k.

Diamo ora una terza proprieta dei processi di Poisson che riguarda il tempo di una genericaoccorrenza di V in un dato intervallo, supponendo che l’evento V si sia verificato un dato numerodi volte. Tale probabilita condizionata e di fatto una uniforme.

Teorema 13 Assumiamo ancora le ipotesi del Teorema 11 e supponiamo che nell’intervallo(0, t] l’evento V si sia verificato n volte (n > 0), per qualche t > 0. Sia r l’istante in cui sie verificata una di queste n occorrenze. Allora la distribuzione di r in [0, t] e uniforme. Piuprecisamente, per ogni a, b ∈ R tali che 0 < a < b < t, vale la relazione

Pr(a < r ≤ b / Xt = n) =b− a

t

35

Page 36: Compendio di calcolo delle probabilit`a - unimi.it

Dimostrazione. Denotiamo con B l’evento B = (Xt = n). Supponiamo che l’evento B si siaverificato e siano v1, v2, . . . , vn le n occorrenze di V nell’intervallo (0, t], considerate in manieraindipendente dal loro arrivo (i loro tempi di occorrenza sono dunque indipendenti tra loro). Sia vjuno qualsiasi di questi e sia r il suo istante di occorrenza. Chiaramente 0 < r ≤ t. Consideriamodue valori a, b ∈ R qualsiasi tali che 0 < a < b < t, e definiamo l’evento A = (a < r ≤ b).Vogliamo determinare la seguente probabilita

Pr(A / B) =Pr(a < r ≤ b,Xt = n)

Pr(Xt = n)=

Pr(A ∩B)

Pr(B)(15)

Per calcolare la probabilita di A∩B definiamo gli eventi Cs,u, per opportuni interi s, u ∈ N, nelmodo seguente:

Cu,v = ( s occorrenze di V si verificano nell’intervallo (0, a],

u occorrenze si verificano nell’intervallo (a, b] e tra questi anche vj ,

n− u− s occorrenze si verificano nell’intervallo (b, t] )

Dalla definizione, applicando il teorema 11 e le ipotesi 1 e 2, si ricava

Pr(Cu,s) =(λa)s

s!e−λa · (λ(b− a))u

u!e−λ(b−a) · (λ(t− b))n−u−s

n− u− s!e−λ(t−b) ·

(n−1u−1

)

(nu

)

Infatti, nell’espressione precedente, i primi fattori sono dati dalle probabilita che, rispettiva-mente, s, u e n− u− s occorrenze si verifichino nei rispettivi intervalli, mentre l’ultima frazionee la probabilita che l’occorrenza vj si verifichi tra gli u eventi che occorrono in (a, b].

Poiche gli eventi Cs,u, al variare di u e s, sono tra loro disgiunti e A∩B =⋃

u,sCs,u, possiamoscrivere

Pr(A ∩B) =

n−1∑

s=0

n−s∑

u=1

Pr(Cs,u)

= λne−λt∑

s

u

as

s!

(b− a)u

u!

(t− b)n−u−s

n− u− s!

u

n

=λne−λt

n!

s

u

(

n

s u

)

u

nas(b− a)u(t− b)n−u−s

=λne−λt

n!

[

s

u

(

n− 1

s u− 1

)

as(b− a)u−1(t− b)n−u−s

]

(b− a)

=λne−λt

n!· tn−1 · (b− a) =

b− a

t· (λt)

n

n!e−λt

=b− a

t· Pr(B)

Per la relazione (15), questo implica Pr(A / B) = (b− a)/t. 2

36

Page 37: Compendio di calcolo delle probabilit`a - unimi.it

Riferimenti bibliografici

[1] W. Feller, An Introduction to Probability Theory and Applications, J. Wiley, 1968.

[2] B.V. Gnedenko, Teoria della probabilita , Edizioni Mir (Mosca), traduzione Editori Riuniti(Roma) 1979.

[3] M. Iosifescu, Finite Markov Processes and Their Applications, J. Wiley and Sons, 1980.

[4] D. Isaacson, R. Madsen, Markov Chains Theory and Applications, R.E. Krieger PublishingCompany, 1985.

[5] E. Lukacs, Stochastic Convergence, Academic Press, 1975.

[6] A.M. Mood, F.A. Graybill, D.C. Boes Introduction to the Theory of Statistics, McGraw-HillBook Company, 1987.

37