Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del...

93
Diario del corso di Calcolo delle Probabilit` a 2 a.a. 2016-2017 Le seguenti note costituiscono una sintetica descrizione degli argomenti svolti a lezione. Non sostituiscono, bens` ı integrano, gli appunti. Richiami di teoria della misura e applicazioni al calcolo delle probabilit` a La teoria della probabilit` a` e la teoria della misura con un’anima (l’anima ` e la nozione di indipendenza). [M. Kac] Lo scopo di questa sezione introduttiva ` e quello di richiamare alcuni risultati fonda- mentali della teoria della misura e le principali definizioni della teoria assimoatica della probabilit` a di Kolmogorov. Ricordiamo prima di tutto la definizione di spazio di probabilit` a , la struttura matematica che modellizza i fenomeni che presentano un certo grado di incertezza. Definizione 1 Uno spazio di probabilit`a ` e una terna , F , P), dove: Ω ` e un insieme; •F⊂P (Ω) ` e una σ-algebra di sottoinsiemi di Ω, cio´ e una famiglia di insiemi che soddisfa le seguenti propriet` a: 1. Ω ∈F 2. se E ∈F allora E c ∈F 3. se {E n }⊂F ` e una successione di insiemi appartenente alla famiglia F , allora n E n ∈F . P : F→ [0, +) ` e una misura di probabilit` a su F , cio´ e una funzione definita sugli insiemi della σ algebra F con le seguenti propriet` a: 1

Transcript of Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del...

Page 1: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Diario del corso di Calcolo delleProbabilita 2 a.a. 2016-2017

Le seguenti note costituiscono una sintetica descrizione degli argomenti svolti alezione. Non sostituiscono, bensı integrano, gli appunti.

Richiami di teoria della misura e applicazioni al

calcolo delle probabilita

La teoria della probabilita e la teoria della misura con un’anima(l’anima e la nozione di indipendenza). [M. Kac]

Lo scopo di questa sezione introduttiva e quello di richiamare alcuni risultati fonda-mentali della teoria della misura e le principali definizioni della teoria assimoaticadella probabilita di Kolmogorov.

Ricordiamo prima di tutto la definizione di spazio di probabilita , la strutturamatematica che modellizza i fenomeni che presentano un certo grado di incertezza.

Definizione 1 Uno spazio di probabilita e una terna (Ω,F ,P), dove:

• Ω e un insieme;

• F ⊂ P(Ω) e una σ-algebra di sottoinsiemi di Ω, cioe una famiglia di insiemiche soddisfa le seguenti proprieta :

1. Ω ∈ F2. se E ∈ F allora Ec ∈ F3. se En ⊂ F e una successione di insiemi appartenente alla famiglia F ,

allora ∪nEn ∈ F .

• P : F → [0,+∞) e una misura di probabilita su F , cioe una funzione definitasugli insiemi della σ algebra F con le seguenti proprieta :

1

Page 2: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

1. Normalizzazione: P(Ω) = 1

2. σ-additivita : per ogni famiglia numerabile En ⊂ F di insieme a duea due disgiunti, cioe tali che En ∩ Em = ∅ se n 6= m, si ha

P(∪nEn) =∑

P(En) (1)

In un modello probabilistico l’insieme Ω viene detto spazio campionario. Nellamodellizzazione di un esperimento, gli elementi ω ∈ Ω rappresentano i possibili esiti.

La σ-algebra F e una classe di insiemi contenente Ω e chiusa per le operazioniinsiemistiche di passaggio al complementare, unione e intersezione di una famiglianumerabile di elementi. 1 Gli insiemi appartenenti alla σ-algebra F sono dettieventi. Rappresentano sostanzialmente le collezioni di esiti di cui ha senso calcolarela probabilita .

Introduciamo anche il concetto di algebra di insiemi, piu debole di quello di σalgebra.

Definizione 2 Una collezione A ⊂ P(Ω) e detta algebra se possiede le seguentiproprieta :

1. Ω ∈ F

2. se E ∈ F allora Ec ∈ F

3. se E1, ..., En ⊂ F allora ∪Nn+1En ∈ F .

A differenza di una σ-algebra, un’algebra e una famiglia di insiemi contenente Ωe chiusa per le operazioni insiemistiche di passaggio al complementare, unione eintersezione di una famiglia finita di elementi. Chiaramente una σ algebra e ancheun’algebra.introduciamo anche la definizione di misura di probabilita finitamente additiva, incui la σ-additivita (Eq ( 2)) viene indebolita.

Definizione 3 Una funzione P : A → [0,+∞) definita su un’algebra A e dettamisura di probabilita finitamente additiva se:

1. Normalizzazione: P(Ω) = 1

2. additivita : per ogni famiglia finita E1, ..., EN ⊂ A di insiemi a due a duedisgiunti, cioe tali che En ∩ Em = ∅ se n 6= m, si ha

P(∪Nn=1En) =N∑n=1

P(En) (2)

1Si dimostra facilmente che se A,B ∈ F allora A \B ∈ F e che se En ⊂ F allora ∩nEn ∈ F

Page 3: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Se si elimina la proprieta 1 (normalizzazione) P e detta misura finitamente additiva.Se P e una misura di probabilita finitamente additiva, non e complicato dimostrarele seguenti proprieta :

• P(∅) = 0

• monotonia: se A,B ∈ A, A ⊂ B allora P(A) ≤ P(B).

• A,B ∈ A, P(A ∪B) = P(A) + P(B)− P (A ∩B)

Esercizi:

1. Sia Ω un insieme numerabile e F = P(Ω). Si definisca P(E) = 0 se E ha unnumero finito di elementi e P(E) = +∞ se E ha infiniti elementi. Si dimostriche P e una misura finitamente additiva ma non σ-additiva. (Suggerimentoper la soluzione: Si consideri E insieme numerabile.)

2. Sia P una misura finitamente additiva su un’algebra A e sia En ⊂ A unafamiglia numerabile di insiemi di Amutuamente disgiunti e tali che ∪nEn ∈ A.Si dimostri che P(∪nEn) ≥

∑∞n=1 P(En). (suggerimento: Si scriva ∪nEn =

(∪Nn En) ∪ (∪∞n=N+1En) e si sfrutti l’additivita finita di P).

Il seguente teorema fornisce, da una parte, una caratterizzazione delle misure diprobabilita σ-additive e presenta una loro interessante caratterizzazione.

Teorema 1 Sia P una misura di probabilita finitamente additiva su un’algebra diinsiemi A. Le seguenti condizioni sono equivalenti:

i. P e σ-additiva su A: cioe per ogni famiglia numerabile En ⊂ A di insiemia due a due disgiunti tale che ∪nEn ∈ A, si ha P(∪nEn) =

∑n P(En)

ii. Continuita dal basso: per ogni successione En ⊂ A tale che En ⊂ En+1 e∪nEn ∈ A, si ha

P(∪nEn) = limn→∞

P(En)

iii. Continuita dall’alto: per ogni successione En ⊂ A tale che En+1 ⊂ En e∩nEn ∈ A, si ha

P(∩nEn) = limn→∞

P(En)

iv. Continuita in ∅: per ogni successione En ⊂ A tale che En+1 ⊂ En e ∩nEn =∅, si ha

limn→∞

P(En) = 0

Page 4: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Dimostrazione:

i. ⇒ ii. Sia En ⊂ A una successione di insiemi dell’algebra A tale che En ⊂ En+1 e∪nEn ∈ A. Costruiamo la successione En ⊂ A di insiemi disgiunti, definitada:

E1 := E1, En := En \ En−1

E immediato verificare che En ∈ A ∀n ∈ N, che En∩ Em = ∅ e ∪nEn = ∪nEn.Abbiamo

P(∪nEn) = P(∪nEn) = limN→+∞

N∑n=1

P(En) = limN→+∞

P(EN)

dove, nell’ultimo passaggio, abbiamo usato P(En) = P(En)− P(En−1).

ii. ⇒ iii. Sia En ⊂ A una successione di insiemi dell’algebra A tale che En+1 ⊂ Ene ∩nEn ∈ A. Costruiamo una successione En ⊂ A di insiemi dell’algebraA tale che En ⊂ En+1 e ∪nEn ∈ A, definita da En = Ec

n. Dato che A eun’algebra, e immediato verificare che En ∈ A ∀n ∈ N. Inoltre ∪nEn ∈ A inquanto ∪nEc

n = (∩nEn)c. Per la proprieta ii abbiamo

P(∩nEn) = P((∪nEn)c) = 1− P(∪nEn) = 1− limn→∞

P(En) = limn→∞

P(En)

iii. ⇒ iv. Immediato in quanto iv e un caso particolare di iii.

iv. ⇒ i. Sia En ⊂ A famiglia numerabile di insiemi a due a due disgiunti tale che∪nEn ∈ A. Consideriamo la successione En definita da En := ∪n>NEn.Dato che ∪nEn = ∪Nn=1En ∪ EN , possiamo dedurre che, dato che A e un’algebra e per ipotesi En e ∪nEn appartengono ad A, abbiamo che EN ∈ A∀N ∈ N. Inoltre EN+1 ⊂ EN e ∩nEn = ∅ (lo si dimostri per esercizio).Abbiamo dunque che limn→∞ P(En) = 0 e quindi P(∪nEn) =

∑n P(En).

Estensione di una misura

Di solito nella costruzione di un modello probabilistico non e semplice definire la σ-algebra ed e preferibile partire da una famiglia di insiemi C e costruire poi una sigma-algebra che li contiene. Data una collezione di insiemi C ⊂ P(Ω), si definisce σ-algebra generata da C e si indica col simbolo σ(C) la piu piccola σ-algebra contenente

Page 5: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

C.σ(C) viene definita come intersezione di tutte le σ-algebre contenenti C. Di fattoσ(C) e una σ-algebra (lo si dimostri per esercizio) e, per costruzione gode delleseguenti proprieta :

• C ⊂ σ(C)

• se C ⊂ F e F e una σ-algebra, allora σ(C) ⊂ F

• se C e una σ-algebra allora C = σ(C)

• se C = ∅ allora σ(C) = ∅,Ω

• se C1 ⊂ C2 allora σ(C1) ⊂ σ(C2)

• se C1 ⊂ C2 ⊂ σ(C1) allora σ(C1) ⊂ σ(C2)

La dimostrazione, abbastanza semplice, viene lasciata per esercizio.

Esempio 1 Si consideri la famiglia di insiemi A ⊂ P(R) definita da:E ∈ A se E e unione disgiunta di un numero finito di intervalli semiaperti dellaforma (a, b], con −∞ ≤ a < b ≤ +∞, dove (a, b] := (a, b) se b = +∞. A eun’algebra di insiemi, ma non e una σ algebra. La σ-algebra generata da A e laσ-algebra di Borel su R.

Affrontiamo ora il seguente problema. Data una misura di probabilita P0 : A → [0, 1]finitamente additiva su una algebra A, esiste un’estensione P di P0 alla σ-algebragenerata? Esiste cioe P : σ(A) → [0, 1] misura di probabilita σ-additiva tale cheP(E) = P0(E) per ogni E ∈ A? Tale estensione, se esiste, e unica?La risposta alla prima domanda e affermativa se P0 e σ-additiva sull’algebra A. Intal caso la procedura di estensione di Caratheodory permette la costruzione di P nelseguente modo:

1. Si costruisce tramite P0 una misura esterna P∗0 : P(Ω)→ [0, 1] definita da

P∗0(E) := inf∑n

P0(An),

dove l’estremo inferiore e calcolato su tutte le successioni An ⊂ A tali cheE ⊂ ∪nAn.

2. Definisco la classe M ⊂ P(Ω) degli insiemi P∗0-misurabili, dove un insiemeA ⊂ Ω e detto P∗0-misurabile se per ogni E ⊂ Ω:

P∗0(E) = P∗0(E ∩ A) + P∗0(E ∩ Ac)

Page 6: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

3. si dimostra che M e una σ-algebra e che P∗0 ristretta ad M e σ-additiva.Inoltre A ⊂ M e quindi, per la definizione di σ(A), abbiamo σ(A) ⊂ M. Siverifica facilmente che se E ∈ A allora P0(E) = P∗0(E).

4. Si definisce infine P : σ(A)→ [0, 1] come la restrizione di P∗0 a σ(A) ottenendol’estensione di P0 cercata.

Per i dettagli rimandiamo al corso di Analisi Matematica III, dove e stata descrittaquesta procedura nel caso particolare in cui Ω = R, A e l’algebra formata da unionifinite di intervalli disgiunti della retta reale e P0(I) = b− a se I = (a, b] (in questocaso di fatto si considera una misura non normalizzata e quindi non di probabilita). La misura risultante e la misura di Lebesgue sulla σ-algebra di Borel della rettareale.Occupiamoci ora invece del problema dell’unicita dell’estensione. E possibile cheesistano due estensioni diverse, cioe due misure P1 e P2 che coincidono su A, ma taliche esiste almeno un insieme E ∈ σ(A) tale che P1(E) 6= P2(E)? Vedremo che sela classe degli insiemi da cui si parte ha certe proprieta , allora l’estensione e unica.Niotiamo che questo non e vero comunque in generale. Se consideriamo ad esempiouna famiglia C ⊂ P(Ω) della forma cC = E1, E2, con E1 ∩ E2 6= ∅, e definitauna misura P0 su C, allora l’estensione di P0 a σ(C) non e unica (lo si verifichi peresercizio).Premettiamo alcune definizioni.

Definizione 4 Una classe di insiemi P ⊂ P(Ω) e detto π−sistema se possiede laseguente proprieta :

π. se A,B ∈ P allora A ∩B ∈ P.

In altre parole, un π−sistema e una classe di insiemi chiusa per intersezioni finite.

Definizione 5 Una classe di insiemi L ⊂ P(Ω) e detto λ−sistema se possiede leseguente proprieta :

λ1. Ω ∈ L;

λ2. Se A ∈ L allora Ac ∈ L.

λ2. Se Ann∈N ⊂ L famiglia numerabile di insiemi in L a due a due disgiunti,cioe tali che An ∩ Am = ∅ se n 6= m, allora ∪nAn ∈ L.

Notiamo che quello di λ-sistema e un concetto piu debole di σ-algebra. Una σ-algebra e anche un λ-sistema, ma in generale non e detto che un λ-sistema sia ancheuna σ-algebra.Esercizio: Dimostrare che le proprieta λ1, λ2, λ3 sono equivalenti alle proprietaλ1, λ

′2, λ3 dove:

Page 7: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

λ′2. se A,B ∈ L, con B ⊂ A allora A \B ∈ L.

Lemma 1 Sia C ⊂ P(Ω) una classe di insiemi che e sia un π-sistema, sia unλ-sistema. allora C e una σ-algebra.

La dimostrazione viene lasciata per esercizio.Il seguente teorema ha numerose applicazioni perche permette di dimostrare in al-cuni casi che se una classe di insiemi C ha una certa proprieta , tutti gli insiemi dellaσ-algebra generata da C posseggono la stessa proprieta .

Teorema 2 (di Dynkin) Sia P un π-sistema e L un λ-sistema.Se P ⊂ L allora σ(P) ⊂ L.

Dimostrazione: Definiamo L0 ⊂ P(Ω) come l’intersezione di tutti i λ-sistemi conte-nenti P . La dimostrazione viene quindi suddivisa in tre passi principali.

1. L0 e un λ sistema e contiene P (questa parte della dimostrazione viene lasciataper esercizio.

2. L0 e anche un π-sistema. Questa parte e la piu complicata e viene dimostratain dettaglio piu sotto.

3. Dai punti 1 e 2 e dal lemma 1 possiamo concludere che P ⊂ L0 ⊂ L e che L0

e una σ-algebra contenente P , da cui:

P ⊂ σ(P) ⊂ L0 ⊂ L

e la tesi e dunque dimostrata

Dimostriamo in dettaglio il punto 2. Dobbiamo mostrare che per ogni A,B ∈ L0 siha che A ∩B ∈ L0.Considerato un generico A ∈ L0, definiamo LA ⊂ L0 la famiglia di insiemi:

LA := E ∈ L0 : A ∩ E ∈ L0

2.1. LA e un λ-sistema. Lasciamo la dimostrazione di questa parte per esercizio.

2.2. LA contiene P .

2.2.a Dimostriamo prima di tutto che se A ∈ P allora L0 ⊂ LA. Infatti,se A ∈ P allora P ∈ LA in quanto P e un π-sistema e, dal punto 1.,P ⊂ L0 ⊂ LA.

Page 8: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

2.2.b Dal punto 2.2.a possiamo dedurre che ∀A′ ∈ P e ∀A ∈ L0 si ha cheA ∩ A′ ∈ L0. Questo significa che per ogni A ∈ L0 si ha P ∈ LA.

2.3 Dai punti 2.1 e 2.2 abbiamo che P ⊂ L0 ⊂ LA, cioe per ogni B ∈ L0 abbiamoche B∩A ∈ L0. Per la generalia con cui e stato scelto A ∈ L0 abbiamo quindidimostrato che L0 e un π-sistema.

Un’applicazione immediata del teorema dia class Dynkin e il seguente teoremadi unicita dell’estensione di una misura da un’algebra A alla σ−algebra generataσ(A).

Teorema 3 Siano P1 e P2 misure di probabilita sulla σ-algebra σ(P), con P unπ−sistema. Se P1 e P2 coincidono su P allora coincidono su σ(P).

Dimostrazione: Sia L ⊂ σ(P) la famiglia di insiemi definita da

L := A ∈ σ(P) : P1(A) = P2(A)

Mostriamo che L e un λ−sistema, infatti:

• Ω ∈ L in quanto P1(Ω) = P2(Ω) = 1;

• se A ∈ L allora Ac ∈ L infatti P1(Ac) = 1− P1(A) = 1− P2(A) = P2(Ac);

• se An ⊂ L famiglia numerabile di insiemi a due a due disgiunti si ha che∪nAn ∈ L, infatti P1(∪nAn) =

∑n P1(An) =

∑n P2(An) = P2(∪nAn)

Inoltre abbiamo che P ⊂ L per l’ipotesi del teorema. Dal teorema di Dynkinpossiamo quindi concludere che σ(P) ⊂ L e quindi le misure P1 e P2 coincidono suσ(P).

Dato che un’algebra A ⊂ P(Ω) e anche un π−sistema, il teorema precedenteassicura l’unicita dell’estensione di una misura di probabilita da un’algebra A allaσ-algebra generata σ(A).

Esercizi

1. Si dimostri che un λ-sistema L ⊂ P(Ω) possiede le seguenti proprieta

λ4 Se A,B ∈ L e A ∩B = ∅, allora A ∩B ∈ Lλ5 Se Ann∈N ⊂ L famiglia numerabile di insiemi in L tali che An ⊂ An+1,

allora ∪nAn ∈ L.

Page 9: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

λ6 Se Ann∈N ⊂ L famiglia numerabile di insiemi in L tali che An+1 ⊂ An,allora ∩nAn ∈ L.

2. Si dimostri che L e un λ-sistema se e solo se soddisfa λ1, λ′2 e λ5 (in alcunitesti queste tre proprieta sono scelte come definizione di λ−sistema).

3. Si consideri sulla retta reale al σ algebra di Borel,indicata con B(R) e definitacome la σ-algebra generata dagli insiemi aperti di R.Si considerino le seguenti famiglie di sottoinsiemi di R:

I1 := (a, b) ⊂ R : a < b (3)

I2 := (a, b] ⊂ R : a < b (4)

I3 := (−∞, b] ⊂ R : a < b (5)

(6)

Si dimostri che σ(I1) = σ(I2) = σ(I3).

4. Sia A ⊂ P(R) la famiglia di insiemi contenente ∅ e tutte le unioni finitedi intervalli disgiunti della forma (a, b] con −∞ ≤ a < b ≤ +∞) dove perconvenzione (a, b] ≡ (a,+∞) nel caso in cui b = +∞.Si dimostri che A e un’algebra ma non una σ-algebra (suggerimento: si mostriche, ad esempio, l’intervallo (0,1) non appartiene ad A ma puo essere ottenutocome unione numerabile di elementi di A).Si dimostri che σ(A) = B(R).

Variabili casuali

Una coppia (Ω,F), dove F ⊂ P(Ω) e una σ-algebra di sottoinsiemi di Ω e dettospazio misurabile.Ricordiamo la definizione di funzione misurabile tra due spazi misurabili.

Definizione 6 Una funzione T : Ω→ Ω′ tra due spazi misurabili (Ω,F) e (Ω′,F ′)e detta misurabile se per ogni E ∈ F ′ si ha che T−1(E) ∈ F .

Il seguente risultato fornisce un criterio utile per la misurabilita di una funzione.

Teorema 4 Una funzione T : Ω → Ω′ tra due spazi misurabili (Ω,F) e (Ω′,F ′) emisurabile se e solo se per ogni classe di insiemi C ⊂ P(Ω′) tale che σ(C) = F ′ siha che

T−1(E) ∈ F , ∀E ∈ C

Page 10: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Dimostrazione:Un’implicazione e banale. Per quanto riguarda l’altra implicazione, data una ge-nerica famiglia C ⊂ P(Ω′) tale che σ(C) = F ′, andiamo ad introdurre la famigliaG ⊂ P(Ω′) definita da:

G = E ⊂ Ω′ : T−1(E) ∈ F.Abbiamo che , per ipotesi, C ⊂ G. Inoltre G e una σ-algebra, infatti

• Ω′ ∈ G in quanto T−1(Ω′) = Ω ∈ F .

• Se E ∈ G allora Ec ∈ G infatti T−1(Ec) = (T−1(E))c.

• Se Enn famiglia numerabile di insiemi in G allora ∪nEn ∈ G in quantoT−1 (∪nEn) = ∪nT−1(En).

Dato che σ(C) e , per definizione, l’intersezione di tutte le σ-algebre contenenti Cabbiamo σ(C) ⊂ G.

Introduciamo ora il concetto di variabile casuale o variabile aleatoria, che rap-presenta di fatto la descrizione matematica di proprieta numeriche di esperimentiil cui valore non e determinabile con certezza ma soggetto a un certo grado dialeatorieta . Dato un “esperimento” rappresentato matematicamente da uno spa-zio di probabilita (Ω,F ,P), introduciamo una funzione X : Ω → R che associaad ogni possibile esito dell’esperimento, cioe ad ogni elemento ω ∈ Ω un nume-ro reale X(ω). Richiederemo inoltre che abbia senso calcolare la probabilita cheX assuma valori in un generico intervallo (a, b] ⊂ R. Questo equivale a chiedereche X−1((a, b]) = ω ∈ Ω: X(ω) ∈ (a, b] sia un elemento della σ algebra F . Difatto, per il teorema 4 questo e equivalente a chiedere la misurabilita della mappaX : (Ω,F)→ (R,B(R)).

Definizione 7 Dato uno spazio di probabilita (Ω,F ,P), si dice variabile casualeuna funzione X : Ω → R misurabile, cioe tale che per ogni Boreliano I ⊂ R si hache l’immagine inversa X−1(I) e un elemento di F .

Notiamo che per il teorema 4, condizione necessaria e sufficiente per la misurabilitadi X e che per ogni t ∈ R l’insieme X−1((−∞, t]) appartenga alla σ-algebra F ,in quanto la σ-algebra di Borel in R e generata dalla famiglia degli intervalli dellaforma (−∞, t], t ∈ R.Notiamo che per le proprieta delle funzioni misurabili 2 con operazioni elementari e

2se f, g misurabili da (Ω,F) in (R,B(R)) e h : R2 → R misurabile, allora h(f, g) e misurabile.In particolare f + g, f − g, fg sono funzioni misurabili. Inotre se fne una successione di funzionimisurabili da (Ω,F) in (R,B(R)) allora le funzioni inf fn, sup fn, lim inf fn e lim sup fn sonomisurabili. Si veda ad esempio [8].

Page 11: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

calcolo di limiti non si esce dalla classe delle variabili casuali.

Distribuzione di probabilita

Data una variabile casuale X possiamo introdurre la distribuzione di probabilitadi X, indicata con µX , come quella misura di probabilita sulla sigma algebra di Boreldi R definita da

µX(I) := P(X−1(I)), I ∈ B(R) (7)

Si dimostra facilmente che (7) definisce una misura di probabilita infatti:

• µX(R) = P(X−1(R)) = P(X−1(I)(Ω) = 1

• Se Inn ⊂ B(R) famiglia numerabile di insiemi Boreliani a due a due disgiuntiabbiamo

µX(∪nIn) = P(X−1(∪nIn)) = P(∪nX−1(In)) =∑n

P(X−1(In)) =∑n

µX(In)

Esercizio Dimostrare che l’integrale di una funzione f : R→ R Boreliana limitatarispetto ad µX puo essere ricondotto ad un integrale su Ω rispetto a P, cioe che valela formula ∫

Rf(x)dµX =

∫Ω

f X(ω)dP. (8)

Soluzione Se f e della forma f(x) = χI(x), dove χI e la funzione indicatrice di unBoreliano I ⊂ R, allora, per la definizione di µX :∫

Rf(x)dµX = µX(I) = P(X−1(I)) =

∫Ω

χX−1(I)(ω)dP

d’altra parte, dato che χX−1(I)(ω) = χ(I) X(ω) ∀ω ∈ Ω, si ha:∫R f(x)dµX =∫

Ωf X(ω)dP. Tale uguaglianza si estende, per inearita , a funzioni semplici

(combinazioni lineari finite di funzioni indicatrici di insiemi boreliani) della formaf(x) =

∑ni=1 λiχIi(x), con λi ∈ R, i = 1, ..., n.

Dato che per ogni funzione boreliana limitata f : R→ R esiste una successione fndi funzioni Boreliane semplici tali che |fn| ≤ |f | e fn(x) → f(x) ∀x ∈ R (si vedaad esempio [9], teorema 1, cap 2.4), per il teorema della convergenza dominata diLebesgue abbiamo∫

Rf(x)dµX = lim

n→∞

∫Rfn(x)dµX = lim

n→∞

∫Ω

fn X(ω)dP =

∫Ω

f X(ω)dP.

Page 12: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Integrazione

In generale, data f : R→ R Boreliana, si definisce valore di aspettazione di f(X)e si indica con E[f(X))] l’integrale (se esiste finito):

E[f(X))] :=

∫Rf(x)dµX =

∫Ω

f(X(ω))dP

In particolare, se∫R |x|dµX <∞, si definisce media o valore di aspettazione di X

E[X] :=

∫Rx dµX =

∫Ω

X(ω) dP

Se∫R x

2 dµX <∞, si definisce varianza di X

V ar(X) := E[(X − E[X])2] = E[X2]− E[X]2.

Funzione di distribuzione

Data una variabile casuale X su uno spazio di probabilita (Ω,F ,P), definiamo lafunzione di distribuzione o funzione di ripartizione di X come quella applicazioneF : R→ R data da

FX(t) := P (X ∈ (−∞, t]) = µX((−∞, t]) (9)

La funzione FX gode delle seguenti proprieta :

F1. FX e monotona crescente (non strettamente):se t1 < t2 allora FX(t1) ≤ FX(t2).

F2. limt→−∞

FX(t) = 0 e limt→+∞

FX(t) = 1

F3. FX e continua a destra e ammette limite sinistro:∀t0 ∈ R ∃ lim

t→t−0FX(t) e ∃ lim

t→t+0FX(t) = FX(t0).

La proprieta 1 deriva direttamente dalla relazione (9) e dalla monotonia della mi-sura di probabilita µX . Le proprieta 2. e 3. derivano dalla relazione (9) e dallaσ−additivita della misura di probabilita µX , in particolare dalla caratterizzazionecontenuta nel teorema 1. Dimostriamo a titolo di esempio l’ultima identita dellaproprieta 3 e lasciamo la dimostrazione delle altre per esercizio. Dato che F e unafunzione monotona, allora F ammette limite destro e sinistro in ogni punto del suodominio. In particolare limt→t+0

FX(t) = infF (t) : t > t0. Per calcolare il valore

Page 13: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

di tale limite consideriamo una generica successione tn tale che tn → t0, tn > t0e tn ≥ tn+1 ∀n. Consideriamo la succesione En di insiemi Boreliani definita daEn := (−∞, tn]. Abbiamo che tale successione verifica le condizioni del punto iii.del teorema 1. In particolare En+1 ⊂ En e ∩nEn = (−∞, t0]. Per il punto iii. delteorema 1 possiamo quindi concludere che

limn→∞

FX(tn) = limn→∞

µX((−∞, tn]) = µX(∩n(−∞, tn]) = µX((−∞, t0]) = F (t0).

Di fatto la funzione di distribuzione F caratterizza completamente la misura diprobabilita µ. piu precisamente, ogni funzione F : R→ R che possegga le proprietaF1, F2 e F3 definisce un’unica misura µF di Borel su R tale che

µF ((a, b]) = F (b)− F (a)

La costruzione avviene secondo la seguente procedura.

1. Si dimostra innanzitutto che la collezione di insiemi A ⊂ P(R) ottenuti comeunioni di un numero finito di intervalli disgiunti (a due a due) della forma(a, b], con −∞ ≤ a < b ≤ +∞ (con la convenzione (a, b] = (a, b] se b = +∞) eun’algebra. Inoltre la σ−algebra generata da A e la σ-algebra di Borel B(R).

2. Si verifica che la funzione P0 : A → [0, 1] definita da P0((a, b]) := F (b)− F (a)e una misura di probabilita finitamente additiva.

3. Se si riesce a dimostrare che P0 e anche σ-additiva suA allora, per la proceduradi estensione di Caratheodory ed il teorema 8, possiamo concludere che esisteed e unica una misura di probabilita σ−additiva µF su B(R) che coincide conP0 su A, cioe tale che µF ((a, b]) := F (b)− F (a).

I primi due passi sono relativamente semplici e vengono lasciati per esercizio. Trat-tiamo in dettaglio il terzo, ossia la dimostrazione della σ-additivita di P0 su A. Peril teorema 1, tale proprieta e equivalente alla continuita in ∅. Dobbiamo mostrareche per ogni successione An ⊂ A tale che An+1 ⊂ An e ∩nAn = ∅, si ha

limn→∞

P(An) = 0

La dimostrazione avviene in due passi:

1. Supponiamo inizialmente che esista un intervallo limitato [−M,M ] tale cheAn ⊂ [−M,M ] per ogni n.Fissato un ε > 0, costruiamo per ogni insieme An un corrispondente Bn ∈ Atale che

Bn ⊂ An, P0(An \Bn) < ε/2n

Page 14: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

La costruzione di un Bn che soddisfa queste caratteristiche e possibile sfrut-tando la continuita a destra di F (proprieta F3). Infatti, se An = (a, b], perla continuita a destra di F esiste un δ > 0 tale che se F (a′)− F (a) < ε/2n sea′ > a, |a′ − a| < δ. In tal caso, scegliendo Bn = (a′, b], otteniamo un insiemecon le caratteristiche richieste. Piu in generale, se An = ∪Nk=1(ak, bk], ripetia-mo la procedura per ciascun degli intervalli (ak, bk], costruendo Bn della formaBn = ∪Nk=1(a′k, bk], dove gli estremi a′k > ak vengono scelti in modo tale cheF (a′k) − F (ak) < ε/N2n. Notiamo che, dato che ∩nAn = ∅ allora ∩nBn = ∅.Da quest’ultima identita possiamo dedurre che

[−M,M ] = ∪n[−M,M ] \ Bn

La famiglia di insiemi [−M,M ]\Bn costitiusce quindi un ricoprimento aper-to di [−M,M ] e, per compattezza, possiamo estrarre un sottoricoprimentofinito:

[−M,M ] = ∪n0n=1[−M,M ] \ Bn

da questa identita deduciamo che ∩n0n=1Bn = ∅.

Considerato l’insieme An0 e tenendo conto del fatto che An0 ⊂ An per ognin < n0, possiamo stimare la misura P0(An0) come:

P0(An0) = P0(An0 \ ∩n0n=1Bn) + P0(∩n0

n=1Bn)

= P0(An0 \ ∩n0n=1Bn)

≤ P0(∪n0n=1An \Bn)

≤∑n

ε

2n= ε

Dato che se n > n0 allora An ⊂ An0 , dalla monotonia di P0 possiamo dedurreche

P0(An) < ε, ∀n > n0.

2. Consideriamo ora il caso generale in cui non esiste un intervallo limitato con-tenente tutti gli insieme An. In questo caso, dato ε > 0, scegliamo un M ∈ Rtale che P0((−M,M ]) > 1−ε/2. Notiamo che tale M per la proprieta F2 dellafunzione F . Data la successione An, definiamo la successione An ⊂ Acome An := An ∩ (−M,M ]. Abbiamo che, per costruzione An ⊂ [−M,M ]∀n. Possiamo quindi ripetere la procedura del passo 1 e trovare un n0 tale cheP0(An) < ε/2 se n ≥ n0. Considerando ora gli insiemi An abbiamo:

P0(An) = P0(An ∩ (−M,M ]) + P0(An ∩ (−M,M ]c)

= P0(An) + P0(An ∩ (−M,M ]c)

≤ ε/2 + ε/2

Page 15: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

La misura µF su (R,B(R)) costruita a partire dalla funzione F e detta misuradi Lebesgue-Stieltjes associata a F .

Esempio: Se F (x) =

0 x < 0,x 0 ≤ x ≤ 1,1 x > 1

allora µF e la misura di Lebesgue sul-

l’intervallo [0, 1], dotato della σ-algebra B([0, 1]) := B(R) ∩ [0, 1].

Osservazione 1 E interessante osservare come le proprieta di regolarita di F ri-flettono alcune caratteristiche del supporto della misura associata µF .

1. F ha un punto di discontinuita in t0 se e solo se µF (t0) 6= 0, infatti

µF (t0) = µF ((−∞, t0])− µF ((−∞, t0)),

d’altra parte limt→t−0F (t) = µF ((−∞, t0)) e limt→t+0

F (t) = µF ((−∞, t0]),

quindi il valore di µF (t0) e pari al “salto” di F in t0, cioe alla differen-za δF (t0) := limt→t+0

F (t)− limt→t−0F (t).

2. Se F e costante su (a, b) allora µF (a, b) = 0 e, piu in generale, µF (E) = 0 perogni E ∈ B(R), E ⊆ (a, b). Se Inoltre F e continua possiamo dedurre che seF e costante su (a, b) allora F sara costante anche su [a, b] e µF (E) = 0 perogni E ∈ B(R), E ⊆ [a, b].Per la σ-additivita inoltre possiamo dedurre che se E = ∪nIn, con In ⊂ B(R)successione di intervalli tali per cui F (t) = cn ∀t ∈ In, allora µF (E) = 0.

Definizione 8 Una misura di probabilita µ su (R,B(R)) e detta discreta se esiste uninsieme discreto ti ⊂ R e dei valori p(ti) ∈ (0, 1] tale per cui µ e una combinazionedi misure δ concentrate in ti:

µ =∑i

p(ti)δti (10)

La forma (10) implica che misura di un generico insieme I ∈ B(R) e data daµ(I) =

∑ti∈R p(ti). In particolare, dalla condizione di normalizzazione µ(R) = 1

otteniamo la condizione∑

tip(ti) = 1.

Una funzione di distribuzione F associata ad una distribuzione discreta della forma(10) e detta discreta. In tal caso F e data da F (t) =

∑ti≤t p(ti). Di fatto e una

funzione costante a tratti, costante sugli intervalli che non contengono i punti tisu cui e concentrata la misura µ. Inoltre l’insieme discreto ti ⊂ R coincide con

Page 16: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

l’insieme dei punti di discontinuita di F e nel generico punto ti la funzione F ha un”salto” dato da

∆F (ti) := limt→t+i

F (t)− limt→t−i

F (t) = µ((−∞, ti])− µ((−∞, ti)) = µ(ti) = p(ti)

La variabile casuale X che ha una distribuzione discreta viene detta variabile casualediscreta.

Per una variabile casuale discreta vale P(X ∈ E) =∑

ti∈E p(ti).

Definizione 9 Una funzione di distribuzione F e detta assolutamente continua seesiste esiste una funzione f ∈ L1(R), f ≥ 0 e

∫R f(u)du = 1 tale che

F (t) =

∫ t

−∞f(u)du, t ∈ R, (11)

dove l’integrale e definito nel senso di Lebesgue. La misura associata a F e data da

µF (E) =

∫E

f(u)du =

∫RχE(u)f(u)du, E ∈ B(R) (12)

Una variabile casuale X che ha una funzione di distribuzione della forma (11) vienedetta variabile casuale assolutamente continua.

Si verifica facilmente che una funzione F della forma (11) e continua in ogni punto.Basta verificare che e continua a sinistra (perche la continuita a destra e automati-camente verificata in quanto F e una funzione di distribuzione). Di fatto se t < t0abbiamo:

|F (t)−F (t0)| = F (t0)−F (t) = µ((−∞, t0])−µ((−∞, t]) =

∫ t0

t

f(u)du =

∫Rχ(t,t0)(u)f(u)du

dato che per t → t0 abbiamo che χ(t,t0)(u)f(u) → 0 e |χ(t,t0)(u)f(u)| ≤ |f(u)|∀u ∈ R, per il teorema della convergenza dominata abbiamo

limt→t0|F (t)− F (t0)| = lim

t→t0

∫Rχ(t,t0)(u)f(u)du = 0

Inoltre se E ∈ B(R) ha misura di Lebesgue nulla, allora dalla (12) deduciamoche µF (E) = 0.

Page 17: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Di fatto le distribuzioni della forma (10) e ( 12) o le loro combinazioni convessenon esauriscono tutte le possibilita . In altre parole esistono funzioni di distribuzio-ne continue (che quindi non possono essere di tipo discreto) ma non assolutamentecontinue. Un esempio e dato dalla funzione di Cantor, funzione continua e mono-tona non decrescente sull’intervallo [0, 1], che puo ad esempio essere costruita conil seguente procedimento iterativo. Si consideri la successione di funzioni continueFn : R→ R definita da Fn(t) = 0 se t ≤ 0 e Fn(t) = 1 se t ≥ 1, mentre nell’intervallo[0, 1] poniamo:

F0(t) = t, Fn+1(t) =

12Fn(3t) x ∈ [0, 1/3],

1/2 x ∈ [1/3, 2/3],12

+ 12Fn(3t− 2) x ∈ [2/3, 1],

E possibile dimostrare che Fn converge puntualmente e uniformemente ad una fun-zione F continua e monotona non decrescente. Inoltre la funzione Fn (ristrettaall’intervallo [0,1])e costante su un insieme Cn formato dall’unione di intervalli dilunghezza:

L(Cn) =1

3+

2

9+ ...+

2n−1

3n=

1

3

n−1∑k=0

(2

3

)kmentre l’insieme Nn formato dall’unione degli intervalli in cui F e crescente hamisura L(Nn) = 1 − L(Cn). Nel limite per n → ∞ abbiamo che F (ristrettaall’intervallo [0,1]) e costante su un insieme C di misura

L(C) = limn→∞

L(Cn) =1

3

∞∑k=0

(2

3

)k= 1

Da quanto discusso nell’osservazione 1 possiamo concludere che µF (C) = 0 e quin-di µF (N) = 1 − µF (C) = 1, mentre L(C) = 1 e L(N) = 1 − L(C) = 0. Datoche abbiamo trovato un insieme che ha misura di Lebesgue nulla ma ha misura µFstrettamente positiva, possiamo dedurre che la funzione di distribuzione F e conti-nua ma non puo essere assolutamente continua. F e detta funzione di distribuzionesingolare. La misura µF e detta singolare rispetto la misura di Lebesgue.

E possibile dimostrare [8] che ogni funzione di distribuzione F : R → R di unavariabile casuale puo essere rappresentata in modo unico come una combinazioneconvessa di una funzione di distribuzione discreta, di una assolutamente continua edi una singolare:

F = λdFd + λacFac + λsFs

con λd, λac, λs ∈ [0, 1] e λd + λac + λs = 1.

Page 18: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

σ-algebra generata da una variabile casuale

Sia (Ω,F ,P) uno spazio di probabilita e X : Ω→ R una variabile casuale. Definiamola σ-algebra FX ⊂ P(Ω) generata da X come:

FX := E ⊂ Ω: E = X−1(I), I ∈ B(R)

Si dimostra che FX e di fatto una σ-algebra contenuta in F . Inoltre e la piu piccolaσ-algebra su Ω che rende X misurabile nel senso che se X : (Ω,F ′) → (R,B(R) eun’applicazione misurabile, allora FX ⊆ F ′.

Se g : R → R e una funzione Boreliana, allora g X : Ω → R e un’applicazioneFX misurabile. Di fatto e vero anche il viceversa, vale cioe il seguente risultato.

Teorema 5 Sia (Ω,F ,P) uno spazio diprobabilita , X : Ω → R una variabile ca-suale e Y : Ω→ R una variabile casuale FX misurabile. Allora esiste una funzioneBoreliana g : R→ R tale che Y = g X.

Esercizi

1. Si dimostri che una generica funzione di distribuzione F : R → R ha almassimo un insieme numerabile di punti di discontinuita . (Suggerimento:si sfruttino le proprieta delle funzioni monotone).

2. Si dimostri che, data funzione di distribuzione F : R→ R continua e indicatacon µF la misura di Lebesgue-Stieltjes associata, se A ∈ B(R) e un insiemenumerabile allora µF (A) = 0. (Suggerimento: Si sfrutti la σ additivita di µFe si scriva A come unione numerabile di singoletti).

3. Si dimostri che data una variabile casuale X e una funzione Boreliana g : R→R allora Y : Ω → R definita da Y := g X e FX-misurabile. (Suggerimento:si sfruttino le proprieta delle funzioni misurabili).

4. Sia X una variabile casuale discreta con una distribuzione di probabilia µ dellaforma µ =

∑Ni=1 piδti . Si descriva la σ-algebra generata da X. Si descriva inol-

tre la piu generica funzione Y : Ω→ R che sia FX-misurabile. (Suggerimento:si mostri che FX e la sigma algebra generata daglla famiglia numerabile diinsiemi Ei := X−1(ti) e che tali insiemi formano una partizione di Ω. Simostri che Y e della forma Y (ω) =

∑i yiχEi(ω).

5. Si dimostri che la σ-algebra generata da una variabile casuale X puo essereequivalentemente definita come l’intersezione di tutte le σ algebre F ′ su Ω taliper cui X : (Ω,F ′)→ (R,B(R)) e misurabile.

Page 19: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Funzione caratteristica di una variabile casuale

Uno strumento particolarmente utile per lo studio e la caratterizzazione delle va-riabili casuali e delle loro distribuzioni e la funzione caratteristica. Sia X : Ω → Rvariabile casuale su una spazio di probabilita (Ω,F ,P) e sia µ la sua distribuzione,misura di probabilita σ−additiva su (R,B(R)). Si definisce funzione caratteristicadi X e si indica con φX la funzione φX : R→ C definita da

φX(t) := E[eitX ] =

∫Reitxdµ(x) (13)

Notiamo che φX e ben definita perche l’integrale al secondo membro di (13) eassolutamente convergente dato che |eitx| ≤ 1 e µ e una misura di probabilita .

Vediamo alcuni esempi.

• Se X e uniformemente distribuita sull’intervallo [0, 1] allora φX(t) = eit−1it

.

• Se X e distribuita secondo legge di Poisson di parametro λ allora

φ(t)∞∑n=0

eitnλn

n!e−λ = e−λeλe

it

• Se X assolutamente continua e f ∈ L1(R) e la sua densita rispetto alla misuradi Lebesgue, allora φ e la trasformata di Fourier di f :

φ(t) =

∫eitxf(x)dx

Di fatto, dalla forma (13) possiamo dedurre altre proprieta di φX . Premettiamo laseguente definizione.

Definizione 10 Una funzione g : R→ C e detta semi-definita positiva se ∀N ≥ 1,∀t1, ...tN ∈ R e ∀z1, ...zN ∈ C si ha:

N∑j,k=1

g(tj − tk)zj zk ≥ 0 (14)

Teorema 6 Sia φ : R → C funzione caratteristica di una variabile casuale X.Allora

1. φ(0) = 1.

Page 20: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

2. φ e semi-definita positiva.

3. φ e uniformemente continua.

Dimostrazione:

1. Deriva direttamente dalla formula (13).

2. Dobbiamo dimostrare che fissato N , scelti t1, ...tN ∈ R e z1, ...zN ∈ C si ha:

N∑j,k=1

φ(tj − tk)zj zk =N∑

j,k=1

∫Reix(tj−tk)dµ(x)zj zk ≥ 0

Notiamo che

N∑j,k=1

φ(tj − tk)zj zk =

∫R

N∑j,k=1

zj zkeix(tj−tk) dµ(x)

=

∫R

∣∣∣∣∣N∑j=1

zjeixtj

∣∣∣∣∣2

dµ(x) ≥ 0

3. La continuita di φ si dimostra facilmente utilizzando il teorema della conver-genza dominata, infatti

|φ(t)− φ(t0)| ≤∫R|eixt − eixt0|dµ(x)

Dato che eixt − eixt0 → 0 puntualmente per t → t0 e che |eixt − eixt0| ≤ 2possiamo dedurre che φ(t)→ φ(t0) per t→ t0.Di fatto pero possiamo dimostrare una proprieta piu forte: l’uniforme conti-nuita di φ, cioe che per ogni ε > 0 esiste un δ > 0 per cui |φ(t) − φ(s)| < εse |t − s| < δ. Dato che µ e una misura di probabilita su R, allora esiste unM ∈ R+ tale che µ([−M,M ]c) < ε/4. Inoltre:

|φ(t)− φ(s)| ≤∫R|eixt − eixs|dµ(x)

=

∫[−M,M ]

|eixt − eixs|dµ(x) +

∫[−M,M ]c

|eixt − eixs|dµ(x)

=

∫[−M,M ]

|eix(t−s) − 1|dµ(x) +

∫[−M,M ]c

|eixt − eixs|dµ(x)

Page 21: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Notiamo che

|eix(t−s) − 1| =√

(cos(x(t− s))− 1)2 + sin2(x(t− s)) =√

2− 2 cos(x(t− s))

= 2

∣∣∣∣sin(x(t− s)2

)∣∣∣∣ ≤ |x(t− s)|

abbiamo dunque che se |t− s| < ε2M

:

|φ(t)− φ(s)| ≤∫

[−M,M ]

|x(t− s)|dµ(x) +

∫[−M,M ]c

|eixt − eixs|dµ(x)

≤ M |t− s|∫

[−M,M ]

dµ(x) +

∫[−M,M ]c

|eixt − eixs|dµ(x) ≤ ε/2 + ε/2

Di fatto le proprieta 1,2, 3 del teorema precedente caratterizzano completamentele funzioni caratteristiche. Vale infatti il seguente teorema dovuto a S. Bochner

Teorema 7 (Bochner) una funzione φ : R→ C e la funzione caratteristica di unavariabile casuale X se e solo se possiede le seguenti proprieta :

1. φ(0) = 1.

2. φ e semi-definita positiva.

3. φ e uniformemente continua.

Esercizi sulle funzioni semi-definite positive:

1. Sia ϕ una funzione semi-definita positiva. Allora:

(a) ϕ(0) ≥ 0,

(b) ϕ(−t) = ϕ(t), ∀t ∈ R,

(c) |ϕ(t)| ≤ ϕ(0), ∀t ∈ R.

In particolare ϕ e limitata.Suggerimento. Si consideri (14) per N = 2 and t1 = 0, t2 = t, z1 = 1,z2 = c ∈ C. Then

(1 + |c|2)ϕ(0) + cϕ(t) + cϕ(−t) ≥ 0 . (15)

(a) per c = 0, (15) implica ϕ(0) ≥ 0.

Page 22: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

(b) perr c = 1 (15) e (a) implicano ϕ(t) +ϕ(−t) reale; for c = i (15) iimplicai(ϕ(t)− ϕ(−t)) reale.

(c) per ϕ(t) = 0 segue da (a). Per ϕ(t) 6= 0 scegliamo c = − |ϕ(t)|ϕ(t)

, e

sostituiamo in (15): usando (a),(b), otteniamo (c).

2. Sia ϕ una funzione semi-definita positiva. Allora:

|ϕ(x)− ϕ(y)|2 ≤ 2ϕ(0)Re (ϕ(0)− ϕ(x− y)) ,

dove Re indica la parte reale. In particulare, se ϕ e continua nell’origine,allora ϕ e uniformemente continua.Suggerimento. Si noti che Re (ϕ(0)−ϕ(x−y)) = ϕ(0)−Reϕ(x−y), dato cheϕ(0) ≥ 0 per 1.(a). Inoltre Reϕ(x − y) ≤ |Reϕ(x− y)| ≤ |ϕ(x− y)| ≤ ϕ(0)da 1.(c). Se ϕ(x) = ϕ(y) l’identita e banalmente verificata. nel caso in cuiϕ(x) 6= ϕ(y) consideriamo (14) per N = 3 e t1 = 0, t2 = x, t3 = y, z1 = 1,

z2 = λ|ϕ(x)−ϕ(y)|ϕ(x)−ϕ(y)

, z3 = −22, λ ∈ R. Otteniamo

ϕ(0)(1 + 2λ2) + 2λ|ϕ(x)− ϕ(y)| − 2λ2Reϕ(x− y) ≥ 0 .

Il discriminante della forma quadratica in λ deve essere negativo e da questacondizione otteniamo l’identita |ϕ(x)− ϕ(y)|2 ≤ 2ϕ(0)Re (ϕ(0)− ϕ(x− y)).

Teorema 8 (di unicita ) Siano X e Y variabili casuali con distribuzione µ e νrispettivamente. Siano φX e φY le rispettive funzioni caratteristiche. Allora µ = νse e solo se φX = φY .

Dimostrazione: ⇒ questa implicazione e banale.⇐ Per dimostrare questa implicazione, dato che due misure di Borel su R sono ugualise e solo se coincidono sugli intervalli della forma (a, b], a ≤ b, allora e sufficientemostrare che ∫

Rχ(a,b](x)dµ(x) =

∫Rχ(a,b](x)dν(x) (16)

1 passo per ogni ε > 0, ε < b − a, consideriamo la funzione continua f ε : R → Rdefinita da:

f ε(x) =

0 se x ≤ a(x−a)ε

se x ∈ [a, a+ ε]1 se x ∈ [a+ ε, b]

− (x−b−ε)ε

se x ∈ [b, b+ ε]0 se x ≥ b+ ε

Page 23: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Dimostriamo che ∫Rf ε(x)dµ(x) =

∫Rf ε(x)dν(x) (17)

Dato un arbitrario δ > 0 (con δ < 1) mostriamo che

|∫Rf ε(x)dµ(x)−

∫Rf ε(x)dν(x)| < 6δ

Si fissi un M > 0 tale che:[a− ε, b+ ε] ⊂ [−M,M ],µ([−M,M ]c) < δ,ν([−M,M ]c) < δ.Inoltre, consideriamo un polinomio trigonometrico P (x) =

∑Nk=0 ake

ikπx/M

tale chesup

x∈[−M,M ]

|f ε(x)− P (x)| < δ.

Notiamo che inoltre supx∈[−M,M ] |P (x)| < 2.Abbiamo dunque:

|∫Rf ε(x)dµ(x)−

∫Rf ε(x)dν(x)| = |

∫[−M,M ]

f ε(x)dµ(x)−∫

[−M,M ]

f ε(x)dν(x)|

= |∫

[−M,M ]

(f ε(x)− P (x))dµ(x) +

∫RP (x)dµ(x)

−∫RP (x)dν(x)−

∫[−M,M ]c

P (x)dµ(x) +

+

∫[−M,M ]c

P (x)dν(x)−∫

[−M,M ]

(f ε(x)− P (x))dν(x)|

≤∫

[−M,M ]

|f ε(x)− P (x)|dµ(x) + |∫RP (x)dµ(x)

−∫RP (x)dν(x)|+

∫[−M,M ]c

|P (x)|dµ(x) +

+

∫[−M,M ]c

|P (x)|dν(x) +

∫[−M,M ]

|f ε(x)− P (x)|dν(x)|

≤ δ + 0 + 2δ + 2δ + δ

2 passo Dato che limε↓0 fε(x) = χ(a,b](x) per ogni x ∈ R, e che |f ε(x)| ≤ 1, per il

teorema della convergenza dominata otteniamo (16).

Page 24: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Il teorema mostra quindi che la funzione caratteristica individua in modo univo-co la distribuzione di una variabile casuale. in altre parole variabili casuali con lastessa funzione caratteristica sono equidistribuite.

Esercizi

1. Mostrare che la funzione caratteristica di una variabile casuale Gaussiana dimedia m e covarianza σ2 e data da

φ(t) =

∫eitx

e−(x−m)2

2σ2

√2πσ2

dx = eimte−σ2t2

2

2. Mostrare che la funzione caratteristica di una variabile casuale distribuitasecondo la distribuzione di Cauchy e data da:

φ(t) =

∫eitx

1

1 + x2

1

πdx = e−|t|

Ulteriori proprieta della funzione caratteristica

1. Siano X, Y variabili casuali indipendenti con distribuzioni µ e ν e funzionicaratteristiche φX e φY rispettivamente. Allora La variabile casuale X + Y ,somma di X e Y , ha funzione caratteristica φX+Y = φXφY .Ricordiamo infatti che la la distribuzione della somma X + Y di due variabilicasuali indipendenti X e Y e data dalla convoluzione µ ∗ ν delle rispettivedistribuzioni µ e ν, definita da

µ ∗ ν(I) =

∫R2

χI(x+ y)dµ(x)dν(y), I ∈ B(R).

La corrispondente funzione caratteristica e quind calcolabile come

φX+Y =

∫R2

eit(x+y)dµ(x)dν(y) =

(∫Reitxdµ(x)

)(∫Reitydν(y)

)= φX(t)φY (t).

In generale, se X1, ..., Xn sono n variabili casuali indipendenti con funzioni ca-ratteristiche φX1 , ..., φXn , allora la funzione caratteristica della variabile sommae data da

φX1+...+Xn = Πni=1φXi

Page 25: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

2. La funzione caratteristica φ di una variabile casuale X soddisfa sempre l’iden-tita

φ(t) = φ(−t), ∀t ∈ R.

Infatti

φ(t) =

∫Reitxdµ(x) =

∫Reitxdµ(x) =

∫Re−itxdµ(x) = φ(−t)

3. Una misura di Borel µ su R e detta simmetrica per riflessione se per ogniinsieme Boreliano I ∈ B(R) vale

µ(I) = µ(R(I)) (18)

dove R : R→ R e la funzione definita da R(x) := −x e

R(I) = x ∈ R : Rx ∈ I = −x : x ∈ I.

Notiamo anche che R e invertibile e R−1 = R. la relazione (18) puo esserescritta come µ(I) = µ(R−1(I)), ∀I ∈ B(R), che implica la coincidenza tra µ eµR, la misura immagine di µ attraverso la mappa R.Consideriamo ora una variabile casuale X con distribuzione µ e funzionecaratteristica φ. Si ha che µ e simmetrica se e solo se φ e a valori reali:

P(X ∈ I) = P(x ∈ R(I)) ⇔ φ(t) = φ(t)

⇐ Questa implicazione e semplice da dimostrare, infatti se µ = µR allora perogni f : R→ R Boreliana limitata abbiamo∫

f(x)dµ(x) =

∫f(x)dµR(x) =

∫f(Rx)dµ(x) =

∫f(−x)dµ(x).

Ponendo f(x) = eitx abbiamo che φ(t) = φ(−t). Dal punto 2 abbiamo cheφ(−t) = φ(t) e quindi possiamo concludere che φ(t) = φ(t).⇒ Supponiamo che φ sia a valori reali φ(t) = φ(t). Notiamo che questo implicaφ(t) = φ(−t). Inoltre la funzione φR(t) := φ(−t) e la funzione caratteristicadi µR. Dato che φ(t) = φR(t) ∀t ∈ R, per il teorema di unicita (teorema 8)abbiamo che µ = µR.

4. Se X ∈ L1(Ω) allora la sua funzione caratteristica φ e derivabile e

φ′(t) = i

∫Rxeitxdµ(x)

Page 26: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

In particolare φ′(0) = i∫R xdµ(x) = iE[X].

Se X ∈ L2(Ω) allora la sua funzione caratteristica φ e derivabile due volte e

φ′′(t) = −∫Rx2eitxdµ(x)

In particolare φ′′(0) = −∫R x

2dµ(x) = E[X2].In generale se E[|X|n] < +∞, allora φ e derivabile n volte e per ogni k ≤ n

φ(k)(t) = (i)k∫xkeitxdµ(x),

φ(k)(0) = (i)kE[Xk]

Dimostriamo la prima identita , per le altre si procede in modo analogo.Abbiamo:

φ′(t) = limh→0

φ(t+ h)− φ(t)

h= lim

h→0

∫Reitx

eihx − 1

hdµ(x).

Dato che limh→0eihx−1h

= ix, dobbiamo mostrare che e possibile passare illimite sotto il segno di integrale. Notiamo che la funzione integranda e limitataper ogni h ∈ R, da∣∣∣∣eitx eihx − 1

h

∣∣∣∣ =|eihx − 1||h|

=

√2− 2 cos(hx)

|h|= 2| sin(hx/2)||h|

≤ |x|

e per il teorema della convergenza dominata, abbiamo:

φ′(t) = limh→0

φ(t+ h)− φ(t)

h=

∫R(ix)eitxdµ(x).

L’ultima proprieta dimostrata puo essere applicata al problema dei momenti.Sia X variabile casuale con tutti i momenti finiti e sia mi = E[X i], con i ∈ N.La successione mii∈N determina univocamente la distribuzione µ della variabilecasuale X? In altre parole, esiste un’alta misura di probabilita ν su B(R) con glistessi momenti, cioe mi =

∫xidν(x)?

In generale i momenti non determinano la distribuzione in modo univoco. Ad esem-pio sia µ la misura su B(R) assolutamente continua rispetto alla misura di lebesgue,con densita f : R→ R definita da

f(x) =

ke−x

1/4x > 0

0 x ≤ 0(19)

Page 27: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

con k = (∫∞

0e−x

1/4dx)−1. Sia inoltre ν la misura su B(R) assolutamente continua

rispetto alla misura di lebesgue, con densita g : R→ R definita da

g(x) =

ke−x

1/4(1 + ε sin(βx1/4) x > 0

0 x ≤ 0(20)

con |ε| < 1 e β = tan(π/4). E possibile dimostrare (vedi es. 1) che per ogni i ∈ N∫xidµ(x) =

∫xidν(x)

ma, evidentemente le due misure non coincidono.Le proprieta della funzione caratteristica forniscono delle condizioni sufficienti af-finche data una successione mii∈N sia unica la misura µ : B(R) → [0, 1] per cuimi =

∫xidµ.

Teorema 9 Sia X variabile casuale con tutti i momenti finiti: mi = E[X i], E[|X i|] <+∞. Se

lim supn

n√|mn|n

= 0 (21)

allora se Y e una variabile casuale con gli stessi momenti di X, si ha che X e Ysono equidistribuite.

Dimostrazione: Per il teorema di unicita (teorema 8) e sufficiente mostrare che imomenti mnn∈N permettono di determinare univocamente la funzione caratteri-stica φ di X e quindi la sua distribuzione. Dato che φ(k)(0) = (i)kmk per ogni k ∈ Npossiamo costruire φ come serie di potenze centrata in t = 0:

φ(t) =∞∑k=0

φ(k)(0)

k!tk =

∞∑k=0

(i)kmk

k!tk. (22)

Dal criterio di Cauchy-Hadamard per la determinazione del raggio di convergenzadi una serie di potenze, dato che , per ipotesi (eq (21)

lim supn

n

√|mn|n!

= e lim supn

n√|mn|n

= 0,

e possibile concludere che il raggio di convergenza della serie di potenze (22) einfinito e quindi φ(t) e univocamente determinata dal secondo membro di (22) perogni t ∈ R.

Page 28: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Esercizi

1. Si dimostri che per ogni n ∈ N si ha che∫∞

0xnf(x)dx =

∫∞0xng(x)dx, dove

f, g sono le densita definite in (19) e (20) rispettivamente.Suggerimento: Si deve dimostrare che ∀n ∈ N si ha che∫ ∞

0

xne−x1/4

sin(βx1/4)dx = Im

(∫ ∞0

xne−x1/4+iβx1/4dx

)= 0

si dimostri che l’integrale al secondo membro e uguale a :∫ ∞0

xne−x1/4+iβx1/4dx =

4

(1− iβ)4n+4

∫ ∞0

u4n+3du =4

(1− iβ)4n+4Γ(4n+ 4)

Si mostri infine che la parte immaginaria del secondo membro e nulla in quanto

(1− iβ)4n+4 = (1− i tan(π/4))4n+4 =

(cos(π/4)− i sin(π/4)

cos(π/4)

)4n+4

=

(e−iπ/4

cos(π/4)

)4n+4

=eiπ(n+1)

(cos(π/4))4n+4

2. Sia X variabile casuale con tutti i momenti finiti: mi = E[X i], E[|X i|] < +∞.

Si ponga Mi := E[|X i|]. Si dimostri che se esiste finito lim supnn√|Mn|n

= lallora vale la tesi del teorema 9 (Unicita in legge di X).Suggerimento. Ricalcando la dimostrazione del teorema 9 e utilizzando ilcriterio di Cauchy Hadamard si dimostri che la serie di potenze (22) ha raggiodi convergenza R finito. Scelto t0 ∈ R con |t0| < R (ad es t0 = R/2) si mostri

che la serie di potenze per φ centrata in t0, cioe∑∞

k=0φ(k)(t0)

k!(t− t0)k ha ancora

raggio di convergenza R. In questo modo e possibile estendere φ all’intervallo(−R,R) ∪ (t0 −R, t0 +R). Procedendo in questo modo e possibile ricostruireφ su tutta la retta reale.

Variabili casuali n-dimensionali

Definizione 11 Una variabile casuale n- dimensionale o un vettore casuale X eun’applicazione misurabile X : (Ω,F)→ (Rn,B(Rn))

Ricordiamo che la σ-algebra di Borel in Rn e la σ-algebra generata fai pluriret-tangoli, cioe dagli insiemi E ⊂ Rn della forma

E = I1 × ...× In (23)

Page 29: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

con I1, ..., In intervalli di Rn.Indicheremo con Xi : Ω → R l’i-esima componente del vettore X¡ definita da

Xi(ω) = Πi X(ω), dove Πi : Rn → R e la proiezione definita da Πi(x1, ..., xn) = xi.Abbiamo dunque

X(ω) = (X1(ω), ..., Xn(ω)), Ω→ Ω.

Inoltre, dato che Xi e composizione di applicazioni misurabili, e misurabile e pos-siamo concludere che ogni vettore casuale X individua un’n-upla di variabili casualireali.Viceversa, date n variabili casuali reali Xi : (Ω,F) → (R,B(R)), l’applicazioneX : (Ω,F)→ (Rn,B(Rn)) definita da X(ω) := (X1(ω), ..., Xn(ω)) e misurabile ed equindi un vettore casuale. Per dimostrarlo e sufficiente mostrare che X−1(E) ∈ Fper ogni insieme E ∈ B(Rn) della forma (23). Dato che

X−1(E) = X−1(I1 × ...× In)

= ω ∈ Ω: X1(ω) ∈ I1 ∩ ... ∩ ω ∈ Ω: X1(ω) ∈ I1 = ∩nj=1ω ∈ Ω: Xj(ω) ∈ Ij,

dalla misurabilita di ognuna delle variabili casuali Xi, i = 1, ...n, possiamo conclu-dere che X−1(E) ∈ F in quanto intersezione di n insiemi misurabili.

Dato un vettore casuale X : (Ω,F) → (Rn,B(Rn)) definiamo la distribuzione µdi X come quella misura di probabilita µ : B(Rn)→ [0, 1] definita da

µ(E) := P[x ∈ E] = P(ω ∈ Ω: X(ω) ∈ E). (24)

Definiamo inoltre la funzione caratteristica di X come quell’applicazione φ :Rn → C definita da:

φ(t) := E[e〈t,X〉] =

∫Rnei〈t,x〉dµ(x), t ∈ Rn, (25)

dove 〈 , 〉 indica il prodotto scalare in Rn. Analogamente al caso unidimensionale,la funzione caratteristica di una distribuzione µ associata ad un vettore casuale Xpossiede determinate proprieta . In particolare:

1. φ(0) = 1

2. φ e uniformemente continua.

3. φ e semi-definita positiva, cioe ∀N ∈ N, ∀t1, ..., tn ∈ Rn e ∀z1, ..., zN ∈ C valela diseguaglianza

N∑j,k=1

φ(tj − tk)zj zk ≥ 0 (26)

Page 30: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

I teoremi fondamentali sulle funzioni caratteristiche valgono ancora nel caso unidi-mensionale. In particolare valgono

Teorema 10 (Bochner) Una funzione φ : Rn → C, continua in 0, tale che φ(0) =1 e semi-definita positiva e la funzione caratteristica di una misura di probabilita µsi B(Rn), distribuzione di una variabile casuale vettoriale X.

Teorema 11 (Unicita ) Siano µ1 e µ2 misure di probabilita su B(Rn) con funzionicaratteristice φ1 e φ2 rispettivamente. Allora µ1 = µ2 se e solo se φ1 = φ2.

Vediamo alcuni esempi di misure di Borel su Rn e delle corrispondenti funzionicaratteristiche.

Misure prodotto

Date n misure di probabilita µ1, µ2, ..., µn su B(R)

µi : B(R)→ [0, 1], i = i, ..., n,

definiamo la misura µ : B(Rn → [0, 1] prodotto di µ1, µ2, ..., µn e indicata conµ ≡ µ1 × µ2 × ...× µn come

µ(I1 × I2 × ...× In) := µ1(I1)µ2(I2) · · ·µn(In), I1, ..., In ∈ B(R). (27)

Notiamo che la (27) definisce un’unica misura su B(Rn) in quanto gli insiemi E ⊂ Rn

della forma E = I1× I2× ...× In, con I1, ..., In ∈ B(R), formano una famiglia chiusaper intersezioni finite che genera B(Rn).

Misure Gaussiane

Consideriamo un vettore m ∈ Rn e una matrice quadrata A n × n simmetrica edefinita positiva. Da tali proprieta , possiamo dedurre che A e diagonalizzabile eche tutti gli autovalori λ1, ..., λn di A sono strettamente positivi. Esiste quindi unamatrice n× n unitaria U (cioe tale che UT = U−1) tale per cui A = U−1DU , con Dmatrice diagonale n× n della forma

D =

λ1 · · · 0...

. . ....

0 · · · λn

Page 31: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Inoltre A e invertibile e A−1 = U−1D−1U , dove

D−1 =

1λ1· · · 0

.... . .

...0 · · · 1

λn

Consideriamo la funzione f : Rn → R definita da f(x) = e−

12〈x−m,A−1(x−m)〉. f e

positiva, inoltre abbiamo:∫Rnf(x)dx =

∫Rne−

12〈x−m,A−1(x−m)〉dx

=

∫Rne−

12〈U(x−m),D−1U(x−m)〉dx

=

∫Rne−

12〈y,D−1y〉dy

=

∫Rne−

∑nj=1

y2j2λj dy

= Πnj=1

√2πλj = (2π)n/2

√det (A)

Possiamo quindi definire la misura µ su B(Rn) assolutamente continua rispetto allamisura di Lebesgue con densita g : Rn → R data da g(x) = (2π)−n/2(det (A))−1/2f(x).Tale misura viene detta Gaussiana su Rn con vettore media m e matrice di cova-rianza A.Esercizi

1. Dimostrare che∫Rn xig(x)dx = mi.

2. Indicato con ajk l’elemento della matrice A appartenente alla j-esima riga ealla k-esima colonna, si ha∫

Rn(xj −mj)(xk −mk)g(x)dx = ajk

Si puo inoltre calcolare esplicitamente la funzione caratteristica della misura Gaus-siana µ. Questa infatti e data da:

φ(t) =

∫Rnei〈t,x〉

e−12〈x−m,A−1(x−m)〉

(2π)n/2√

det (A)dx = ei〈t,m〉

∫Rnei〈t,x〉

e−12〈Ux,D−1Ux〉

(2π)n/2√

det (D)dx

= ei〈t,m〉∫Rnei〈Ut,y〉

e−12〈y,D−1y〉

(2π)n/2√

det (D)dy = ei〈t,m〉

∫Rnei

∑nj=1(Ut)jyj

e−

∑nj=1

y2j2λj

(2π)n/2√

Πjλjdy

= ei〈t,m〉e−∑nj=1

λj(Ut)2j

2 = ei〈t,m〉e−〈Ut,DUt〉 = ei〈t,m〉e−〈t,At〉.

Page 32: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Gaussiane generalizzate

Consideriamo ora un vettore m ∈ Rn e una matrice quadrata A n × n simmetricae semidefinita positiva. A e quindi diagonalizzabile e tutti gli autovalori λ1, ..., λndi A sono positivi o nulli. Nel caso in cui almeno un autovalore si annulli, non epiu possibile definire la matrice inversa A−1 e, conseguentemente, non e possibilecostruire la funzione g(x) = (2π)−n/2(det (A))−1/2e−

12〈x−m,A−1(x−m)〉 densita della

misura Gaussiana con media m e covarianza A. Tuttavia la funzione φ : Rn → Rdefinita da

ei〈t,m〉e−12〈t,At〉, t ∈ Rn,

e ben definita e, per il teorema di Bochner, e la funzione caratteristica di una misuradi probabilita µ su B(Rn). Osserviamo infatti che:

• φ(0) = 1. Lo si verifica direttamente.

• φ e continua in 0. Questo segue facilmente dalla forma esplicita di φ

• φ e semidefinita positiva. Dobbiamo mostrare che ∀N ∈ N, ∀T1, ..., tn ∈ Rn e∀z1, ..., zN ∈ C vale la diseguaglianza

N∑j,k=1

φ(tj − tk)zj zk ≥ 0

Dato ε > 0 consideriamo la matrice Aε := A + εI. Notiamo che Aε e definitapositiva e che la funzione φε : Rn → R definita da

φε(x) = ei〈t,m〉e−12〈t,Aεt〉 = e−

12‖t‖2φ(t)

e la funzione caratteristica di una misura Gaussiana su Rn. Vale dunque,∀N ∈ N, ∀t1, ..., tn ∈ Rn e ∀z1, ..., zN ∈ C

N∑j,k=1

φε(tj − tk)zj zk ≥ 0

Mandando ε ↓ 0 la diseguaglianza si preserva e otteniamo che φ e semidefinitapositiva.

Trasformazioni di misure e delle rispettive funzioni caratte-ristiche sotto applicazioni lineari affini

• Traslazioni. Fissato un vettore m ∈ Rn, si consideri l’applicazione τm :Rn → Rn definita da

τm(x) := x+m, x ∈ Rn.

Page 33: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Data una misura µ sui Boreliani di Rn, si consideri la misura µτm , immaginedi µ attraverso τm, definita da

µτm(B) := µ(τ−1m (B)) = µ(B −m), B ∈ B(Rn), (28)

doveτ−1m (B) =≡ µ(B −m) := x ∈ Rn : x+m ∈ B.

La funzione caratteristica di µτm e data da

φτm(t) =

∫Rnei〈t,x〉dµτm(x)

=

∫Rnei〈t,τm(x)〉dµ(x)

=

∫Rnei〈t,x+m〉dµ(x)

= ei〈t,m〉φ(t)

dove φ e la funzione caratteristica di µ.

• Applicazioni lineari. Sia L : Rn → Rm applicazione lineare associata aduna matrice B di dimensione m× n:

L(x) := Bx, x ∈ Rn

Data una misura µ sui Boreliani di Rn, si consideri la misura µL sui Borelianidi Rm, immagine di µ attraverso L, definita da

µL(E) := µ(L−1(E)), E ∈ B(Rm),

doveL−1(E) := x ∈ Rn : L(x) ∈ E = x ∈ Rn : Bx ∈ E

La funzione caratteristica di µL e data da

φL(t) =

∫Rm

ei〈t,y〉dµL(y)

=

∫Rnei〈t,L(x)〉dµ(x)

=

∫Rnei〈t,Bx〉dµ(x)

=

∫Rnei〈B

T t,x〉dµ(x) = φ(BT t) (29)

dove φ e la funzione caratteristica di µ.

Page 34: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Esempi ed esercizi

• Sia X vettore aleatorio n−dimensionale con media m e matrice di covarianzaA. Sia Y vettore aleatoriom−dimensionale definito da Y = BX con B matricem× n. Allora Y ha una distribuzione Gaussiana con media Bm e matrice dicovarianza BABT , infatti la funzione caratteristica di Y e data da

φY (t) = φX(BT t) = ei〈m,BT t〉− 1

2〈BT t,ABT t〉 = ei〈Bm,t〉−

12〈t,BABT t〉

• Sia X vettore aleatorio n−dimensionale con media m e matrice di covarianzaA. allora ogni sua componente Xi, i = 1, ..., n e una variabile casuale Gaus-siana con media mi e covarianza Ai,i. Per dimostrarlo e sufficiente applicare ilrisultato precedente al caso in cui B sia l”i-esimo vettore riga di Rn.

• Una misura di probabilita µ su R2 e detta invariante per rotazioni se per ogni

matrice di rotazione U : R2 → R2 della forma U =

(cos θ sin θ− sin θ cos θ

)si ha

che µU = µ. Equivalentemente una misura e invariante per rotazioni se la suafunzione caratteristica soddisfa per ogni matrice di rotazione U l’identita

φ(t) = φ(U(t)),∀t ∈ R2

Un esempio di misura di probabilita invariante per rotazione e la misura gaus-siana centrata con matrice di covarianza l’identita I. Infatti in tal caso φ(t) =

e−‖t‖22 . Un ulteriore esempio di misura di Borel in R2 invariante per rotazione e

data dalla misura µ concentrata3 sulla circonferenza C = x ∈ R2 : ‖x‖2 = 1,definita da

µ(B) := H1(B ∩ C)/2π, B ∈ B(R2),

Si calcoli per esercizio la funzione caratteristica di µ.

Suggerimento:. ∀t = (t1, t2) ∈ R2, abbiamo φ(t) =∫R2 e

it·xdµ(x), con x =(x1, x2) ∈ R2. Fissato il vettore t = (t1, t2), sostituiamo le coordinate cartesia-ne (x1, x2) con le coordinate polari (ρ, θ) ∈ R2, dove |ρ| = |x| =

√x2

1 + x22, e

θ ∈ [0, 2π) e l’angolo compreso fra i vettori t = (t1, t2) e x = (x1, x2). Sia A ∈B(R2), abbiamo che

∫ 2

R χA(x1, x2)dµ(x1, x2) =∫∞

0

∫ 2π

0χA(ρ cos θ, ρ sin θ)dµ =∫ 2π

0χA(cos θ, sin θ) dθ

2π. Tale relazione si estende al caso in cui χA e sosti-

tuita da una funzione semplice e, piu in generale, se f : R2 ∈ R e una

3Si veda definizione 12

Page 35: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

funzione Boreliana limitata, approssimando f con una successione di fun-zioni semplici equilimitate convergenti puntualmente a f . Si ottiene quindi∫fdµ =

∫ 2π

0f(cos θ, sin θ) dθ

2π. La funzione caratteristica di µ e data da

φ(t) =

∫R2

eit·xdµ(x) =

∫ 2π

0

ei|t| cos θ dθ

2π=

1

π

∫ 1

−1

ei|t|u√1− u2

du, t ∈ R2.

L’integrale che appare al secondo membro non e esprimibile tramite funzionielementari. Di fatto φ(t) = J0(|t|), dove J0 e una funzione di Bessel del primotipo [6].

Gaussiane degeneri

Definizione 12 Sia (X,F) uno spazio misurabile. Una misura µ e detta concen-trata su un insieme B ∈ F se

µ(E) = µ(E ∩B) ∀E ∈ F

Un esempio semplice di misura concentrata e la δ di Dirac. Dato uno spazio misu-rabile (X,F) e un punto x ∈ X, si definisce la misura δ di Dirac centrata in x e siindica col simbolo δx, quella misura definita da

δx(E) =

1 se x ∈ E0 altrimenti

(30)

Si verifica facilmente che (30) definisce una misura σ additiva. Inoltre per ognif : X → R misurabile si ha

∫f(x)δx(x) = f(x)

Consideriamo ora una misura Gaussiana generalizzata su Rn, definita da unafunzione caratteristica φ della forma φm,A(t) = ei〈m,t〉e−

12〈t,At〉 con A matrice sim-

metrica semi definita positiva. Senza perdita di generalita possiamo porre m = 0,perche se m 6= 0 allora la misura µm,A associata a φm,A e collegata alla misura µm,Aassociata a φm,A dalla relazione (28). Dalla diagonalizzabilita di A = U−1DU , conD diagonale e U unitaria, abbiamo:

φ0,A(t) = e−12〈Ut,DUt〉 = φ0,D(Ut).

Dall’equazione (29) e dal fatto che UT = U−1, ossiamo dedurre che la misura µAassociata a φ0,A e collegata alla misura µD associata a φ0,D dalla relazione:

µA(B) = µD(UB), B ∈ B(Rn). (31)

La misura µD e semplice da descrivere in quanto la matrice di covarianza e diagonale.Indichiamo con λ1, ..., λn gli autovalori di D. Supponiamo che λ1 = ... = λk = 0 e

Page 36: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

che i restanti n − k autovalori λk+1, ..., λn siano strettamente positivi. Dato che la

funzione caratteristica si fattorizza nella forma φD(t) = Πnj=1e

−λj2t2j = Πn

j=k+1e−λj2t2j ,

possiamo dedurre che µD e una misura prodotto in cui i primi k fattori sono misuredelta di Dirac in 0, mentre i restanti n − k fattori sono misure gaussiane centrateµλj con covarianza λj, j = k + 1, ...n. Abbiamo dunque, dato un generico insiemeBoreliano B ∈ B(Rn):

µD(B) =

∫RnχB(x1, ..., xn)πkj=1δ0(xj)π

nl=k+1dµλl(xl)

=

∫Rn−k

χB(0, . . . , 0, xk+1, . . . , xn)πnl=k+1dµλl(xl)

=

∫Rn−k

χB(xk+1, . . . , xn)πnl=k+1dµλl(xl)

Dove B = B ∩ (kerD)⊥. In particolare possiamo dedurre che µD e concentrata sulsottospazio vettoriale di Rn generato dagli ultimi n−k vettori ek+1, ..., en della basecanonica di Rn. tale sottospazio e l’ortogonale del nucleo di D:

µD(B) = µD(B ∩ (kerD)⊥).

Considerando ora la misura Gaussiana centrata µA su Rn con matrice di covarianzaA, dalla relazione (31) e dalle proprieta di µD otteniamo4

µA(B) = µD(UB) = µD(UB ∩ (kerD)⊥)

= µD(UB ∩ U(kerA)⊥)

= µD(U(B ∩ (kerA)⊥))

= µA(B ∩ (kerA)⊥)

Misure marginali

Si consideri un generico vettore casuale X = (X1, ..., Xn) e indichiamo con µ la suadistribuzione, misura di probailita sui Boreliani di Rn. Possiamo definire le marginali1-dimensionali di µ, come quelle misure di probabilita µi, i = 1, ..., n definite da

µi := µπi , i = 1, ..., n,

4Indicati con vk+1, . . . , vn gli n − k autovettori (ortonormali) di A relativi agli autovalori nonnulli λk+1, ..., λn, notiamo che vale la relazione vj = U−1ej , j = 1, ..., n, con ej vettori della basecanonica (e autovettori di D). equivalentemente ej = Uvj , j = 1, ..., n. Dato che (kerD)⊥ =spanek+1, ..., en e (kerA)⊥ = spanvk+1, ..., vn, si deduce che (kerD)⊥ = U(kerA)⊥.L’uguaglianza UB ∩ U(kerA)⊥ = U

(B ∩ (kerA)⊥

)segue dal fatto che U e un’applicazione

invertibile.

Page 37: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

dove con πi : Rn → R indichiamo la proiezione sull’i-esima componente:

πi(x1, ..., xn) := xi, (x1, ..., xn) ∈ Rn

Piu precisamente abbiamo, dato un Boreliano B ∈ B(R), abbiamo:

µi(B) = µ(π−1i (B)) = µ(x ∈ Rn : πi(x) ∈ B)

= µ(R× · · · ×B × · · ·R)

= P(ω ∈ Ω: X(ω) ∈ R× · · · ×B × · · ·R)= P(ω ∈ Ω: Xi(ω) ∈ B)= P(Xi ∈ B)

Quindi vediamo che µi e la distribuzione della variabile aleatoria Xi, l’i-esimacompoente del vettore aleatorio X.

Analogamente, se n > 2, per ogni coppia di indici i, j = 1, ..., n definiamo lamisura marginale µij come la misura immagine di µ attraverso la proiezione πij :Rn → R2 definita da

πij(x1, ..., xn) := (xi, xj), (x1, ..., xn) ∈ Rn.

In particolare, per ogni Boreliano B ⊂ R2 della forma B = I × J , con I, J ∈ B(R)abbiamo:

µij(I × J) = µ(π−1ij (I × J)) = µ(x ∈ Rn : xi ∈ I, xj ∈ J)

= µ(R× · · · × I × · · · J × · · ·R)

= P(ω ∈ Ω: X(ω) ∈ (R× · · · × I × · · · J × · · ·R)= P(ω ∈ Ω: Xi(ω) ∈ I,Xj(ω) ∈ J)= P((Xi, Xj) ∈ I × J)

da cui deduciamo che µij e la distribuzione del vettore aleatorio (Xi, Xj).

Piu in generale, per ogni m < n e ogni m−pla di indici (i1, ..., im) possiamo co-striuire le misure marginali µi1,...,im su B(Rm) definite come le immagini di µ attra-verso la proiezione πi1,...,im : Rn → Rm, definita da πi1,...,im(x1, ..., xn) = (xi1 , ..., xim).Tali misure marginali identificano le distribuzioni dei vettori aleatori m-dimensionali(Xi1 , ..., Xim):

µi1,...,im(Ii1 × ...× Iim) = µ(x ∈ Rn : xi1 ∈ I1, xim ∈ Im)= P(ω ∈ Ω: Xi1(ω) ∈ Ii1 , ..., Xim(ω) ∈ Iim)= P((Xi1 , ..., Xim) ∈ Ii1 × ...× Iim)

Page 38: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Osserviamo che le marginali sono collegate fra loro da una relazione di compatibilita. Consideriamo infatti, a titolo di esempio, le marginali unidimensionali µi e lemarginali bidimensionali µij, i, j = 1, ..., n di una distribuzione µ. Abbiamo chequeste devono soddisfare per ogni i, j = 1, ..., n la seguente relazione di compatibilita

µi = (µij)i,

cioe 5

µi(I) = µij(π−1i I) = µij((xi, xj) ∈ R2 : xi ∈ I)

Infatti, dalla definizione di µi e µij abbiamo:

(µij)i(I) = µij(I × R)

= P(ω ∈ Ω : Xi(ω) ∈ I,Xj(ω) ∈ R)= P(ω ∈ Ω : Xi(ω) ∈ I)= µi(I)

Piu in generale, indicato con J = i1, ..., im ⊂ 1, ..., n un insieme di indici e conJ ′ ⊂ J un suo sottoinsieme, J ′ = i′1, ..., i′k, con k < m, indicata con πJJ ′ : Rm →Rk la proiezione πJJ ′ : Rm → Rk data da πJJ ′(xi1 , ..., xim) = (xi′1 , ..., xi′k), abbiamoche le misure marginali µJ ≡ µi1,...,im e µJ ′ ≡ µi′1,...,i′k soddisfano la relazione dicompatibilita

µJ ′ = (µJ)J ′ .

Notiano che le marginali non permettono, in generale, di ricostruire la distri-buzione µ. Consideriamoa titolo di esempio le misure Gaussiane centrate µ e ν suB(R2) con matrici di covarianza rispettivamente Aµ e Aν , con

A−1µ =

(3/2 00 3/2

), A−1

ν =

(2 11 2

)Mostrare, per esercizio, che µ e ν hanno le stesse misure marginali.

Indipendenza e correlazione

Definizione 13 n σ-algebre F1, ...,Fn ⊂ F di uno spazio di probabilita (Ω,F ,P)sono dette indipendenti se ∀E1 ∈ F1, ..., En ∈ Fn si ha che:

P(E1 ∩ ... ∩ En) = P(E1) · · · · · P(En)

5qui con πi : R2 → R indichiamo la proiezione definita da πi(xi, xj) := xi.

Page 39: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Notiamo che se fissiamo n eventi Ei, i = 1, .., n e indichiamo on Fi la σ-algebragenerata da Ei

6, i = 1, .., n, allora gli eventi E1, ..., En sono indipendenti7 se e solose lo sono le rispettive σ-algebre Fi.

Definizione 14 n variabili aleatorie X1, ..., Xn su uno spazio di probabilita (Ω,F ,P)sono dette indipendenti se lo sono le rispettive σ algebre generate FXi, i = 1, ..n,cioe scelti arbitrari I1, ..., In ∈ B(R) si ha:

P(X1 ∈ I1, ..., Xn ∈ In) = P(X1 ∈ I1) · · ·P(Xn ∈ In). (32)

Se indichiamo con µ la distribuzione del vettore aleatorio (X1, ..., Xn) e con µi,i = 1, .., n le sue distribuzioni marginali 1-dimensionali, dalla (32) deduciamo cheX1, ..., Xn sono indipendenti se e solo se la loro distribuzione congiunta soddisfa:

µ(I1 × ...× In) = µ1(I1) · · ·µn(In). (33)

Dalla (33) deduciamo quindi che µ e misura prodotto delle marginali unidimensio-nali.Esercizio Siano X, Y variabile aleatorie equidistribuite, con X ∼ N(0, 1) e Y ∼N(0, 1). Calcolare la distribuzione congiunta di X, Y , cioe la distribuzione delvettore aleatorio (X, Y ) nei due casi:

1. X e Y sono indipendenti.

2. Y = X.

1. Nel primo caso, abbiamo visto che se X e Y sono indipendenti la distribuzioneµ del vettore (X, Y ) sara la misura prodotto delle marginali µx e µy. Inparticolare la funzione caratteristica e data da:

φ(t1, t2) =

∫R2

eit1x+it2ydµx(x)dµy(y) =

∫Reit1x

e−x2

2

√2πdx

∫Reit2y

e−y2

2

√2πdy = e−

12

(t21+t22)

La funzione caratteristica ha dunque la forma e−12〈(t1,t2),A(t1,t2)〉, con A =(

1 00 1

).

2. Nel caso in cui Y = X, la distribuzione µ del vettore aleatorio (X, Y ) edescritta dalla funzione caratteristica:

φ(t1, t2) =

∫R2

eit1x+it2ydµ(x, y) =

∫Reit1x+it2x

e−x2

2

√2πdx = e−

12

(t1+t2)2

6In particolare Fi = Ω, ∅, Ei, Eci

7Cioe per ogni sottoinsieme Ei′1, ..., Ei′k

⊂ E1, ..En si ha P(Ei′1∩...∩Ei′k

) = P(Ei′1)·· · ··P(Ei′k

)

Page 40: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

La funzione caratteristica ha dunque la forma e−12〈(t1,t2),A(t1,t2)〉, con A =(

1 11 1

). La matrice A e semidefinita positiva. Il nucleo di A e dato da

Ker(A) = (x, y) ∈ R2 : y = −x mentre il sottospazio ker(A)⊥ su cui lamisura µ e concentrata e dato da Ker(A)⊥ = (x, y) ∈ R2 : y = x.

Variabili aleatorie scorrelate

Se X1, ..., Xn sono indipendenti abbiamo

E[ΠiXi)] = ΠiE[Xi)]

infatti

E[ΠiXi)] =

∫Rnx1 · · · xndµ(x1, ..., xn)

=

∫Rnx1 · · · xndµ1(x1) · · · dµn(xn)

=

∫Rx1dµ1(x1) · · ·

∫Rxndµn(xn)

= ΠiE[Xi)]

Introduciamo ora il concetto di covarianza.

Definizione 15 Siano X, Y variabili casuali in L2(Ω). Si definisce covarianza diX e Y il numero

Cov(X, Y ) := E[(X −mX)(Y −mY )],

con mX := E[X] e mY := E[Y ].Se Cov(X, Y ) = 0 allora X e Y sono dette scorrelate.

Si verifica facilmente che Cov(X, Y ) = E[XY ]−mxmY . In particolare, se X, Y sonoindipendenti, allora sono scorrelate: Non e vero il viceversa, come mostra il seguenteesempio.

Esempio 2 Sia Ω = 1, 2, 3, F = P(Ω) e P probabilita uniforme, cioe P(1) =P(2) = P(3) = 1/3. SIano X, Y variabili casuali su Ω definite da

X(1) = 1, X(2) = 0, X(3) = −1,

Y (1) = 1, Y (2) = π, Y (3) = 1,

Si verifica facilmente che X e Y sono scorrelate, infatti mX = 0, mY = 2/3 + π/3,e E[XY ] = 0, da cui Cov(X, Y ) = 0

Page 41: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

X e Y pero non sono indipendenti, infatti consideriamo i due insiemi E1 ∈ FX1 eE2 ∈ FX2, definiti da:

E1 = X−1(1) = 1, E2 = Y −1(1) = 1, 3.

Abbiamo P(E1 ∩ E2) = 1/3, mentre P(E1)P(E2) = 2/9.

Vedremo che nel caso in cui X e Y siano variabili casuali Gaussiane, dal fattoche Cov(X, Y ) = 0 e possibile dedurre che X, Y sono indipendenti.

Vettore media e matrice di covarianza

Date n variabili aleatorie X1, ..., Xn ∈ L2(Ω), definiamo la matrice di covarianzaC = (cij) come:

cij := Cov(Xi, Xj) = E[(Xi −mi)(Xj −mj)]

dove mi = E[Xi], mj = E[Xj].La matrice C e semi-definita positiva, infatti ∀z1, ..., zn ∈ C:

n∑j,k=1

zj zkcjk ≥ 0

Infatti

n∑j,k=1

zj zkcjk =n∑

j,k=1

zj zkcjkE[(Xj −mj)(Xk −mk)]

= E

[n∑

j,k=1

zj zkcjk(Xj −mj)(Xk −mk)

]

= E

[|

n∑j=1

zj(Xj −mj)|2]≥ 0

Calcolo di vettore media e matrice di covarianza tramite la funzionecaratteristica

Nota la funzione caratteristica φ di un vettore casuale (X1, ..., Xn), con Xi ∈ L2(Ω),possiamo calcolare il vettore media e la matrice di covarianza di X tramite le derivateparziali della funzione caratteristica.

Page 42: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Il vettore media del vettore casuale (X1, ..., Xn) e quel vettore m ∈ Rn le cuicomponenti sono date da: mj := E[Xj], j = 1, ..., n. Se X ∈ L1(Ω), si verificafacilmente, come nel caso unidimensionale, che

mj = −i ∂φ∂tj|t=0

Analogamente, se Xj, Xk ∈ L2(Ω), abbiamo

E[XjXk] = − ∂2φ

∂tj∂tk|t=0

E quindi Cov(Xj, Xk) = − ∂2φ∂tj∂tk

|t=0 + ∂φ∂tj|t=0

∂φ∂tk|t=0

In particolare, se X, Y sono Gaussiane con funzione caratteristica

φ(t1, t2) = ei〈(m1,m2),(t1,t2)〉− 12〈(t1,t2),A(t−1,t2)〉

allora e immediato verificare che:

∂φ

∂tj|t=0 = imj,

∂2φ

∂tj∂tk|t=0 = −ajk −mjmk,

da cui cij = aij. In particolare, se X, Y sono Gaussiane e scorrelate, possiamodedurre che la matrice di covarianza A del vettore Gaussiano (X, Y ) e diagonale equindi le variabili X e Y sono indipendenti.

Coefficiente di correlazione

Siano X, Y ∈ L2(Ω) variabili aleatorie reali su uno spazio di probabilita Ω,F ,P)con σx 6= 0 e σy 6= 0. Si definisce icoefficiente di correlazione di X e Y il numero

ρ(X, Y ) :=Cov(X, Y )

σXσy. (34)

Dalla definizione (34) possiamo dedurre facilmente le seguenti proprieta .

• ρ(X, Y ) e invariante per dilatazione. Fissati α, β ∈ R+ e definite le variabilicasuali Xα := αX e Yβ := βY si ottiene ρ(X, Y ) = ρ(Xα, Yβ).

• |ρ(X, Y )| ≤ 1 e |ρ(X, Y )| = 1 se e solo se X e Y sono legate da una relazionelineare affine della forma Y = aX + b, con a, b ∈ R, dove ρ = 1 se a > 0

Page 43: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

e ρ = −1 se a < 0. Dalla diseguaglianza di Cauchy-Schwartz applicata allospazio di Hilbert L2(Ω,P) abbiamo che

|Cov(X, Y )| = |E[(X −mX)(Y −mY )]|≤ (E[(X −mX)2])1/2(E[(Y −mY )2])1/2 = σXσY

e la diseguaglianza si riduce ad una uguaglianza se i vettori (X − mX) e(Y −mY ) di L2(Ω,P) sono linearmente dipendenti.

Il coefficiente di correlazione ha un ruolo importante nella discussione degli sti-matori lineari. Si considerino due variabili aleatorie reali X, Y ∈ L2(Ω) su unospazio di probabilita (Ω,F ,P) con σx 6= 0 e σy 6= 0. Supponiamo di conoscereil valore della variabile X e di voler stimare il valore della variabile Y come fun-zione lineare affine di X. In altre parole calcoliamo la coppia di coefficienti realia, b ∈ R per cui e minimo l’errore quadratico medio che si commette sostituendo Ycon aX + b. Cerchiamo dunque i valori (a, b) che minimizzano la funzione di duevariabili ∆ : R2 → R definita da:

∆(a, b) := E[|Y − aX − b|2]

Notiamo che la funzione ∆(a, b) esprime il quadrato della distanza in L2(Ω,P) traY e aX + b.Dalla soluzione di un semplice problema di estremizzazione di una funzione di duevariabili (che e di fatto un polinomio di secondo grado nelle variabili (a, b)) otteniamoche

a =Cov(X, Y )

σ2X

, b = E[Y ]− aE[X]

Inoltre l’errore quadratico medio che commettiamo sostrituendo Y con aX + b edato da ∆(a, b) = σ2

y(1− ρ2(X, Y ))

Ulteriori esercizi sui vettori aleatori Gaussiani

1. Sia (X, Y ) un vettore aleatorio Gaussiano. Dimostrare che la variabile aleato-ria X + Y e Gaussiana.

2. Siano X, Y variabile aleatorie Gaussiane indipendenti. Allora il vettore alea-torio (X, Y ) e Gaussiano.

3. L’ipotesi di indipendenza nell’esercizio 2 e importante e non puo essere rilassa-ta, come mostra il seguente controesempio. SiaX variabile aleatoria Gaussianacon media 0 e varianza 1. Sia Z variabile aleatoria discreta indipendente daX con distribuzione P(Z = 1) = 1/2 e P(Z = −1) = 1/2.

Page 44: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

(a) Definita la variabile aleatoria Y := ZX, dimostrare che Y e variabilealeatoria Gaussiana con media 0 e varianza 1.

(b) Calcolare la funzione di distribuzione della variabile aleatoria X + Y emostrare che X + Y non e Gaussiana.

(c) Dal punto (b) e dall’esercizio 1, dedurre che il vettore aleatorio (X, Y )non e Gaussiano.

Traccia della soluzione

1. Notate che l’applicazione L : R2 → R data da L(x, y) = x+ y e lineare.

2. Per l’ipotesi di indipendenza, la distribuzione del vettore (X, Y ) e la mi-sura prodotto delle distribuzioni µx e µY delle variabile aleatorie X e Yrispettivamente.

3. (a) FY (t) = P(Y ≤ t) = P(Y ≤ t|Z = 1)P(Z = 1) + P(Y ≤ t|Z = −1)P(Z =−1).

(b) FX+Y (t) = P(X + Y ≤ t) = P(X + Y ≤ t|Z = 1)P(Z = 1) + P(X + Y ≤t|Z = −1)P(Z = −1).

Vari tipi di convergenza di variabili casuali

In questa sezione studiamo i diversi modi in cui una successione Xn di variabilialeatorie reali converge ad una variabile aleatoria X.

Definizione 16 (Convergenza quasi certa) Siano Xn e X variabili casuali suuno spazio di probabilita (Ω,F ,P). La successione Xn converge quasi certamente aX se

P(ω ∈ Ω: limn→∞

|Xn(ω)−X(ω)| = 0) = 1

Tale convergenza si indica col simbolo Xnq.c.→ X.

In analisi, riguardando Xn come una successione di funzioni misurabili, tale conver-genza e detta convergenza quasi ovunque.

Definizione 17 (Convergenza in probabilita ) Siano Xn e X variabili ca-suali su uno spazio di probabilita (Ω,F ,P). La successione Xn converge in proba-bilita a X se

∀ε > 0 limn→∞

P(ω ∈ Ω: |Xn(ω)−X(ω)| > ε) = 0

Page 45: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Tale convergenza si indica col simbolo XnP→ X.

In analisi, riguardando Xn come una successione di funzioni misurabili, tale conver-genza e detta convergenza in misura.

Definizione 18 (Convergenza in media Lp) Siano Xn e X variabili casualisu uno spazio di probabilita (Ω,F ,P). Fissato 1 ≤ p,∞, supponiamo che Xn, X ∈Lp(Ω). La successione Xn converge in media Lp a X se

limn→+∞

E[|Xn −X|p] = 0

Tale convergenza si indica col simbolo XnLp→ X.

Definizione 19 (Convergenza debole o convergenza in distribuzione) SianoXn e X variabili casuali definite su spazi probabilita (Ωn,Fn,Pn) e (Ω,F ,P) ri-spettivamente. La successione Xn converge in distribuzione a X se per ogni funzionef : R→ R continua e limitata si ha

limn→∞

E[f(Xn)] = E[f(X)]

Tale convergenza si indica col simbolo Xnd→ X.

Notiamo che, indicando con µn e µ le distribuzioni di Xn e di X, n ∈ N, rispettiva-mente, la definizione di convergenza in distribuzione della successione Xn a X puoessere formulata nel modo seguente;

per ogni f : R→ R continua e limitata limn→∞

∫Rfdµn =

∫Rfdµ (35)

In analisi, la condizione (35) e chiamata convergenza debole della successione di

misure µn alla misura µ. Adottando tale terminologia, possiamo dire che Xnd→

X se e solo se la successione delle distribuzioni di Xn converge debolmente alladistribuzione di X.

Teorema 12 Per ogni p > 1, se XnLp→ X allora Xn

L1

→ X.

Dimostrazione: Dalla diseguaglianza di Holder abbiamo:

E[|Xn −X|] ≤ (E[|Xn −X|p])1/p

da cui possiamo dedurre che se limn→∞ E[|Xn − X|p] = 0, allora limn→∞ E[|Xn −X|] = 0.

Page 46: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Teorema 13 se XnL1

→ X allora XnP→ X

Dimostrazione: Fissato ε > 0 abbiamo, per l diseguaglianza di Chebychev:

P(|Xn −X| > ε) ≤ 1

εE[|Xn −X|]

da cui possiamo dedurre che se limn→∞ E[|Xn−X|] = 0, allora limn→∞ P(|Xn−X| >ε) = 0.

Il seguente esercizio mostra che in generale, non e possibile invertire l’implicazio-ne del teorema precedente e dedurre la convergenza in media Lp dalla convergenzain probabilita .

Esempio Si consideri lo spazio di probabilita (Ω,F ,P), dove Ω = [0, 1], F =B([0, 1]) e P = L, dove L indica la misura di Lebesgue su [0, 1].Si consideri la successione di variabili casuali Xn definita da

Xn(ω) :=

en 0 ≤ ω ≤ 1/n0 1/n < ω ≤ 1

Sia X = 0.Fissato ε > 0 abbiamo P(|Xn| > ε) ≤ 1/n. Quindi, per n→∞, abbiamo:

XnP→ X.

D’altra parte, se calcoliamo la norma Lp di |Xn −X| otteniamo:

E[|Xn −X|p] =enp

n

e tale successione non converge a 0 per n → ∞. Abbiamo quindi che Xn nonconverge a X in media Lp.

Teorema 14 (Condizione equivalente alla convergenza in probabilita ) Condizione

necessarie e sufficiente affinche Xnq.c.→ X e

∀ε > 0 limn→∞

P(ω ∈ Ω: supk≥n|Xk(ω)−X(ω)| > ε) = 0 (36)

Page 47: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Dimostrazione: Notiamo che Xnq.c.→ X se e solo se P(N) = 0, dove N = ω ∈

Ω: ∃ε > 0∀n ≥ 1∃k ≥ n |Xk(ω)−X(ω)| ≥ ε. Considerati gli insiemi

Aεk := ω ∈ Ω: |Xk(ω)−X(ω)| ≥ εBεn := ω ∈ Ω: ∃k ≥ n |Xk(ω)−X(ω)| ≥ ε = ∪k≥nAεkAε = ω ∈ Ω: ∀n ≥ 1∃k ≥ n |Xk(ω)−X(ω)| ≥ ε = ∩n≥1B

εn

abbiamo N = ∪ε>0Aε. Notiamo inoltre che ∀ε > 0∃m ∈ N tale che Aε ⊂ A1/m e,

equivalentemente ∀m ∈ N ∃ε > 0 tale che A1/m ⊂ Aε. Da questo segue che ∪ε>0Aε =

∪∞m=1A1/m. Notiamo inoltre che la successione di insiemi Bε

n, n ∈ N, e decrescente e,per la continuita della misura di probabilita P abbiamo limn→∞ P(Bε

n) = P(∩nBεn).

La condizione P(N) = 0 e dunque equivalente alle seguenti:

P(N) = 0 ⇔ P(∪ε>0Aε) = 0⇔ P(∪∞m=1A

1/m) = 0

⇔ P(A1/m) = 0 ∀m ≥ 1

⇔ P(Aε) = 0 ∀ε > 0

⇔ P(∩n≥1Bεn) = 0 ∀ε > 0

⇔ limn→∞

P(Bεn) = 0 ∀ε > 0

⇔ limn→∞

P(ω ∈ Ω: ∃k ≥ n |Xk(ω)−X(ω)| ≥ ε) = 0 ∀ε > 0

⇔ limn→∞

P(ω ∈ Ω: ∃k ≥ n |Xk(ω)−X(ω)| > ε) = 0 ∀ε > 0

⇔ limn→∞

P(ω ∈ Ω: supk≥n|Xk(ω)−X(ω)| ≥ ε) = 0 ∀ε > 0

Corollario 1 Se Xnq.c.→ X allora Xn

P→ X.

Dimostrazione: La tesi segue direttamente dal teorema 14 e dalla diseguaglianza:

P(ω ∈ Ω: |Xn(ω)−X(ω)| > ε) ≤ P(ω ∈ Ω: supk≥n|Xk(ω)−X(ω)| > ε).

Il seguente esercizio mostra che in generale, non e possibile invertire l’implicazionedel teorema precedente e dedurre la convergenza quasi certa dalla convergenza inprobabilita .Esercizio Si consideri lo spazio di probabilita (Ω,F ,P) con Ω = [0, 1], F = B([0, 1])e P = L, dove L indica la misura di Lebesgue su [0, 1].

Page 48: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Si considerino gli insiemi Ain =[i−1n, in

], n ∈ N e i = 1, ..., n, e le variabili casuali

X in = χAin . Dimostrare che la successione di variabili casuali

X11 , X

12 , X

22 , X

13 , X

23 , X

33 , ..., X

1n, ..., X

n−1n , Xn

n , ...

converge a 0 in media Lp e in probabilita ma non converge quasi certamente.

Teorema 15 Se XnP→ X allora Xn

d→ X .

Dimostrazione: Sia f : R → R funzione continua e limitata. Sia c ∈ R+ tale che|f(x)| ≤ c ∀x ∈ R.Fissato ε > 0 scegliamo N ∈ N in modo tale che P(|X| > N) < ε

4c. Notiamo

che e sempre possibile trovare un N ∈ N che verifichi tale proprieta in quanto lasuccessione di insiemi An := |X| > n e decrescente e ∩nAn = ∅ Dalla continuitadella misura di probabilita P deduciamo limn→∞ P(An) = 0.La funzione continua f e uniformemente continua sul compatto [−N,N ] e quindiesiste δ > 0 per cui se x ∈ [−N,N ] e |x − y| < δ allora |f(x) − f(y)| < ε/2.Calcoliamo quindi E[f(Xn)]− E[f(Xn)]:

|E[f(Xn)]− E[f(X)]| ≤ E[|f(Xn)− f(X)|] =

∫Ω

|f(Xn)− f(X)|dP

=

∫|Xn−X|>δ

|f(Xn)− f(X)|dP +

∫|Xn−X|≤δ,|X|≤N

|f(Xn)− f(X)|dP +

+

∫|Xn−X|≤δ,|X|>N

|f(Xn)− f(X)|dP

≤ 2cP(Xn −X| > δ) +ε

2+ 2c

ε

4c

Facendo tendere n → ∞ e sfruttando l’ipotesi XnP→ X otteniamo che per ogni

ε > 0 si ha limn→∞ |E[f(Xn)]− E[f(X)]| ≤ ε, da cui

limn→∞

|E[f(Xn)]− E[f(X)]| = 0.

I lemmi di Borel Cantelli

In questa sezione introduciamo due importanti strumenti: i lemmi di Borel Cantelli.Dato uno spazio di probabilita (Ω,F ,P), si consideri una successione di eventi

Page 49: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

An ⊂ F . Definiamo l’evento B ≡ lim supAn := ∩n≥1 ∪k≥n Ak. Notiamo cheB rappresenta l’evento in cui si verificano infiniti eventi della successione An, infattinon e complicato dimostrare che

ω ∈ lim supAn ⇔ #j ∈ N : ω ∈ Aj =∞

I lemmi di Borel Cantelli mettono i relazione P(lim supAn) con∑

n P(An).

Lemma 2 (Primo lemma di Borel Cantelli) Sia An ⊂ F successione di even-ti in uno spazio di probabilita (Ω,F ,P). Se la serie

∑n P(An) e convergente, allora

P(lim supAn) = 0.

Dimostrazione: Per ogni n ∈ N si ha lim supAn = ∩n≥1 ∪k≥n Ak ⊂ ∪k≥nAk equindi P(lim supAn) ≤ P(∪k≥nAk) ≤

∑k≥n P(Ak). Dato che la serie

∑∞k=1 P(Ak) e

convergente abbiamo che limn→∞∑

k≥n P(Ak) = 0 e quindi P(lim supAn) = 0

Lemma 3 (Secondo lemma di Borel Cantelli) Sia An ⊂ F successione dieventi indipendenti in uno spazio di probabilita (Ω,F ,P). Se la serie

∑n P(An) =

+∞ allora P(lim supAn) = 1.

Dimostrazione: Indicato con B ≡ lim supAn, dobbiamo dimostrare che P(Cc) = 0.Dato che Bc = ∪n≥1 ∩k≥n Ack, e sufficiente provare che per ogni n ∈ N si ha cheP(∩k≥nAck) = 0.Per l’indipendenza degli eventi Ak e quindi di Ack abbiamo

P(∩k≥nAck) = Πk≥nP(Ack) = limj→∞

Πn+jk=nP(Ack) = lim

j→∞Πn+jk=n(1− P(Ak))

≤ limj→∞

Πn+jk=n exp(−P(Ak)) = lim

j→∞exp(−

n+j∑k=n

P(Ak)) = 0

Esercizio Sia Xn successione di variabili aleatorie indipendenti con distribu-zione di Bernoulli:

P(Xn = 1) = pn, P(Xn = 0) = 1− pn.

• XnP→ 0 se e solo se pn → 0.

• XnLp→ 0 se e solo se pn → 0.

• se Xnq.c→ 0 se e solo se

∑pn <∞.

Page 50: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

La legge dei grandi numeri

I lemmi di Borel Cantelli permettono la dimostrazione della “forma forte” della leggedei grandi numeri. Premettiamo un lemma, la cui dimostrazione viene lasciata peresercizio.

Lemma 4 (Diseguaglianza di Markov) Sia Y variabile aleatoria con Y ≥ 0.Allora per ogni α ∈ R, α > 0, si ha P(Y ≥ α) ≤ 1

αE[Y ].

In particolare, data una variabile aleatoria X, ponendo Y = |X|k si ottiene per ognik ∈ N:

P(|X| ≥ α) ≤ 1

αkE[|X|k] (37)

Dimostriamo ora una particolare versione della forma forte della legge dei grandinumeri

Teorema 16 (di Cantelli) Sia ξn una successione di variabile aleatorie indi-pendenti ed equidistribuite, tali che E[ξ4

n] < +∞. Indicata con µ := E[ξn] la mediadelle variabile ξn e con Sn :=

∑nk=1 ξk abbiamo

Snn

q.c.→ µ

Dimostrazione: Senza perdita di generalita possiamo supporre che le variabili alea-torie ξn abbiano media nulla.Per il teorema 14, per dimostrare che Sn

n

q.c.→ µ = 0 e sufficiente mostrare che perogni ε > 0 si ha P(lim supAεn) = 0, dove

Aεn :=

ω ∈ Ω:

∣∣∣∣Snn∣∣∣∣ > ε

Per il primo lemma di Borel Cantelli e sufficiente mostrare che la serie

∑n P(Aεn) e

convergente. Per la formula (37) abbiamo:

P(Aεk) = P(|Sk| > kε) ≤ 1

k4ε4E[|Sk|4]

Inoltre

E[|Sk|4] = E[k∑

j,l,m,n=1

ξjξlξmξn] = kE[ξ4] + 3k(k − 1)(E[ξ2])2

Page 51: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Da tale stima possiamo dedurre che∑k

P(Aεk) ≤∑k

(kE[ξ4] + 3k(k − 1)(E[ξ2])2

k4ε4

)< +∞

E possibile indebolire le ipotesi del teorema precedente. La dimostrazione che ab-biamo utilizzat puo essere facilmente modificata per dimostrare la seguente versione,la cui dimostrazione viene lasciata per esercizio.

Teorema 17 Sia ξn una successione di variabile aleatorie indipendenti, tali cheE[ξ4

n] ≤ K < +∞. Posto Sn :=∑n

k=1 ξk abbiamo

Sn − E[Sn]

n

q.c.→ 0

AnalogamentePiu articolate risultano le dimostrazioni delle seguenti versioni della forma forte

della legge dei grandi numeri.

Teorema 18 Sia ξn una successione di variabile aleatorie indipendenti mon me-

dia µn e varianza σ2n, tali che

∑nσ2n

n2 < +∞. Posto Sn :=∑n

k=1 ξk abbiamo

Sn − E[Sn]

n

q.c.→ 0

Teorema 19 (Kolmogorov) Sia ξn una successione di variabile aleatorie indi-pendenti ed equidistribuite, tali che E[|ξn|] < +∞. Indicata con µ := E[ξn] la mediadelle variabile ξn e con Sn :=

∑nk=1 ξk abbiamo

Snn

q.c.→ µ

Per la dimostrazione, rimandiamo a [9].

Applicazioni della legge dei grandi numeri: i numeri normali di Borel

Consideriamo come spazio di misura (Ω,F ,P) l’intervalllo Ω = [0, 1) della retta reale,dotato della σ-algebra di Borel F = B([0, 1)) e della misura di Lebesgue L. Per ognielemento ω ∈ Ω consideriamo il suo sviluppo binario ω ≡ 0, ω1ω2 . . . , con ωj ∈ 0, 1.Costruiamo la successione di variabili casuali discrete ξn definite da: ξn(ω) := ωnSi dimostra facilmente che ξn e una successione di variabili casuali indipendenti ed

Page 52: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

equidistribuite con una distribuzione di Bernoulli di parametri p = 12. Scelti infatti

n valori x1, x2, ..., xn ∈ 0, 1, abbiamo

ω ∈ Ω: ξ1(ω) = x1, ..., ξn(ω) = xn =

=

ω ∈ [0, 1) :

x1

2+x1

22+ ...+

xn2n≤ ω <

x1

2+x1

22+ ...+

xn2n

+1

2n

(38)

e la misura di Lebesgue di tale insieme e 12n

, mentre

P(ω ∈ Ω: ξj(ω) = xj) =

= P(∪x1,x2,....,xj−1ω ∈ Ω: ξ1(ω) = x1, ..., ξj−1(ω) = xj−1, ξ(ω) = xj

=∑

x1,x2,....,xj−1

P(ω ∈ Ω: ξ1(ω) = x1, ..., ξj−1(ω) = xj−1, ξ(ω) = xj = 2j−1 1

2j=

1

2.

(39)

Per la legge dei grandi numeri in ”forma forte” abbiamo che l’insieme dei numeriω ∈ [0, 1) tali per cui

limn→∞

Snn

=1

2(40)

ha misura di Lebesgue 1. Equivalentemente, l’insieme degli ω ∈ [0, 1) per cui nonvale la ((40)) ha misura di Lebesgue 0. I numeri per cui vale la (((40)) sono taliper cui la frequenza relativa delle cifre 1 oppure 0 nello sviluppo binario del numerotende a 1/2. Tali numeri sono detti normali in base 2.Il discorso puo essere ripetuto con lo sviluppo decimale dei numeri reali nell’intervallo[0, 1). Considerando ancora lo spazio di probabilita ([0, 1),B([0, 1)),L), si considerilo sviluppo decimale di un numero reale ω = 0, ω1ω2 . . . , con ωj ∈ 0, 1, ..., 9. Fis-sata una cifra c ∈ 0, 1, ..., 9, costruiamo la successione di variabili casuali discreteξn definite da:

ξn(ω) := 1 se ωn = c, ξn(ω) := 0 altrimenti .

Ripetendo la discussione fatta sopra nel caso binario, la forma forte della legge deigrandi numeri per mette di dimostrare che l’insieme dei numeri ω ∈ [0, 1) tale percui la frequenza relativa di ogni cifra che appare nello sviluppo decimale di ω tende a1/10 ha misura di Lebesgue 1. I numeri con tale proprieta sono detti semplicementenormali (in base 10). Un esempio di numero con questa proprieta e stato fornitonel 1933 da Champernowne. Lo sviluppo decimale di tale numero si costruisceconcatenano i numeri naturali:

ω = 0, 123456789101112131415161718192021...

Rimane ancora aperto il problema sulla normalita o meno di numeri irrazionali quali√2− 1, π − 3 e e− 2.

Page 53: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Convergenza debole (o in legge, o in distribuzione) di varia-bili casuali

Ricordiamo che, per la definizione 19, una successione Xn di variabili casuali realidefinite su spazi probabilita (Ωn,Fn,Pn) converge in distribuzione ( o in legge ) aduna variabile casuale X e definita su uno spazio di probabilita (Ω,F ,P) se

limn→∞

E[f(Xn)] = E[f(X)] per ogni funzione f : R→ R continua e limitata (41)

Ricordiamo che, indicate con µn e µ le distribuzioni di Xn e di X rispettivamente,la definizione di convergenza in distribuzione della successione Xn a X puo essereformulata nel modo seguente;

per ogni f : R→ R continua e limitata limn→∞

∫Rfdµn =

∫Rfdµ (42)

In analisi, la condizione (42) e chiamata convergenza debole della successione dimisure µn alla misura µ e viene indicata col simbolo µn

w→ µ Numerosi testi diprobabilita adottano una definizione differente di convergenza in legge. Indicate conFn e F le funzioni di distribuzione di Xn e di X rispettivamente, la successione Xn

converge in legge a X se

limn→∞

Fn(t) = F (t), per ogni t ∈ R punto in cui F e continua (43)

Notiamo che, per le proprieta di continuita delle funzioni di distribuzione associatead una variabile casuale, F e continua in t ∈ R se e solo se µ(t) = 0.

Di fatto l’equivalenza delle due formulazioni e assicurata dal seguente teorema.

Teorema 20 Sia Xn successione di variabili casuali su spazi probabilita (Ωn,Fn,Pn)e sia X variabile casuale su (Ω,F ,P). Indicate con µn e µ le rispettive distribuzionie con Fn e F le rispettive funzioni di distribuzione, le seguenti affermazioni sonoequivalenti:

i. µnw→ µ

ii. limn→∞ µn(A) = µ(A) per ogni insieme A ∈ B(R) tale che µ(∂A) = 0

iii. limn→∞ Fn(t) = F (t) per ogni t ∈ R punto in cui F e continua.

Non diamo in dettaglio la dimostrazione, peraltro decisamente articolata. Ci limitia-mo a notare che l’implicazione ii.⇒ iii. risulta abbastanza semplice da dimostrare.

Page 54: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

A tale scopo e sufficiente scegliere A = (−∞, t] e notare che ∂A = t. Inoltreµn(A) = Fn(t), µ(A) = F (t) e la ii. diviene:

limn→∞

Fn(t) = F (t), per ogni t ∈ R tale che µ(t) = 0

Esercizio Sia µn successione di misure di probabilita su (R,B(R)). Condizione ne-cessaria per la convergenza debole di µn ad una misura di probabilia µ su (R,B(R))e :

per ogni ε > 0 esiste un M ∈ R+ tale che µn([−M,M ]) > 1− ε per ogni n ∈ N.(44)

Il teorema di continuita di Levy

Il teorema di continuita di Levy e un importante strumento per studiare la con-vergenza debole di una successione di variabili aleatorie Xn tramite le rispettivefunzioni caratteristiche.

Teorema 21 Siano Xn e X variabili casuali con distribuzioni µn e µ e funzionicaratteristiche φn e φ rispettivamente. Condizione necessaria e sufficiente affincheµn

w→ µ eφn(t)→ φ(t) ∀t ∈ R

.

Dimostrazione:⇒ Se µn

w→ µ allora per ogni f : R→ R abbiamo∫fdµn →

∫fdµ. In particolare,

per ogni t ∈ R, abbiamo:

φn(t) =

∫eitxdµn(x) =

∫cos(tx)dµn(x) + i

∫sin(tx)dµn(x)

→∫

cos(tx)dµ(x) + i

∫sin(tx)dµ(x) =

∫eitxdµ(x) = φ(t). (45)

⇐ la dimostrazione di questa implicazione e decisamente piu articolata. Rimandia-mo il lettore interessato a [2] o [1].

Dal teorema precedente segue il seguente corollario.

Corollario 2 Siano Xn variabili casuali con distribuzioni µn e funzioni caratte-ristiche φn. Se per ogni t ∈ R esiste limn→∞ φn(t) := g(t) e la funzione g : R → Re continua in 0, allora esiste una misura di probabilita µ su (R,B(R) tale che g efunzione caratteristica di µ e µn

w→ µ.

Page 55: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Dimostrazione: Per il teorema di Bochner segue che g e funzione caratteristica dimisura di probabilita µ in quanto:

• g(0) = 1, infatti g(0) = limn→∞ φn(0) = limn→∞ 1 = 1

• g e continua in 0 per ipotesi

• g e semidefinita positiva, infatti presi arbitrari t1, ..., tn ∈ R e z1, ..., zn ∈ Cabbiamo:

n∑j,k=1

zj zkg(tj − tk) = limn→∞

n∑j,k=1

zj zkφn(tj − tk) ≥ 0,

infatti per ogni n ∈ N il numero complesso∑n

j,k=1 zj zkφn(tj − tk) e di fattoreale e positivo in quanto φn e funzione caratteristica di misura.

Possiamo dunque concludere che g : R→ C e funzione caratteristica di una misuradi probabilita µ su (R,B(R)) e, per il teorema di continuita di Levy, µn

w→ µ.

Esempio Sia Xn successione di variabili aleatorie, dove Xn e distribuita uniforme-mente sull’intervallo [−n, n]. Le funzioni caratteristiche φn delle variabili aleatoriedella successione sono date da

φn(t) =

1 t = 0,sin(nt)nt

t 6= 0

Il limite puntuale della successione di funzioni φn e dato dalla funzione g, cong(t) = limn→∞ φn(t), dove

g(t) =

1 t = 0,0 t 6= 0

La funzione g non puo essere funzione caratteriustica di misura in quanto non e con-tinua in 0. Dal teorema di continuita di evy possiamo concludere che la successioneXn non converge in distribuzione.Esercizi

1. Sia Xn una successione di variabili aleatorie concentrate in xn. Studiare laconvergenza debole di tale successione nei due casi

(a) xn = n

(b) xn = 1/n

Page 56: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

2. Sia Xn una successione di variabili aleatorie Gaussiane di media mn e cova-rianza σn. Studiare le proprieta di converdenza debole della successione Xnin relazione alle proprieta di convergenza delle successioni numeriche mn eσn .

Un’applicazione immediata del teorema di continuita di Levy e il teorema limitecentrale:

Teorema 22 (teorema limite centrale) Sia ξn successione di variamili alea-torie indipendenti ed equidistribuite con media m ∈ R e varianza σ2 < +∞. Indi-cata con Sn la variabile aleatoria definita da Sn :=

∑nj=1 ξj e con N una variabile

aleatoria Gaussiana con media 0 e varianza 1, abbiamo:

Sn − nmσ√n

d→ N

Dimostrazione: Per il teorema di continuita di Levy, e sufficiente mostrare che,indicata con Xn la variabile aleatoria definita da Xn := Sn−nm

σ√n

e con φn la suafunzione caratteristica, si ha che

limn→∞

φn(t) = e−t2

2 , ∀t ∈ R. (46)

Per t = 0 la (46) e banalmente verificata. Per t 6= 0, calcoliamo esplicitamente φn(t):

φn(t) = E[eitXn ] = E[ei t√

n

∑nj=1

(ξj−m)

σ ] = E[ei t√

n

∑nj=1 ξj ] =

(t√n

))n,

dove ξj :=(ξj−m)

σ, j ∈ N, sono (per come sono costruite) variabili aleatorie indipen-

denti ed equidistribuite, con media 0 e varianza 1, mentre la funzione φ : R → Cindica la funzione caratteristica di ξ. Notiamo che, per le proprieta delle funzionicaratteristiche e per l’ipotesi che E[ξ2] < +∞ (che implica quindi che E[ξ2] < +∞),la funzione φ ammette sviluppo di Taylor al secondo ordine:

φ(t) =2∑j=0

(it)j

j!E[ξj] +R(t), dove lim

t→0

R(t)

t2= 0.

In particolare, sfruttando il fatto che E[ξ] = 0 e E[ξ2] = 2 abbiamo che per ognit ∈ R

φ(t/√n)− 1 +

t2

2n= R(t/

√n), dove lim

n→∞

nR(t/√n)

t2= 0, ∀t 6= 0. (47)

Page 57: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Inoltre, dati arbitrari numeri complessi z1, ..., zn e w1, ..., wn di modulo minore ouguale a 1, vale la seguente disuguaglianza, dimostrabile facilmente per induzione8

su n:

|z1 · · · zn − w1 · · ·wn| ≤n∑j=1

|zj − wj|. (48)

Dalla diseguaglianza (48) applicata al caso particolare9 in cui zj = φ(t/√n) e wj =

(1− t2

2n) abbiamo: (

φ

(t√n

))n−(

1− t

2n

)n≤ nR(t/

√n),

e quindi, dato che limn→∞ nR(t/√n) = 0 otteniamo

limn→∞

φn(t) = limn→∞

(t√n

))n= lim

n→∞

(1− t

2n

)n= e−

t2

2 .

Catene di Markov

Le catene di Markov sono una particolare classe di processi stocastici. Un pro-cesso stocastico su uno spazio di probabilita (Ω,F ,P) e definito come una famigliaXtt∈T⊂R di variabili casuali indicizzata da un parametro reale t (che rappresenterala variabile “tempo”). Un processo stocastico descrive matematicamente l’evoluzio-ne temporale di un sistema soggetto al caso, in cui lo stato del sistema al tempo tnon puøessre determinato con certezza ed e di fatto descritto da una variabile alea-toria Xt. Mentre in un sistema deterministico l’evoluzione viene descritta tramitedelle regole (tipicamente un’equazione differenziale) che, noto lo stato al tempo t0,permettono di determinare lo stato ad ogni tempo t > t0, nel caso di un sistemastocastico potremo solo prevedere la probabilita che il sistema si trovi ad un tempot > t0 in un uno dei diversi stati possibili se e noto lo stato al tempo t0.Noi affronteremo lo studio di una classe particolare di processi stocastici, detti ca-tene di Markov in cui sia il tempo t sia la variabile aleatoria Xt assumono valoridiscreti.Indichiamo con S un insieme discreto, finito o infinito numerabile, e labelliamo isuoi elementi con un indice i ∈ 1, 2, ..., N, N = #S. Sia Xnn≥0 una successione

8Usare |z1 · · · zn − w1 · · ·wn| ≤ |z1 − w1||z2 · · · zn|+ |w1||z2 · · · zn − w1 · · ·wn|9notiamo che, fissato t ∈ R , per n sufficiente grande si ha |1− t2

2n | ≤ 1

Page 58: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

di variabili aleatorie discrete su uno spazio di probabilita (Ω,F ,P) con spazio de-gli stati S. Per ogni n indicheremo con λn la densita di probabilita della variabilealeatoria Xn:

λni := P(Xn = i), i ∈ S,dove

∑i∈S λ

ni = 1. Notiamo che la distribuzione del processo Xnn≥0viene deter-

minata dalla conoscenza per ogni n della distribuzione del vettore (X0, X1, ..., Xn),ovvero delle quantita

P(X0 = i0, X1 = i1, ..., Xn = in), i0, i1, ..., in ∈ S.

La “dinamica” del processo e data da un insieme di regole che permettono di de-terminare, noti gli stati del sistema fino ad un certo tempo n, la probabilita di unparticolare stato al tempo n+ 1, in particolare dalle probabilita condizionate:

P(Xn+1 = in+1|X0 = i0, X1 = i1, ..., Xn = in), i0, i1, ..., in, in+1 ∈ S. (49)

Tali valori esprimono la probabilita di essere nello stato in+1 al tempo n+ 1 se agliistanti precedenti 0, 1, ..., n si occupavano rispettivamente gli stati i0, i1, ..., in. Unasuccessione Xn di variabili casuali discrete e detta catena di Markov se le proba-bilita condizionate (49), dipendono solo dall’ultimo stato occupato, ma non dalla“storia “ precedente del sistema, cioe se per ogni n ∈ N e per ogni scelta di statii0, i1, ..., in, in+1 ∈ S vale la seguente identita :

P(Xn+1 = in+1|X0 = i0, X1 = i1, ..., Xn = in) = P(Xn+1 = in+1|Xn = in), (50)

Le probabilita condizionate P(Xn+1 = in+1|Xn = in) sono dette probabilita ditransizione.Una catena di Markov e detta stazionaria se le probabilita di transizione non varianonel tempo, cioe se per ogni n ∈ N e per ogni coppia di stati i, j ∈ S si ha:

P(Xn+1 = j|Xn = i) = P(X1 = j|X0 = i). (51)

D’ora in avanti tratteremo esclusivamente catene di Markov stazionarie.Le probabilita di transizione costituiscono le entrate di una matrice P di dimen-

sione N ×N definita da

Pij = P(Xn+1 = j|Xn = i)

La matrice P e detta matrice stocastica e, per la proprieta di normalizzazione dellaprobabilita condizionata P( · |X0 = i), e tale per cui la somma degli elementi su ogniriga e pari a 1: ∑

j∈S

Pij =∑j∈S

P(Xn+1 = j|Xn = i) = 1, ∀i ∈ S

Page 59: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Notiamo che se l’insieme S degli stati ha infiniti elementi, la matrice stocasticaformalmente ha infinite righe e infinite colonne. Vale ancora la proprieta che perogni scelta dell’indice di riga i, la serie

∑j∈S Pij = 1 converge assolutamente e ha

somma 1.La matrice stocastica di una catena di Markov descrive completamente l’insiemedelle probailita di transizione e quindi la dinamica del sistema stocastico. La stessainformazione puo essere rappresentata graficamente nel caso in cui #S = N < ∞da un diagramma con N vertici, labellati con gli stati i ∈ S del sistema. Se laprobabilita di transizione pij da uno stato i ad uno stato j e non nulla, si collegano ivertici corrispondenti a tali stati con una freccia diretta da i a j su cui viene indicatoil valore di pij. Riportiamo qui di seguito alcuni semplici esempi, in cui mostriamosia la matrice stocastica, sia il diagramma.

1. Sistema a due soli stati. N = 2, S = 1, 2. La generica matrice di transizioneper questo modello e data da

P =

((1− α) αβ (1− β)

)dove α ∈ [0, 1], β ∈ [0, 1].

Mentre il diagramma per questo sistema e

1.

α

j

2.

Di fatto, per completare il diagramma dovremmo disegnare anche per ognunodei due stati un loop indicante la probabilita di transizione P11 = 1 − α eP22 = 1−β, ma tali valori sono calcolabili senza ambiguita noti p12 e p21 e perquesto motivo non li indichiamo esplicitamente.

2. Consideriamo un sistema a tre stati con la seguente matrice stocastica:

P =

0 1 00 1/2 1/21/2 0 1/2

Il rispettivo diagramma e dato da:

1.1> 2.

3.

1/2

∨1/2

<

Page 60: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

3. Passeggiata casuale su un grafo Consideriamo un esempio in cui abbiamo Npossibili stati e una catena di Markov tale per cui partendo da uno stato iabbiamo probabilita non nulla solo di saltare in uno dei due stati “adiacenti“ i − 1 e i + 1, ad esempio sia Pi,i+1 = p e Pi,i−1 = 1 − p, con p ∈ [0, 1]. Seimponiamo agli stati 1 e N delle condizioni periodiche, cioe se P1,N = 1− p ePN,1 = p, allora la matrice stocastica ha la forma

P =

0 p 0 . . . 1− p1− p 0 p 0 0...

. . . . . . . . ....

p 0 . . . 1− p 0

mentre il diagramma, nel caso in cui N = 6, assume la forma

5.p> 6.

4.

p

>

1.

p

>

3. <p

p

<

2.

p

<

dove, per semplicita grafica, abbiamo omesso le frecce orientate in senso an-tiorario e labellate con la probabilita di transizione 1 − p. Nel caso in cui, alposto delle condizioni periodiche agli estremi 1 e N imponiamo condizioni di“assorbimento” allora la matrice stocastica avra la forma

P =

1 0 0 . . . 01− p 0 p 0 0...

. . . . . . . . ....

p 0 . . . 0 1

mentre nel caso in cui agli estremi 1 e N imponiamo condizioni di “riflessione”allora la matrice stocastica avra la forma

P =

0 1 0 . . . 01− p 0 p 0 0...

. . . . . . . . ....

0 0 . . . 1 0

Page 61: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

L’introduzione della matrice stocastica contenente le probabilita di transizionepermette di esprimere in modo sintetico la regola che permette di calcolare la di-stribuzione di Xn ad un tempo n nota quella ad un tempo n0 < n. Infatti seintroduciamo un vettore riga λn = (λni , ..., λ

nN) le cui componenti λni sono definite

da λin := P(Xn = i), i ∈ S, allora la distribuzione di Xn+1e espressa dal vettore rigaλn+1 = λnP ottenibile dal prodotto riga per colonna del vettore λn per la matriceP :

λn+1j =

∑i∈S

λni Pij. (52)

Piu in generale, data la distribuzione iniziale della catena di Markov, ovvero lecomponelti del vettore riga λ0, con λ0

i = P(X0 = i) e posibile calcolare per ognin ∈ N la distribuzione aleatorio (X0, ..., Xn). Vale infatti per ogni n ∈ N e per ogniscelta di stati i0, i1, ..., in ∈ S la formula

P(X0 = i0, X1 = i1, ..., Xn = in) = λ0i0Pi0i1 · · ·Pin−1in (53)

La formula (53) si dimostra facilmente per induzione, notando che

P(X0 = i0, X1 = i1, ..., Xn = in)

= P(Xn = in|X0 = i0, X1 = i1, ..., Xn−1 = in−1)P(X0 = i0, X1 = i1, ..., Xn−1 = in−1)

= P(Xn = in|Xn−1 = in−1)P(X0 = i0, X1 = i1, ..., Xn−1 = in−1)

Inoltre la probabilita di raggiungere uno stato j ∈ S in n passi partendo da unostato i ∈ S e data dall’elemento P n

ij della potenza n−esima della matrice stocasticaP . Vale infatti la seguente formula per ogni n,m ∈ N e per ogni coppia di statii, j ∈ S

P(Xm+n = j|Xm = i) = (P n)ij. (54)

Anche tale formula si dimostra per induzione su n, notando che

P(Xm+n = j|Xm = i) =∑k∈S

P(Xm+n = j,Xm+n−1 = k|Xm = i)

=∑k∈S

P(Xm+n = j|Xm+n−1 = k,Xm = i)P(Xm+n−1 = k|Xm = i)

=∑k∈S

P(Xm+n = j|Xm+n−1 = k)P(Xm+n−1 = k|Xm = i)

=∑k∈S

PkjPn−1ik

dove nel penultimo passaggio abbiamo sfruttato la proprieta di Markov, mente nel-l’ultima uguaglianza e stata utilizzata l’ipotesi induttiva.

Page 62: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

In particolare vale la seguente formula, detta em relazione di Chapman-Kolmogorov,per ogni n,m ∈ N e per ogni coppia di stati i, j ∈ S

Pm+nij =

∑k∈S

Pmik P

nkj

Esempio:Si consideri la catena di Markov a due stati con matrice di transizione P data da

P =

((1− p) pp (1− p)

)dove p ∈ [0, 1]. Fissata la distribuzione iniziale λ0 ≡ (f(0), 1 − f(0)) calcolareper ogni valore di n ∈ N la distribuzione λn ≡ (f(n), 1 − f(n)) al tempo n, dovef(n) = P(Xn = 1). Calcolare, se esiste, il limite limn→∞ f(n) e studiarne le proprieta.Applicando la formula (52) otteniamo:

f(n+ 1) = p(1− f(n)) + (1− p)f(n),

f(n+ 1) = (1− 2p)f(n) + p,

che e una relazione ricorsiva della forma f(n + 1) = af(n) + b, con a = (1 − 2p) eb = p, che permette il calcolo di f(n + 1) noto il valore di f(n). Per una relazionericotrsiva di tale forma, la formula che lega f(n) a f(0) e data da:

f(n) = f(0) + nb se a = 1,

f(n) = anf(0) + b1− an

1− ase a 6= 1.

Sostituendo i valori a = 1− 2p e b = p otteniamo:

f(n) = f(0) se p = 0,

f(n) = (1− 2p)nf(0) +1− (1− 2p)n

2se p ∈ (0, 1].

Per lo studio del limite limn→∞ f(n), possiamo concludere che:

• se p = 0 allora limn→∞ f(n) = f(0);

• se p ∈ (0, 1) allora limn→∞ f(n) = 1/2;

Page 63: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

• se p = 1 allora non esiste limn→∞ f(n) , tranne nel caso particolare in cuif(0) = 1/2. Infatti, se tale condizione e verificata, allora limn→∞ f(n) = 1/2.

Abbiamo quindi calcolato una distribuzione asintotica λ∞ := limn→∞ λn la cui esi-

stenza dipende dai dati del problema. In particolare se p ∈ (0, 1) allora λ∞ =(1/2, 1/2). Tale distribuzione limite e anche stazionaria, verifica cioe l’uguaglianzaλ∞ = λ∞P .Esercizi sulle matrici stocastiche Sia P matrice quadrata N ×N tale che

∀i = 1..., NN∑j=1

Pij = 1. (55)

(notiamo che se viene soddistatta tale condizione allora P e la matrice di transizione-matrice stocastica di una catena di Markov).

• Mostrare che P soddisfa la (55) allora anche ogni sua potenza P n, n ∈ N, lasoddisfa.

• Mostrare che P soddisfa la (55) allora sicuramente λ = 1 e un autovalore diP .

Struttura in classi e sistemi chiusi

Si consideri una catena di Markov Xnn∈N su uno spazio di probabilita (Ω,F ,P),

spazio degli stati S e matrice stocastica P . Nel seguito indicheremo con P(n)ij le

seguenti probabilita condizionate

p(n)ij := P(Xn = j|X0 = i), n ∈ N, i, j ∈ S.

Definizione 20 Siano i, j ∈ S. Diremo che i conduce a j se esiste n ∈ N tale chep

(n)ij > 0. Indicheremo tale relazione con il simbolo i→ j.

Definizione 21 Siano i, j ∈ S. Diremo che i e j sono intercomunicanti se i → je j → i. Indicheremo tale relazione con il simbolo i ∼ j.

Piu precisamente, i ∼ j se esistono due interi non negativi m,n ∈ N tali che

p(n)ij > 0 e p

(m)ji > 0. (56)

La relazione ∼ e una relazione di equivalenza infatti e :

• riflessiva. i ∼ i (e sufficiente scegliere m = n = 0 nella (56)).

Page 64: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

• simmetrica. Se i ∼ j allora j ∼ i (e sufficiente scambiare il ruolo di i e j nella(56)).

• transitiva. Se i ∼ j ej ∼ k allora i ∼ k.. Infatti se i ∼ j ej ∼ k allora esistonodue interi non negativi m,n ∈ N tali che p

(n)ij > 0 e p

(m)jk > 0. Ma allora e

facile mostrare che i → k infatti, per la relazione di Chapman-Kolmogorov,abbiamo:

p(n+m)ik =

∑l∈S

p(n)il p

(m)lk ≥ p

(n)ij p

(m)jk > 0

e quindi i → k. La dimostrazione che k → i e analoga e viene lasciata peresercizio.

L’insieme degli stati S puo essere quindi decomposto nell’unione disgiunta di classidi equivalenza 10

S = C1 ∪ C2 ∪ ... ∪ CM .

Definizione 22 Un insieme K ⊂ S e detto chiuso se per ogni i ∈ K si ha che perogni stato j /∈ K, i non conduce a j, cioe:

∀i ∈ K ∀j /∈ K p(n)ij = 0∀n ∈ N (57)

Di fatto un insieme chiuso e un insieme da cui non e possibile uscire.La definizione (57) e equivalente alla proprieta (apparentemente piu debole):

∀i ∈ K ∀j /∈ K p(1)ij = 0 (58)

che coinvolge solamente le probabilita di transizione con un singolo “passo”, cioegli elementi della matrice stocastica P . E infatti immediato mostrare che la (57)implica la (58) (di fatto la seconda e un caso particolare della prima). Per mostrareche la (58) implica la (57) ragioniamo per induzione su n ∈ N (il numero dei “passi”).Per n = 1 la (57) coincide con la (58) . Supponiamo ora che la (57) valga fino an− 1 e mostriamo che vale anche per n. Sia i ∈ K e j /∈ K, allora:

p(n)ij =

∑l∈S

pilp(n−1)lj =

∑l∈K

pilp(n−1)lj = 0,

dove nel primo passaggio abbiamo utilizzato la relazione di Chapman-Kolmogorov,nel secondo la relazione (58) e nel terzo l’ipotesi induttiva.

10Nel caso in cui S e un insieme infinito (numerabile) e possibile che ci siano infinite classi diequivalenza.

Page 65: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Definizione 23 Uno stato i ∈ S e detto assorbente se i e un insieme chiuso

Notiamo che se i e uno stato assorbente, allora pij = 0 ∀j 6= i e quindi pii = 1.

Definizione 24 Sia C ⊂ S un qualsiasi sottoinsieme di S. La chiusura di C e ilpiu piccolo insieme chiuso contenente C.

Esempio Consideriamo una catena di Markov con 6 stati e matrice stocastica Pdata da

P =

1/2 1/2 0 0 0 00 0 1 0 0 01/3 0 0 1/3 1/3 00 0 0 1/2 1/2 00 0 0 0 0 10 0 0 0 1 0

L’informazione contenuta nella matrice di transizione puo essere equivalentementeespressa tramite il seguente diagramma

1. <1/3

3.1/3> 4.

2.

1

∧1/2 >

5.

1/2

∨1/3

> 1j

Y1

6.

Dall’analisi del diagramma possiamo facilmente dedurre che l’insieme degli stati Sviene decomposto in tre classi di equivalenza S = 1, 2, 3 ∪ 4 ∪ 5, 6 di cui solo5, 6 e un insieme chiuso.

I seguenti lemmi forniscono alcune interessanti proprieta degli insiemi chiusi.

Lemma 5 Se K ⊂ S e un insieme chiuso e Ci e una classe di equivalenza per ∼allora si puo verificare solo una delle seguenti alternative:

• K ∩ Ci = ∅

• Ci ⊂ K

Dimostrazione: Se K ∩ Ci 6= ∅ allora esiste uno stato i ∈ Ci tale che i ∈ K.Mostriamo che allora per ogni j ∈ Ci, cioe per ogni j ∈ S tale che j ∼ i, si ha

Page 66: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

j ∈ K: Se cosı non fosse infatti, cioe se j /∈ K, allora, per definizione di insiemechiuso, avremmo p

(n)ij = 0 ∀n ∈ N. Da questo possiamo dedurre che i e j non sono

intercomunicanti in contraddizione con il fatto che appartengono alla stessa classedi equivalenza.

Lemma 6 Sia i ∈ S uno stato. L’insieme Ki := j ∈ S : i → j degli statiraggiungibili da i e chiuso. Inoltre e il piu piccolo insieme chiuso contenente i ecoincide quindi con la chiusura di i.

Dimostrazione: Ki e un insieme chiuso, infatti se j ∈ Ki e l /∈ Ki allora per ognin ∈ N abbiamo p

(n)jl = 0. se cosı non fosse infatti allora avremmo un n ∈ N tale

che p(n)jl > 0. D’altra parte, dato che j ∈ Ki, esiste m ∈ N tale che p

(m)ij > .0.

Utilizzando la relazione di Chapman-Kolmogorov abbiamo

pm+nil =

∑s∈S

p(m)is p

(n)sl ≥ p

(m)ij p

(n)jl > 0

e da tale diseguaglianza potremmo dedurre che l ∈ Ki arrivando ad una contraddi-zione.Per mostrare che Ki coincide con la chiusura di i dobbiamo mostrare che ognialtro insieme chiuso contenente i contiene tutti gli stati j ∈ S raggiungibili da i(i→ j). Sia dunque K chiuso con i ∈ K e j ∈ S con i→ j e mostriamo che j ∈ K.Se, per assurdo, j /∈ K allora per ogni s ∈ K avremmo che j non e raggiungibile das, in particolare per s = i avremmo che j non e raggiungibile da i ottenendo unacontraddizione.

Definizione 25 Una catena di Markov e detta irriducibile se gli unici insiemi chiusisono S e ∅:

La seguente proposizione permette una caratterizzazione interessante delle catenedi Markov irriducibili.

Proposizione 1 Le seguenti proprieta sono equivalenti:

1. S e ∅ sono gli unici insiemi chiusi.

2. Esiste un’unica classe di equivalenza.

Page 67: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Dimostrazione:1.⇒ 2.. Supponiamo che S e ∅ sono gli unici insiemi chiusi e mostriamo che esisteun’unica classe di equaivalenza. Dal lemma 6 sappiamo che per ogni i ∈ S l’insiemeKi := j ∈ S : i→ j degli stati raggiungibili da i e chiuso. Dato che Ki 6= ∅ alloradalla 1. deduciamo che Ki = S ∀i ∈ S. Questo significa che Per ogni i ∈ S e perogni ∈ S si ha che i→ j e quindi ∀i, j ∈ S si ha i ∼ j.2⇒ 1. Supponiamo che esista un’unica classe di equivalenza C e mostriamo che S e∅ sono gli unici insiemi chiusi. Sia K ⊂ S insieme chiuso con K 6= ∅. Sia i ∈ K. Dallemma 5 possiamo dedurre tutta la classe di equivalenza Ci dell’elemento i e inclusain K. Dalla 2. abbiamo che Ci = S e quindi possiamo concludere che K = S.

Quindi una catena e irriducibile se ogni stato puo essere raggiunto da ogni altrostato.Esempi:

1. Passeggiata casuale. S = Z e pij data da

pi(i+1) = p, p(i−1)i = 1− p, pij = 0 se j 6= (i+ 1), (i− 1) p ∈ (0, 1)

. . . i− 1 <1−p

ip> i+ 1 . . .

e semplice verificare che ∀i, j ∈ S si ha i ∼ j. La catena e irriducibile

2. Passeggiata casuale con barriera assorbente. S = 1, 2, . . . , N, p ∈ (0, 1) ematrice stocastica data da:

P =

1 0 0 . . . 01− p 0 p 0 0...

. . . . . . . . ....

p 0 . . . 0 1

1 i− 1 <1−p

ip> i+ 1 N

In questo caso la catena e riducibile. Le classi di equivalenza sono 1, N e2, . . . , N − 1. I singoletti 1, N sono insiemi chiusi.

Page 68: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

3. Passeggiata casuale con barriera riflettente. S = 1, 2, . . . , N, p ∈ (0, 1),r ∈ (0, 1] e matrice stocastica data da:

P =

1− r r 0 . . . 01− p 0 p 0 0...

. . . . . . . . ....

0 0 . . . r 1− r

In questo caso la catena e irriducibile.

. . . i− 1 <1−p

ip> i+ 1 . . .

4. Passeggiata casuale ciclica su un grafo.S = 1, 2, . . . , N, p ∈ (0, 1) e matricestocastica data da

P =

0 p 0 . . . 1− p1− p 0 p 0 0...

. . . . . . . . ....

p 0 . . . 1− p 0

N − 1p> N

p

>

1.

p

>

<p

p

<

2.

p

<

In questo caso la catena e irriducibile.

Se la catena di Markov e riducibile allora esiste un insieme chiuso K non ba-nale (diverso da S e ∅). In particolare, se il numero degli stati e finito, allora, serinumeriamo

P =

(Q 0R S

)(59)

dove Q e una matrice M × M i cui elementi sono le probabilita di transizioneall’interno dell’insieme chiuso K, cioe Qij = pij, i, j ∈ K. Inoltre Q e ancorauna matrice stocastica in quanto per ogni riga i−esima, con i = 1, ...M , si ha che

Page 69: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

∑Mj=1Qij = 1. Di fatto la matrice Q descrive completamente la dinamica stocastica

di un sottosistema con un numero minore inferiore di stati rispetto a quello iniziale.In altre parole, se ad un certo tempo n0 il sistema case all’interno dell’insieme chiusoK, allora per ogni n > n0 il sistema rimarra in K e la sua evoluzione stocasticasara descritta dalla matrice Q. Notiamo che per una catena riducibile con matricestocastica della forma (59) avremo che la potenza n−esima P n che permette ilcalcolo delle probabilita di transizione in n passi e data da

P n =

(Qn 0∗ Sn

)Esercizio. Si consideri una catena di Markov riducibile a 4 stati la cui matrice ditransizione e data da:

P n =

1− p p 0 0p 1− p 0 00 0 1− p p0 0 p 1− p

dobe p, p ∈ (0, 1).Data una generica distribuzione di probabilita iniziale λ0 = (α, β, γ, δ), con α, β, γ, δ ∈[0, 1] e α + β + γ + δ = 1, calcolare limn→∞ λ

n, con λn = λ0P n.

Periodicita

Definizione 26 Fissato uno stato i ∈ S tale per cui esiste almeno un intero n ≥ 1per cui p

(n)ii > 0, definiamo periodo di dello stato i l’intero positivo

di := M.C.D.n ≥ 1 : p(n)ii > 0.

Se p(n)ii = 0 per ogni n ≥ 1 oppure se di = 1, allora lo stato i e detto aperiodico.

Notiamo che, per costruzione, il periodo di di uno stato i soddisfa le seguentiproprieta :

• p(n)ii = 0 se n non e multiplo di di. Inoltre di e il piu grande intero che soddisfa

tale proprieta .

• se pii > 0 allora di = 1

Il seguente risultato mostra che il periodo non varia all’interno di una stessa classedi equivalenza.

Page 70: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Teorema 23 Siano i, j ∈ S con i ∼ j. Allora di = dj.

Dimostrazione: Dimostriamo in dettaglio che di ≤ dj. La dimostrazione che dj ≤ die del tutto analoga.Dato che i ∼ j esistono due interi positivi n1, n2 tali che p

(n1)ij > 0 e p

(n2)ji > 0.

Allora, per la relazione di Chapman-Kolmogorov

p(n1+n2)ii =

∑s∈S

p(n1)is p

(n2)si ≥ p

(n1)ij p

(n2)ji > 0,

da cui possiamo dedurre che di e un divisore di n1 + n2. Sia n ≥ 1 con p(n)jj > 0.

Abbiamo chep

(n1+n2+n)ii ≥ p

(n1)ij p

(n)jj p

(n2)ji > 0

e quindi di e divisore di n1 + n2 + n, da cui otteniamo che di divide n per ogni ntale che p

(n)jj > 0. Dato che dj e il piu grande intero con tale proprieta possiamo

concludere che di ≤ dj.

Dal teorema precedente tutti gli stati di una stessa classe di equivalenza hanno lostesso periodo d In particolare una catena di Markov irriducibile e detta aperiodicase d = 1 e periodica di periodo d se tutti gli stati hanno periodo d > 1.Esempi

1. Passeggiata casuale. S = Z e pij data da

pi(i+1) = p, p(i−1)i = 1− p, pij = 0 se j 6= (i+ 1), (i− 1) p ∈ (0, 1)

La catena e periodica con periodo d = 2,

2. Passeggiata casuale con barriera assorbente. S = 1, 2, . . . , N, p ∈ (0, 1) ematrice stocastica data da:

P =

1 0 0 . . . 01− p 0 p 0 0...

. . . . . . . . ....

p 0 . . . 0 1

In questo caso la catena e riducibile. Le classi di equivalenza 1 e N hannoperiodo d = 1, mentre la classe 2, . . . , N − 1 ha periodo d = 2

Page 71: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

3. Passeggiata casuale con barriera riflettente. S = 1, 2, . . . , N, p ∈ (0, 1),r ∈ (0, 1] e matrice stocastica data da:

P =

1− r r 0 . . . 01− p 0 p 0 0...

. . . . . . . . ....

0 0 . . . r 1− r

Se r < 1 allora la catena e aperiodica, mentre se r = 1 allora la catena eperiodica con periodo d = 2

4. Passeggiata casuale ciclica su un grafo. S = 1, 2, . . . , N, p ∈ (0, 1)

N − 1.p> N.

.p

>

1.

p

>

. <p

p

<

2.

p

<

Se N e pari allora la catena e periodica con periodo d = 2, mentre se N edispari, allora la catena e aperiodica.

Esercizio Si consideri la passeggiata casuale ciclica su un grafo con 4 stati conmatrice stocastica data da

0 1/2 0 1/21/2 0 1/2 00 1/2 0 1/21/2 0 1/2 0

e distribuzione iniziale λ0 = (1, 0, 0, 0). Calcolare λn = λ0P n per ogni n ≥ 1.Mostrare che non esiste limn→∞ λ

n.

Ricorrenza

Fissati due stati i, j ∈ S indicheremo con il simbolo f(n)ij la probabilita di passare

per j per la prima volta dopo n passi partendo da i, cioe:

f(n)ij = P(Xn = j,Xn−1 6= j,Xn−2 6= j, . . . , X1 6= j|X0 = i). (60)

Page 72: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

In particolare, se i = j, la quantita f(n)ii fornisce la probabilita di tornare in i per la

prima volta dopo n passi:

f(n)ii = P(Xn = i,Xn−1 6= i,Xn−2 6= i, . . . , X1 6= i|X0 = i). (61)

f ∗ii = P(∃n ≥ 1 : Xn = i|X0 = i) = P(∪n≥1Xn = i|X0 = i)

= P(∪n≥1Xn = i,Xn−1 6= i,Xn−2 6= i|X0 = i)

abbiamo quindi:

f ∗ii =∞∑n=1

f(n)ii . (62)

Analogamente, dati due stati i, j ∈ S, indicheremo con f ∗ij =∑∞

n=1 f(n)ij la la

probabilita di raggiungere lo stato j nel futuro partendo da i.

Definizione 27 Uno stato i ∈ S e detto ricorrente se f ∗ii = 1. Uno stato i ∈ S etransiente (non ricorrente) se f ∗ii < 1.

Lemma 7 Vale la seguente relazione

p(n)ij =

n∑ν=1

f(ν)ij p

(n−ν)jj

(p

(n)ii =

n∑ν=1

f(ν)ii p

(n−ν)ii

)(63)

con n ≥ 1. In particolare valgono le seguenti formule

M∑n=1

p(n)ij =

M∑ν=1

f(ν)ij

M−ν∑n=0

p(n)jj (64)

≤M∑ν=1

f(ν)ij ·

M∑n=0

p(n)jj (65)

Dimostrazione:

p(n)ij = P(Xn = j|X0 = i) = P(∪nν=1Xn = j, ,Xν = j,Xν−1 6= j, . . . , X1 6= j|X0 = i)∑nν=1 P(Xn = j,Xν = j,Xν−1 6= j, . . . , X1 6= j|X0 = i) =

=∑n

ν=1 P(Xn = j|Xν = j,Xν−1 6= j, . . . , X1 6= j,X0 = i)··P(Xν = j,Xν−1 6= j, . . . , X1 6= j|X0 = i) =

=∑n

ν=1 P(Xn = j|Xν = j) · P(Xν = j,Xν−1 6= j, . . . , X1 6= j|X0 = i) =∑n

ν=1 p(n−ν)jj f

(ν)ij

Da tale relazione, discendono facilmente la (64) e la (65) .

Il seguente risultato fornisce una condizione necessaria e sufficiente per stabilire seuno stato i e transiente o ricorrente

Page 73: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Teorema 24 Le seguenti affermazioni sono equivalenti:

α)∞∑n=0

p(n)ii = +∞

( ∞∑n=0

p(n)ii < +∞

)

β)∞∑n=1

f(n)ii = 1

( ∞∑n=1

f(n)ii < 1

)Dimostrazione: Dal lemma precedente abbiamo

M∑n=1

p(n)ii =

M∑ν=1

f(ν)ii

M−ν∑n=0

p(n)ii

(≤

M∑ν=1

f(ν)ii ·

M∑n=0

p(n)ii

)(66)

Supponiamo∑∞

n=0 p(n)ii < +∞; dalla (66), per M tendente all’infinito, otteniamo

(prendendo j = i)

∞∑n=1

p(n)ii =

∞∑ν=1

f(ν)ii ·

∞∑n=0

p(n)ii =

∞∑ν=1

f(ν)ii ·

(1 +

∞∑n=1

p(n)ii

)da cui

∞∑ν=1

f(ν)ii =

∑∞n=1 p

(n)ii

1 +∑∞

n=1 p(n)ii

< 1

Viceversa, se∑∞

ν=1 f(ν)ii < 1, dalla (66) otteniamo

M∑n=0

p(n)ii ≤

∑Mν=1 f

(ν)ii

1−M∑ν=1

f(ν)ii

≤∑∞

ν=1 f(ν)ii

1−∞∑ν=1

f(ν)ii

,

che implica la convergenza della serie∑∞

n=0 p(n)ii

Corollario 3 Se j e uno stato transiente allora per ogni i ∈ S si ha che

limn→∞

p(n)ij = 0

Dimostrazione: Se j e transiente allora, per il teorema 24,∑

n p(n)jj < +∞ e quindi

p(n)jj → 0 per n→∞.

Page 74: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Analogamente, dal lemma 7 abbiamo che∑∞

n=1 p(n)ij ≤

∑∞ν=1 f

(ν)ij

∑∞n=0 p

(n)jj e, ripe-

tendo il ragionamento precedente, otteniamo limn→∞ p(n)ij = 0 per ogni i ∈ S.

Il seguente risultato mostra che la proprieta di ricorrenza -non ricorrenza nonvaria all’interno di una stessa classe di equivalenza

Teorema 25 Se i e j appartengono alla stessa classe di equivalenza allora sonoentrambi transienti o entrambi ricorrenti.

Dimostrazione: Se i ∼ j allora esistono n1, n2 ∈ N tali che p(n1)ij > 0 e p

(n2)ji > 0.

Inoltre, per ogni n ∈ N abbiamo:

p(n1+n2+n)jj ≥ p

(n2)ji p

(n)ii p

(n1)ij , p

(n1+n2+n)ii ≥ p

(n1)ij p

(n)jj p

(n2)ji ,

da cui∞∑k=0

p(k)jj ≥

∞∑n=0

p(n1+n2+n)jj ≥ p

(n2)ji

(∞∑n=0

p(n)ii

)p

(n1)ij ,

∞∑k=0

p(k)ii ≥

∞∑n=0

p(n1+n2+n)ii ≥ p

(n1)ij

(∞∑n=0

p(n)jj

)p

(n2)ji ,

e possiamo quindi concludere che le serie∑∞

k=0 p(k)ii e

∑∞k=0 p

(k)jj hanno lo stesso ca-

rattere.

Il risultato precedente permette di definire una classe di equivalenza ricorrente seogni suo elemento e ricorrente e transiente se ogni suo elemento e transiente.

Teorema 26 Una classe di equivalenza ricorrente e chiusa.

Dimostrazione: Sia C la classe di equivalenza ricorrente. Supponiamo per assurdoche non sia chiusa, cioe che esistano i ∈ C e j 6∈ C tali che pij > 0. Osserviamo che,in questo caso, possiamo concludere che

p(m)jk = 0, ∀m ∈ N ∀k ∈ C (67)

(altrimenti, se n e un intero tale che p(n)ki > 0, avremo p

(n+m)ji > p

(m)jk p

(n)ki > 0).

Possiamo concludere anche che per ogni n ∈ N e per ogni stato k ∈ S abbiamo

p(n)jk =

∑k1∈S

p(n−1)jk1

pk1k =∑k1 6∈C

p(n−1)jk1

pk1k, (68)

Page 75: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

e, per induzione su n, otteniamo che per ogni n ∈ N e per ogni stato k ∈ S vale laseguente identita

p(n)jk =

∑k1,...,kn−1 6∈C

pjkn−1 · · · pk2k1pk1k, (69)

Consideriamo P(Xn 6∈ C |X1 = j); tenendo presente che p(n)jk = 0 per ogni k ∈ C e

per ogni n ∈ N, abbiamo:

P(Xn 6∈ C |X1 = j) = 1− P(Xn ∈ C |X1 = j) = 1−∑k∈C

p(n−1)jk = 1

dato che P(Xn ∈ C |X1 = j) =∑

k∈C p(n−1)jk = 0. Consideriamo ora

pij = pijP(Xn 6∈ C |X1 = j) = pij∑kn 6∈C

p(n−1)jkn

= pij∑k2 6∈C

· · ·∑kn 6∈C

pjk2 · · · pkn−1kn

6∑k1 6∈C

pik1∑k2 6∈C

· · ·∑kn 6∈C

pk1k2 · · · pkn−1kn

6∑k1 6=i

∑k2 6=i

· · ·∑kn 6=i

pik1pk1k2 · · · pkn−1kn

= P( n⋂ν=1

(Xν 6= i)|X0 = i)

Denotato con Bn =⋂nν=1(Xν 6= i); abbiamo che Bn ↓ B =

⋂∞ν=1(Xν 6= i). D’altra

parte e facile verificare, denotando con

A =∞⋃n=1

(Xn = i,Xn−1 6= i, . . . , X1 6= i)

che Ac = B. Ma se C e ricorrente allora P(A|X0 = i) =∑∞

n=1 f(n)ii = f ∗ii = 1; quindi

P(B|X0 = i) = 0. Riassumendo abbiamo

0 < pij 6 P(Bn|X0 = i), ∀n ∈ N

e, passando al limite per n → ∞ otteniamo 0 < pij 6 0, che e manifestamente unassurdo: quindi pij = 0.

Il teorema appena dimostrato implica in particolare che nessuno stato transientepuo essere raggiunto da uno stato ricorrente.

Page 76: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Teorema 27 Una classe di equivalenza transiente con un numero finito di elementinon e chiusa.

Dimostrazione: Sia C la classe di equivalenza transiente. Per assurdo, se C fossechiusa, per ogni i ∈ C e ogni j 6∈ C si avrebbe che p

(n)ij = 0 per ogni n. D’altra parte,

visto che (p(n)ij ) e una matrice stocastica, abbiamo per ogni n∑

k∈C

p(n)ik = 1. (70)

In secondo luogo, se k e uno stato transiente, dalla (66) ricaviamo (per M →∞)

∞∑n=1

p(n)ik 6

∞∑ν=1

f(ν)ik

∞∑n=0

p(n)kk <∞

da cui p(n)ik → 0 per ogni i ∈ C. Quindi passando al limite nella (70) otteniamo

l’assurdo 0 = 1!

Dai teoremi appena dimostrati possiamo concludere che se una classe di equivalenzaha un numero finito di elementi, la chiusura e una condizione necessaria e sufficienteper la ricorrenza. Notiamo inoltre che in una catena di Markov irriducibile glistati devono o tutti transienti o tutti ricorrenti. In particolare, se il numero deglistati e finito di una catena di Markov irriducibile e finita, allora tutti gli stati sonoricorrenti.Gli esempi significativi da studiare sono quindi quelli in cui l’insieme degli stati einfinito numerabile. Vediamo qui sotto in dettaglio la passeggiata casuale sulla rettae nel piano.Esempio: passeggiata casuale su Z asimmetricaS = Z e pij data da

pi(i+1) = p, p(i−1)i = 1− p, pij = 0 se j 6= (i+ 1), (i− 1) p ∈ (0, 1)

. . . i− 1 <1−p

ip> i+ 1 . . .

Stabiliamo se l’origine i = 0 e uno stato transiente o ricorrente.Abbiamo che p2n+1

00 = 0 per ogni n, mentre nel caso di un numero pari di passiabbiamo che la probabilita di tornare all’origine in 2n passi e data da

p2n00 =

(2n

n

)pn(1− p)n =

(2n)!

(n!)2pn(1− p)n

Page 77: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Dal teorema 24, la convergenza o meno della serie∑

n p2n00 permette di stabilire se

0 e transiente o ricorrente. Utilizzando la formula di Stirling n! ∼√

2πn(n/e)n pern→∞, otteniamo la seguente equivalenza asintotica per n→∞:

p2n00 ∼

(4p(1− p))n√πn

Se p = 1/2 allora 4p(1 − p) = 1 e la serie∑

n p2n00 ha somma infinita. In tal caso

l’origine e ricorrente.Se p ∈ (0, 1), p 6= 1/2, allora la serie

∑n p

2n00 e convergente e lo stato 0 e transiente.

Esercizi:

1. passeggiata casuale simmetrica nel pianoLa passeggiata casuale simmetrica in Z2 e descritta dal diagramma

< 1/4

1/4

1/4>

1/4

e dalle probabilita i transizione

pij =

1/4 se |i− j| = 10 altrimenti

, i, j ∈ Z2

Determinare se l’origine (0, 0) e ricorrente o transiente.

2. Fissato uno stato i ∈ S, indichiamo con An l’evento Xn = i. e ricordiamoche con il simbolo lim supAn indichiamo l’evento ∩n∪k≥nAk e che lim supAn =ω ∈ Ω : #n : ω ∈ An = +∞.(in altre parole lim supAn si verifica se lo stato i viene raggiunto un numeroinfinito di volte.Si dimostri che se i e ricorrente allora P(lim supAn|X0 = i) = 1, mentre se i etransiente allora P(lim supAn|X0 = i) = 0.

Page 78: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Distribuzione stazionaria

Sia Xn catena di Markov con matrice stocastica P e insieme degli stati S. Ri-cordiamo che col simbolo λn indichiamo il vettore riga che descrive la distribuzionedella variabile aleatoria Xn:

λni := P(Xn = i), i ∈ S.

Chiaramente, per costruzione, il vettore λ soddisfa le condizioni

λni ≥ 0 ∀i ∈ S,∑i∈S

λni = 1.

Inoltre, nota la distribuzione λn al tempo n possiamo calcolare la distribuzione agliistanti successivi tramite la formula λn+1 = λnP e, piu in generale,

λn+m = λnPm. (71)

Introduciamo il concetto di distribuzione stazionaria come quella distribuzione diproibabilita su S invariante sotto l’evoluzione descritta da (82).

Definizione 28 Una distribuzione di probabilita λ su S e detta invariante o stazio-naria se

λ = λP (72)

Notiamo che λ e una distribuzione stazionaria, allora iterando l’equazione (73)otteniamo

λ = λP n ∀n ∈ N (73)

Se l’insieme degli stati S ha cardinalita finita, poniamo #S = N allora la matricestocastica P della catena e una matriceN×N e la distribuzione invariante e descrittada un vettore riga λ = (λ1, ..., λN che soddisfa le seguenti proprieta :

1. λi ≥ 0, i = 1, ..., N ;

2.∑N

i=1 λi = 1;

3. λ = λP .

In altre parole λ e autovettore sinistro di P con autovalore 1, che ha tutte le compo-nenti positive o nulle e che soddisfa la condizione di normalizzazione

∑Ni=1 λi = 1.

Di fatto la ricerca di un vettore siffatto si riduce ad un problema di algebra linea-re. Equivalentemente, dato che la condizione λ = λP e equivalente alla condizione

Page 79: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

λT = P TλT , il vettore colonna λT deve essere autovettore destro di P T con au-tovalore 1. Notiamo che la matrice P ha sempre 1 come autovalore in quanto ilvettore colonna v con vi = 1, i = 1, ..., N e autovettore destro di P con autovalore1. La matrice P e la sua trasposta P T condividono gli stessi autovalori11, anche sein generale avranno autovettori differenti.

Esempio 3 Si consideri il sistema a due stati descritto da diagramma

1.

α

j

2.

dove α, β ∈ (0, 1), e dalla matrice stocastica P

P =

(1− α αβ 1− β

)La distribuzione stazionaria e descritta da un vettore riga λ = c, autovettore

sinistro di P con autovalore 1:(λ1 λ2

)( 1− α αβ 1− β

)=(λ1 λ2

)cioe dalla soluzione del sistema

−αλ1 + βλ2 = 0αλ1 − βλ2 = 0

Imponendo la condizione λ1 + λ2 = 1 otteniamo

λ1 =β

α + β, λ2 =

α

α + β.

Esercizio Si calcoli la distribuzione stazionaria (se esiste) delle seguenti catenedi Markov:

1. sistema a tre stati con matrice stocastica

P =

1/3 1/3 1/31/4 1/2 1/41/6 1/3 1/2

11x e autovalore di P se e solo se e soluzione dell’equazione det (P−xI) = 0. Questo e equivalente

a det (P−xI)T = det (PT −xI) = 0 e quindi possiamo dedurre che P e PT hanno lo stesso spettro.

Page 80: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

2. passeggiata casuale simmetrica con barriere riflettenti: S = 1, 2, . . . , N, ematrice stocastica data da:

P =

1/2 1/2 0 . . . 01/2 0 1/2 0 0...

. . . . . . . . ....

0 0 . . . 1/2 1/2

3. passeggiata casuale con barriere assorbenti: S = 1, 2, . . . , N, p ∈ (0, 1) e

matrice stocastica data da:

P =

1 0 0 . . . 01− p 0 p 0 0...

. . . . . . . . ....

0 0 . . . 0 1

4. Passeggiata casuale ciclica: S = 1, 2, . . . , N, p ∈ (0, 1) e matrice stocastica

data da

P =

0 p 0 . . . 1− p1− p 0 p 0 0...

. . . . . . . . ....

p 0 . . . 1− p 0

Esaminiamo anche un altro problema. Supponiamo che esista una distribuzione

invariante λ e verifichiamo se la catena di Markov presenta la seguente proprieta diconvergenza verso la distribuzione stazionaria:

limn→∞

p(n)ij = λj (74)

Notiamo che se vale la (74) allora comunque venga scelta una distribuzione inizialeλ0 si ha che la distribuzione all’ n-esimo passo λn convergera alla distribuzionestazionaria λ per n→∞:

limn→∞

λn = limn→∞

λ0P n = λ.

Abbiamo infatti

limn→∞

λnj = limn→∞

∑i∈S

λ0i pnij =

∑i∈S

λ0i limn→∞

pnij =

(∑i∈S

λ0i

)λj = λj,

Page 81: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

dove il passaggio al limite sotto il simbolo di sommatoria e permesso in quanto valela stima

|λ0i pnij| ≤ λi, ∀n ∈ N,

∑i∈S

λi = 1 <∞.

Il seguente teorema mostra che, se l’insieme degli stati ha un numero finito dielementi, nel caso in cui esista il limite limn→∞ p

(n)ij tale limite fornisce automatica-

mente una distribuzione stazionaria.

Teorema 28 Se #S = N <∞ e se esiste per ogni i, j ∈ S il limite limn→∞ p(n)ij ≡

πj, allora il vettore λ ∈ RN definito da λj := πj descrive una distribuzione invarian-te.

Dimostrazione: Notiamo che per costruzione abbiamo λj ≥ 0 in quanto limite diuna successione a termini ≥ 0.Inoltre la condizione di normalizzazione e soddisfatta in quanto∑

j∈S

λj =∑j∈S

limn→∞

p(n)ij = lim

n→∞

∑j∈S

p(n)ij = 1

Inoltre il vettore λ soddisfa l’equazione λ = λP , infatti∑i∈S

λiPij = limn→∞

∑i∈S

P nkiPij = lim

n→∞P n+1kj = λj

Notiamo che l’ipotesi #S < ∞ non si puo indebolire. Se #S = ∞ allora epossibile che il limite limn→∞ p

(n)ij , anche se esiste, non definisce una distribuzio-

ne. Ad esempio, nel caso della passeggiata casuale su Z, e semplice mostrare chelimn→∞ p

(n)ij = 0 per ogni i, j ∈ S.

Il seguente teorema mostra che nel caso di una catena irriducibile la ricorrenza euna condizione necessaria per l’esistenza di una misura invariante. Tale risultato esignificativo solo nel caso in cui l’insieme degli stati S ha infiniti elementi, percheabbiamo visto nei paragrafi precedenti che ogni catena di Markov irriducibile conun numero finito di stati e ricorrente.

Teorema 29 Sia Xn catena di Markov irriducibile e tale per cui esiste unadistribuzione stazionaria λ. Allora la catena e ricorrente.

Page 82: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Dimostrazione: Per assurdo, supponiamo che la catena sia transiente. In tal caso ab-biamo che limn→∞ p

(n)ij = 0. D’altra parte, dato che per ipotesi λ e una distribuzione

invariante, abbiamo:

λj =∑i∈S

λip(n)ij , ∀n ∈ N

mandando n → ∞ e passando al limite sotto il segno di sommatoria in quanto|λip(n)

ij | ≤ λi ∀n ∈ N,∑λi <∞, otteniamo:

λj =∑i∈S

λi limn→∞

p(n)ij = 0 ∀j ∈ S

e otteniamo quindi una contraddizione.

Esistenza del limite limn→∞ p(n)ij

Notiamo che, in generale, non possiamo aspettarci che ogni catena di Markov am-metta il limite limn→∞ p

(n)ij delle probabilita di transizione in n passi. Ad esempio,

nel caso di una catena periodica di periodo d ≥ 2, considerato uno stato j avremoche le probabilita di transizione p

(n)jj possono essere diverse da 0 solo se ne un multi-

plo intero del periodo d, mentre p(n)jj = 0 se n non e multiplo di d. Nel caso dunque

di catene periodiche la successione p(n)jj ha un comportamento oscillante: contiene

una sottosuccessione a termini tutti nulli e una sottosuccessione p(kd)jj k∈N a termini

positivi o nulli.Per trattare questi casi ricordiamo una definizione di convergenza per successionipiu debole. Una successione an converge nel senso di Cesaro se esiste il limite

limn→∞

1

n

n∑m=1

am

Si puo dimostrare che se an ammette limite l allora converge ad l anche nel senso diCesaro

an → l ⇒ 1

n

n∑m=1

am → l

Non e vera l’implicazione opposta, come illustrano i seguenti esempi:

1. an = (−1)n. Non esiste il limn an, ma le medie di Cesaro convergono a 0 infatti

1

n

n∑m=1

am =

0 n pari

−1/n n dispari

Page 83: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

2. an := 0 se n pari e an := 1 se n dispari. Non esiste il limn an, ma le medie diCesaro convergono a 1/2 infatti

1

n

n∑m=1

am =

1/2 n parin+22n

n dispari

Fissati due stati i, j ∈ S, consideriamo la successione an := p(n)ij costituita dalle

probabilita di transizione da i a j in n passi. In generale abbiamo visto sopra che none detto che esista il limite limn→∞ p

(n)ij , ma possiamo porci la domanda sull’eventuale

esistenza del limite delle medie di Cesaro, cioe della successione

1

n

n∑m=1

p(m)ij , n ≥ 1 (75)

Per comprendere il significato probabilistico dei termini della successione (75), nonchedel suo limite, introduciamo una famiglia particolare di variabili aleatorie collega-te alla catena di Markov Xnn. Fissati j ∈ S e m ∈ N, consideriamo l’insiemeEm,j := X−1

m (j) = ω ∈ Ω: Xm(ω) = j e denotiamo con 1Xm=j la sua funzioneindicatrice:

1Xm=j(ω) =

1 Xm(ω) = j

0 altrimenti

Fissato uno stato i ∈ S e andando a calcolare il valore di aspettazione di 1Xm=j

rispetto alla probabilita condizionata all’evento E0,i ≡ X0 = i otteniamo:

Ei[1Xm=j] = 1P[Xm = j|X0 = i] + 0P[Xm 6= j|X0 = i] = p(m)ij .

Consideriamo la variabile aleatoria Nnj :=

∑nm=1 1Xm=j, che rappresenta di fatto il

numero di visite allo stato j nei primi n passi. Analogamente possiamo considerarela variabile Nj := supnN

nj =

∑m≥1 1Xm=j che rappresenta il numero complessivo di

visite allo stato j-esimo, mentre il quozienteNnj

nesprime la frazione di tempo passata

nello stato j nei primi n passi. Il valore di aspettazione di tali variabili calcolatorispetto alla probabilita condizionata all’evento E0,i ≡ X0 = i e dato da:

Ei[Nnj ] =

n∑m=1

Ei[1Xm=j] =n∑

m=1

p(m)ij (76)

Ei[Nj] =∞∑m=1

Ei[1Xm=j] =∞∑m=1

p(m)ij (77)

Ei[Nj

n

]=

∑nm=1 p

(m)ij

n(78)

Page 84: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Possiamo dunque interpretare le medie di Cesaro della successione p(n)ij , cioe le

quantita (75) come la media della frazione (o frequenza) di visite fatte allo stato jnei primi n passi partendo dallo stato i:

1

n

n∑m=1

p(m)ij = Ei

[∑nm=1 1Xm=j

n

]ed il limite delle medie di Cesaro come il limite di tali frazioni.

Osserviamo che se uno stato j ∈ S e transiente, allora per ogni i ∈ S abbiamop

(n)ij → 0 e

∑m≥1 p

(m)ij < +∞. Alla luce delle nuove variabili casuali introdotte,

possiamo interpretare tali risultati in termini di numero di visite allo stato j partendoda i. In particolare possiamo concludere che Nj < +∞ con probabilita 1. Inoltre

la frequenza relativa media di visite allo stato j data da 1n

∑nm=1 p

(m)ij tende a 0 per

n→∞.

Tempo di primo passaggio

Se j e uno stato ricorrente la discussione dell’esistenza e del valore del limite dellasuccessione (75) e piu complessa.

Introduciamo la variabile casuale tempo di primo passaggio Tj nello stato jdefinita da

Tj(ω) := infn ≥ 1 : Xn(ω) = jdove inf(∅) = +∞. Notiamo che Tj e una variabile casuale discreta a valori nellaretta reale estesa N ∪ ∞. Inoltre, fissato uno stato i ∈ S, abbiamo

P(Tj = n|X0 = i) = P(Xn = j,Xn−1 6= j, ..., X1 6= j|X0 = i) = f(n)ij

eP(Tj < +∞|X0 = i) = P(∪n≥1Tj = n|X0 = i) =

∑n≥1

f(n)ij = f ∗ij.

La proprieta di ricorrenza di uno stato puo essere riletta in funzione del tempo diprimo passaggio. In particolare uno stato j e ricorrente se e solo se P(Tj < +∞|X0 =j) = 1, mentre e transiente se e solo se P(Tj < +∞|X0 = j) < 1. In quest’ultimocaso abbiamo che P(Tj = +∞|X0 = j) > 0. Se j e ricorrente calcoliamo la mediadi Tj rispetto alla probabilita condizionata rispetto all’evento X0 = j

mj :=∑n≥1

nf(n)jj . (79)

Definizione 29 Se mj < +∞ allora lo stato j e detto ricorrente di tipo positivo,mentre se mj = +∞ allora lo stato j e detto ricorrente di tipo nullo.

Page 85: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Possiamo ora enunciare il seguente risultato sul limite della successione (75)

Teorema 30 Sia j uno stato ricorrente. Allora per ogni i ∈ S:

1

n

n∑m=1

p(m)ij →

f ∗ijmj

, inoltreNnj

n

q.c.→1Tj<+∞

mj

In particolare, se C ⊂ S e un insieme chiuso di stati ricorrenti che non contienesottoinsiemi chiusi propri, allora per ogni i, j ∈ C vale

1

n

n∑m=1

p(m)ij →

1

mj

(80)

Inoltre se P(X0 ∈ C) = 1 alloraNnj

n

q.c.→ 1mj

In particolare, se Xn catena di Markov irriducibile ricorrente, allora per ogni cop-pia di stati i, j ∈ S vale il risultato di convergenza (80). Osserviamo che, secondoil teorema appena enunciato, se j e uno stato ricorrente di tipo nullo allora in me-dia la frazione di tempo che la catena di Markov passa nello stato j tende a 0 pern → ∞, mentre se j e uno stato ricorrente di tipi positivo la stessa frazione tendead un limite strettamente positivo dato dall’inverso della media del tempo di primopassaggio.

Abbiamo in precedenza dimostrato che gli stati di una stessa classe di equiva-lenza sono tutti ricorrenti oppure tutti transienti. Il seguente teorema afferma che,all’interno di una classe di equivalenza ricorrente, gli stati sono tutti di tipo positivooppure tutti di tipo nullo.

Teorema 31 Se i e uno stato ricorrente di tipo positivo e i ∼ j allora j e ricorrentedi tipo positivo.

Dimostrazione: Sappiamo gia che se i ricorrente e i ∼ j allora j ricorrente. Inoltredato che i ∼ j esistono due interi n1, n2 tali che p

(n1)ji > 0 e p

(n2)ij > 0. Abbiamo

dunque per ogni m ∈ N:

p(n1+m+n2)jj ≥ p

(n1)ji p

(m)ii p

(n2)ij

Sommando su m = 1, ..., n e dividendo per n otteniamo∑n1+n+n2

m=1 p(m)jj

n−∑n1+n2

m=1 p(m)jj

n= p

(n1)ji p

(n2)ij

∑nm=1 p

(n)ii

n.

Page 86: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Mandando n→∞, il primo membro tende a 1/mj mentre il secondo membro tende

ap(n1)ji p

(n2)ij

mi, da cui

1

mj

≥p

(n1)ji p

(n2)ij

mi

> 0,

e possiamo concludere che mj < +∞.

Da tale risultato possiamo quindi concludere che se Xn e una catena di Markovirriducibile allora gli stati sono tutti dello stesso tipo (transienti, ricorrenti di tipopositivo, ricorrenti di tipo nullo).

Teorema 32 Se C e un insieme chiuso e finito allora C ammette almeno uno statoricorrente di tipo positivo.

Dimostrazione: Dal fatto che C e chiuso deduciamo∑j∈C

pmij = 1, i ∈ S,m ∈ N

Sommando su m = 1, .., n e dividendo per n otteniamo:

∑j∈C

∑nm=1 p

(m)ij

n= 1, i ∈ S, n ∈ N

Se, per assurdo, ogni stato j ∈ C fosse ricorrente di tipo nullo o transiente allora∑nm=1 p

(m)ij

n→ 0 per ogni j ∈ C e quindi

1 = limn→∞

∑j∈C

∑nm=1 p

(m)ij

n=∑j∈C

limn→∞

∑nm=1 p

(m)ij

n= 0,

ottenendo cosı una contraddizione.

Dal teorema precedente segue facilmente che in una catena irriducibile con un nu-mero di stati finito ogni stato e ricorrente di tipo positivo.Esercizio Si dimostri che in una catena di Markov con un numero finito di statinon ci sono stati ricorrento di tipo nullo.Nel caso di un numero infinito di stati, possiamo fornire esempi di catene ricorrentidi tipo nullo.Esempio: Passeggiata casuale su Z:

• se la passeggiata non e simmetrica (p 6= 1/2) allora la passeggiata e transiente

Page 87: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

• se la passeggiata e simmetrica (p = 1/2) allora la passeggiata e ricorrente.Tutti gli stati sono di tipo positivo o di tipo nullo. dalla convergenza diP

(n)00 → 0 possiamo dedurre che 1

n

∑nm=1 p

(m)00 → 0 e quindi gli stati sono di

tipo nullo

Esempio: Passeggiata casuale simmetrica su Z2:La catena e irriducibile e ricorrente, le probabilita di transizione pn00 hanno il se-guente comportamento asintotico pn00 ∼ c/n per n → ∞. Possiamo quindi dedurreche tutti gli stati sono ricorrenti di tipo nullo.

Esistenza di stati ricorrenti di tipo positivo come condizione necessariaper l’esistenza di una misura invariante

Se λ e una distribuzione stazionaria, allora per ogni m vale la relazione λj =∑i∈S p

(m)ij λi. Se j e transiente allora calcolato il limite per n → ∞ di entrambi

i membri dell’uguaglianza otteniamo λj = 0. Nel caso in cui j e ricorrente di tiponullo, sommando su m = 1, .., n e dividendo per n otteniamo

λj =∑i∈S

λi

∑nm=1 p

(m)ij

n.

dato che

∣∣∣∣∑nm=1 p

(m)ij

n

∣∣∣∣ ≤ 1, e possibile passare al limite sotto il segno di integrale e

applicare il teorema 30 ottenendo ancora λj = 0. Possiamo dedurre che se unacatena di Markov non ha stati ricorrenti di tipo positivo allora non puo esistere unadistribuzione invariante.

Esistenza ed unicita della distribuzione stazionaria per catene irriducibiliricorrenti di tipo positivo

Per stati ricorrenti di tipo positivo il seguente teorema fornisce, per catene irriduci-bili, un teorema di esistenza ed unicita della distribuzione stazionaria. Premettiamoun lemma

Teorema 33 Sia Xn catena di Markov irriducibile ricorrente di tipo positivo.Allora esiste un’unica distribuzione invariante data da λj = 1/mj per ogni j ∈ S

Dimostrazione:

Page 88: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

• Unicita Se λ e distribuzione invariante allora per ogni j ∈ S vale λj =∑i∈S λi

∑nm=1 p

(m)ij

n. Calcolando il limite per n → ∞ di entrambi i membri ed

applicando il teorema 30 otteniamo λj = 1/mj.

• Esistenza Dobbiamo verificare che la distribuzione λ definita da λj = 1/mj einvariante, soddisfa cioe le relazioni

∑j ∈ Sλj = 1 e λ = λP . Presentiamo la

dimostrazione valida nel caso #S < +∞. Nel caso generale il risultato e ancoravalido ma necessita di una dimostrazione piu articolata che omettiamo.Dato che per ogni m ∈ N e i ∈ S vale

∑j∈S p

(m)ij = 1, sommando su m e

dividendo per n otteniamo ∑j∈S

∑nm=1 p

(m)ij

n= 1 (81)

Inoltre dalla relazione p(m+1)ij =

∑k∈S p

(m)ik pkj otteniamo:∑n+1

m=1 p(m)ij

n− pij

n=∑k∈S

∑nm=1 p

(m)ik

npkj (82)

Se #S < +∞ possiamo passare al limite per n→∞ in entrambe le relazioni(81) e (82) ottenendo: ∑

j∈S

1

mj

= 1

1

mj

=∑k∈S

1

mk

pkj

Convergenza alla distribuzione invariante delle probabilita ditransizione p

(n)ij

Se alle ipotesi del teorema 33 aggiungiamo la richiesta che la catena sia aperio-dica, allora vale il seguente risultato di convergenza verso (l’unica) distribuzioneinvariante.

Teorema 34 Sia Xn catena di Markov irriducibile ricorrente di tipo positivo eaperiodica. Allora per ogni coppia di stati i, j ∈ S

limn→∞

p(n)ij = λj (83)

dove λj = 1/mj, j ∈ S e l’unica distribuzione stazionaria.

Page 89: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Caso di catene riducibili

Consideriamo ora il caso in cui la catena di Markov e riducibile e, in particolare,il caso in cui esistono due classi di equivalenza C1 e C2 chiuse e ricorrenti di tipopositivo. In tal caso le distribuzioni λ e µ concentrate rispettivamente su C1 e C2

definite da

λj :=

1mj

j ∈ C1

0 j /∈ C1

µj :=

1mj

j ∈ C2

0 j /∈ C2

sono entrambi invarianti. Inoltre si verifica facilmente che ogni combinazione con-vessa di λ e µ

αλ+ (1− α)µ, α ∈ [0, 1]

e ancora una distribuzione invariante.Piu in generale, insicato con SRP ⊂ S l’insieme degli stati ricorrenti di tipo positivodi una catena di Markov possiamo avere tre possibilita :

• SRP = ∅. In questo caso non esiste una distribuzione invariante.

• SRP costituisce un unico insieme chiuso. Allora esiste un’unica distribuzioneinvariante.

• SRP e unione di insiemi chiusi disgiunti. In tal caso esistono infinite misureinvarianti.

Esempi:

1. passeggiata casuale con barriere assorbenti: S = 1, 2, . . . , N, p ∈ (0, 1) ematrice stocastica data da:

P =

1 0 0 . . . 01− p 0 p 0 0...

. . . . . . . . ....

0 0 . . . 0 1

In tal caso l’insieme degli stati S si decompone in 3 classi di equivalenzaS = 1∪N∪2, ..., N−1 di cui la classe 2, ..., N−1 e ricorrente (e quindinon chiusa) e le due classi 1 e N sono chiuse e quindi (dato che hannofiniti elementi) ricorrenti di tipo positivo. Esistono quindi due distribuzioniinvarianti λ e µ, concentrate rispettivamente su 1 e N, descritte da λ =(1, 0, ..., 0) e µ = (0, ..., 0, 1). e, piu in generale ogni loro combinazione convessaαλ+ (1− α)µ = (α, 0, ..., 0, 1− α), α ∈ [0, 1], e una distribuzione invariante.

Page 90: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

2. Passeggiata casuale ciclica: S = 1, 2, . . . , N, p ∈ (0, 1) e matrice stocasticadata da

P =

0 p 0 . . . 1− p1− p 0 p 0 0...

. . . . . . . . ....

p 0 . . . 1− p 0

La catena e irriducibile e con un numero finito di stati, quindi e ricorrente ditipo positivo. Esiste un’unica misura invariante data da λj = 1/N . Se N edispari, allora la catena e aperiodica e vale il risultato di convergenza versol’equilibrio (teorema 34). Se N pari allora la catena e periodica di periodod = 2 e, pur esistendo un’unica misura invariante, non vale la tesi del teorema34.

3. Passeggiata casuale su Z. Abbiamo visto che tale catena irriducibile e ricor-rente di tipo nullo se p = 1/2 o transiente se p 6= 1/2. In entrambi i casi nonesistono stai ricorrenti di tipo positivo e quindi non esiste una distribuzionestazionaria.

4. Consideriamo la catena di Markov con 6 stati e matrice stocastica P data da

P =

1/2 1/2 0 0 0 00 0 1 0 0 01/3 0 0 1/3 1/3 00 0 0 1/2 1/2 00 0 0 0 0 10 0 0 0 1 0

L’insieme degli stati S viene decomposto in tre classi di equivalenza S =1, 2, 3 ∪ 4 ∪ 5, 6 di cui solo 5, 6 e un insieme chiuso (e quindi unaclasse ricorrente di tipo positivo) mentre le altre classi sono transienti. Esi-ste un’unica distribuzione invariante λ concentrata sull’insieme chiuso 5,6,soluzione del sistema λ = λP , ovvero λ = (0, 0, 0, 0, 1/2, 1/2) .

5. Passeggiata casuale simmetrica su un generico grafo connesso.Con il termine grafo indichiamo un insieme finito di stati i ∈ S, detti “vertici “o “nodi” collegati tra loro da segmenti detti “lati” o “spigoli”. Per ogni verticei indicheremo con vi il numero degli spigoli che partono da i e chiameremo talenumero “grado” o “valenza del vertice. supporremo che il grafo sia connesso,cioe che partendo da ogni vertice i sia sempre possibile raggiungere ogni altrovertice j percorrendo i lati del grafo. A tale oggetto e possibile associare una

Page 91: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

catena di Markov il cui diagramma coincide con il grafo stesso e tale per cuile probabilita di transizione pij sono definite come

pij =

1/vi se i e j collegati da uno spigolo

0 altrimenti

Riportiamo qui sotto due esempi di grafi connessi e dei diagrammi descriventile catene di Markov associate (per motivi grafici non e possibile riportare neldiagramma i valori di tutte le probabilita di transizione.

.

.

. <1/2

.1/2

>

11/2> 2

4

1/2

∨3

1 2

4

1/3

1/3>

1/3>

3

Se il grafo e connesso, allora il diagramma associato descrive una catena diMarkov irriducibile e, dato che il numero di stati e finito, allora la catena ericorrente di tipo positivo. Esiste quindi un’unica distribuzione stazionariadata da (lo si verifichi per esercizio) λi = vi∑

j∈S vj

Page 92: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Appendice A

Misura immagine

Siano (X,FX) e (Y,FY ) due spazi misurabili e T : X → Y un’applicazione misura-bile. Sia µ : FX → R+ una misura su (X,FX), Si definisce la misura immagine diµ attraverso la mappa T e si indica con µT : FY → R+ la misura su (Y,FY definitada

µT (E) := µ(T−1(E)), E ∈ FY , (A.1)

doveT−1(E) = x ∈ X : T (x) ∈ E

Non e complicato dimostrare che la (A.1) definisce una misura. Inoltre vale ilseguente risultato fondamentale.

Teorema 35 (Formula di cambiamento di variabili) Una funzione f : Y →C e integrabile rispetto a µT se e solo se f T : X → C e integrabile rispetto a µ e,in questo caso, si ha: ∫

Y

f(y)dµT (y) =

∫X

f T (x)dµ(x). (A.2)

92

Page 93: Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016 ...mazzucch/NoteCdP2.pdf · Diario del corso di Calcolo delle Probabilit a 2 a.a. 2016-2017 Le seguenti note costituiscono

Bibliografia

[1] H. Bauer. Probability theory. De Gruyter studies in mathematics, Berlin, 1996.

[2] P. Billingsley. Probability and measure. John Wiley & Sons, Inc., Hoboken, NJ,2012.

[3] W. Feller. An introduction to probability theory and its applications. Vol. I. JohnWiley & Sons, Inc., New York-London-Sydney 1968.

[4] W. Feller. An introduction to probability theory and its applications. Vol. II.John Wiley & Sons, Inc., New York-London-Sydney 1971.

[5] P.G: Hoel, S.C. Port, C. J. Stone. Introduction to stochastic processes HoughtonMifflin Co., Boston, Mass., 1972.

[6] N.N. Lebedev Special functions and their applications Dover Publications, NewYork, 1972.

[7] J.R. Norris. Markov chains. Cambridge University Press, Cambridge, 1998

[8] W. Rudin. Real and complex analysis. McGraw-Hill, New York, 1987.

[9] A.N. Shiryayev. Probability. Springer-Verlag, New York, 1984.

93