Appunti per il corso di Probabilità e processi...

310

Transcript of Appunti per il corso di Probabilità e processi...

Page 1: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Appunti per il corso di

Probabilità e processi aleatori

Brunero Liseo

Dipartimento di metodi e modelli per il territorio, l'economia

e la nanza

Sapienza Università di Roma

27 marzo 2013

Page 2: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Indice

1 Introduzione 7

1.1 Richiami di Calcolo delle Probabilità . . . . . . . . . . . . . . . . . . . 7

1.2 Probabilità condizionata e indipendenza stocastica . . . . . . . . . . . . 14

1.3 Il teorema di Bayes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

1.3.1 Probabilità a priori e verosimiglianze . . . . . . . . . . . . . . . 23

1.4 L'impostazione soggettiva della probabilità . . . . . . . . . . . . . . . . 24

1.4.1 Denizione e condizione di coerenza . . . . . . . . . . . . . . . . 25

1.5 Variabili casuali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

1.6 Vettori aleatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

1.7 Relazioni tra variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . 41

1.7.1 Il caso di X e Y entrambe v.a. reali . . . . . . . . . . . . . . . . 42

1.7.2 Il caso di Y reale e X multidimensionale . . . . . . . . . . . . . . 43

1.8 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

1.9 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

2 Il valore atteso di una variabile aleatoria 53

2.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

2.2 Denizioni e proprietà . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

2.2.1 Alcune proprietà . . . . . . . . . . . . . . . . . . . . . . . . . . 56

2.3 Varianza, covarianza, correlazione . . . . . . . . . . . . . . . . . . . . . 57

2.4 I momenti di una variabile aleatoria . . . . . . . . . . . . . . . . . . . . 62

2.5 Media e varianza condizionate . . . . . . . . . . . . . . . . . . . . . . . 64

2

Page 3: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

2.6 Applicazioni notevoli del concetto di condizionamento . . . . . . . . . . 69

2.6.1 Alcuni risultati sulle medie . . . . . . . . . . . . . . . . . . . . . 72

2.7 La legge normale multivariata . . . . . . . . . . . . . . . . . . . . . . . 74

2.8 Alcune dimostrazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

2.8.1 Dimostrazione della (3.3) . . . . . . . . . . . . . . . . . . . . . 78

2.8.2 Dimostrazione della (2.16) . . . . . . . . . . . . . . . . . . . . . 79

2.9 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

3 Funzioni generatrici e teoremi di convergenza 89

3.1 Funzione generatrice dei momenti . . . . . . . . . . . . . . . . . . . . . 89

3.1.1 Alcune proprietà . . . . . . . . . . . . . . . . . . . . . . . . . . 92

3.2 Funzione generatrice delle probabilità . . . . . . . . . . . . . . . . . . . 97

3.3 Disuguaglianze notevoli. . . . . . . . . . . . . . . . . . . . . . . . . . . 99

3.4 Convergenza di successioni di v.a. . . . . . . . . . . . . . . . . . . . . . 102

3.5 Teoremi limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

3.5.1 Il metodo Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . 111

3.5.2 La notazione di Landau o(h) . . . . . . . . . . . . . . . . . . . 111

4 Introduzione ai processi stocastici 113

4.1 Un po' di linguaggio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

4.2 La passeggiata aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . 117

4.3 Il problema della rovina del giocatore . . . . . . . . . . . . . . . . . . . 119

4.3.1 Probabilità di vittoria dei due giocatori. . . . . . . . . . . . . . . 120

4.3.2 Durata media del gioco. . . . . . . . . . . . . . . . . . . . . . . 123

4.3.3 Giocare contro il banco . . . . . . . . . . . . . . . . . . . . . . 125

4.3.4 Visite e ritorni nei singoli stati . . . . . . . . . . . . . . . . . . . 126

4.3.5 Numero atteso di ritorni allo stato iniziale . . . . . . . . . . . . . 127

4.3.6 Passeggiata aleatoria e teorema del limite centrale . . . . . . . . 128

4.4 Catene di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

4.5 Probabilità di transizione in n passi . . . . . . . . . . . . . . . . . . . . 133

3

Page 4: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

4.5.1 Equazioni di Chapman-Kolmogorov . . . . . . . . . . . . . . . . 133

4.5.2 Distribuzioni di probabilità al tempo n . . . . . . . . . . . . . . 135

4.6 Stazionarietà . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

4.7 Classicazione degli stati . . . . . . . . . . . . . . . . . . . . . . . . . . 140

4.7.1 Stati accessibili e stati comunicanti . . . . . . . . . . . . . . . . 140

4.7.2 Stati ricorrenti e stati transitori . . . . . . . . . . . . . . . . . . 145

4.7.3 Stati ricorrenti positivi e stati ricorrenti nulli; periodicità . . . . . 151

4.8 Distribuzioni di equilibrio . . . . . . . . . . . . . . . . . . . . . . . . . . 154

4.9 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

5 Applicazioni delle catene di Markov 181

5.1 Processi branching . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181

5.1.1 Valore atteso e varianza di Zn . . . . . . . . . . . . . . . . . . . 183

5.1.2 Distribuzione di Zn . . . . . . . . . . . . . . . . . . . . . . . . . 186

5.1.3 Probabilità di estinzione . . . . . . . . . . . . . . . . . . . . . . 187

5.2 Esempi notevoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192

5.2.1 PageRank: un'applicazione per il web . . . . . . . . . . . . . . . 192

5.2.2 Il modello di Wright e Fisher in biologia . . . . . . . . . . . . . . 194

5.3 Reversibilità di una Catena di Markov stazionaria . . . . . . . . . . . . . 194

5.4 L'Algoritmo di Metropolis . . . . . . . . . . . . . . . . . . . . . . . . . 197

5.5 Algoritmo Metropolis2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 201

5.6 Modello markoviano nelle assicurazioni . . . . . . . . . . . . . . . . . . 202

5.7 Applicazioni in nanza . . . . . . . . . . . . . . . . . . . . . . . . . . . 202

5.8 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202

6 La legge esponenziale e il processo di Poisson 205

6.1 La Distribuzione Esponenziale . . . . . . . . . . . . . . . . . . . . . . . 205

6.1.1 I primi momenti di una v.a. Exp(λ ) . . . . . . . . . . . . . . . . 206

6.1.2 Assenza di memoria . . . . . . . . . . . . . . . . . . . . . . . . 207

6.1.3 Minimi di v.a. esponenziali. . . . . . . . . . . . . . . . . . . . . 209

4

Page 5: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

6.2 La distribuzione Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . 214

6.3 Il Processo di Poisson: un'introduzione . . . . . . . . . . . . . . . . . . 218

6.3.1 Prima denizione del processo di Poisson . . . . . . . . . . . . . 219

6.3.2 Il Processo di Bernoulli . . . . . . . . . . . . . . . . . . . . . . 220

6.3.3 Denizione 2 di Processo di Poisson . . . . . . . . . . . . . . . . 222

6.3.4 Denizione alternativa del processo di Poisson. . . . . . . . . . . 225

6.3.5 Distribuzione del tempo dell' n-esimo evento . . . . . . . . . . . 228

6.4 Altre nozioni sul processo di Poisson . . . . . . . . . . . . . . . . . . . 229

6.4.1 Sovrapposizione di processi di Poisson . . . . . . . . . . . . . . . 230

6.4.2 Thinning di un processo di Poisson . . . . . . . . . . . . . . . 233

6.5 Cenno al caso non omogeneo . . . . . . . . . . . . . . . . . . . . . . . 235

6.6 Alcuni aspetti inferenziali∗ . . . . . . . . . . . . . . . . . . . . . . . . . 236

6.7 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237

7 Martingale 241

7.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241

7.2 Tempi di arresto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244

7.3 Alcune disuguaglianze . . . . . . . . . . . . . . . . . . . . . . . . . . . 249

7.4 Applicazione al problema della rovina del giocatore . . . . . . . . . . . . 252

8 Moto browniano 255

8.1 Una prima denizione costruttiva . . . . . . . . . . . . . . . . . . . . . 256

8.2 Distribuzioni associate al moto browniano . . . . . . . . . . . . . . . . . 259

8.2.1 Il ponte browniano . . . . . . . . . . . . . . . . . . . . . . . . . 263

8.2.2 Altri risultati . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266

8.3 Alcune varianti del moto browniano . . . . . . . . . . . . . . . . . . . . 272

8.3.1 Moto browniano con drift o deriva . . . . . . . . . . . . . . . . 272

8.3.2 Moto browniano geometrico . . . . . . . . . . . . . . . . . . . . 272

8.4 Alcuni risultati sul moto browniano . . . . . . . . . . . . . . . . . . . . 274

A Alcune nozioni di algebra lineare 277

5

Page 6: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

B Nozioni di calcolo combinatorio 281

B.1 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289

C Le principali distribuzioni di probabilità 291

C.1 Distribuzioni discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293

C.2 Distribuzioni assolutamente continue . . . . . . . . . . . . . . . . . . . 296

C.3 Distribuzioni multivariate . . . . . . . . . . . . . . . . . . . . . . . . . 301

6

Page 7: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

CAPITOLO 1

Introduzione

1.1 Richiami di Calcolo delle Probabilità

Un esperimento il cui esito non è noto, ma che può essere analizzato nel suo complesso,

per esempio mediante l'insieme dei possibili esiti e magari delle frequenze con cui tali

esiti si possono presentare, è detto aleatorio. Tali esperimenti sono molto frequenti nelle

scienze e nelle scelte di vita quotidiana. Si pensi al Tizio che deve scegliere se recarsi

alla fermata del Bus A oppure del Bus B per andare in ucio, al numero di clienti che

entrano in un negozio in un certo intervallo di tempo, al tipo di ferita riportata dal

prossimo ricoverato in un pronto soccorso, al prezzo di un titolo nella borsa di Milano tra

tre settimane, e così via. Questi sono solo alcuni esempi di situazioni in cui l'esito della

prova non è noto a priori. Ogni volta che ci troviamo a descrivere un problema di questo

tipo, occorre innanzitutto procedere, almeno implicitamente, alla

costruzione di un modello matematico in grado di elencare e descrivere tutti i

possibili esiti ;

7

Page 8: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

assegnare una probabilità a ciascuno di questi esiti.

Il calcolo delle probabilità è la disciplina che insegna a formalizzare le due esigen-

ze precedenti in modo astratto e mediante un rigoroso linguaggio matematico. Nel

corso di questo capitolo acquisiremo allora gli elementi essenziali del linguaggio della

probabilità che ci consentiranno di inquadrare in uno schema comune problemi di natura

apparentemente molto diversa.

Iniziamo quindi a denire un oggetto che rappresenti lo spazio entro il quale operiamo

Denizione 1.1. L'insieme di tutti gli esiti possibili di un esperimento aleatorio è detto

spazio campionario ed è denotato con Ω. Gli elementi di Ω sono chiamati eventi

elementari e sono indicati, in genere, con ω .

Di fronte a un esperimento aleatorio, almeno una cosa è certa: si realizzerà uno e

uno solo degli esiti ω ∈Ω. Non potendo tuttavia conoscere in anticipo quale sarà l'esito

dell'esperimento, cerchiamo almeno di conoscere la probabilità con cui dei particolari

risultati (o insiemi di risultati) si possono vericare.

Il calcolo delle probabilità fa grande uso del linguaggio e della teoria degli insiemi.

Chiameremo evento qualunque insieme di eventi elementari. Gli eventi vengono in genere

indicati con le lettere maiuscole dell'alfabeto latino.

Dati due eventi elementari E ed F è possibile ricavare da essi diversi insiemi mediante

le seguenti operazioni tra eventi :

unione (E ∪F). È l'evento che si verica quando si verica almeno uno dei due

eventi, cioè quando si verica E, o quando si verica F oppure ancora quando si

vericano sia E che F ;

intersezione (E ∩F). É l'evento che si verica quando si vericano contem-

poraneamente sia E che F. Alcuni testi indicano l'intersezione tra E ed F con il

simbolo EF .

negazione (Ec). È l'evento che si verica quando non si verica E.In alcuni si

testi si incontra la notazione equivalente E, equivalente a Ec.

8

Page 9: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Valutare probabilisticamente un esperimento signica essere in grado di assegnare una

misura di probabilità, almeno in teoria, a tutti i sottoinsiemi di Ω. Quando la cardinalità di

Ω è nita o numerabile, è suciente considerare il cosiddetto insieme delle parti, P(Ω),

che consiste proprio nell'elencazione di tutti i possibili sottoinsiemi.

Esempio 1.1 [Lancio di una moneta.] Nel caso del lancio di una moneta Ω = T,C e

l'insieme delle parti sarà P(Ω) =∅,T,C,Ω ♦

Esempio 1.2 Lancio di un dado a 4 facce Nel caso del lancio di un dado con 4 facce

numerate si ha Ω = 1,2,3,4 e l'insieme delle parti sarà

P(Ω) = ∅,1,2,3,4,1∪2,1∪3,1∪4,2∪3,2∪4,3∪4,1∪2∪3,1∪2∪4,2∪3∪4,Ω

♦Più in generale, se Ω è composto da k eventi elementari, P(Ω) conterrà 2k parti, ottenute

considerando che ciascun elemento può essere inserito o meno in ciascuna parte, e per

questo si hanno 2 scelte a disposizione per ciascuno dei k elementi.

Osservazione 1.1. Ricordiamo che

due eventi averti intersezione vuota, cioè pari all'evento impossibile (E ∩F = ∅)

sono detti mutuamente esclusivi o incompatibili.

L'evento Ec è anche detto complementare di E.

In generale, a seconda della natura di Ω, non tutti i sottoinsiemi di Ω possono denirsi

eventi. Questo può apparire innaturale, ma dipende da questioni tecniche legate alla

denizione di probabilità come misura in senso analitico. Ad ogni modo, questo tipo di

problemi emerge soprattutto nello studio dei processi di diusione per i quali occorrerà

un più adeguato bagaglio matematico.

I sottoinsiemi di eventi che possiamo considerare a loro volta eventi sono in generale

quelli che soddisfano la seguente denizione.

Denizione 1.2. Sia Ω lo spazio di tutti i possibili risultati di un esperimento. Valutare

in modo probabilistico un esperimento signica, sia in termini tecnici che sostanziali, saper

9

Page 10: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

calcolare la probabilità che il risultato dell'esperimento appartenga ad un sottoinsieme B

di Ω, qualunque sia B appartenente ad una famiglia A di sottoinsiemi. Ragioni tecniche

impongono che la famiglia A sia una σ -algebra1, cioè soddis le seguenti proprietà:

/0 ∈A (l'insieme vuoto è in A )

B1, B2, . . . ∈A ⇒⋃

∞i=1 Bi ∈A (A è chiusa rispetto all'unione numerabile)

B ∈A ⇒ Bc = Ω\B ∈A (A è chiusa rispetto alla complementazione).

Come già detto, non ci soermeremo sulle motivazioni tecniche che rendono necessario

l'utilizzo di una σ -algebra A ; ci limitiamo a ricordare che nel caso in cui lo spazio

campionario Ω sia nito o numerabile, la famiglia di insiemi A contiene tutti i sottoinsiemi

di Ω, mentre nel caso in cui Ω sia l'insieme dei numeri reali2 A contiene tutti gli intervalli,

chiusi e aperti e le loro unioni e intersezioni. Quando l'insieme dei risultati possibili

dell'esperimento è un sottoinsieme di Rd per qualche intero d, la σ -algebra naturale da

utilizzare è quella di Borel, in genere indicata come B(Rd); essa è la più piccola σ -algebra

che contiene tutti gli insiemi aperti di Rd; questo garantisce che qualunque sottoinsieme

ragionevole di Rd appartenga a B(Rd).

L'esito dell'esperimento che si verica eettivamente è chiamato risultato o realizza-

zione dell'esperimento. La probabilità con cui un certo evento si verica è rappresentata

formalmente mediante una funzione che assegna a quell'evento un numero compreso tra

0 e 1. La seguente denizione introduce in modo assiomatico la misura di probabilità ed

è dovuta a A. Kolmogorov (1933).

1Ricordiamo che una σ−algebra denita su un insieme Ω è una famiglia di sottoinsiemi di Ω che ha

delle proprietà di stabilità rispetto ad alcune operazioni insiemistiche, in particolare rispetto all'operazione

di unione numerabile e di passaggio al complementare. La σ−algebra è un caso particolare di algebra

degli insiemi e viene spesso è utilizzata analisi matematica per via delle numerose proprietà che possiede

rispetto alle operazioni di passaggio al limite.2si pensi ad esempio all'esperimento consistente nella rilevazione del tempo di attesa di un cliente a

una la, in cui l'esito può essere un qualunque numero t > 0.

10

Page 11: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Denizione 1.3. Una misura di probabilità P è una funzione d'insieme che associa, ad

ogni elemento di A , un valore reale compreso nell'intervallo [0,1]. In altri termini

P : A → [0,1];

La funzione P soddisfa le seguenti proprietà assiomatiche:

0≤ P(E)≤ 1, ∀E ∈A ;

P(Ω) = 1;

A1, A2, . . .∈A , mutuamente disgiunti,⇒P(⋃

∞i=1 Ai)=∑

∞i=1P(Ai), e tale proprietà

vale anche per qualunque sottoinsieme nito degli Ai.

La denizione (1.3) è stata proposta da Kolmogorov nell'ambito del suo tentativo di

sistematizzazione della teoria della probabilità. Essa fornisce un quadro comune a prece-

denti denizioni, in particolare quella classica e quella frequentista che ora discuteremo

brevemente, cercando di sottolineare i motivi della loro inadeguatezza generale. Esiste

poi una terza possibile denizione della probabilità, basata su un'impostazione soggettiva.

Ad essa dedicheremo un paragrafo a parte.

Prime conseguenze degli assiomi

Dagli assiomi discendono semplici ma utili risultati.

Se nel terzo assioma ci fermiamo a due eventi e consideriamo A1 =A e A2 =B risulterà

A∩B =∅⇒ P(A∪B) = P(A)+P(B)

e il risultato vale per qualunque numero nito di addendi mutuamente incompatibili.

Teorema 1.1. Per ogni evento E ∈A si ha

P(Ec) = 1−P(E)

Dimostrazione 1.1. Qualunque insieme E soddisfa la relazione Ω = E ∪Ec e, per il

secondo e terzo assioma,

1 = P(Ω) = P(E)+P(Ec),

da cui P(Ec) = 1−P(E).

11

Page 12: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Teorema 1.2. (Legge delle probabilità totali.) Per ogni coppia di eventi E ed F si ha

P(E ∪F) = P(E)+P(F)−P(E ∩F).

Dimostrazione 1.2. L'evento E∪F può scriversi come l'unione di due insiemi disgiunti

nel seguente modo

E ∪F = E ∪ (F ∩Ec),

e quindi

P(E ∪F) = P(E)+P(F ∩Ec). (1.1)

Inoltre, qualunque insieme F può sempre scriversi come l'unione della sua intersezione

con un altro insieme E e l'intersezione con il complemento di E, cioè Ec, cioè

F = (F ∩E)∪ (F ∩Ec).

Dunque P(F) = P(F ∩E)+P(F ∩Ec), da cui P(F ∩Ec) = P(F)−P(E ∩F). Inserendo

l'ultima relazione nella (1.1) si ottiene la tesi.

La denizione classica

La prima denizione che si diede alla probabilità risale al tempo in cui Pascal gettava

le prime basi operative della disciplina. Secondo tale impostazione, la probabilità di un

evento E è data dal rapporto tra i casi favorevoli all'evento E e il numero totale di casi

possibili, purché tutti i casi possibili risultino ugualmente probabili.

Se da un lato tale denizione è più che ragionevole dal punto di vista operativo,

appare chiaro che non può essere considerata una vera e propria denizione in quanto

utilizza la parola probabilità (nella condizione di equiprobabilità dei casi possibili)

nel momento in cui tenta di denire cosa essa sia: si verica in pratica quello che

in Logica viene chiamato una tautologia.

non fornisce lumi su come denire la probabilità nel caso di casi possibili non

ugualmente probabili.

12

Page 13: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Queste limitazioni relegano la denizione classica a qualcosa di poco più di una curiosità,

almeno da un punto di vista teorico, sebbene essa fornisca un metodo comodo di calcolo,

nei limiti della sua applicabilità.

Esempio 1.3 Enumerazione delle possibilità Dato un mazzo di carte da Poker con 52

carte divise in quattro semi (C,Q,P,F), con 13 carte per ogni seme (dall'Asso al 10, ol-

tre a J,Q,K), qual è la probabilità di avere in mano tris d'assi servito? e un full servito? ♦

La denizione frequentista

Nell'approccio frequentista, già presente nei primi lavori di Pascal e Fermat, e successi-

vamente formalizzato da Von Mises, si cerca di cogliere delle intuizioni piuttosto comuni,

secondo le quali la probabilità di un evento deve essere in qualche modo legato alla fre-

quenza relativa con cui esso si verica in una successione sucientemente lunga di prove.

Il legame tra frequenza e probabilità passa per quella che viene denita Legge empirica

del caso secondo cui, in una successione di prove eettuate tutte nelle stesse condizioni,

la frequenza con cui si verica un evento si avvicina alla probabilità dell'evento stesso

e il livello di approssimazione migliora all'aumentare del numero delle prove. La legge

empirica del caso non è una denizione matematica e non può esserlo per i diversi gradi

di ambiguità che contiene.

La denizione di probabilità frequentista è legata alla precedente legge: la probabilità

di un evento E è il limite a cui tende la frequenza relativa di volte in cui l'evento si

verica, al tendere del numero di prove all'innito.

Anche questa denizione, seppure più generale rispetto a quella classica, non lo è del

tutto, in quanto richiede che l'evento considerato sia in qualche modo ripetibile. Non

è possibile, ad esempio, valutare le probabilità di un evento come La prossima partita fra

Barcelona e Real Madrid nirà in pareggio, in quanto le condizioni in cui tale partita si

svolgerà saranno certamente nuove rispetto a qualunque altra partita giocata in passato.

Concludiamo questo paragrafo enunciando una versione più generale della legge delle

probabilità totali, relativa ad un numero nito qualunque di eventi.

13

Page 14: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

teorema delle probabilità totali. Dati gli eventi E1,E2, . . .Em, risulta

P(E1∪E2∪ . . .∪En) =n

∑i=1

P(Ei)− ∑i1<i2

P(Ei1 ∩Ei2)+ . . .

+ (−1)r+1∑

i1<...<in

P(Ei1 ∩Ei2 ∩ . . .∩Ein)+ . . .

+ (−1)n+1P(E1∩E2∩ . . .∩En) (1.2)

Non dimostreremo questo teorema ma ci limitiamo a considerare in maggior dettaglio

cosa avviene per tre eventi. In tal caso la (1.2) diventa

Pr(A∪B∪C)=Pr(A)+Pr(B)+Pr(C)−Pr(A∩B)−Pr(A∩C)−Pr(B∩C)+Pr(A∩B∩C) .

La probabilità dell'unione di tre eventi qualsiasi si ottiene quindi sommando le probabilità

dei tre eventi, sottraendo quelle delle intersezioni a due a due e poi riaggiungendo quella

dell'intersezione dei tre eventi. La formula (1.2), semplicemente, generalizza tale formula

al caso generale.

1.2 Probabilità condizionata e indipendenza stoca-

stica

La valutazione probabilistica di un evento va sempre intesa come subordinata ad uno

specico set d'informazioni che abbiamo a disposizione. Chiariamo meglio la questione

introducendo il concetto di evento condizionato. E|H è una qualsiasi aermazione rispet-

to alla quale siamo in uno stato di incertezza, ma che può essere vera o falsa nell'ipotesi

che H sia vera. Nell'ipotesi che H sia falsa l'evento E|H perde di signicato. I casi

possibili possono essere schematizzati quindi con:

E|H →

Vero: se, essendo vero H, è vero E

Falso: se, essendo vero H, è falso E

Indeterminato: se H è falso

In termini di scommessa il terzo caso corrisponde all'annullamento della scommessa. Per

esempio, lanciando i dadi in giochi di società, si usa talvolta la condizione se il dado

cade dal tavolo l'esito non è valido e il dado va rilanciato.

14

Page 15: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Supponiamo dunque che H sia un evento per il quale P(H) > 0. La probabilità

P(E|H) va calcolata tenendo conto che il fatto che sia noto che si è vericato H riduce

a questo evento il nostro spazio campionario. Inoltre anché anche E sia vero, debbono

dunque vericarsi insieme i due eventi, cioè E ∩H. Ne segue che

P(E|H) =P(E ∩H)

P(H), (1.3)

che può essere espressa anche nel modo alternativo

P(E ∩H) = P(E|H)P(H) (1.4)

valida anche nel caso in cui P(H) = 0. Nel primo membro dell'ultima espressione gli

eventi E ed H giocano un ruolo simmetrico cosicché è vera anche la relazione

P(E ∩H) = P(H|E)P(E).

Se un cambiamento a livello informativo (la conoscenza del vericarsi di H) modica

la credibilità dell'evento in considerazione, cioè se l'ipotesi che un certo evento H sia vero

modica la probabilità di un altro evento E, diciamo che i due eventi sono correlati. In

particolare:

se P(E|H)> P(E) diciamo che E e H sono correlati positivamente;

se P(E|H)< P(E) diciamo che E e H sono correlati negativamente;

Se P(E|H) = P(E) i due eventi sono indipendenti o più propriamente indipendenti in

probabilità, o stocasticamente indipendenti. In questo caso il teorema della probabilità

composta diventa

P(E ∩H) = P(E) ·P(H).

Questa relazione è un modo alternativo di denire l'indipendenza stocastica.

La denizione di probabilità condizionata può essere estesa al caso di n eventi, ma

la condizione di indipendenza, in questo caso, è più articolata. Ad esempio, nel caso di

15

Page 16: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

tre eventi E, F e G, si dice che essi sono indipendenti qualora vengano soddisfatte le

seguenti relazioni

P(E ∩F ∩G) = P(E)P(F)P(G)

e

P(E ∩F) = P(E)P(F), P(E ∩G) = P(E)P(G), P(F ∩G) = P(F)P(G).

In altri termini, k eventi E1,E2, . . .Ek sono tra loro mutuamente indipendenti se, comunque

se ne scelgano un numero h≤ k, diciamo Ei1 ,Ei2, . . .Eih , essi soddisfano la relazione

P(Ei1 ∩Ei2 ∩·· ·∩Eih) = P(Ei1)P(Ei2) · · ·P(Eih).

Consideriamo ora un esempio in cui l'indipendenza a coppie tra gli eventi non è suciente

a garantire l'indipendenza di tre eventi.

Esempio 1.4 [Dado a quattro facce]. Consideriamo un dado regolare - cioè simmetrico

- con quattro facce numerate 1,2,3 e 4. Deniamo i seguenti eventi

A2 = 1,2

A3 = 1,3

A4 = 1,4

È evidente come

Pr(Ai) = 1/4, ∀i = 1,2,3

e, inoltre,

Pr(Ai∩A j

)= 1/2 ∀i, j = 1,2,3, i 6= j.

Dunque per ogni coppia di eventi Ai,A j risulta

Pr(Ai∩A j

)= Pr(Ai)Pr

(A j).

Tuttavia

Pr(A1∩A2∩A3) = Pr(1) = 146= Pr(A1)Pr(A2)Pr(A3) =

18

16

Page 17: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

♦Nel prossimo esempio si considera il caso in cui tre eventi soddisfano la condizione di

indipendenza quando considerati insieme ma non se considerati a coppie.

Esempio 1.5 [Due dadi a sei facce]. Si lancino due dadi regolari a sei facce. Per

ragioni di simmetria consideriamo i trentasei possibili risultati tutti ugualmente probabili.

Deniamo i seguenti eventi

A=il primo dado dà 1, 2 oppure 3

B=il primo dado dà 3, 4 oppure 5

C=la somma dei due dadi è pari a 9

Semplici calcoli mostrano come Pr(A) = Pr(B) = 1/2 mentre gli unici eventi elementari

che corrispondono a C sono (3,6),(4,5),(5,4),(6,3) Dunque Pr(C) = 1/4. Inoltre

l'evento A∩B∩C è vero solo se si verica l'evento (3,6) e dunque Pr(A∩B∩) = 1/36

che corrisponde al prodotto Pr(A)Pr(B)Pr(C). Tuttavia l'evento A∩B corrisponde alla

locuzione esce 3 al primo lancio . Dunque

Pr(A∩B) = 1/6 6= Pr(A)Pr(B) = 1/4.

Riassumendo, le varie possibilità che fornisce il calcolo della probabilità nel caso di

unione e intersezione di due eventi sono:

Eventi A e B

incompatibili(A∩B =∅)

P(A∪B) = P(A)+P(B)P(A∩B) = 0

compatibili(A∩B 6=∅)

P(A∪B) = P(A)+P(B)−P(A∩B)

P(A∩B) =

P(A) ·P(B|A) = P(B) ·P(A|B)P(A) ·P(B) → indipendenti

17

Page 18: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

1.3 Il teorema di Bayes.

È noto che, dati due eventi qualsiasi F e E, la probabilità dell'intersezione F ∩E si può

scrivere

P(F ∩E) = P(F |E)P(E), (1.5)

oppure

P(F ∩E) = P(E|F)P(F). (1.6)

Uguagliando la (1.5) con la (1.6) ed esplicitando rispetto a P(F | E) si può scrivere,

quando P(E)> 0,

P(F | E) = P(F)P(E | F)

P(E), (1.7)

La formula (1.7) rappresenta la forma più semplice del cosiddetto teorema di Bayes,

dal nome di colui che, apparentemente per primo [Bayes, 1763], utilizzò una versione

leggermente più complessa dell'espressione stessa: essa insegna che la probabilità di un

evento F non è una caratteristica intrinseca dell'evento, ma va calcolata sulla base delle

informazioni a disposizione: il vericarsi di E, ad esempio, modica la probabilità di F , e

la trasforma in P(F |E), secondo la (1.7).

Esempio 1.6

La mia collezione di CD è costituita da un 70% di dischi tradizionali e da un 30% di

dischi contenenti le MP3. Tra i dischi tradizionali il 30% contiene musica rock mentre

il restante 70% contiene brani di musica classica. Tra i dischi contenenti les MP3, il

10% contiene musica classica e il 90% musica rock. Scegliamo a caso un disco e sia

A l'evento il disco estratto è di tipo tradizionale, mentre R rappresenta l'evento il disco estratto contiene musica rock . Ovviamente si avrà Pr(A) = 0.7; ma se dopo

alcuni secondi mi rendo conto che si tratta di un disco rock, la probabilità che si tratti

di un disco tradizionale diventa

Pr(A | R) =Pr(A)Pr(R | A)

Pr(R)=

Pr(A)Pr(R | A)Pr(A)

Pr(R | A

)+Pr(A)Pr(R | A)

=0.7×0.3

0.7×0.3+0.3×0.9=

2148

.

18

Page 19: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

♦Esempio 1.7

Da un mazzo di 52 carte se ne estrae una a caso senza osservarla; se ne estrae poi una

seconda che risulta essere un Asso. Qual è la probabilità che la prima carta estratta fosse

un Re?

Soluzione. In questo caso identichiamo F con l'evento La prima carta è un Re e

con E l'evento La seconda carta è un Asso. Poiché P(F) = 4/52, P(E) = 4/52 (non

conoscendo l'esito della prima estrazione, tutte le carte hanno la stessa probabilità di

comparire come seconda carta) e P(E|F) = 4/51, si ha in conclusione

P(F | E) = 452

451

/4

52=

451

.

Potrebbe risultare contro intuitivo il fatto che P(E) = 4/52 o, più in generale, che le

probabilità relative alla seconda estrazione risultino uguali a quelle relative alla prima; ma

quello che conta non è tanto il susseguirsi temporale degli eventi quanto l'informazione

che si ha su di essi: se non conosciamo l'esito della prima estrazione al momento di

calcolare la probabilità di eventi relativi alla seconda estrazione, è come se la prima se

non si fosse mai vericata. Dal punto di vista matematico si può arrivare facilmente al

risultato osservando che, chiamando A l'evento La prima carta è un Asso

Pr(E) = Pr(E ∩A)+Pr(E ∩Ac) = Pr(A) Pr(E | A)+Pr(Ac) Pr(E | Ac)

=4

523

51+

4852

451

=4

52

♦Esempio 1.8

Sugli aerei esiste una spia luminosa che si accende in fase di atterraggio quando il carrello

non fuoriesce regolarmente. Può succedere però che la spia si illumini anche se il carrello

non ha avuto alcun problema. Sia A l'evento Carrello in ordine e sia B l'evento Spia

accesa. È noto, da indagini di laboratorio, che

Pr(B | A) = 0.005, Pr(B | Ac) = 0.999;

19

Page 20: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

in altri termini la spia si accende erroneamente solo cinque volte su 1000 mentre non si

accende quando dovrebbe soltanto una volta su 1000. Inne le statistiche di bordo ripor-

tano che la frequenza relativa di volte in cui il carrello non ha funzionato correttamente

è pari al 3%. Calcolare la probabilità che, in caso di spia accesa, si tratti di un falso

allarme.

Soluzione: Dalle informazioni di bordo sappiamo che P(A) = .97; si tratta di calcolare

P(A | B):

P(A | B) = P(A)P(B | A)P(A)P(B | A)+P(Ac)P(B | Ac)

=0.97×0.005

0.97×0.005+0.03×0.999= 0.139.

Un modo ecace di interpretare la formula di Bayes è quello di considerare l'evento E

come un insieme di sintomi (eetti) e l'evento F come una possibile malattia (causa)

associata a tali sintomi.

Esempio 1.9 [ Possibili cause di un sintomo ]

Tizio si reca dal medico perché ha notato alcuni strani puntini rossi sulla sua cute (E=in-

sorgenza di puntini rossi). Tizio non sa a quali cause far risalire tali sintomi. Il medico

sostiene che le possibili cause sono tre: un banale fungo della pelle (F1), varicella (F2), una

grave malattia (F3). Per semplicità assumiamo che una e una sola delle tre cause possa

aver eettivamente agito. Il medico sa anche quanto è verosimile osservare E quando

si è malati di F1, F2, oppure F3. Infatti studi precedenti indicano che P(E | F1) = 0.5,

P(E | F2) = 0.7, mentre P(E | F3) = 0.99. In pratica, in presenza del fungo, si ha una

probabilità su due di osservare i puntini rossi, mentre, nel caso della grave malattia (F3)

l'insorgenza dei puntini è pressoché certa. E' il caso che Tizio si preoccupi? ♦Soluzione. Prima di iniziare a preoccuparsi, è bene che Tizio calcoli, secondo la formula

di Bayes, le probabilità a posteriori delle tre possibili malattie. Per fare questo però

occorrono le probabilità a priori che Tizio, non essendo un esperto del settore, non

conosce: il medico, che assumiamo esperto, sostiene che, nella città di Tizio l'insorgenza

di F1, soprattutto in quella stagione, è molto comune mentre le altre due malattie hanno

20

Page 21: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

una scarsa diusione: egli quantica tali valutazioni nelle seguenti probabilità :

P(F1) = 0.7 P(F2) = 0.2 P(F3) = 0.1

Va notato che la somma delle tre probabilità sopra assegnate è 1: infatti stiamo assu-

mendo che una e una sola causa abbia veramente agito. Non vi è invece alcun motivo

per cui le tre probabilità condizionate assegnate precedentemente (le P(E|Fi), i = 1,2,3)

sommino a 1. Alla luce di questi dati la probabilità che Tizio sia aetto da F3 è

P(F3|E) =P(F3)P(E|F3)

P(E)=

0.1×0.99P(E)

=0.099P(E)

. (1.8)

Allo stesso modo

P(F2|E) =P(F2)P(E|F2)

P(E)=

0.7×0.2P(E)

=0.14P(E)

, (1.9)

P(F1|E) =P(F1)P(E|F1)

P(E)=

0.5×0.7P(E)

=0.35P(E)

. (1.10)

Pur senza calcolare P(E), siamo in grado di tranquillizzare Tizio. Infatti,

P(F1|E)P(F3|E)

=0.35

0.099= 3.53

eP(F1|E)P(F2|E)

=0.350.14

= 2.5.

In pratica la presenza del fungo è 3 volte e mezzo più probabile della malattia F3 e 2 volte

e mezzo più probabile della varicella. Se poi vogliamo calcolare le eettive probabilità a

posteriori occorre calcolare P(E). Questo si può fare in due modi, ovviamente equivalenti.

(a) Metodo formale: perché E si verichi, deve vericarsi uno tra i tre eventi Fi; quindi

E = (E ∩F1)∪ (E ∩F2)∪ (E ∩F3);

essendo poi le cause incompatibili,

P(E) = P(E ∩F1)+P(E ∩F2)+P(E ∩F3) (1.11)

= P(F1)P(E|F1)+P(F2)P(E|F2)+P(F3)P(E|F3)

= 0.589

21

Page 22: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

(b) Metodo più semplice: dalle formule (1.8),(1.9) e (1.10) si evince che P(E) non

è altro che un fattore di normalizzazione delle tre quantità suddette, necessario

anché la loro somma sia 1. Basta quindi sommare le tre quantità, uguagliare il

risultato a 1 ed esplicitare rispetto a P(E).

Per concludere, viene fornita una versione più formale del teorema di Bayes.

Teorema 1.3 (Teorema di Bayes). . Sia E un evento contenuto in F1 ∪F2 ∪ ·· · ∪Fk,

dove gli Fj, j = 1, · · · ,k sono eventi a due a due incompatibili (il vericarsi di uno di essi

esclude la possibilità che se ne possa vericare un altro). Allora, per ognuno dei suddetti

Fj vale la seguente formula

P(Fj|E) =P(Fj)P(E|Fj)

∑ki=1P(Fi)P(E|Fi)

. (1.12)

Dimostrazione 1.3. Per la legge delle probabilità composte si ha che

P(Fj|E) =P(Fj∩E)P(E)

.

Poiché l'evento E è contenuto nell'unione degli Fi, allora risulta

E = E ∩ (k⋃

i=1

Fi) =k⋃

i=1

(E ∩Fi)

dove gli elementi dell'ultima unione scritta sono eventi mutuamente incompatibili. Allora

P(E) =k

∑i=1

P(E ∩Fi). (1.13)

Dunque,

P(Fj|E) =P(Fj∩E)

∑ki=1P(E ∩Fi)

,

e applicando a ciascuna delle intersezioni al secondo membro la legge delle probabilità

composte si ottiene la (1.12).

22

Page 23: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

La dimostrazione del teorema è molto semplice nel caso in cui il numero di eventi

incompatibili F1, · · · ,Fk risulti nito. Qualora essi rappresentino un'innità numerabile,

occorre un momento di zelo, e specicare che, nell'impostazione comune del calcolo delle

probabilità, quella sistematizzata da Kolmogorov nel 1933, il teorema continua ad esse-

re ugualmente valido; al contrario, nell'impostazione di de Finetti [de Finetti, 1937], la

(1.11) non è più garantita e occorre assumere tale uguaglianza o condizioni che la im-

plichino. Nel seguito, salvo avviso contrario, ci muoveremo nell'ambito dell'impostazione

di Kolmogorov. Un'ultima osservazione merita la formula (1.13), che prende il nome di

formula di disintegrazione della probabilità di un evento.

1.3.1 Probabilità a priori e verosimiglianze

Nella formula (1.12) il membro di sinistra prende il nome di probabilità nale (o a po-

steriori) dell'evento Fj: il termine nale sta a signicare dato che si è vericato l'evento

E. Come già osservato, il denominatore del membro di destra della (1.12) è un semplice

fattore di normalizzazione; nel numeratore, invece, compaiono due quantità : la P(Fj) è

la probabilità a priori dell'evento Fj (nell'esempio medico, rappresenta la probabilità che

qualcuno, in un dato contesto geograco, temporale, sanitario, sia aetto dalla malattia

Fj indipendentemente dall'aver riscontrato o meno i sintomi E); la P(E | Fj) rappresenta

invece la verosimiglianza di Fj, cioè la probabilità che si manifestino i sintomi E quando

si è aetti dalla malattia Fj. La formula (1.12) fornisce così un modo sintetico di va-

lutare il grado di incertezza che abbiamo sul vericarsi di un evento, basandoci sia sulle

informazioni a priori che abbiamo riguardo l'evento stesso, sia su ulteriori conoscenze

sopraggiunte, magari mediante un apposito test, come nell'esempio precedente.

Volendo confrontare le probabilità a posteriori di due tra le k possibili cause, ad

esempio Fh e Fj si haP(Fh|E)P(Fj|E)

=P(Fh)

P(Fj)× P(E|Fh)

P(E|Fj).

A conferma di quanto osservato in precedenza, si vede che il rapporto delle probabilità

a posteriori di due eventi è pari al prodotto dei due rapporti: P(Fh)/P(Fj) è il rapporto

a priori mentre il rapporto delle verosimiglianze P(E|Fh)/P(E|Fj) viene spesso indicato

23

Page 24: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

con B e prende il nome di fattore di Bayes: esso rappresenta un indicatore di evidenza

relativa per una possibile ipotesi Fh rispetto ad un'altra ipotesi Fj, basato esclusivamente

sui fatti osservati (l'evento E) e non su valutazioni soggettive sul vericarsi degli eventi

Fj, j = 1, · · · ,k. Un valore di B pari a 1 corrisponde al caso di eguale evidenza per le due

ipotesi a confronto.

1.4 L'impostazione soggettiva della probabilità

È bene chiarire subito un aspetto essenziale: la probabilità non è una caratteristica in-

trinseca degli eventi per i quali viene calcolata bensì può dipendere dalla percezione che

l'individuo ha degli eventi stessi. Quando si lancia una moneta presa a caso da un salva-

danaio, siamo tutti pronti a sostenere che la probabilità che la moneta dia testa (T) sia

pari a 0.5: in realtà, a voler essere pignoli, avremmo dovuto vericare che la moneta fosse

regolare (che, ad esempio, non fosse una moneta con due teste!) e che non presentasse

vistose alterazioni.

Allo stesso modo ci appare naturale, estraendo a caso una pallina da un'urna che ne

contiene 10 rosse (R) e cinque blu (B), che la probabilità che la pallina estratta sia B

sia posta pari a 1/3. Ma se chiediamo ad un gruppo di persone di valutare la probabilità

che la squadra di calcio A superi la squadra B nella prossima partita di campionato, è

verosimile aspettarci tante dierenti risposte e nessuno trova da ridire sul fatto che un

tifoso della squadra A reputi più probabile l'evento vittoria della squadra A rispetto,

ad esempio, ad un tifoso della squadra B.

E' giusticabile tutto ciò ? Esistono casi in cui la probabilità è soggettiva (variabile

da individuo a individuo) ed altri in cui è invece uguale per tutti? Certamente no.

La probabilità che un individuo associa ad un evento è sempre soggettiva: essa rap-

presenta il grado di ducia che l'individuo pone nel vericarsi dell'evento. Essa si colloca

dunque, non già all'interno dell'evento bensì tra l'individuo e il mondo esterno: è dall'in-

terazione che scaturisce tra l'individuo e l'evento, dall'interesse che per l'individuo suscita

l'evento che nasce la valutazione della probabilità (si veda Cifarelli & Muliere [1989]).

24

Page 25: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Risulta allora del tutto normale che individui dierenti, di fronte al lancio di una mo-

neta, in assenza di particolari informazioni sulla moneta stessa, concordino nel sostenere

che, non foss'altro per ragioni di simmetria, la probabilità che la moneta dia T è uguale

alla probabilità che la moneta dia C e quindi entrambe valgano 0.5. Ma la partita di

calcio è un qualcosa di ben più complesso e ciascun individuo, con le sue informazioni

e le sue distorsioni (tifo, pregiudizi, superstizioni, etc..) nirà con l'associare all'evento

vince la squadra A una probabilità dierente dagli altri.

Una prima conseguenza della soggettività della probabilità è che non esiste una pro-

babilità corretta, se non forse in alcuni casi speciali. Anche se, come abbiamo visto, un

gran numero di persone concorda nell'assegnare probabilità 0.5 all'evento la moneta dà

T, non esiste alcun meccanismo sico per vericare tale valutazione e non servirebbero

nemmeno un gran numero di prove ripetute per eliminare il dubbio che la probabilità di

T sia 0.5001 e non 0.5.

Il fatto che non esista una probabilità corretta per un dato evento, non ci autoriz-

za però ad associare agli eventi probabilità scelte a caso: pur nella soggettività delle

valutazioni, le probabilità debbono soddisfare alcune condizioni di coerenza.

Negli anni '20 e '30, B. de Finetti, con una serie di scritti (si vedano, ad esem-

pio de Finetti 1937,1981), gettò le basi per la costruzione della teoria soggettiva della

probabilità : a tal ne egli utilizzo lo schema teorico, e il linguaggio, delle scommesse.

Nel prossimo paragrafo verrà illustrata tale impostazione arrivando così alla denizione

soggettiva di probabilità. Inoltre, attraverso la condizione di coerenza, verranno riotte-

nuti quei postulati che altre teorie della probabilità introducono in modo esogeno. La

profonda inuenza che la gura di Bruno de Finetti tuttora esercita nella probabilità e

nella statistica possono essere apprezzati appieno mediante la lettura dei suoi due volumi,

[de Finetti, 1970], apparsi poi in lingua inglese in de Finetti (1974, 1975). e ristampati

in Italia in copia anastatica da Giuré nel 2005.

1.4.1 Denizione e condizione di coerenza

Prima di addentrarci nel linguaggio delle scommesse, è bene chiarire che cosa si intende

per evento nell'ottica soggettiva.

25

Page 26: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Denizione 1.1. Un evento è un ente logico che può assumere solo due valori: vero (V)

o falso (F). Inoltre la situazione sperimentale deve essere tale per cui, una volta eettuata

la prova, si è in grado di vericare se l'evento si sia manifestato come V oppure come F.

Ad esempio, la proposizione La squadra A vincerà il campionato nel 2010 è un

evento, che potrà essere dichiarato vero o falso nel mese di giugno del 2010. Al contrario,

la proposizione La tal moneta dà Testa con probabilità 0.5 non rappresenta un evento

perché non siamo in grado di vericarne la verità o meno: è un evento invece il seguente:

Nei prossimi dieci lanci, la tal moneta fornirà 3 T e 7 C. Possiamo ora dare la denizione

di probabilità [Cifarelli & Muliere, 1989]:

Denizione 1.2. La probabilità di un evento E, per un dato individuo, in un certo

momento della sua vita, è il prezzo P(E) = p che egli ritiene giusto pagare (o ricevere da

uno scommettitore) per partecipare ad una scommessa in cui vincerà (o pagherà ) 0 se

E non si verica oppure 1, qualora E si verichi.

È importante sottolineare che l'individuo deve produrre lo stesso valore di p sia nelle

vesti di scommettitore che nel ruolo del Banco. Se ad esempio l'evento su cui scommet-

tiamo è A = vince la squadra A e Tizio ritiene che p = P(A) = 0.4 allora Tizio deve

essere disposto a

pagare 0.4 per ricevere 1 in caso di vittoria di A (e 0 altrimenti)

oppure

pagare 0.6 per ricevere 1 in caso di mancata vittoria di A (e 0 altrimenti)

C'è da notare che in questo modo la valutazione della probabilità non dipende dall'entità

della posta in palio in quanto tutte le considerazioni n qui esposte funzionano ugualmente

se le poste vengono moltiplicate per una somma S.

Abbiamo già detto che la probabilità è soggettiva ma deve rispettare una condizione

di coerenza.

26

Page 27: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Denizione 1.3. . Una valutazione di probabilità sugli n eventi E1,E2, · · · ,En si dice

coerente se nessuna combinazione di scommesse sugli eventi consente una vincita certa

(indipendentemente dagli eventi Ei, i = 1, · · · ,n, che si vericheranno eettivamente).

Esempio 1.10

Consideriamo il caso di una corsa a cui partecipano n cavalli, e siano p1, p2, · · · , pn le

probabilità di vittoria assegnate agli n cavalli. Consideriamo il caso in cui

p1 + p2 + · · ·+ pn =C < 1;

Allora è suciente scommettere una posta S su ogni cavallo partecipante alla gara per

garantirsi una vincita certa. Infatti la quota pagata per partecipare alle scommesse sarà

p1S+ p2S+ · · ·+ pnS =CS < S

a fronte di una vincita certa pari a S (un cavallo vincerà certamente). ♦Dal precedente esempio, dunque emerge in modo chiaro che, sebbene nella denizione

di probabilità non sia espressamente richiesto, la somma delle probabilità che i singoli

cavalli vincano la corsa non può essere che 1. Inoltre, sebbene nella denizione soggettiva

questo non sia espressamente richiesto, la probabilità di un evento deve essere un numero

compreso tra 0 e 1. Tale vincolo emerge naturalmente, infatti, se vogliamo che la nostra

probabilità sia coerente. Infatti

Teorema 1.4. Condizione necessaria e suciente anché P(E) sia coerente è che

0≤ P(E)≤ 1

In particolare, se P(E) = 0, l'evento è impossibile, se P(E) = 1, l'evento si dice certo.

Dimostrazione 1.4. Sia p = P(E) e assumiamo di scommettere una posta S sul

vericarsi di E. Quando E si verica il guadagno ottenuto dalla scommessa è W (E) =

S− pS = S(1− p). Quando E non si verica si ha invece W (E) = −pS. Se prendiamo

p < 0, allora basta scommettere una quantità S positiva per garantirci una vincita sicura.

27

Page 28: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Se invece prendiamo p > 1, sarà suciente prendere una posta S negativa (ovvero,

invertire i termini della scommessa) per garantirci una vincita certa.

Ne segue che 0≤ P(E)≤ 1. Inoltre, se l'evento E è certo si avrà certamente W (E) =

(1− p)S e, per non avere vincite certe, deve per forza essere W (E) = 0, da cui p = 1;

allo stesso modo si verica che p deve essere 0 nel caso di eventi impossibili.

È possibile derivare, attraverso la condizione di coerenza tutte le più familiari regole

del calcolo delle probabilità, come ad esempio il teorema delle probabilità totali.

Meritano un discorso a parte le probabilità condizionate che, nell'impostazione sog-

gettiva, sono considerate vere e proprie probabilità ma riferite ad eventi subordinati (del

tipo E1 | E2): in termini di scommesse la probabilità condizionata P(· | ·) si denisce

esattamente come nel caso precedente quando E2 si verica, mentre non si procede alla

scommessa -non se ne valuta la probabilità - se, al contrario, E2 non si verica.

Esempio 1.11

In una sala scommesse si accettano scommesse sull'esito dell'incontro di calcio tra la

squadra A e la squadra B. Gli esperti sostengono che il giocatore Pallino è molto im-

portante per la squadra A, le cui probabilità di vittoria sono molto diverse con Pallino in

campo o meno. Siano E1 l'evento Vince la squadra A e E2 l'evento Pallino gioca.Uno scommettitore può decidere di pagare un prezzo p per partecipare ad una scommessa

relativa all'evento E1 | E2. In questo caso gli esiti possibili della scommessa sono:

Gioca Pallino e la squadra A vince: Tizio incassa 1;

Gioca Pallino e la squadra A perde: Tizio incassa 0;

Non gioca Pallino: la scommessa è annullata e a Tizio viene restituita la posta p

Dalla precedente denizione di probabilità condizionata è possibile far discendere in

modo diretto, attraverso la condizione di coerenza, la legge delle probabilità composte

così come il Teorema di Bayes.

28

Page 29: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

1.5 Variabili casuali

Spesso, di un dato esperimento, ci interessano soltanto uno o più specici aspetti numeri-

ci. Ad esempio, quando si estrae un campione casuale di 10 soggetti da una popolazione

di studenti, su questi vengono poi rilevate alcune grandezze numeriche importanti per

l'indagine in questione (come il peso, l'altezza o il numero di esami già sostenuti) mentre

ne vengono trascurate tantissime altre. Allo stesso modo, quando si lancia un dado, il

più delle volte ci interessa sapere quale numero da 1 a 6 mostrerà sulla faccia superiore,

meno frequentemente saremo interessati al tempo che il dado ha impiegato per arrestarsi!

Questo signica che, ad ogni possibile realizzazione ω ∈ Ω, è possibile associare un va-

lore X(ω) che rappresenta il valore numerico associato a quella particolare realizzazione.

Prima di denire in modo formale il concetto di variabile aleatoria, è necessario introdurre

il concetto di σ -algebra di Borel.

Denizione 1.4. Si chiama σ -algebra di Borel e si indica col simbolo B(R) la più

piccola σ -algebra ottenibile a partire da tutti gli intervalli aperti della retta reale mediante

le operazioni di unione, intersezione e negazione.

Denizione 1.5. Dato uno spazio Ω, dotato di una σ -algebra A , si chiama variabile

aleatoria una funzione X : Ω→ R tale che, ∀B ∈B(R),

P(X ∈ B) = P(ω : X−1(ω) ∈ B). (1.14)

La formula (1.14) stabilisce una condizione di misurabilità della funzione X e aerma

che è possibile calcolare la probabilità di un evento B solo quando l'immagine inversa di

B appartiene alla σ -algebra A . La σ -algebra B(R) gioca dunque il ruolo di immagine

della σ -algebra di partenza mediante la funzione X(ω)

Tra le variabili aleatorie (v.a.), grande importanza rivestono due famiglie:

v.a. discrete;

v.a. assolutamente continue.

29

Page 30: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Denizione 1.4. Una variabile casuale X, si dice discreta se può assumere un numero

nito o al più numerabile di valori reali x1,x2, . . . ; in tal caso esiste una funzione PX

denita da

PX(x) = Pr(()X = x),

detta funzione di massa di probabilità o densità discreta, tale che

1. 0≤ P(X = xi)≤ 1;

2. ∑∞i=1P(X = xi) = 1.

L'insieme dei valori assunti dalla X può dunque avere cardinalità nita o numerabile; in

entrambi i casi esso prende il nome di spettro e verrà indicato con il simbolo S. In questo

caso si denisce la distribuzione di probabilità della v.a. X elencando i valori assumibili

dalla X e le probabilità con cui questi valori vengono assunti. Ad esempio, nel caso di

una variabile che assume k diversi valori, x1,x2, . . . ,xk), scriveremo

valori di X x1 x2 x3 · · · x j · · · xk

P(X = xi) p1 p2 p3 · · · p j · · · pk

Un esempio di variabile casuale discreta semplice ma molto importante è la variabile

casuale indicatrice che assume valore 1 quando un certo evento, diciamo E, si verica e

0 quando non si verica

IE(ω) =

1 se ω ∈ E

0 se ω 6∈ E.

Esempio 1.12 [Distribuzione binomiale.] Si lancia tre volte una moneta che dà testa

(T) con probabilità p, e croce (C) con probabilità q = 1− p. I tre lanci possono essere

considerati indipendenti e siamo interessati allo studio della v.a. X = numero di T nei

tre lanci .

30

Page 31: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Al generico lancio i-esimo associamo la v.a. Yi che può assumere i due valori 0 e 1

abbinati rispettivamente agli eventi C e T . Ne consegue che

X = Y1 +Y2 +Y3;

inoltre è presto visto (mediante elencazione di tutti i 23 = 8 possibili risultati) che la X

può assumere solo i valori interi da 0 a 3 compresi. Inoltre, per l'indipendenza dei lanci

e per semplici ragionamenti di carattere combinatorio si ha che, per j = 0,1,2,3,

P(X = j) =(

3j

)p jq3− j.

La formula appena scritta è un caso particolare della legge binomiale che stabilisce, in

presenza di un generico numero n di prove indipendenti e dicotomiche e tali che la pro-

babilità di successo in ciascuna prova è costante e vale p, le probabilità di osservare k

successi ed n− k insuccessi. ♦

Una variabile casuale X si dice assolutamente continua se può assumere tutti i valori

reali contenuti in un intervallo [a,b], i cui estremi possono anche essere inniti.

Contrariamente a quanto avviene per le variabili casuali discrete, nel caso di una

variabile casuale continua, un evento con probabilità zero non è irrealizzabile. Questo

accade perché l'assegnazione della probabilità su un supporto di numeri reali deve avvenire

secondo un criterio diverso da quello utilizzato per le variabili discrete. Consideriamo ad

esempio il caso di una v.a. che può assumere tutti i valori reali nell'intervallo [0,1], e

supponiamo di assegnare, ad ogni valore reale dell'intervallo, una probabilità positiva, per

quanto piccola, pari ad ε . È chiaro che l'ammontare complessivo di probabilità assegnato

all'insieme [0,1] risulterebbe ben superiore a 1. Questo ci obbliga, in generale, ad asse-

gnare probabilità zero a tutti i singoli valori dell'intervallo e procedere all'assegnazione

della probabilità agli intorni dei singoli punti.

Denizione 1.5. Una variabile casuale reale X, si dice assolutamente continua se

esiste una funzione fX , detta funzione di densità di probabilità, che gode delle

seguenti proprietà :

31

Page 32: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

f (x)≥ 0, ∀x ∈ R;

∫R f (x)dx = 1.

per ogni insieme B ∈B(R),

P(X ∈ B) =∫

Bf (x)dx.

e, tale che,

Esempio 1.13 [Distribuzione uniforme.] In una versione super tecnologica della ruota

della fortuna, supponiamo di azionare una lancetta che può fermarsi in un qualunque

punto di una circonferenza di lunghezza 2πr, dove r è il raggio della circonferenza;

assumiamo inoltre che, per ragioni di simmetria, nessun punto possa considerarsi più

probabile di un altro. In altri termini, tutti i valori da 0 a 2πr hanno la stessa densità

di probabilità. In altri termini, a sub-intervalli di eguale ampiezza di [0,2πr) occorre

assegnare la stessa probabilità, e questo implica che la funzione di densità f debba essere

costante, ovvero

f (x) =1

2πr, 0≤ x≤ 2πr.

Esempio 1.14 [Distribuzione esponenziale.] Si dice che la v.a. X ha distribuzione

esponenziale di parametro λ - in breve X ∼ Exp(λ ) - se la sua funzione di densità è

f (x) = λ exp(−λx) , 0≤ x <+∞. (1.15)

La v.a. esponenziale è spesso utilizzata come modello per valutare i tempi aleatori di

attesa (del prossimo autobus, del prossimo sportello libero in banca, etc.); dalla denizione

di v.a. discende immediatamente che, se volessimo calcolare la probabilità che X sia

superiore ad un certo livello K dovremmo calcolare

P(X > K) =∫

Kλ exp(−λx)dx = · · ·= exp(−λK) .

32

Page 33: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Esistono poi v.a. che non sono classicabili né come discrete né come assolutamente

continue. Esempi di questo tipo sono forniti da esperimenti che, con una certa probabilità

p forniscono un valore specico, e con probabilità complementare generano un valore

casuale appartenente ad un intervallo specico. Una situazione concreta di questo tipo è

il nostro tempo di attesa aleatorio al semaforo: se arriviamo con il verde il nostro tempo

di attesa è zero, mentre se arriviamo con il rosso attenderemo un tempo aleatorio che

dipende da quando il segnale di rosso è iniziato (vedi Esercizi).

Abbiamo introdotto la probabilità come una funzione d'insieme: questa sua caratte-

ristica matematica la rende spesso poco operativa e poco adatta ad elaborazioni di calcolo.

Per questo motivo è utile introdurre una nuova funzione, stavolta di punto, ovvero denita

per ogni valore della retta reale in grado di fornirci ugualmente le informazioni relative

alla probabilità con cui una certa v.a. X assume valori nei vari insiemi B ∈B(R).

Denizione 1.6. Data la variabile casuale X, si dice funzione di ripartizione associata

alla distribuzione della variabile X la funzione FX : R→ [0,1] denita da

FX(b) = P(X ≤ b), b ∈ R.

La funzione di ripartizione FX(·) è dotata delle seguenti proprietà

1. FX(·) è non decrescente, cioè b1 < b2, ⇒ FX(b1)≤ FX(b2);

2. limb→−∞ FX(b) = 0; limb→+∞ FX(b) = 1;

3. FX è continua a destra, cioè limh→0 FX(b+h) = FX(b).

La funzione di ripartizione fornisce la probabilità che la variabile aleatoria X assuma

valori non superiori a un certo valore b.

Osservazione 1.2. Sebbene la funzione di ripartizione fornisca direttamente la probabi-

lità dei soli intervalli aperti a sinistra, attraverso semplici operazioni è possibile risalire alla

33

Page 34: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

probabilità di qualunque insieme boreliano. Pur senza dimostrare il suddetto risultato,

forniamo alcuni ovvi esempi:

P(a < X ≤ b) = F(b)−F(a).

P(X > a) = 1−P(X ≤ a) = 1−F(a).

Risulta poi ovvio che, per variabili aleatorie assolutamente continue, P(X < a) = P(X ≤a), per ogni valore di a∈R. Questo non avviene in generale per le variabili discrete come

vedremo tra breve mediante alcuni esempi.

Esempio 1.15 [Distribuzione binomiale] Riprendiamo in esame la v.a. Bin(3, p) dell'E-

sempio 1.12, e calcoliamone la funzione di ripartizione, ponendo per semplicità p = 0.4.

Poiché X può assumere solo i valori nello spettro S = 0,1,2,3, è ovvio che

F(x) = P(X ≤ x) = 0, ∀x < 0.

Inoltre, per ogni 0 ≤ x < 1, avremo P(X ≤ x) = P(X = 0) = 0.63 = 0.216. Allo stesso

modo, per ogni 1 ≤ x < 2 si ha F(x) = P(X ≤ x) = P(X = 0)+P(X = 1) = 0.63 + 3×0.620.4 = 0.216+0.432 = 0.648, e per ogni 2≤ x < 3,

F(x) = P(X ≤ x) = P(X = 0)+P(X = 1)+P(X = 2)

= 0.63 +3×0.620.4+30.6×0.42 = 0.936.

Si avrà inne F(x) = 1, per ogni x≥ 3. Avremo dunque

F(x) =

0 x < 0

0.216 0≤ x < 1

0.648 1≤ x < 2

0.936 2≤ x < 3

1 3≤ x

.

Da notare la discontinuità della funzione di ripartizione in corrispondenza dei punti dello

spettro S.

34

Page 35: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

−4 −2 0 2 40.0

0.20.4

0.60.8

1.0

Funzione di ripartizione per una v.a. Bin(3,0.4)

x

♦Gracamente la funzione di ripartizione di una variabile aleatoria discreta si presenta come

una funzione a gradini. I salti avvengono in corrispondenza dei valori che la v.a. può

assumere e l'altezza del gradino in x j è data proprio da p j = P(X = x j), j = 1, . . . ,k.. Più

in generale se una v.a. X è discreta ed assume i valori (x1,x2, . . . ,xk), con probabilità

rispettive (p1, p2, . . . , pk), la funzione di ripartizione calcolata nel generico punto x è data

dalla formula

F(x) = ∑x j:x j≤x

P(X = x j) = ∑x j:x j≤x

p j. (1.16)

Esempio 1.16 [Distribuzione Uniforme] Sia X una v.a. aleatoria con distribuzione uni-

forme nell'intervallo (a,b). In seguito useremo l'abbreviazione X ∼ Unif(a,b). Questo

implica che la funzione di densità di X è

f (x) =

1b−a a < x < b

0 altrimenti.

Per calcolare la funzione di ripartizione occorre notare preliminarmente che, essendo la

probabilità concentrata nell'intervallo (a,b), si avrà F(x) = 0, per ogni x≤ a, e F(x) = 1,

per ogni x > b. Inoltre per ogni a < x≤ b, avremo

F(x) =∫ x

af (t)dt =

∫ x

a

1b−a

dt =x−ab−a

.

35

Page 36: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

In conclusione,

F(x) =

0 x≤ ax−ab−a a < x≤ b

1 x > b.

♦Da notare che in questo esempio, come in tutti i casi di v.a. assolutamente continue,

la funzione di ripartizione non ha salti, cioè è continua su tutti i punti del supporto. In

altri termini, se X è assolutamente continua, F(x+) = F(x), per ogni x reale. poiché,

per ogni x, si ha P(X = x) = 0. Questo implica che, per v.a. assolutamente continue,

P(a≤ X ≤ b) = P(a < X ≤ b) = P(a≤ X < b) = P(a < X < b).

Sempre nel caso di variabili assolutamente continue, la funzione di densità f e la funzione

di ripartizione F di una v.a. aleatoria sono legati dalla ovvia relazione

P(a≤ X ≤ b) = F(b)−F(a) =∫ b

af (x)dx

che per a→−∞ diventa

P(X ≤ b) = F(b) =∫ b

−∞

f (x)dx.

Derivando, ove possibile, i due membri della precedente relazione si ottiene

∂F(b)∂b

= f (b)db,

cioè la densità non è altro che la derivata della funzione di ripartizione, nei punti in cui

essa ammette derivata.

Esempio 1.17 [Distribuzione esponenziale ] Sia X ∼ Exp(λ ), con funzione di densità

data dalla (1.15). Per calcolare la funzione di ripartizione occorre determinare, per ogni

valore b ∈ R, la quantità FX(b) = Pr(X ≤ b). Poiché la densità di X è positiva solo per

36

Page 37: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

x > 0, è ovvio che FX(b) = 0, per ogni valore di b negativo o nullo. Per b > 0, invece,

FX(b) = Pr(X ≤ b) =∫

bfX(x)dx

=∫ b

0λ exp(−λx)dx

= 1− exp(−λb) .

1.6 Vettori aleatori

La denizione di v.a. si estende in modo immediato al caso multidimensionale.

Denizione 1.6. Dato uno spazio Ω, dotato di una σ -algebra A , si chiama vettore

aleatorio X = (X1, . . . ,Xd) una funzione X : Ω→ Rd tale che, ∀B ∈B(Rd),

P(X ∈ B) = P(ω : X(ω) ∈ B) = P(X−1(B)). (1.17)

Anche in questo caso diremo che il vettore X è misurabile rispetto alla σ -algebra di

riferimento.

La distribuzione del vettore aleatorio X è anche in questo caso ottenuta mediante

l'immagine inversa dalla del vettore aleatorio sulla σ -algebra dello spazio di partenza,

cioè

Pr(X ∈ B) = P(X−1(B)).

Se le componenti (X1, . . . ,Xd) del vettore X sono discrete, la distribuzione di probabilità

del vettore X è data dalla funzione di probabilità

p(x1,x2, . . . ,xd) = P(X1 = x1,X2 = x2, . . . ,Xd = xd),

dove ogni valore x j varia nello spettro S j della corrispondente v.a. X j. La formula sopra

scritta viene in genere denita distribuzione congiunta del vettore X.

37

Page 38: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Analogamente diremo che la distribuzione di X è assolutamente continua se

P(X ∈ B) =∫

BfX(x)dx

per qualche funzione non negativa f : Rd→R+ che prende il nome di densità del vettore

X. Nella precedente formula abbiamo usato l'abbreviazione dx al posto della più corretta

dx1dx2 . . .dxn.

Esempio 1.18 [ Estrazione senza ripetizione e legge ipergeometrica [Dall'Aglio, 2000]] Si

abbia un mazzo di carte da poker come nell'Esempio 1.3, e si estraggano senza ripetizione

5 carte dal mazzo: si indichi con X il numero di K estratti, e con Y il numero di Q estratte.

Vogliamo determinare la legge congiunta del vettore aleatorio (X ,Y ) Basta un semplice

ragionamento per convincersi che, dato lo stesso numero di K e Q nel mazzo, le due v.a.

hanno, prese singolarmente, la stessa distribuzione, con spettro SX = SY = 0,1,2,3,4.Inoltre, per r = 0,1,2,3,4,

P(X = r) = P(Y = r) =

(4r

)( 485−r

)(525

) .

Per calcolare la distribuzione congiunta di (X ,Y ) occorre riettere sul fatto che, date le

5 carte, le due v.a. X e Y debbono sommare ad un numero minore o uguale a 5. Allora,

per ogni coppia (r,s) tale che 0≤ r+ s≤ 5, si ha

P(X = r,Y = s) =

(4r

)(4s

)( 445−r−s

)(525

) . (1.18)

La distribuzione di X (e Y ) prende il nome di distribuzione ipergeometrica, molto frequente

in situazioni che coinvolgono esperimenti con estrazioni senza ripetizione. Applicando la

formula (1.18) si ottiene la tabella seguente che rappresenta la distribuzione congiunta

del vettore aleatorio (X ,Y ). La riga e la colonna contrassegnate dal totale rappresentano

invece, come vedremo tra breve, le distribuzioni marginali delle v.a. X e Y rispettivamente.

38

Page 39: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Y X 0 1 2 3 4 Tot.

0 0.418 0.209 0.031 0.001 ≈ 0 0.659

1 0.209 0.082 0.009 0.0002 ≈ 0 0.299

2 0.031 0.009 0.0006 ≈ 0 0 0.040.

3 0.001 0.0002 ≈ 0 0 0 0.002

4 ≈ 0 ≈ 0 0 0 0 ≈ 0

Tot. 0.659 0.299 0.040 0.002 ≈ 0 1

Esempio 1.19 [ ] Si consideri un bersaglio circolare di raggio pari a R e assumiamo di

lanciare a caso una freccia verso il bersaglio. La v.a. X che denota il punto di arrivo della

freccia avrà dunque una distribuzione uniforme sulla supercie del cerchio. In formula,

se assumiamo che il centro della circonferenza coincida con l'origine del piano (x1,x2), la

densità di X = (X1,X2) è

fX(x1,x2) =

1πR2 x2

1 + x22 ≤ R2

0 altrove

Per calcolare, ad esempio, la probabilità che la freccia colpirà un punto che non disti più

di k dal centro, basterà considerare il rapporto tra l'area del cerchio di raggio k e quella

del cerchio di raggio R, cioè k2/R2. ♦

Densità marginali e condizionate

Supponiamo che il vettore aleatorio d-dimensionale X abbia densità fX(·). Siano inoltre

Y = (X1, . . . ,Xk) e Z = (Xk+1, . . . ,Xd) per qualche 1 ≤ k ≤ d− 1, due sub-vettori di Xcosicché X = (Y,Z), e poniamo fY,Z(y,z) = fX(x). Volendo calcolare la distribuzione

39

Page 40: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

del vettore Y, avremo

P(Y ∈ B) = P((Y,Z) ∈ B×Rd−k)

=∫

B×Rd−kfY,Z(y,z)dydz

=∫

B

[∫Rd−k

fY,Z(y,z)dz]

dy

=∫

BfY(y)dy,

dove si è posto

fY(y) =∫Rd−k

fY,Z(y,z)dz.

Abbiamo così ottenuto la distribuzione marginale di Y che, essendo espressa mediante

un integrale, risulta anch'essa assolutamente continua con densità fY(y).

La densità del vettore Z condizionata all'evento Y = y, si esprime attraverso la

seguente formula:

fZ|Y(z|y) =fY,Z(y,z)

fY(y), (1.19)

denibile per ogni valore y tale che fY(y) 6= 0. La fZ|Y(z|y) è una densità in z, dettaappunto densità condizionata di Z dato Y = y.

La giusticazione di questa formula richiede un procedimento al limite in quanto si sta

condizionando ad un evento di probabilità nulla. Per giusticare quanto scritto, almeno

a livello intuitivo, limitiamoci al caso in cui sia X e Y sono v.a. reali e ricordiamo che la

densità di una v.a. Y calcolata in un punto y, soddisfa, per denizione, la relazione

fY (y)dy≈ Pr(y < Y < y+dy) .

Analogamente

fX |Y (x | Y = y)dx =fX ,Y (x,y)dxdy

fY (y)dy

≈ Pr(x < X < x+dx∩ y < Y < y+dy)Pr(y < Y < y+dy)

= Pr(x < X < x+dx | y < Y < y+dy)

40

Page 41: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Indipendenza

Tra le varie possibili relazioni tra le componenti di un vettore aleatorio, notevole im-

portanza riveste la relazione di indipendenza. Limitiamoci per semplicità al caso di due

v.a. reali: l'estensione al caso vettoriale è immediata. Diremo che le v.a. X e Y sono

indipendenti, e lo indicheremo con il simbolo

X ⊥⊥ Y

se, per ogni coppia di insiemi A, B ∈B(R) risulta:

Pr(X ∈ A,Y ∈ B) = Pr((X ,Y ) ∈ A×B) = Pr(X ∈ A)Pr(Y ∈ B) .

Nel caso in cui il vettore aleatorio (X,Y) è assolutamente continuo con densità fX,Y(x,y),e di conseguenza, le densità marginali sono fornite dalle

fX(x) =∫Y

fX,Y(x,y)dy

fY(y) =∫X

fX,Y(x,y)dx,

allora le seguenti aermazioni sono equivalenti:

X⊥⊥ Y⇐⇒ fX,Y(x,y) = fX(x) fY(y)

⇐⇒ fX|Y(x|y) = fX(x)

⇐⇒ fY|X(y|x) = fY(y).

1.7 Relazioni tra variabili aleatorie

In questo paragrafo consideriamo un problema molto frequente nelle applicazioni. A

partire dalla conoscenza della distribuzione di un vettore aleatorio X, k-dimensionale, si

vuole determinare la distribuzione di una funzione Y = g(X) del vettore aleatorio X, con

Y h-dimensionale e h≤ k. Una trattazione formale del problema, per quanto utile a livello

teorico, non porta molto lontano. Siano infatti FX e FY le funzioni di ripartizione di X e

41

Page 42: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Y. Avremo che, in generale, si potrà scrivere, per ogni y ∈ Rh,

FY(y) = P(Y ≤ y) = P(g(X)≤ y)

=

x:g(x)≤y fX(x)dx se X è ass. continua

∑x:g(x)≤yP(X = x) se X è discreta.

La risoluzione del suddetto integrale (o somma), non è in generale aatto agevole e

deve essere arontata, volta per volta, con gli adeguati strumenti di calcolo, analitico o

numerico.

È più opportuno allora, illustrare una serie di situazioni maggiormente frequenti, nelle

quali è possibile ottenere la distribuzione di g(X).

1.7.1 Il caso di X e Y entrambe v.a. reali

Sia X una v.a. reale e sia g(·) una funzione reale a valori reali. Per ora assumiamo

che la g(x) risulti anche monotona non decrescente; l'estensione al caso generale non è

complessa. In questo caso si può scrivere

FY (y) = P(Y ≤ y) = P(g(X)≤ y) = P(X ≤ g−1(y)) = FX(g−1(y)). (1.20)

I passaggi precedenti, per quanto ovvi, suggeriscono la via maestra per risolvere il

problema: si è infatti passati da un problema relativo alla distribuzione della v.a. Y ad

uno sulla distribuzione della v.a. X che invece conosciamo. Se, inoltre, la v.a. X è

assolutamente continua e la trasformazione g(·) è continua e dierenziabile, allora anche

la v.a. Y è assolutamente continua e avremo

fY (y) =ddy

FY (y) =ddy

FX(g−1(y))

= fX(g−1(y))| ddy

g−1(y)|

L'assunzione che g sia una trasformazione monotona crescente è solo di comodo. Un

risultato del tutto analogo vale nel caso di g decrescente: basta fare attenzione al verso

delle disuguaglianze nella (1.20). Conviene dunque riformulare il risultato nel seguente

42

Page 43: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Teorema 1.5. Se X è una v.a. reale assolutamente continua con densità fX(x), x ∈ Re g(·) è una funzione reale invertibile, allora la densità della v.a. Y = g(X) è data da

fY (y) = fX(g−1(y))| ddy

g−1(y)|. (1.21)

e il supporto di Y si ottiene applicando la funzione g al supporto di X , cioè SY = g(SX).

Esempio 1.20 [ La v.a. log-normale] Sia X ∼ N(0,1). Si vuole calcolare la legge di

Y = exp(X). La funzione esponenziale è monotona e g−1(y) = logy ha derivata 1/y.

Inoltre il supporto di Y è dato dalla semiretta positiva. Dunque la densità di Y è

fY (y) =1

y√

2πexp(−1

2log2 y

), y > 0 (1.22)

La densità (1.22) prende il nome di Log-Normale, molto utilizzata nelle applicazioni -

nanziarie. ♦

Esempio 1.21 [ Discretizzazione di una v.a. esponenziale] Sia X ∼exp(λ ), e deniamo

la v.a.

Y = ceil(X)

dove il simbolo ceil indica, dall'inglese ceiling, il più piccolo valore intero maggiore o

uguale a X .

Avremo allora che Y ∼Geo(p), con p = e−λ . ♦Nell'ultimo esempio, poiché la v.a. Y è discreta, non è stata utilizzata la formula (1.21).

1.7.2 Il caso di Y reale e X multidimensionale

A volte l'esperimento consiste nell'osservare un vettore aleatorio ma l'oggetto di interesse

è una funzione reale del risultato. In questo caso, sebbene la teoria enunciata all'inizio di

questa sezione sia pienamente applicabile, in pratica occorre arontare il problema caso

per caso. Vedremo ora degli esempi notevoli.

Esempio 1.22 [Somma di due v.a. indipendenti] Siano X e Y due v.a. indipendenti

43

Page 44: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

con funzione di ripartizione FX e FY . Si vuole determinare la distribuzione della v.a.

Z = X +Y . In questo caso

FZ(z) = P(X +Y ≤ z) =∫(x,y):x+y≤z

dFX(x)dFY (y)

=∫ +∞

−∞

∫ z−x

−∞

dFY (y)dFX(x) =∫ +∞

−∞

FY (z− x)dFX(x). (1.23)

L'ultima formula scritta prende il nome di convoluzione delle due distribuzioni. Da

notare che, nel caso in cui la v.a. Y è assolutamente continua, lo sarà anche la Z,

indipendentemente dalla natura di X e la densità è

fZ(z) =ddz

FZ(z) =∫ +∞

−∞

fY (z− x)dFX(x).

Se poi anche la v.a. X è assolutamente continua l'ultima formula si può scrivere come

fZ(z) =∫ +∞

−∞

fY (z− x) fX(x)dx.

Risolviamo come esercizio il caso in cui X e Y siano indipendenti e somiglianti con distri-

buzione di tipo N(0,1). ♦

Esempio 1.23 [Distribuzione di una v.a. di Poisson condizionata alla somma di due

v.a di Poisson indipendenti.] Siano X e Y indipendenti, con legge di Poisson di tasso,

rispettivamente pari a λX e λY . Determinare la distribuzione della v.a. X |(X +Y = k).

Si dimostra facilmente che la legge è di tipo Binomiale con parametri k e λX/(λX +λY ). ♦

Trasformazioni multidimensionali

Le regole generali per determinare la distribuzione di funzioni di variabili aleatorie restano

invariate nel caso multidimensionale.

Nel caso di trasformazioni di v.a. assolutamente continue, esiste una formula elegante

e facilmente applicabile. Consideriamo il vettore aleatorio X con densità fX e supponiamo

che esista un insieme aperto S ⊆ Rd tale che Pr(X ∈ S) = 1. Venga denita poi su S la

funzione g : Rd → Rd invertibile e continuamente dierenziabile, con determinante dello

44

Page 45: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Jacobiano strettamente diverso da zero per ogni punto di S. Allora il vettore aleatorio

Y = g(X) ha a sua volta una densità assolutamente continua con densità fY data da

fY(y) = fX(g−1(y))∣∣∣∣∂g−1(y)

∂y

∣∣∣∣1g(S)(y), (1.24)

dove∣∣∂g−1(y)/∂y

∣∣ rappresenta il modulo del determinante dello Jacobiano della trasfor-

mazione inversa x = g−1(y):

det

∂x1∂y1

. . . ∂x1∂yd

......

∂xd∂y1

. . . ∂xd∂yd

,

e g(S) è l'immagine y = g(x) : x ∈ S di S mediante g.

Esempio 1.24 [ Due normali indipendenti] Siano X e Y due v.a. indipendenti e so-

miglianti con distribuzione N(0,1). Vogliamo determinare la legge del vettore (W,Z) in

cui

W = X−Y e Z = X +Y ;

Esempio 1.25 [Somma e rapporto di v.a. di tipo Gamma.] Siano X e Y v.a. indipendenti;

sia X ∼Ga(α1,1/β ) e Y ∼Ga(α2,1/β ). Vogliamo determinare la densità congiunta delle

v.a. (U,V ), dove

U = X +Y, V = X/Y.

L'applicazione (x,y)→ (u,v) è denita su tutto il quadrante positivo tranne che sull'asse

delle x. Tuttavia Pr(Y = 0) = 0 e possiamo applicare il risultato precedente. La funzione

inversa è data da

x =uv

1+ v, y =

u1+ v

.

Inoltre anche le variabili U e V sono strettamente positive perché lo sono x e y. Il modulo

del determinante dello Jacobiano vale∣∣∣∣∣v/(1+ v) u/(1+ v)2

1/(1+ v) −u/(1+ v)2

∣∣∣∣∣= u(1+ v)2

45

Page 46: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Ne segue che, per u,v,> 0

fU,V = fX

(uv

1+ v

)fY

(u

1+ v

)u

(1+ v)2

=1

Γ(α1)Γ(α2)β α1+α2exp(− uv

β (1+ v)+

u(β (1+ v)

)× (

uv1+ v

)α1−1(u

1+ v)α2−1 u

(1+ v)2

=1

Γ(α1)Γ(α2)β α1+α2exp(− u

β

)uα1+α2−1× (

v1+ v

)α1−1(1

1+ v)α2+1

=1

Γ(α1 +α2)β α1+α2exp(− u

β

)uα1+α2−1× Γ(α1 +α2)

Γ(α1)Γ(α2)(

v1+ v

)α1−1(1

1+ v)α2+1

= fU (u)× fV (v)

Abbiamo così dimostrato che U e V sono indipendenti. Inoltre

U ∼ Ga(α1 +α2,1/β ):

la legge di V è simile ad una F di Fisher. In particolare, utilizzando ancora la regola

di trasformazione di v.a., si può dimostrare che

V1+V

∼ Beta(α1,α2);

da notare che la distribuzione di V non dipende da β . ♦

1.8 Esempi

Esempio 1.26 [Rapporto di due Normali ]

Siano X e Y due v.a. indipendenti e somiglianti con legge normale standard,

X ,Y iid∼ N(0,1)

Si vuole determinare la legge di Z = X/Y . Possiamo ottenere la legge di Z come legge

marginale del vettore aleatorio (Y,Z), dopo aver operato la trasformazione da (X ,Y ) a

(Z,Y ) Per la formula (1.24),

fZ,Y (z,y) = fX ,Y (x(y,z),y))∣∣J∣∣,

46

Page 47: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

dove J = ∂ (x,y)∂ (z,y) . In questo caso |J| vale |y|

Dunque,

fZ,Y (z,y) =1

2π|y|exp

(−1

2y2(1+ z2)

),

e quindi

fZ(z) =1

∫∞

−∞

|y|exp(−1

2y2(1+ z2)

)dy

=1π

∫∞

0y exp

(−1

2y2(1+ z2)

)dy

=1

π(1+ z2), z ∈ R.

La densità di Z è quella di una v.a. aleatoria di Cauchy, che rincontereremo ancora.

La sua caratteristica principale è nello spessore delle code, di natura polinomiale anziché

esponenziale come nel caso della legge normale o esponenziale.

♦Esempio 1.27 [Somma di uniformi ] Siano X ,Y iid∼ Unif(0,1) e si voglia calcolare la legge

della v.a. somma Z = X +Y . Vista l'indipendenza delle due v.a., è conveniente utilizzare

la formula di convoluzione,

fZ(z) =∫

fX(x) fY (z− x)dx

ricordando che

fX(t) = fY (t) =

1 t ∈ (0,1)

0 altrimenti

Per z /∈ (0,2) la densità di Z è ovviamente nulla.

L'argomento delle due densità è compreso in (0,1) se e solo se 0 < x < 1 e z−1 < x < z;

Per 0 < z≤ 1, dunque il prodotto fX(x) fY (z− x) vale 1 se e solo se 0 < x < z, cosicché,

per 0 < z < 1,

fZ(z) =∫ z

0dx = z.

47

Page 48: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Per 1 < z≤ 2, invece il prodotto fX(x) fY (z−x) vale 1 se e solo se z−1 < x < 1, cosicché,

per 1 < z≤ 2,

fZ(z) =∫ 1

z−1dx = 2− z.

Avremo dunque

fZ(z) =

z 0 < z≤ 1

2− z 1 < z≤ 2

0 altrove

.

Esempio 1.28 [Minimo e massimo di n v.a. ] Siano X1,X2, . . . ,Xn indipendenti e

somiglianti con funzione di ripartizione FX . Vogliamo calcolare la legge di

Z = maxi=1,...,n

Xi e W = mini=1,...,n

Xi

Iniziamo da Z e notiamo che i due eventi

(Z ≤ z) e (X1 ≤ z∩X2 ≤ z∩·· ·∩Xn ≤ z)

coincidono, e quindi, per l'indipendenza e la somiglianza delle Xi,

FZ(z) = P(Z ≤ z) = P(X1 ≤ z∩X2 ≤ z∩·· ·∩Xn ≤ z)

=n

∏i=1

P(Xi ≤ z) = [P(X1 ≤ z)]n = FX(z)n

Se poi si aggiunge l'ipotesi che le Xi sono assolutamente continue con densità fX allora

anche la v.a. Z è assolutamente continua con densità

fZ(z) =∂

∂ zFX(z)n = nFX(z)n−1 fX(z) (1.25)

Per quanto riguarda la v.a. W , occorre notare, in via preliminare, che

FW (w) = P(W ≤ w) = 1−P(W > w).

48

Page 49: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Inoltre i due eventi

(W > w) e (X1 > w∩X2 > w∩·· ·∩Xn > w)

coincidono e

FW (w) = 1−P(W > w) = 1−P(X1 > w∩X2 > w∩·· ·∩Xn > w)

= 1−n

∏i=1

P(Xi > w) = 1− [1−P(X1 > w)]n

= 1− (1−FX(w))n

Anche nel caso di W , se le Xi sono assolutamente continue con densità fX , la v.a W è

assolutamente continua con densità

fW (w) = n(1−FX(w))n−1 fX(w) (1.26)

Esempio 1.29 [Il quadrato di una legge normale ] Sia X ∼N(0,1); vogliamo determinare

la legge di probabilità della v.a. Y = X2. Poiché Y è non negativa con probabilità 1,

FY (y) = 0, per ogni y≤ 0. Per y > 0, invece,

FY (y) = P(Y ≤ y) = P(X2 ≤ y) = P(−√y≤ X ≤√y)

= 1−2FX(−√

y) = 2FX(√

y)−1

La densità corrispondente è

fY (y) = 2 fX(√

y)1

2√

y=

1√2πy

exp(−y

2

)La densità di Y prende il nome di χ2 con 1 grado di libertà. Essa rappresenta un caso

particolare della famiglia χ2, che a sua volta è un caso particolare della famiglia Gamma.

49

Page 50: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

1.9 Esercizi

1.9.1. Ogni giorno Mario tenta di comprare il quotidiano. Egli prova di mattina (M) con

probabilità 1/3, di sera (S) con probabilità 1/2 oppure si dimentica del tutto (D) con

probabilità 1/6. La probabilità di trovare eettivamente il giornale (G) è pari a 0.9 se va

di mattina, 0.2 se va di sera e, ovviamente 0 se non va aatto. Una sera torna a casa

e la moglie vede che Mario ha eettivamente comprato il giornale. Qual è la probabilità

che lo abbia comprato di mattina?

[Risposta: 34 ]

1.9.2. Una certa specie di criceti può nascere con il manto nero o marrone a seconda

dell'associazione tra due geni ognuno dei quali può assumere il valore A oppure B. Se i

due geni sono simili (AA oppure BB) il criceto è omozigote, altrimenti è detto eterozigote.

Se il criceto è di tipo AA allora sarà certamente marrone. Il glio di una coppia di criceti

porta con sé i due geni, uno da ogni genitore: se il genitore è eterozigote il gene ereditato

è A o B con la stessa probabilità ; se il parente è omozigote, con probabilità pari a 1,

trasmette il suo unico gene. Supponiamo che un criceto nero sia nato da una coppia di

due eterozigoti.

(a) Qual è la probabilità che questo criceto sia omozigote?

Supponiamo ora che tale criceto sia poi accoppiato ad una cricetina marrone e che tale

accoppiamento produca 7 gli, tutti neri

(b) Usa il teorema di Bayes per determinare la nuova probabilità che lo stesso criceto

risulti omozigote.

[Risposte: (a) 13 ; (b) ≈ 1]

1.9.3. Ogni mattina il lattaio ci lascia sulla porta di casa una bottiglia di latte. Egli

riceve forniture in eguale misura dalle centrali di Roma e Latina ed ogni mattina sceglie

a caso la bottiglia che ci lascia. Il latte di Roma raggiunge l'ebollizione in un tempo

in minuti che può considerarsi una v.a. N(2,3) mentre quello di Latina ha un tempo

50

Page 51: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

di ebollizione pari ad una v.a. N(2.5,4). Una certa mattina cronometriamo il tempo

necessario all'ebollizione del latte appena ricevuto e registriamo 2 minuti e 18 secondi.

Qual è la probabilità che si tratti di latte di Roma?

1.9.4. Siano S e T due variabili aleatorie indipendenti con distribuzione esponenziale.

Siano inoltre

E(S) = α E(T ) = β .

1. Determinare la distribuzione di Y = min(S,T ).

2. Calcolare la probabilità dell'evento S < T

1.9.5. Sulla legge di Weibull. Per α > 0 e λ > 0 consideriamo la funzione

f (t) =

λαtα−1e−λ tα

t > 0

0 t ≤ 0

Dimostrare che f (t) è una densità. Sia inoltre T una variabile aleatoria con densità data

da f . e supponete λ = 1. Calcolare

Pr(T > t + s|T > s) . (1.27)

Per quali valori di α la (1) è funzione crescente di s? Quale distribuzione si ottiene per

α = 1 ?

1.9.6. Il numero X di visite ad una pagina web in un intervallo di tempo pressato segue,

una distribuzione di Poisson con parametro θ . A sua volta θ è considerato aleatorio e

segue una legge esponenziale di parametro λ . Dimostrare che la legge marginale di X è

di tipo geometrico: specicare il valore del parametro. Sapendo che si sono avuti k = 5

accessi, cosa si può dire sulla legge di θ condizionata appunto al fatto che X = 5?

1.9.7. Una moneta dà testa con probabilità pari a p. Viene eettuato un numero di

lanci (indipendenti tra loro) pari a N dove N ∼ Po(λ ) cioè N ha legge di Poisson con

parametro λ . Indichiamo con X e Y le variabili aleatorie che indicano il numero di Teste

e il numero di Croci negli N lanci. Determinare la distribuzione di X e di Y .

51

Page 52: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

1.9.8. Tutte le compagnie aeree sanno che ogni passeggero che compra un biglietto

ha una probabilità pari a 110 di non presentarsi poi alla partenza. Sulla base di questa

considerazione, la compagnia Airgreen vende sempre 10 biglietti per il suo aereo a nove

posti, mentre la compagnia Bluwings vende sempre 20 biglietti per il suo areo a 19

posti. Calcolare, per entrambe le compagnie, la probabilità di overbooking, cioè di avere

all'imbarco più passeggeri dei posti disponibili.

1.9.9. Nella tua tasca ci sono N monete, dove N ∼ Po(λ ) cioè N ha legge di Poisson con

parametro λ . Vengono estratte tutte, ed ognuna è lanciata indipendemente dalle altre:

tutte hanno probabilità di dare testa con probabilità p. Dimostrare che la v.a. X denita

come il numero di monete che dà testa, ha ancora distribuzione di Poisson e stabilire con

quale parametro.

1.9.10. Siano X e Y indipendenti con distribuzione di Poisson di parametri, rispettiva-

mente, λ e µ . Dimostrare che X +Y ha distribuzione di Poisson con parametro λ +µ .

Dimostrare inoltre che la distribuzione di X |X +Y = k è di tipo binomiale, e stabilire con

quali parametri.

1.9.11. Siano X e Y indipendenti con distribuzione di Bernoulli di parametro p = 0.5.

Dimostrare che le variabili W =X +Y e Z = |X−Y | sono incorrelate ma non indipendenti.

1.9.12. Siano X e Y indipendenti con distribuzione normale standardizzata, X ,Y ∼N(0,1) e indipendenti tra loro. Determinare la legge di Z = X −Y . Dimostrare che

le v.a. Z = X−Y e W = X +Y sono indipendenti.

52

Page 53: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

CAPITOLO 2

Il valore atteso di una variabile aleatoria

2.1 Introduzione

In questo capitolo studieremo il concetto di media o valore atteso di una v.a. Si supponga

di partecipare ad una lotteria che elargisce n premi, di valore pari a 1,2, . . . ,n con proba-

bilità rispettive p1, p2, . . . , pn. Qual è il prezzo equo per partecipare a questa lotteria? In

altri termini, qual è l'equivalente certo della vincita aleatoria fornita dalla scommessa?

Se tale lotteria si svolgesse un numero K molto grande di volte, i premi risultanti sareb-

bero, il premio 1, con frequenza k1, il premio 2, con frequenza k2, e così via, no a al

premio n, con frequenza kn. La somma complessiva delle vincite sarebbe allora pari a

∑ jk j e la vincita per singola scommessa sarebbe pari a K−1∑ jk j. Per K molto grande,

con buona approssimazione, si avrebbe k j/K ≈ p j, j = 1, . . . ,n, da cui il valore medio

della lotteria può essere posto pari a

n

∑j=1

jp j.

53

Page 54: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

In altri termini, si immagini di osservare migliaia di replicazioni indipendenti di valori

generati da una variabile aleatoria X : se poi si calcola il valore medio di questi valori,

quello che si ottiene sarà una buona approssimazione del valore atteso di X , che può

dunque essere denito, in modo statistico come il valore a cui tende la precedente media

empirica quando il numero di realizzazioni casuali tende all'innito. Più avanti daremo

una versione più formale del concetto di media di una v.a. Inoltre, vedremo come

Calcolare il valore atteso di v.a. continue e discrete.

Calcolare il valore atteso condizionato, cioè il valore atteso di una v.a. X , condizio-

natamente all'informazione che un'altra v.a. Y ha assunto il generico valore Y = y.

In generale, se le v.a. X e Y non sono indipendenti il valore atteso condizionato di

X risulterà dierente da quello non condizionato.

Compiremo poi un percorso analogo per la varianza di una v.a., denita come il valore

atteso degli scarti quadratici di una v.a. X rispetto alla sua media e concluderemo con

alcuni esempi ed alcune applicazioni notevoli del concetto di media.

2.2 Denizioni e proprietà

Sia X un vettore aleatorio d-dimensionale con funzione di densità f . Sia inoltre φ : Rd→R, una funzione a valori reali di X; allora il valore atteso o media della variabile aleatoria

φ(X) è

IE(φ(X)) =∫Rd

φ(x) f (x)dx,

purché esista nito l'integrale ∫Rd|φ(x)| fX(x)dx < ∞.

La media, o valore atteso di una v.a. X si esprime con il simbolo IE(X), a volte con

µX . Nel caso in cui X è una v.a. continua, con densità fX(x), il valore atteso è dato

dall'espressione

IE(X) =∫ +∞

−∞

x fX(x)dx,

54

Page 55: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

a patto che tale integrale sia denito. Nel caso in cui la v.a. X è invece discreta, la

denizione di valore atteso non cambia concettualmente ma tiene conto del fatto che la

v.a. X assume, al più, soltanto una innità numerabile di valori e il precedente integrale

viene sostituito da una somma. Sia allora X una v.a. discreta con distribuzione di

probabilità denita su un insieme di valori S e tale che Pr(X = x) = pX(x),x ∈ S; allora

il valore atteso di X è pari a

IE(X) = ∑x∈S

xpX(x).

A volte è necessario calcolare il valore atteso di una funzione della v.a. X . Ad esem-

pio, quando eettuiamo una scommessa o un investimento, il risultato dell'evento su cui

la scommessa è stata puntata, sarà un risultato aleatorio X , ma quello a cui siamo più

interessati è il premio g(X) associato al risultato X .

Sia dunque g(X) una funzione di X , v.a. continua. Il valore atteso di g(X), quando

esiste, può essere scritto come

IE(g(X)) =∫ +∞

−∞

g(x) fX(x)dx.

Analoga formula vale nel caso discreto. Se X è una v.a. discreta con supporto S, e g(X)

è una generica funzione, il valore atteso di g(X), quando esiste, è denito come

IE(g(X)) = ∑x∈S

g(x)pX(x).

Le precedenti formule non sono esattamente le denizioni di valore atteso di g(X) ma

una diretta conseguenza della denizione.

A volte è necessario calcolare il valore atteso di una funzione di più variabili, del tipo

g(X ,Y ). In questo caso le precedenti denzioni vanno adattate in modo elementare. Sia

(X ;Y ) una v.a. doppia continua con densità fX ,Y (x,y), (x,y) ∈ R2, e sia g(x,y) una

funzione reale. Allora il valore atteso di g(X ,Y ) è denito, quando esiste dall'espressione

IE(g(X ,Y )) =∫ +∞

−∞

∫ +∞

−∞

g(x,y) fX ,Y (x,y)dxdy.

55

Page 56: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

In particolare, possiamo considerare la funzione prodotto g(x,y) = xy e scrivere che il

valore atteso del prodotto di due v.a. X e Y è pari a

IE(XY ) =∫ +∞

−∞

∫ +∞

−∞

xy fX ,Y (x,y)dxdy. (2.1)

Formule analoghe valgono naturalmente per v.a. discrete. Laddove la formula (2.1) è del

tutto generale, va notato che, nel caso in cui le v.a. X e Y siano indipendenti la densità

congiunta fX ,Y (x,y) risulterebbe pari al prodotto delle densità marginali. In questo caso,

si avrebbe

IE(XY ) =∫ +∞

−∞

∫ +∞

−∞

xy fX(x) fY (y)dxdy

=∫ +∞

−∞

x fX(x)dx∫ +∞

−∞

y fY (y)dy

= IE(X) IE(Y ) .

Dunque la media del prodotto di due v.a. indipendenti è pari al prodotto delle medie

delle due variabili; naturalmente il risultato è vero anche per funzioni di v.a. indipendenti

cosicché, se X e Y sono indipendenti, g è funzione di X e h è funzione di Y , allora

IE(g(X)h(y)) = IE(g(X)) IE(h(y)) .

Occorre sottolineare che l'implicazione inversa, non è in generale vera: è infatti possibile

che IE(XY ) = IE(X) IE(Y ) anche in casi in cui X e Y sono dipendenti.

Il calcolo del valore atteso del prodotto di due v.a. sarà importante quando tratteremo

i concetti di covarianza e correlazione.

2.2.1 Alcune proprietà

Elenchiamo qui di seguito alcune proprietà basilari del valore atteso.

1) Siano g e h due funzioni, e siano a e b due costanti reali. Allora, qualunque sia la

v.a. X , discreta o continua, si ha

IE(ag(X)+bh(X)) = a IE(g(X))+b IE(h(X)) .

56

Page 57: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

In particolare, si avrà

IE(aX +b) = a IE(X)+b.

2) Per ogni n-pla di v.a. X1, . . . ,Xn,

IE(a1X1 + · · ·+anXn) = a1 IE(X1)+ · · ·+an IE(Xn) .

3) La probabilità è un valore atteso

Sia A un evento qualsiasi; è possibile scrivere Pr(A) come il valore atteso di una specica

v.a. nel modo seguente. Deniamo la funzione indicatrice d'insieme:

IA(ω) =

1 ω ∈ A A si verica

0 ω /∈ A A non si verica.

Allora IA è una v.a. ben denita, di tipo Bernoulliano, che assume il valore 1 con

probabilità Pr(A); il valore atteso è

IE(IA) = 0×Pr(IA = 0)+1×Pr(IA = 1) = Pr(IA = 1) = Pr(A) .

Dunque, per ogni evento A, è possibile scrivere

Pr(A) = IE(IA) . (2.2)

2.3 Varianza, covarianza, correlazione

La varianza

La varianza di una v.a. X viene utilizzata come una misura della dispersione di X intorno

alla propria media. Maggiore è il valore della varianza, maggiore è la dispersione. Nel

linguaggio nanziario spesso la varianza viene chiamata volatilità. Sia allora X una v.a.

qualsiasi. La varianza di X , se esiste, è denita dalla formula

Var(X) = IE(X2)− [IE(X)]2 .

Spesso la varianza viene indicata con il simbolo σ2X . Essa rappresenta la deviazione media

quadratica della v.a. X dalla propria media IE(X) Maggiore è la varianza di X , maggiore

57

Page 58: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

è la probabilità di osservare realizzazioni di X lontane dal valore atteso. La varianza è

espressa in una unità di misura diversa dalla X , in quanto rappresenta una sintesi di valori

quadratici della X stessa. Per ovviare a tale inconveniente spesso si utilizza la deviazione

standard di X , denotata da σX che altro non è che la radice quadrate positiva di Var(X) .

Per il calcolo eettivo della varianza è possibile utilizzare il seguente risultato

Teorema 2.1.

Var(X) = IE(X2)− (IE(X))2 .

Dimostrazione 2.1.

Var(X) = IE((X− IE(X))2)= IE

(X2−2X IE(X)+(IE(X))2

)= IE

(X2)−2IE(X) IE(X)+(IE(X))2

= IE(X2)− (IE(X))2 .

Esempio 2.1 Calcoliamo il valore atteso e la varianza di una v.a. X ∼ N(0,1)

IE(X) =∫ +∞

−∞

x1√2π

exp(−1

2x2)

dx = 0,

poiché si tratta dell'integrale di una funzione dispari, su un insieme simmetrico rispetto

all'origine. Inoltre

Var(X) = IE(X2)− (IE(X))2 = IE

(X2)

=∫ +∞

−∞

x2 1√2π

exp(−1

2x2)

dx

= integrando per parti

=1√2π

∫ +∞

−∞

xd(−exp

(−1

2x2))

=1√2π

([−xexp

(−1

2x2)]+∞

−∞

+∫ +∞

−∞

exp(−1

2x2)

dx

)=

1√2π

(0+√

)= 1.

58

Page 59: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Esempio 2.2 Calcoliamo il valore atteso e la varianza di una v.a. X ∼ Ga(α,β ) con

densità

fX(x;α,β ) =β α

Γ(α)exp(−βx)xα−1, x,α,β > 0. (2.3)

Poiché la (2.3) è una densità, per ogni α e β positivi vale∫∞

0exp(−βx)xα−1dx =

Γ(α)

β α.

Dunque, per ogni k intero positivo,

IE(

Xk)

=∫

0

β α

Γ(α)exp(−βx)xk+α−1dx

=β α

Γ(α)

Γ(α + k)β α+k

=Γ(α + k)Γ(α)β k .

Usando l'ultima formula con k = 1 e 2, si ottiene

IE(X) =Γ(α +1)Γ(α)β

β

e

IE(X2)= Γ(α +2)

Γ(α)β 2 =(α +1)α

β 2 ,

da cui

Var(X) = IE(X2)− (IE(X))2 =

(α +1)αβ 2 − α2

β 2 =α

β 2

♦Esempio 2.3 Calcoliamo il valore atteso e la varianza della v.a. X relativa al risul-

tato del lancio di un dado regolare. Poiché un dado regolare può assumere i sei valori

1,2,3,4,5,6 con probabilità paeri a 1/6, si avrà

IE(X) =1+2+3+4+5+6

6= 3.5

59

Page 60: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

e

IE(X2)= 1+4+9+16+25+36

6= 15.16,

da cui

Var(X) = IE(X2)− (IE(X))2 = 15.16−12.25 = 2.91.

La Covarianza

La covarianza è una misura dell'associazione o dipendenza tra due variabili aleatorie X e

Y . Laddove la varianza assume soltanto valori non negativi, la covarianza può assumere

qualsiasi valore reale.

Denizione 2.1. Siano X e Y due qualsiasi variabili aleatorie. La covarianza tra X e Y

si indica col simbolo Cov(X ,Y ) ed è data dalla formula

Cov(X ,Y ) = IE((X− IE(X))(Y − IE(Y ))) = IE(XY )− IE(X) IE(Y ) . (2.4)

La covarianza assume valori positivi se grandi valori della X tendono a vericarsi in

concomitanza di grandi valori della Y e lo stesso accade per piccoli valori. Ad esempio, se

X è l'altezza in un collettivo di persone e Y è il peso nello stesso collettivo, ci aspettiamo

una covarianza positiva tra le due variabili.

La covarianza assume valori negativi se grandi valori della X tendono a vericarsi in

concomitanza di piccoli valori della Y mentre piccolo valori della X tendono ad accom-

pagnarsi a grandi valori della Y . Nell'esempio precedente, relativo ad una collettivo di

individui, se X rappresenta ora l'età di una persona scelta a caso mentre Y è la frequenza

cardiaca, ci aspettiamo una covarianza negativa tra X e Y .

Quando X e Y sono indipendenti, non esiste nessun legame tra i valori che assume la

X e quelli che assume la Y e la covarianza vale zero. Questo risultato è desumibile dalla

denizione stessa. infatti abbiamo già visto come, per variabili indipendenti, la media del

prodotto è pari al prodotto delle medie cosicché la (2.4) deve valere zero. Tuttavia il fatto

che la covarianza sia zero, a sua volta NON implica che le variabili siano indipendenti ma

60

Page 61: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

solo incorrelate. Si può anche dire che la covarianza misura soltanto una dipendenza

tra le variabili di tipo lineare, e non controlla altri tipi di dipendenza come il prossimo

esempio mostra.

Esempio 2.4 Sia X ∼ N(0,1) e Y = X2. Naturalmente le due variabili sono fortemente

dipendenti (la conoscenza di X implica la conoscenza di Y ) ma

Cov(X ,Y ) = Cov(X ,X2)= IE

(X X2)− IE(X) IE

(X2)= IE

(X3)= 0,

per la simmetria della densità normale standard. ♦

La correlazione

La covarianza dipende dall'unità di misura con cui vengono misurate le variabili: con-

sideriamo ad esempio il calcolo della covarianza tra le variabili aleatorie reali a+ bX e

c+dY :

Cov(a+bX ,c+dY ) = IE([b(X− IE(X))][d(Y − IE(Y ))]) = bd Cov(X ,Y ) .

Questo signica, ad esempio, che la covarianza tra i rendimenti di due titoli presenti in un

mercato nanziario dipende dall'unità monetaria con cui è calcolata. Per evitare questo

problema si suole standardizzare la covarianza per ottenere il coeciente di correlazione

tra due variabili X e Y , denito come

ρ(X ,Y ) =Cov(X ,Y )√

Var(X)Var(Y ). (2.5)

Si verica facilmente che il coeciente di correlazione di a+bY1 e c+dY2 è identico, a

meno del segno, a ρ(Y1,Y2). Più precisamente

ρ(a+bY1,c+dY2) = sgn(bd)d | ρ(Y1,Y2),

dove

sgn(y) =

1 y > 0

−1 y < 0

61

Page 62: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Inoltre, si può dimostrare che, qualunque siano le v.a. Y1 e Y2, deve risultare

| Cov(Y1,Y2) |≤√

Var(Y1)Var(Y2),

cosicché è sempre vero che

−1≤ ρ(Y1,Y2)≤ 1. (2.6)

Duinque, il coeciente di correlazione tra X e Y è una misura standardizzata della

associazione lineare tra X e Y . Esso varia tra un minimo di −1 e un massimo di 1.

Il coeciente di correlazione vale ±1 se e solo se esiste una perfetta relazione lineare,

diretta o inversa, tra X e Y ; in altri termini

| ρ(X ,Y ) |= 1⇒ Y = aX +b per qualche costante reale a e b .

La correlazione è pari a zero se X e Y sono indipendenti, tuttavia una correlazione pari a

zero NON implica che X e Y siano indipendenti; basta ricordare l'esempio (2.4)

2.4 I momenti di una variabile aleatoria

In molti casi si è interessati non allo studio della variabile casuale in sé, ma a dei particolari

valori, detti momenti, che sintetizzano le informazioni contenute in essa e ai quali si può

dare un'interpretazione utile

I momenti di una v.a. sono deniti come i valori attesi di particolari funzioni della

v.a. X . In dettaglio

Denizione 2.1. Sia X una variabile casuale e sia g(X) = (X−c)r, con r intero positivo.

Si dice momento di ordine r rispetto a c il valore

E[g(X)] = E[(X− c)r] =

ni=1(xi− c)rP(xi) per variabili casuali discrete∫+∞

−∞(xi− c)r f (x)dx per variabili casuali continue

dove c è una costante qualunque.

Tra le diverse combinazioni possibili dei valori di r e c quelle più signicative sono:

62

Page 63: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

1. c = 0 : in questo caso g(X) = X r e i momenti sono chiamati momenti dall'origine

o momenti semplici e sono indicati con la notazione µ ′r. Tra i momenti dall'origine

il più importante è senz'altro quello relativo a r = 1, il valore atteso.

2. c= µ ′1, in modo tale che g(X) = (X−µ ′1)r. In questo caso i momenti sono chiamati

momenti centrali o momenti dalla media e sono indicati con la notazione µr. Tra

i momenti centrali il più importante è quello che si ha quando r = 2, la varianza.

3. c = µ ′1σ

e g(X) =(X−c

σ

)r. In questo caso i momenti sono chiamati momenti stan-

dardizzati e sono indicati con la notazione µr. Tra i momenti standardizzati quelli

più importanti sono associati ai valori r = 3, l'indice di asimmetria, e r = 4, l'indice

di curtosi.

Proprietà della varianza

1. Trasformazioni lineari. Sia g una funzione reale e siano a e b delle costanti. Data una

v.a. X , sia Y = ag(X)+b: vale la relazione

Var(Y ) = a2 Var(g(X)) .

In particolare, Var(aX +b) = a2 Var(X).

2. Siano X e Y due v.a. qualunque. Allora

Var(X±Y ) = Var(X)+Var(Y )±2Cov(X ,Y )

In particolare, se X e Y sono incorrelate, allora

Var(X±Y ) = Var(X)+Var(Y ) .

Asimmetria e curtosi

L'indice di asimmetria è denito come

E[(X−µ)3]

σ3 (2.7)

e misura il grado di asimmetria della distribuzione rispetto alla media; l'indice di asim-

metria può essere positivo, negativo o anche indenito.

63

Page 64: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

asimmetria positiva: la coda del lato destro della distribuzione è più lunga della

coda del lato sinistro; in questo caso si ha

moda<mediana<media

asimmetria negativa: la coda del lato sinistro della distribuzione è più lunga della

coda del lato destro; in questo caso si ha

media<mediana<moda

Nel caso di distribuzione simmetrica la previsione degli scarti (con segno) è nulla e l'indice

è pari a zero.

Ricordiamo inoltre l'indice di curtosi, denito come

K =E[(X−µ)4]

σ4 (2.8)

che fornisce una misura dello spessore delle code della distribuzione. Si può dimostrare

che una legge normale, indipendentemente, dai valori di media e varianza, ha curtosi pari

a 3. Valori inferiori a 3 indicano code più sottili di quelle di una distribuzione gaussiana,

mentre valori maggiori suggeriscono code pesanti e un appiattimento della densità in un

intorno dei valori centrali. Per il ruolo che la legge normale svolge ancora in probabilità

e statistica, molti testi deniscono l'indice di curtosi ponendo pari a zero quello di una

legge normale; si ottiene così il cosiddetto indice di Pearson

γ2 = K−3.

2.5 Media e varianza condizionate

Supponiamo per il momento che X e Y siano due variabili aleatorie scalari e discrete, con

distribuzione congiunta qualsiasi, denita su

S = (x,y) : x ∈ SX ,y ∈ SY

64

Page 65: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Vogliamo studiare la distribuzione della v.a. X quando è noto che Y = y. Si tratta di

calcolare, per ogni x ∈ SX , la quantità

Pr(X = x | Y = y) =Pr(X = x∩Y = y)

Pr(Y = y), x ∈ SX

La formula appena scritta descrive una nuova distribuzione di probabilità, che rappresenta

la legge di probabilità di X , condizionata all'evento Y = y.

Di conseguenza è ovvio, e facile da vericare, che risulti

∑x∈SX

Pr(X = x | Y = y) = 1,

per ogni valore di y ∈ SY . È poi possibile calcolare media e varianza della distribuzione

condizionata. In particolare la media condizionata, indicata con il simbolo IE(X | Y = y),

rappresenta il valore atteso della variabile X quando sappiamo che Y = y.

Denizione 2.2. Date due variabili aleatorie discrete X e Y , si chiama media o valore

atteso di X condizionato all'evento Y = y la quantità

IE(X | Y = y) = ∑x∈SX

xPr(X = x∩Y = y)

Pr(Y = y).

Mentre il valore atteso di una v.a. X è. quando esiste, un ben determinato numero

reale, la media condizionata dipende ovviamente dal valore y della v.a. Y rispetto al quale

si opera il condizionamento. È dunque possibile considerare la media condizionata come

una funzione di y al variare dello stesso; è cioè possibile trattare la media condizionata

come una funzione di variabile aleatoria: in pratica la quantità

h(Y ) = IE(X | Y )

rappresenta essa stessa una variabile aleatoria. Ovviamente, l'aleatorietà è ereditata dalla

Y e non dalla X .

Esempio 2.5 Nella mia tasca destra ci sono 2 monete del valore di 1 euro e 3 da 2

euro. Nella mia tasca sinistra ci sono invece 4 monete da un euro e solo 1 da 2 euro.

65

Page 66: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Verrà estratta a caso una moneta da una tasca scelta mediante il risultato del lancio di

un dado regolare: se esce un numero da 1 a 4 si gioca con la tasca destra; se escono 5

o 6 si gioca con la tasca sinistra. Sia Y la variabile aleatoria che indica la tasca con cui

si gioca, 0 (Dx) 2/3

1 (Sx) 1/3

Sia X il valore della moneta estratta: avremo allora che, per Y = 0,

Pr(X = x | Y = 0) =

2/5 x = 1

3/5 x = 2

.

Se invece Y = 1,

Pr(X = x | Y = 1) =

4/5 x = 1

1/5 x = 2

.

Ne consegue che le due medie condizionate valgono

IE(X | Y = 0) = 1×2/5+2×3/5 = 8/5 = 1.6

e

IE(X | Y = 1) = 1×4/5+2×1/5 = 6/5 = 1.2.

Dunque la quantità h(Y ) = IE(X | Y ) è una variabile aleatoria che assume i valori

h(Y )

1.6 Y = 0

1.2 Y = 1.

Dobbiamo inoltre valutare con quali probabilità h(Y ) assumerà di due valori; ma h(Y ) =

1.6⇔ Y = 0 e

Pr(Y = 0) = 2/3 e Pr(Y = 1) = 1/3.

66

Page 67: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Dunque avremo

h(Y ) = IE(X | Y ) =

1.6 2/3

1.2 1/3.

La nuova v.a. h(Y ) ha tutte le caratteristiche di una v.a.: ad esempio possiamo calcolarne

il valore medio

IE(h(Y )) = 1.6×2/3+1.2×1/3 = 1.467

Ritorneremo più avanti sul calcolo della media di una v.a. denita come media condizio-

nata e dimostreremo che il numero appena calcolato non è altro che il valore atteso, non

condizionato, della v.a. X . ♦

La varianza condizionata

La varianza condizionata si denisce in modo del tutto simile. Chiameremo Var(X | Y = y)

la varianza della legge di probabilità di X quando è noto che Y = y. Anche Var(X | Y ) èuna variabile aleatoria

Denizione 2.3. Siano X e Y due variabili aleatorie discrete. La varianza condizionata

di X quando Y = y è data da

Var(X | Y = y) = IE(X2 | Y = y

)− (IE(X | Y = y))2 .

Le denizioni di media e varianza condizionata si estendono facilmente al caso di

v.a. assolutamente continue, non appena si tenga conto della denizione di densità

condizionata (1.19). È allora immediato denire il valore atteso condizionato come

IE(X | y) =∫R

x fX |Y (x | Y = y)dx.

Le leggi della media iterata e della scomposizione della varianza

Teorema 2.2. [della media iterata] Se tutti valori attesi considerati sono niti, allora

per ogni coppia di v.a. X e Y avremo che

IE(X) = IE(IE(X | Y )) . (2.9)

67

Page 68: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Dimostrazione 2.2. Per semplicità , diamo qui la dimostrazione relativa al caso

discreto; l'estensione al caso continuo è semplice e lasciata per esercizio.

IE(X) = ∑x∈SX

xPr(X = x) = ∑x∈SX

x ∑y∈SY

Pr(X = x∩Y = y)

= ∑x∈SX

x ∑y∈SY

Pr(X = x | Y = y)Pr(Y = y)

= ∑y∈SY

[∑

x∈SX

xPr(X = x | Y = y)

]Pr(Y = y)

= ∑y∈SY

IE(X | Y = y)Pr(Y = y) = IE(IE(X | Y ))

In altri termini il valore atteso della v.a. X può essere calcolato come il valore atteso

della distribuzione delle medie condizionate di X | Y al variare di Y .

Esempio 2.6 (continua) Nell'esempio precedente avremo

IE(X) = IE(X | Y = 0)×Pr(Y = 0)+ IE(X | Y = 1)×Pr(Y = 1)

= 1.6×2/3+1.2×1/3 = 1.467.

♦Va subito precisato che il teorema precedente si estende in modo naturale se sostituiamo

a X una sua funzione reale g(X) cioè vale la relazione

IE(g(X)) = IE(IE(g(X) | Y )) .

Teorema 2.3. [della scomposizione della varianza] Se tutti valori attesi considerati sono

niti, allora per ogni coppia di v.a. X e Y avremo che

Var(X) = IE(Var(X | Y ))+Var(IE(x | Y ))

Dimostrazione 2.3. Per maggiore chiarezza, utilizzeremo i simboli IEY e VarY per

68

Page 69: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

indicare quando il valore atteso o la varianza sono calcolati rispetto alla legge di Y .

Var(X) = IE(X2)− (IE(X))2

= IEY(IE(X2 | Y

))± IEY

[(IE(X | Y ))2

]− (IE(X))2

= IEY

(IE(X2 | Y

)− (IE(X | Y ))2

)+ IEY

[(IE(X | Y ))2

]− [IEY (IE(X | Y ))]2

= IEY [Var(X | Y )]+VarY [IE(X | Y )] .

Esempio 2.7 [Media e varianza di una v.a. t di Student].

È noto che, se (X ;Y ) è un vettore aleatorio con distribuzione congiunta del tipo

X |Y = y∼ N(µ,σ2/y

); Y ∼ Gamma

2,ν

2

),

allora la legge marginale di X è di tipo St(ν ,µ,σ). Questo suggerisce un modo alternativo

di calcolo per i momenti di X . Infatti

IE(X) = IE(IE(X |Y )) = IE(µ|) = µ;

da notare che tale risultato vale solo nel caso in cui ν > 1, altrimenti IE(X) non esiste e

il teorema della media iterata non si applica. Inoltre

Var(X) = Var(IE(X |Y ))+ IE(Var(X |Y )) = Var(µ)+σ2 IE(1/Y ) = σ

2 IE(1/Y )

Usando l'espressione (C.6) si vede che, per ν > 2,

IE(1/Y ) =∫

0

1Γ(ν/2)

2

)ν/2 1y

yν/2−1e−yν/2dy =Γ(ν/2−1)

Γ(ν/2)

2

)ν/2−ν/2+1=

ν

ν−2

Ne segue che

Var(X) = σ2 ν

ν−2.

2.6 Applicazioni notevoli del concetto di condizio-

namento

In questa sezione utilizzeremo i concetti di probabilità, media e varianza condizionate per

risolvere problemi di dierente natura, allo scopo di illustrare la potenzialità del metodo

69

Page 70: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Somme di un numero aleatorio di variabili aleatorie

Iniziamo a parlare del problema del calcolo dei momenti della somma di un numero alea-

torio di variabili aleatorie. Questo problema sorge molto spesso nella teoria dei processi

stocastici. Consideriamo ad esempio il caso in cui N rappresenti il numero aleatorio di

richieste di rimborso che giungeranno ad una agenzia di assicurazioni nel prossimo mese.

Ad ognuna delle N richieste è associata una somma in denaro (l'entità della richiesta) che

denotiamo con X1,X2, . . . ,XN . Le variabili Xi sono tutte indipendenti dal valore di N, cioè

l'entità delle richieste di rimborso non dipende da quante richieste verranno presentate.

Vogliamo calcolare il valore medio della variabile aleatoria

S = X1 +X2 + . . .XN

che rappresenta la somma complessiva di rimborso richiesta alla agenzia. Assumiamo

inoltre che X1,X2, . . . ,iid∼ Gamma(α,β ) e che N ∼ Poi(λ ). La dicoltà aggiuntiva in

problemi come questi è che non si conosce, a priori, il numero di addendi della somma

S in quanto dipende dal numero aleatorio N di richieste. Questo problema si risolve con

una semplice applicazione del teorema (2.2). Infatti

IE(S) = IE(IE(S | N)) =∞

∑n=1

IE(S | N = n)Pr(N = n)

= per l'indipendenza tra le Xi e N

=∞

∑n=1

IE(X1 + . . .Xn)Pr(N = n)

= per la somiglianza delle Xi

=∞

∑n=1

n IE(X1)Pr(N = n)

= IE(X1) IE(N)

Dunque il valore atteso è pari al prodotto tra il valore atteso del numero aleatorio di

addendi, N, e il valore atteso della generica variabile della successione, X1. Il risultato

appena ottenuto è del tutto generale, sotto le ipotesi di identica distribuzione delle Xi e

di indipendenza delle xi da N e va sotto il nome di Equazione di Wald. Nel nostro caso

70

Page 71: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

specico il risultato è dato da

IE(S) = IE(X1) IE(N) =β

αλ .

Esempio 2.8 [Media di una v.a. geometrica ] Sia X ∼ Geo(p), con P(X = k) = (1−p)k−1 p, k = 1,2, . . . ; vogliamo calcolare IE(X). Il calcolo diretto porterebbe a

IE(X) =∞

∑j=1

jp(1− p) j−1,

non banale da calcolare. In alternativa, ricordando che X può essere interpretata come il

numero di prove necessarie ad ottenere per la prima volta T nel lancio di una moneta, si

può denire la v.a. W come

W =

1 esce T al primo lancio

0 esce C al primo lancio.

Ovviamente P(W = 1) = p = 1−P(W = 0), e usando il teorema della media iterata

IE(X) = IE(IE(X |W )) = IE(X |W = 0)(1− p)+ IE(X |W = 1) p.

Quando W = 0, il calcolo del valore atteso di X resta invariato, tenendo conto del fatto

che un lancio è stato già eettuato. Al contrario, l'evento W = 1 implica anche X = 1.

Quindi

IE(X) = (1+ IE(X))(1− p)+ p,

e, risolvendo per IE(X), si ottiene IE(X) = 1/p. ♦

L'uso della tecnica di condizionamento può risultare utile anche per il calcolo di pro-

babilità di eventi. Questo risultato non deve sorprendere in quanto abbiamo già visto

come la probabilità di un evento può essere scritta in termini di valore atteso di una

opportuna variabile indicatrice.

Sia A un evento arbitrario; deniamo la variabile indicatrice IA come

IA =

1 A è vero

0 A non è vero.

71

Page 72: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Allora, sappiamo già che Pr(A) = IE(IA) e, per ogni variabile aleatoria Y , è possibile

scrivere

Pr(A | Y = y) = IE(IA | Y = y) .

Utilizzando poi il teorema (2.2), risulta che

Pr(A) = IE(IE(IA | Y )) .

La formula precedente può essere meglio esplicitata nei due casi più importanti ovvero

quando Y è una v.a. discreta oppure continua. Nel primo caso avremo

Pr(A) = ∑y

Pr(A | Y = y)Pr(Y = y) (2.10)

mentre nel secondo

Pr(A) =∫R

Pr(A | Y = y) fY (y)dy. (2.11)

Esempio 2.9 Siano X e Y due v.a. indipendenti con distribuzione esponenziale di

parametro, rispettivamente pari a λ e µ . Calcolare Pr(X < Y ).

Possiamo utilizzare le formula (2.11) e scrivere

Pr(X < Y ) =∫

0Pr(X < Y | Y = y) fY (y)dy =

∫∞

0Pr(X < y | Y = y)µ exp(−µy)dy

= per l'indipendenza tra X e Y

=∫

0Pr(X < y)µ exp(−µy)dy = µ

∫∞

0(1− exp(−λy))exp(−µy)dy

= µ

∫∞

0[exp(−µy)− exp(−(µ +λ )y)]

= 1− µ

µ +λ=

λ

µ +λ.

2.6.1 Alcuni risultati sulle medie

Elenchiamo in questa sezione alcuni risultati notevoli relativi a metodi alternativi per il

calcolo del valore atteso di v.a.

72

Page 73: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Teorema 2.4. Sia X una v.a. non negativa. Allora

IE(X) =∫

0Pr(X > t)dt.

Dimostrazione 2.4. Definiamo la v.a. indicatrice

I(t) =

1 X > t

0 X ≤ t.

Ne segue che IE(I(t)) = Pr(X > t) = 1−FX(t). Allora,∫∞

0(1−FX(t))dt =

∫∞

0IE(I(t))dt

= IE(∫

0I(t)dt

)poiché X ≥ 0

= IE(∫ X

0dt)= IE(X)

Nel caso discreto si può concepire una dimostrazione più “costruttiva”. In questo caso

si ha infatti

IE(X) =∞

∑k=1

k Pr(X = k) =∞

∑k=1

k pk

= 1 p1 +2 p2 +3 p3 +4 p4 + . . .

= (p1 + p2 + p3 + . . .)+(p2 + p3 + p4 . . .)+(p3 + p4 + p5 . . .)+ . . .

= Pr(X ≥ 1)+Pr(X ≥ 2)+Pr(X ≥ 3)+ . . .

=∞

∑n=1

Pr(X ≥ n)

=∞

∑n=0

Pr(X > n) ♦

Un'applicazione elementare del teorema precedente ci permette di ottenere una for-

mula alternativa per il calcolo del momento secondo. Sia ancora X ≥ 0; allora,

Pr(X2 > t

)= Pr

(X >√

t).

73

Page 74: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Dunque,

IE(X2) =

∫∞

0Pr(X2 > t

)dt

=∫

0Pr(X >√

t)

dt(ponendo t = z2)

= 2∫

0zPr(X > z)dz.

2.7 La legge normale multivariata

In questo paragrafo verrà utilizzato - ma solo nelle dimostrazioni - uno strumento, la

funzione generatrice dei momenti, denito e discusso nel prossimo capitolo.

Se Y è un vettore aleatorio p-dimensionale si denisce matrice di varianze e covarianze

del vettore Y la matrice p× p

Σ = Cov(Y,Y) = IE([Y−E(Y)][Y−E(Y)]′

),

dove il simbolo A′ indica la matrice trasposta di A. L'elemento generico σrs è

σrs = Cov(Yr,Ys) = IE([Yr−E(Yr)][Ys−E(Ys)])

La matrice Σ è semi-denita positiva. Infatti, qualunque sia il vettore di costanti a =

(a1, · · · ,ap), risulta

0≤ Var(a′Y)= Cov

(a′Y,a′Y

)= a′Cov(Y,Y)a = a′Σa.

È facile calcolare la covarianza di combinazioni lineari di variabili. Sia Y un vettore

aleatorio p-dimensionale e sia: a ∈ IRq un vettore q-dimensionale e B una matrice p×q.

Allora, la matrice q×q di varianze e covarianze del vettore a+B′Y è

Var(a+B′Y

)= Cov

(a+B′Y,a+B′Y

)= IE

([B′(Y−E(Y))][(Y−E(Y′))B]

)= B′ IE

([Y−E(Y)][Y−E(Y)]′

)B

= B′ΣB.

74

Page 75: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Come abbiamo già notato, la covarianza dipende dall'unità di misura con cui vengono

misurate le variabili. Per evitare questo problema si suole standardizzare la covarianza e

si ottiene il coeciente di correlazione tra due variabili Y1 e Y2 come

ρ(Y1,Y2) =Cov(Y1,Y2)√

Var(Y1)Var(Y2). (2.12)

Si verica facilmente che il coeciente di correlazione di a+ bY1 e c+ dY2 è identico,

a meno del segno, a ρ(Y1,Y2). In termini matriciali, dato un vettore aleatorio Y p-

dimensionale, la matrice di correlazione si scrive come

Ω = Σ− 1

2 ΣΣ− 1

2 ,

dove Σ è una matrice diagonale con le varianze delle componenti di Y sulla diagonale

principale.

A questo punto è possibile denire la distribuzione normale p-dimensionale. Si dice

che il vettore Y = (Y1, · · · ,Yp) ha distribuzione normale con vettore delle medie µ e

matrice di covarianze Σ, e si indica con il simbolo

Y∼ Np(µ,Σ),

quando la densità di Y vale

f (y; µ;Σ) =1

(2π)p/2|Σ|1/2 exp−1

2(y−µ)′Σ−1(y−µ

), (2.13)

dove | Σ |= det(Σ). Assumeremo nel seguito che det(Σ) sia strettamente positivo; questo

garantisce che non esistano combinazioni lineari delle componenti di Y perfettamente

correlate tra loro. Come esemplicazione, consideriamo il caso bidimensionale, p = 2. In

questo caso la matrice di covarianza è

Σ =

(σ2

1 σ12

σ12 σ22

)il cui determinante vale σ2

1 σ22 −σ2

12 = σ21 σ2

2(1−ρ2) mentre la matrice di covarianza

inversa vale

Σ−1 =

1σ2

1 σ22 (1−ρ2)

(σ2

2 −σ12

−σ12 σ21

);

75

Page 76: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

adattando la forma quadratica che compare nella (2.13) al caso p = 2 otteniamo la

densità nel caso bidimensionale

f (y1,y2; µ1,µ2,Σ) =1

2πσ1σ2√

1−ρ2exp−1

2Q(y1,y2)

dove

Q(y1,y2) =1

(1−ρ2)

[(y1−µ1

σ1

)2

−2ρ

(y1−µ1

σ1

)(y2−µ2

σ2

)+

(y2−µ2

σ2

)2]

Poiché la densità dipende da y1 e y2 solo attraverso la quantità Q(y1,y2), che rappre-

senta un'ellisse, la distribuzione normale bidimensionale ha curve di livello di tipo ellittico

con equazione Q(y1,y2) = k, per k generico.

Distribuzioni marginali e condizionate

Sia Y∼ Np(µ,Σ) e scriviamo

Y′ = (Y′1,Y′2),

con Y1 q-dimensionale e Y2 (p−q)-dimensionale. Partizionando di conseguenza µ e Σ

avremo

µ =

(µ1

µ2

)Σ =

(Σ11 Σ12

Σ21 Σ22

),

dove Σ11 è una matrice q×q, Σ12 = Σ′21 è una matrice q× (p−q) , e inne Σ22 è una

matrice (p−q)× (p−q). La funzione generatrice di Y si può scrivere allora come

IE(

et′Y)

= IE(

et′1Y1+t′2Y2)

= exp[

t′1µ1 + t′2µ2 +12(t′1Σ11t1 + t′2Σ22t2 +2t′1Σ12t2

)](2.14)

Ponendo t2 = 0 si ottiene così la funzione generatrice del vettore aleatorio Y1 che vale

MY1(t1) = exp[

t′1µ1 +12(t′1Σ11t1

)], (2.15)

che mostra come Y1 ∼ Nq(µ1,Σ11). Abbiamo così dimostrato che le distribuzioni margi-

nali delle componenti di un vettore aleatorio con distribuzione normale multivariata hanno

76

Page 77: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

ancora distribuzione normale di dimensione adeguata. Analogamente, ponendo t1 = 0 si

ottiene che Y2 ∼ Np−q(µ2,Σ22). Inoltre, è noto che due vettori aleatori sono indipen-

denti se e solo se la funzione generatrice dei momenti della vettore congiunto (Y1,Y2)

corrisponde al prodotto delle funzioni generatrici di Y1 e Y2. Confrontando le formule

(2.14) e (2.15) si vede allora che Y1 e Y2 sono indipendenti se e solo se Σ12 = 0. Questo

risultato è molto importante: vettori aleatori normali sono a componenti indipendenti se

e solo se la loro covarianza è nulla; il fatto che la covarianza nulla implichi l'indipendenza

è una caratteristica specica dei vettori aleatori normali; in generale questa implicazione

è falsa.

Una delle implicazioni del precedente risultato è il seguente: se osserviamo un cam-

pione di v.a. normali univariate indipendenti

(X1, · · · ,Xn)iid∼ N(µ,σ2),

il vettore X = (X1, · · · ,Xn) può scriversi come

X∼ Nn(µ1n,σ2In),

dove 1n è un vettore n-dimensionale composto da tutti 1, mentre In è la matrice n×n,

con tutti 1 sulla diagonale e tutti zeri altrove.

Si può inoltre dimostrare che la distribuzione condizionata di Y1 |Y2 = y è ancora di

tipo normale. Più precisamente, se det(Σ22)> 0,

Y1 | Y2 = y∼ Nq(µ1 +Σ12Σ

−122 (y−µ2),Σ11−Σ12Σ

−122 Σ21

)(2.16)

La dimostrazione della (2.16) si trova alla ne di questo capitolo. Qui ne approfondiamo

il signicato nel caso in cui p = 2 e q = 1. In questo caso tutte le grandezze nella (2.16)

sono scalari e si evince che

Y1 | Y2 = y∼ N(

µ1 +σ12

σ22(y−µ2),σ

21 −

σ212

σ22

).

In pratica ricordando la formula del coeciente di regressione di Y1 su Y2, β1 = σ12/σ22 ,

si ha che la legge di Y1 condizionata all'evento Y2 = y è ancora di tipo normale con media,

77

Page 78: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

funzione del valore di y, pari proprio al valore espresso dalla retta di regressione

µ1−β1µ2 +β1y, (2.17)

e varianza pari a σ21 (1− ρ2), inversamente proporzionale alla correlazione tra le due

variabili. In accordo con l'intuizione, se ρ = 0 (e quindi anche σ12 = 0), la conoscenza di

Y2 non modica la legge di Y1 (le due v.a. sono indipendenti). Se invece ρ =±1, allora

la conoscenza di Y2 implica la conoscenza perfetta di Y1, che avrà varianza nulla e sarà

quindi certamente uguale alla sua media (2.17).

2.8 Alcune dimostrazioni

Le dimostrazioni in questa sezione utilizzano il concetto di funzione generatrice dei mo-

menti, denita nel prossimo capitolo. Si consiglia pertanto la loro lettura dopo aver

studiato il capitolo 3.

2.8.1 Dimostrazione della (3.3)

Per denizione di funzione generatrice di ha

MY(t) = IE(

et′Y)=

1(2π)p/2 | Σ |1/2

∫IRp

exp

t′y− 12(y−µ)′Σ−1(y−µ)

dy.

Riscriviamo la quantità che appare nell'esponente aggiungendo e sottraendo la quantità

t′µ +12

t′Σt.

L'esponente si può allora scrivere come

t′µ +12

t′Σt− 12[(y−µ)′Σ−1(y−µ)+ t′Σt−2t′(y−µ)

]t′µ +

12

t′Σt− 12[(y−µ)′Σ−1(y−µ)+(Σt)′Σ−1(Σt)−2(Σt)′Σ−1(y−µ)

]t′µ +

12

t′Σt− 12[(y−µ−Σt)′Σ−1(y−µ−Σt)

]78

Page 79: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Perciò

MY(t) = exp

t′µ +12

t′Σt

× 1(2π)p/2 | Σ |1/2

∫IRp

exp−1

2[(y−µ−Σt)′Σ−1(y−µ−Σt)

]dy.

L'ultima funzione integranda è una densità normale multivariata e quindi vale 1. Ne

segue la tesi, cioè

MY(t) = exp

t′µ +12

t′Σt.

2.8.2 Dimostrazione della (2.16)

Consideriamo la trasformazione lineare di Y, Z = CY, dove

C =

(Iq −Σ12Σ

−122

0 Ip−q

)

è una matrice a blocchi, il primo dei quali di dimensione q× q. Allora, per il teorema

(3.2), la distribuzione di Z è ancora normale con matrice di covarianza(Σ11−Σ12Σ

−122 Σ21 0

0 Σ22

)

Suddividiamo allora il vettore Z in due componenti Z1 di dimensione q, e Z2 di dimensione

p−q. Poiché la matrice di covarianze di Z è diagonale a blocchi, risulta

Z1 ⊥⊥ Z2.

Inoltre, poiché il blocco inferiore destro della matrice C è la matrice identica, risulta

anche Z2 = Y2. Perciò la distribuzione di Z1 condizionata al valore di Y2 è identica alla

sua legge marginale, e poiché

Z1 = Y1−Σ12Σ−122 Y2, (2.18)

79

Page 80: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

si avrà

Z1 | Y2 = y2 ∼ Nq(µ1−Σ12Σ

−122 µ2,Σ11−Σ12Σ

−122 Σ21

).

Dalla (2.18), risulta Y1 = Z1 +Σ12Σ−122 Y2, e perciò la distribuzione di Y1 | Y2 = y2 si

ottiene come una semplice traslazione di Z1 (avrà cioè la stessa matrice di covarianze ed

una media traslata di Σ12Σ−122 y2. Ne segue la tesi, cioè che Y1 | Y2 = y2 è normale con

parametri

IE(Y1 | Y2 = y2) = µ1 +Σ12Σ−122 (y2−µ2)

e

Var(Y1 | Y2 = y2) = Σ11−Σ12Σ−122 Σ21.

2.9 Esercizi

2.9.1. Una variabile aleatoria X di Cauchy standard (C(0,1)) ha densità

fX(x) =1

π(1+ x2)

1. Calcolare la probabilità dell'evento B = (−1 < X < 1).

2. Determinare la legge di probabilità della v.a. Y = 1/X

3. Determinare la legge di probabilità della variabile aleatoria Z = σX +µ , con µ ∈Re σ > 0.

3∗ Se X1 e X2 sono indipendenti e somiglianti con legge di Cauchy C(0,1), determinare

la legge di

X =X1 +X2

2

2.9.2. La densità congiunta delle vv.aa. X e Y è data da

fX ,Y (x,y) = xexp(−x(y+1)) , x > 0,y > 0.

1. Determinare la legge condizionata di Y |X = c

80

Page 81: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

2. Determinare la legge condizionata di X |Y = d

3. Determinare la legge di Z = XY

4. Determinare la Cov(X ,Y )

2.9.3. Sia (X ;Y ) una v.a. doppia con funzione di densità

f (x;y) = k exp(−(2x+3y)) , x > 0,y > 0

(a) Determinare il valore della costante k.

(b) Determinare la funzione di ripartizione della v.a. (X ;Y ).

(c) Se Q è il quadrato con vertici i punti (0;0),(0;1),(1;0),(1;1), calcolare P((X ,Y )∈Q).

(d) Determina IE(X).

2.9.4. Siano U e V due variabili aleatorie la cui distribuzione congiunta è uniforme

nell'insieme

A = (u,v) : 0≤ u≤ 1 e 0≤ v≤ 1 .

Sia poi X =UV .

1. Trova la legge congiunta di X e U.

2. Trova la funzione di densità di X, fX(x)

3. Qual è il valore atteso di U?

4. Qual è la probabilità che U >V ?

2.9.5. Il valore di un titolo alla borsa di Milano, ogni giorno alla chiusura, può essere in

rialzo (+) o in ribasso (-) con la stessa probabilità Le chiusure dei vari giorni possono

essere considerate indipendenti. Sia N j la v.a. numero di volte, in j giorni lavorativi,

che il titolo è (+). Calcolare

81

Page 82: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

1. Prob(N10 = 7)

2. la probabilità di avere dieci giorni consecutivi di ribassi

3. E(N10)

4. E(N10 | N9 = 7)

5. E(N10 | N12 = 9)

6. la probabilità che il primo rialzo si abbia dopo il quinto giorno

2.9.6. Siano S e T due variabili aleatorie indipendenti con distribuzione esponenziale.

Siano inoltre

E(S) = α E(T ) = β

1. Determinare la distribuzione di Y = min(S,T ).

2. Calcolare la probabilità dell'evento S < T

3. Determinare E(X +Y | Y > 4)

2.9.7. Per varie ragioni, occorre conoscere quanto diusi sono tra la popolazione alcuni

comportameenti devianti, come l'uso di droghe illegali. Se si organizza un sondaggio di

opinione su questi temi si rischia di ricevere molte risposte non sincere. Per ovviare a

questo si utilizza il metodo delle risposte randomizzate, che adesso descriviamo in un

esempio. L'intervistatore fornisce all'intervistato le seguenti istruzioni.

Lanci una moneta regolare e non mi faccia vedere il risultato; se viene T

risponda alla domanda A, se viene C, risponda alla domanda B. In ogni caso

risponda solo con un SI o con un NO. Non mi dica a quale domanda ha

risposto, ma solo che risposta ha dato.

(A) Il tuo numero di telefono termina con un numero pari?

(B) Hai mai fatto uso di cocaina?

82

Page 83: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Questo criterio protegge il rispondente poiché non si sa a quale domanda ha eettiva-

mente risposto. In questo modo la percentuale di risposte non sincere cala notevolmente.

Assumiamo allora che i rispondenti siano sinceri nelle risposte e che essi rispondano in

modo indipendente. Assumiamo inoltre che la percentuale di numeri di telefono pari

nella popolazione sia pari al 50%. Sia invece θ la percentuale di coloro che fanno uso di

cocaina.

1. Qual è la probabilità che una persona scelta a caso risponda SI alla domanda?

2. Se intervistiamo n = 1000 persone, e denotiamo con X il numero di SI, che

distribuzione avrà la v.a. X?

3. Qual è il valore atteso di X

2.9.8. Un'urna contiene 80 dadi di cui 30 sono regolari, mentre gli altri sono stati

manipolati in modo che, per ciascuno di essi, la probabilità di ottenere 1 è pari a 12

mentre gli altri risultati hanno tutti probabilità 1/10. Si estrae a caso un dado e lo si

lancia. Sia X il risultato osservato.

1. Trovare la distribuzione di probabilità di X

2. Un dado viene estratto a caso e lanciato due volte e si ottengono i risultati 2 e 3.

Calcolare la probabilità che sia un dado truccato

2.9.9. Due squadre di calcio devono giocare una nale di un torneo La squadra A segna un

numero di goal che può essere modellato come una variabile aleatoria X ∼Poi(λA = 2.5).

La squadra B segna un numero di goal che può essere modellato come una variabile

aleatoria Y ∼Poi(λB = 2). Le v.a. X e Y sono indipendenti.

1. Qual è la probabilità che vinca la squadra A?

2. Qual è la probabilità di un pareggio?

3. Qual è la probabilità di un over? (Un over si verica se la somma dei goals segnati

dalle due squadre è maggiore di 4)

83

Page 84: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

2.9.10. Tre giocatori, A, B e C, lanciano contemporaneamente una moneta. La moneta

di A (B,C) dà testa (T) con probabilità a (b, c), con 0 < a,b,c < 1. Se due delle

tre monete danno lo stesso risultato il giocatore che ha lanciato la terza moneta viene

eliminato; se sono tutte uguali, si rilanciano le monete.

1. Qual è la probabilità che il giocatore eliminato per primo sia A?

2. Quanto vale la probabilità precedente quando a = b = c? si poteva arrivare a tale

risultato senza fare calcoli?

3. Sempre nel caso a = b = c, qual è il numero medio di partite necessarie a nire il

gioco?

2.9.11. In ogni prova una cavia può andare verso destra o verso sinistra. Alla prima prova

va a destra con probabilità 1/2 e a sinistra con probabilità 1/2. Nelle prove successive

la probabilità di andare verso destra dipende solo da quello che è accaduto nella prova

precedente, in particolare:

se alla prova (n− 1)-esima la cavia è andata a destra, alla n-esima prova va di

nuovo a destra con probabilità P(Dn|Dn−1) = 0.6;

se alla prova (n− 1)-esima la cavia è andata a sinistra, alla n-esima prova va a

destra con probabilità P(Dn|Sn−1) = 0.7.

Trovare P(D2), P(Dn) per n generico e limn→∞ P(Dn).

2.9.12. Siano S e T due variabili aleatorie indipendenti con distribuzione esponenziale

di tasso λ , con densità

f (u) = λ exp(−λu) , u > 0.

Determinare la densità delle variabili aleatorie

1.

X =| S−T |

84

Page 85: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

2.

Y = S3

3.

Z = min(S3,T

)Calcolare il coeciente di correlazione tra S e T .

2.9.13. Sia (X ;Y ) una v.a. doppia con funzione di densità

f (x;y) =k

(1+ x2)(1+ y2), (x,y) ∈ R2

(a) Determinare il valore della costante k.

(b) Determinare la funzione di ripartizione della v.a. (X ;Y ).

(c) Se Q è il quadrato con vertici i punti (0;0),(0;1),(1;0),(1;1), calcolare P((X ,Y )∈Q).

(d) Determina IE(X).

2.9.14. Siano U e V due variabili aleatorie la cui distribuzione congiunta è uniforme

nell'insieme

A = (u,v) : 0≤ u≤ 1 e 0≤ v≤ 1 .

Sia poi X =UV .

1. Trova la legge congiunta di X e U .

2. Trova la funzione di densità di X , fX(x)

3. Qual è il valore atteso di U?

4. Qual è la probabilità che U >V ?

85

Page 86: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Malati Non Malati

farmaco A 200 300

farmaco B 50 50

2.9.15. Una campione di pazienti viene classicato secondo 1) il sesso, 2) il trattamento

ricevuto, e 3) la risposta che dà al trattamento ricevuto. Il risultato dell'esperimento è il

seguente

MASCHI

FEMMINE

Malati Non Malati

farmaco A 50 100

farmaco B 200 370

(a) qual è la probabilità di essere malato dopo aver ricevuto il farmaco A per un

maschio?

(b) qual è la probabilità di essere malato dopo aver ricevuto il farmaco A per una

femmina?

(c) Considerando i soli maschi, consiglieresti il farmaco A oppure il B?

(d) Considerando le sole femmine, consiglieresti il farmaco A oppure il B?

(e) Considerando l'intera popolazione, quale farmaco consiglieresti?

(f) Hanno senso le tue conclusioni? Prova a commentare i risultati.

2.9.16. Siano X e Y due vv.aa. indipendenti e somiglianti aventi distribuzione esponen-

ziale di parametro λ .

(a) Determinare la distribuzione di probabilità della v.a.

W = X +Y

86

Page 87: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

(b) Determinare la distribuzione di probabilità della v.a.

Z =X

X +Y

(c) Determinare il valore atteso di X2

2.9.17. Sia X ∼ N(3,9) Determinare la funzione generatrice dei momenti

della v.a X

della v.a. Y = X−33

Se X1,X2, . . . ,Xn sono i.i.d. con legge N(3,9), determinare la distribuzione di

Vn =X1 +X2 + . . .Xn

n

che cosa si potrebbe rispondere alla precedente domanda se le v.a., invece di essere

i.i.d. N(0,3), fossero i.i.d. U(3,9)?

87

Page 88: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

88

Page 89: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

CAPITOLO 3

Funzioni generatrici e teoremi di convergenza

3.1 Funzione generatrice dei momenti

Ad ogni distribuzione di probabilità si può associare una trasformazione così denita

MX(u) = IE(euX)

=

∑x∈S esx Pr(X = x) X discreta∫S esx fX(x)dx X ass. continua

. (3.1)

dove u è un parametro scalare. In tal modo si viene a denire una nuova funzione

nella variabile u, il cui supporto è dato da quei valori di u che rendono nito l'integrale

(o somma) precedente. La quantità MX(u) prende il nome di funzione generatrice dei

momenti associata alla distribuzione di X per motivi che vedremo tra breve. Se la (3.1)

non risulta nita per alcun valore di u, diremo che non esiste la funzione generatrice dei

momenti della distribuzione di X .

È possibile dimostrare che, sotto certe condizioni piuttosto generali, esiste una cor-

rispondenza biunivoca tra funzioni generatrici e distribuzioni di probabilità. Questa pro-

89

Page 90: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

prietà consente di riconoscere una distribuzione di probabilità dalla sua corrispondente

funzione generatrice e, inoltre, permette, di eettuare i calcoli in modo indierente sia in

termini di leggi di probabilità o funzioni generatrici a seconda della convenienza contin-

gente.

Esempio 3.1 [Distribuzione di Bernoulli ] Sia X ∼ Ber(p),

X =

0 con prob. 1− p

1 con prob. p.

Allora

MX(u) = IE(euX) 1

∑k=0

esk Pr(X = k)

= (1− p)+ peu

Esempio 3.2 [Distribuzione geometrica ] Sia X ∼ Geo(p),

Pr(X = k) = p(1− p)k−1, k = 1,2, . . .

Allora

MX(u) = IE(euX)

=∞

∑k=1

euk Pr(X = k)

=∞

∑k=1

p(1− p)k−1euk

= peu∞

∑k=1

((1− p)eu)k−1

= peu∞

∑s=0

((1− p)eu)s

=peu

1− (1− p)eu ,

90

Page 91: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

per ogni u < log(1/(1− p)). ♦

Esempio 3.3 [Distribuzione di Poisson ] Sia X ∼ Poi(λ ),

Pr(X = k) =e−λ

k!λ

k, k = 0,1,2, . . .

Allora

MX(u) = IE(euX)

=∞

∑k=0

euke−λ λ k

k!

= e−λ∞

∑k=0

(λeu)k

k!

= e−λ eλeu

= eλ (eu−1).

Esempio 3.4 [Distribuzione normale ] Sia X ∼ N(µ,σ2),

fX(x) =1

σ√

2πexp(− 1

2σ2 (x−µ)2).

Allora

MX(u) = IE(euX)

=∫R

eux 1σ√

2πexp(− 1

2σ2 (x−µ)2)

dx

=∫R

1σ√

2πexp(− 1

2σ2 (x2−2µx−2σ

2ux+µ2)

)dx

= exp(uµ +u2

σ2/2)∫

R

1σ√

2πexp(− 1

2σ2 (x− (µ +uσ2))2

)dx

= exp(uµ +u2

σ2/2)

91

Page 92: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

♦Le funzioni generatrici hanno diverse applicazioni, teoriche ed applicate. In particolare,

esse vengono utilizzate per calcolare, in modo più semplice, i momenti di una distri-

buzione. In base alle loro proprietà, esse permettono di ottenere con una certa semplicità,

la legge della somma di v.a. indipendenti e somiglianti.

3.1.1 Alcune proprietà

Illustreremo qui alcune proprietà della funzione generatrice dei momenti. Quando neces-

sario, utilizzeremo la notazione delle v.a. assolutamente continue dotate di funzione di

densità, ma le proprietà si applicano anche al caso di v.a. discrete.

Innanzitutto è facile vedere che, qualunque sia la v.a. X , vale la relazione

MX(0) = 1,

cioè , qualunque funzione generatrice dei momenti, calcolata in zero, vale 1. Infatti,

MX(0) = IE(euX) |u=0= IE(1) = 1.

Sia X una v.a. con densità fX(x). Calcoliamo la derivata prima di MX(u) rispetto a

u.

M′X(u) =d

duMX(u)

=d

du

∫R

eux fX(x)dx

=∫R

xeux fX(x)dx.

Calcolando la derivata in u = 0, si ottiene

M′X(0) =∫R

x fX(x)dx = IE(X) .

Dunque, il valore atteso di una v.a. X può essere calcolato semplicemente derivando la

MX(u) e calcolando la derivata in u = 0. Il ragionamento può essere esteso alle derivate

successive

M(k)X (0) =

dk

duk MX(u) |s=0=∫R

xk fX(x)dx = IE(

Xk).

92

Page 93: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Questo risultato è molto utile per il calcolo dei momenti di una v.a. dotata di funzione

generatrice dei momenti. Ad esempio, se X ∼ Ber(p), abbiamo visto che MX(u) =

(1− p)+ peu. Quindi

IE(X) = M′X(0) = peu |u=0= p

e

IE(X2)= M′′X(0) = peu |u=0= p;

in generale, si può vedere che, per ogni k intero positivo, IE(Xk)= p.

Trasformazioni lineari. Sia X una v.a. con funzione generatrice dei momenti MX(u).

Allora la v.a. Y = aX +b, con a e b scalari, avrà funzione generatrice dei momenti pari a

MY (u) = IE(euY)

= IE(

eu(aX+b))

= eubMX(au)

Esempio 3.5 [Distribuzione normale. ] Sia X ∼N(µ,σ2) e si voglia determinare la legge

di Y = aX +b. Poiché

MX(u) = euµ+ u2σ22

avremo

MY (u) = eubeauµ+ a2σ2u22 = e(aµ+b)+ a2u2σ2

2

che, per la corrispondenza tra funzioni di ripartizione e funzioni generatrici dei momenti,

signica che Y ∼ N(aµ +b,a2σ2) In particolare, per a = 1/σ e b =−µ/σ , si ottiene la

distribuzione di una v.a. normale standardizzata.

Somma di variabili aleatorie indipendenti. Siano X e Y due v.a. indipendenti

con rispettiva funzione generatrice pari a MX(u) e MY (u). Vogliamo determinare la

93

Page 94: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

funzione generatrice della v.a. somma W = X +Y . Avremo allora

MW (u) = IE(

eu(X+Y ))

= IE(euX) IE

(euY) [per l'indipendenza di X e Y ]

= MX(u)MY (u)

Dunque, la funzione generatrice della v.a. somma di due v.a. indipendenti è pari al pro-

dotto delle due funzioni generatrici. Il risultato è facilmente generalizzabile a qualunque

numero di addendi, da cui

Teorema 3.1. Siano X1,X2, . . .Xn v.a. indipendenti con rispettive funzioni generatrici

MXi(u), i = 1, . . . ,n. Allora la funzione generatrice della v.a. Z = X1 +X2 + · · ·+Xn vale

MZ(u) = MX1(u)MX2(u) . . .MXn(u) =n

∏i=1

MXi(u).

Se poi le Xi sono anche somiglianti, avranno funzione generatrice identica per cui

MZ(u) = [MX1(u)]n .

Dimostrazione 3.1. Ovvia, lasciata per esercizio. ♦

Esempio 3.6 [Somma di v.a. indipendenti bernoulliane]

Siano X1,X2, . . . ,Xniid∼ Ber(p) e sia

Y = X1 +X2 + . . .Xn;

Sappiamo già che

MX1(u) = (1− p)+ peu,

e quindi

MY (u) = [(1− p)+ peu]n

=n

∑i=0

(ni

)pi(1− p)n−ieiu

=n

∑i=0

eiu Pr(Y = i) ,

94

Page 95: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

con Pr(Y = i) =(n

i

)pi(1− p)n−i. Dunque, la funzione generatrice dei momento della

somma di v.a. bernoulliane indipendenti e somiglianti ha la forma della funzione gene-

ratrice di una funzione di ripartizione associata ad una v.a. Binomiale e quindi - vedi

l'Osservazione più avanti - la somma di n v.a. Bernoulliane indipendenti di parametro p

ha distribuzione binomiale di parametri (n, p). ♦

Esempio 3.7 [Somma di v.a. normali indipendenti]. Sia, per i= 1, . . . ,n, Xi∼N(µi,σ2i ),

mutuamente indipendenti, e sia Y = X1 + · · ·+Xn. Allora

MY (u) =n

∏i=1

exp(

uµi +u2σ2

i2

)= exp

(u

n

∑i=1

µi +n

∑i=1

σ2i

u2

2

),

cioè

Y ∼ N

(n

∑i=1

µi,n

∑i=1

σ2i

)Dunque la somma di v.a. normali indipendenti ha ancora distribuzione normale con media

data dalla somma delle medie e varianza pari alla somma delle varianze. Il risultato può

essere generalizzato anche al caso di v.a. non indipendenti, ma occorrono altre tecniche

di dimostrazione. ♦

Osservazione 3.1. In questo paragrafo abbiamo visto sotto quali condizioni esiste la

funzione generatrice dei momenti associata ad una funzione di ripartizione FX(·). Li-

mitandoci a tali funzioni di ripartizione, quelle per cui esiste la corrispondente MX(·),possiamo dire che tale corrispondenza è biunivoca, cioè ad ogni funzione di ripartizione

è associata una sola funzione generatrice e viceversa.

Questa osservazione ci permette di concludere che, di fronte ad una funzione gene-

ratrice di tipo noto, la funzione di ripartizione associata a quella particolare MX(·), nonpuò essere che quella che le corriponde. È proprio questa osservazione che ci permette

95

Page 96: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

di ottenere, come nell'Esempio 3.6, la distribuzione di una v.a. dalla forma della sua

funzione generatrice dei momenti.

La funzione generatrice dei momenti può essere denita anche per vettori aleatori.

Sia X = (X1, · · · ,Xk) un vettore aleatorio k dimensionale e sia t = (t1, · · · , tk) ∈ Rk. Si

denisce funzione generatrice dei momenti del vettore X la funzione MX :Rk→R denita

come

MX(t) = IE(

et′X)=

∑x∈S expt1x1 + · · ·+ tkxkPr(X = x) X discreta∫S expt1x1 + · · ·+ tkxk fX(x)dx X ass. continua

. (3.2)

Esempio 3.8 [La distribuzione trinomiale]

Esempio 3.9 [La normale multivariata]

La funzione generatrice dei momenti del vettore normale Y∼ Np(µ,Σ) vale

MY(t) = IE(

et′Y)= IE

(e(t1Y1+···tpYp)

)= exp

(t′µ +

12

t′Σt)

(3.3)

Per la dimostrazione della (3.3), si veda al termine del Capitolo 2. Una prima conseguenza

della (3.3), che aerma un risultato molto importante, è che le combinazioni lineari di

variabili aleatorie normali hanno ancora distribuzione normale.

Teorema 3.2. Sia Y ∼ Np(µ,Σ) e sia B una matrice k× p. Allora il vettore W = BYha distribuzione normale k-dimensionale. Più precisamente

W∼ Nk(Bµ,BΣB′

). (3.4)

Dimostrazione 3.2. Calcoliamo la funzione generatrice dei momenti di W

MW(t) = MBY(t) = IE(exp(t′BY

))= IE

(exp(B′t)′Y

))= MY(B′t) = exp

(t′Bµ +

12

t′BΣB′t)

96

Page 97: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

che è riconoscibile come la funzione generatrice dei momenti associata ad una distribu-

zione normale con parametri espressi dalla (3.4).

3.2 Funzione generatrice delle probabilità

Sia a0,a1,a2, . . . una successione di numeri reali; deniamo, funzione generatrice della

successione la funzione G : R→ R denita da

G(s) =∞

∑n=0

snan.

Tale operazione trasferisce la successione di valori in un altro dominio, precisamente

la retta reale, il supporto in cui varia s. Un tale strumento è utile per lo studio di una

variabila aleatoria X discreta e denita sui numeri interi positivi, dove la successione (nita

o innita) di valori è data dal vettore di probabilità, cioè. per ogni n∈N, Pr(X = n) = an.

In tal caso avremo,

G(s) = IE(sX) . (3.5)

La funzione generatrice delle probabilità ha notevoli proprietà, simili a quelle della funzione

generatrice dei momenti. In fondo, basta porre s = eu per passare da una funzione

all'altra. La prima proprietà è relativa alle convoluzioni, che avrà un impatto nel calcolo

della funzione generatrice della somma di v.a. discrete. Se A = a0,a1,a2, . . . e B =

b0,b1,b2, . . . sono due successioni, deniamo come loro convoluzione la successione

C = c0,c1,c2, . . . dove

cn = a0bn +a1bn−1 +a2bn−2 + · · ·+anb0 =n

∑i=0

aibn−i

97

Page 98: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

La funzione generatrice della convoluzione è

GC(s) =∞

∑n=0

cnsn =∞

∑n=0

n

∑i=0

aibn−isn

=∞

∑i=0

∑n=i

aibn−isn

=∞

∑i=0

aisi∞

∑n=i

bn−isn−i

=∞

∑i=0

aisi∞

∑h=0

bhsh

= GA(s)GB(s)

Quando le successioni A e B sono distribuzioni di probabilità e X e Y sono due v.a.

indipendenti denite sugli interi non negativi e tali che Pr(X = n) = an e Pr(Y = n) = bn,

per ogni n, allora i valori della successione di convoluzione C forniscono le probabilità con

cui la v.a. Z = X +Y assume i vari valori interi non negativi, cioè le Pr(X +Y = n) = cn.

In questo caso, la dimostrazione precedente avrebbe potuto essere scritta in modo più

semplice ed elegante come

GX+Y (s) = IE(sX+Y)= IE

(sX) IE

(sY)= GX(s)GY (s),

cioè la funzione generatrice della somma di due v.a. indipendenti è pari al prodotto delle

funzioni generatrici delle singole v.a.

Un'altra importante proprietà è legata al calcolo della media. È facile vericare che,

essendo GX(s) la funzione generatrice della v.a. X , allora

∂ sGX(s) |s=1= IE(X) .

Infatti,

G′X(s) =∂

∂ s

(a0 +a1s+a2s2 + . . .

)= a1 +2a2s+3a3s2 + . . .

cosicché

G′X(1) = a1 +2a2 +3a3 + · · ·=∞

∑k=1

kak = IE(X) .

98

Page 99: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Si può anche vericare che, essendo GX(s) la funzione generatrice della v.a. X , allora la

derivata n-esima di GX(s), calcolata in zero fornisce il valore n!an, cioè

G′X(0) = n!an,

da cui

an =1n!

G′X(0).

In altri termini l'elemento generico della distribuzione di probabilità può essere ottenuto

mediante operazione di derivazione. Questo risultato si lega con l'ultima proprietà della

funzione generatrice delle probabilità degna di nota: la successione è interamente re-

cuperabile dalla conoscenza della sua funzione generatrice. In altri termini la funzione

generatrice determina univocamente la legge di probabilità.

3.3 Disuguaglianze notevoli.

In molte applicazioni pratiche, non si conosce esattamente la legge della v.a. in esame,

ma è suciente ottenere una valutazione approssimata della probabilità di un evento del

tipo X > a per un qualche a reale, oppure del tipo |X −E(X)| > a, per a > 0. Le

disuguaglianze di Markov e Chebyshev possono allora essere utilizzate per ottenere dei

limiti superiori di queste probabilità, espresse in termini di media e varianza della v.a. in

questione.

Esempio 3.10 Sia X ≥ 0 una v.a. relativa all'età di una persona scelta a caso nel

comune di Roma. Supponiamo di sapere che, per tale distribuzione,

IE(X) = 50 anni.

Sulla base di questa sola informazione, qual è percentuale di persone nella popolazione

con età superiore a 75 anni? cioè quanto vale Pr(X > 75)?

Ovviamente, non possiamo rispondere in modo esatto a questa domanda ma la disu-

guaglianza di Markov ci aiuterà a dare una risposta approssimata. ♦

99

Page 100: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Teorema 3.3. Disuguaglianza di Markov.

Sia X una v.a. non negativa. Allora, per ogni a > 0,

Pr(X ≥ a)≤ 1a

IE(X) .

Dimostrazione 3.3. Definiamo la variabile indicatrice

I(a) =

1 X ≥ a

0 X < a;

allora è facile verificare che, in ogni caso, e per ogni a > 0,

aI(a)≤ X .

La suddetta disuguaglianza è allora vera anche in media,

a IE(I(a))≤ IE(X) .

Ma

IE(I(a)) = 1×Pr(X ≥ a)+0×Pr(X < a) = Pr(X ≥ a)

da cui la tesi. ♦

Quando di una v.a. conosciamo soltanto il valor medio IE(X), la disuguaglianza di

Markov è il risultato più preciso che si può ottenere per il comportamento delle code. Per

dimostrare questa aermazione, consideriamo il seguente esempio. Sia X una v.a. che

assume i seguenti valori

X =

aµ1a

0 1− 1a

Allora, in questo caso

IE(X) = aµ× 1a= µ

mentre

Pr(X ≥ aµ) = IE(X)/a = µ,

100

Page 101: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

e dunque la v.a. in questione raggiunge il limite superiore descritto dalla disuguaglianza

di Markov, che in questo caso diventa una uguaglianza. Tuttavia, in alcune situazioni,

la disuguaglianza può essere quasi inutile, come dimostra il seguente esempio. Sia X ∼Exp(1); allora

Pr(X ≥ 10) = e−10≈ 4.54×10−5,

mentre la disuguaglianza ci fornisce un upper bound molto più elevato,

Pr(X ≥ 10)≤ IE(X)

10=

110

,

cioè una valutazione molto conservativa.

Disuguaglianza di Chebyshev.

Sia X una v.a. che descrive lo stato di un sistema. Supponiamo inoltre che il sistema sia

sotto controllo se X non si discosta troppo dalla sua media IE(X). In alcune applica-

zioni industriali tale scostamento viene ssato in tre deviazioni standard, cioè 3σX . La

disuguaglianza di Chebyshev fornisce un limite superiore alla quantità

Pr(|X− IE(X) | ≥ 3σX) .

A dierenza di quella di Markov, per utilizzare la disuguglianza di Chebyshev occorre

conoscere anche la deviazione standard della v.a.

Teorema 3.4. Disuguaglianza di Chebyshev.

Sia X una v.a. con media pari a IE(X) e varianza σ2X . Allora, per ogni a > 1,

Pr(|X− IE(X) | ≥ aσX)≤1a2 .

Dimostrazione 3.4. Utilizzeremo la disuguaglianza di Markov. Definiamo la v.a. Y =

(X− IE(X))2 ≥ 0. Ovviamente IE(Y ) = σ2X e, per la disuguaglianza di Markov,

Pr(Y ≥ a2

σ2X)≤ 1

a2 .

Tuttavia Y ≥ a2

σ2X⇐⇒|X− IE(X) | ≥ aσX

101

Page 102: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

e dunque

Pr(|X− IE(X) | ≥ aσX)≤1a2 . ♦

Anche la disuguaglianza di Chebyshev è il risultato più preciso che si può ottenere sulla

base della conoscenza delle sole media e varianza. In alcuni esempi, tuttavia, essa fornisce

risultati troppo conservativi. Sia infatti X ∼ N(0,1). allora la disuguaglianza ci dice che

Pr(|X | ≥ 3) = Pr(|X | ≥ 3σX)≤19,

ma in realtà sappiamo che Pr(X > 3)≈ 2×10−3.

Teorema 3.5 (Disuguaglianza di Jensen). Sia φ : R→ R una funzione convessa,

λφ(x)+(1−λ )φ(y)≥ φ(λx+(1−λ )y)

per ogni λ ∈ (0,1) e per ogni coppia di valori (x,y) ∈ R. Assumiamo inoltre che la v.a.

X e φ(X) abbiano valore atteso nito. Allora

φ (E[X ])≤ E[φ(X)].

Dimostrazione 3.5. Sia c = E[X ] e poniamo l(x) = ax+ b una funzione lineare tale

che l(c) = φ(c) e φ(x)≥ l(x). Allora

E[φ(X)]≥ E[aX +b] = aE[X ]+b = l (E[X ]) = φ (E[X ]) ♦

3.4 Convergenza di successioni di v.a.

Consideriamo una successione di v.a.

Xn,n≥ 1 ,

e assumiamo che tutte le v.a. siano denite tutte sullo stesso spazio di probabilità (Ω,P).

È possibile denire diversi criteri secondo i quali la successione Xn ammette, in un certo

senso, un limite.

102

Page 103: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Convergenza quasi certa.

Si dice che la successione Xn converge quasi certamente (q.c.) alla v.a. X e si scrive

Xnq.c.→ X , per n→ ∞,

se

Pr(ω : Xn(ω)→ X(ω)) = 1,

cioè , l'insieme delle possibili traiettorie della successione che convergono ha probabilità

pari a 1.

Convergenza in probabilità.

Si dice che la successione Xn converge in probabilità (i.p.) alla v.a. X e si scrive

Xni.p.→ X , per n→ ∞,

se, ∀ε > 0,

Pr(ω :| Xn(ω)−X(ω) |< ε)→ 1, per n→ ∞.

È possibile dimostrare che la denizione di convergenza quasi certa implica quella in

probabilità ma il viceversa non è necessariamente vero:

Xnq.c.→ X =⇒ Xn

i.p.→ X .

Convergenza in media quadratica.

Si dice che la successione Xn converge in media quadratica (m.q.) alla v.a. X e si

scrive

Xnm.q.→ X , per n→ ∞,

se,

limn→∞

IE(| Xn−X |2

)= 0

Questo tipo di convergenza è basato sul calcolo dei momenti e non della intera distribu-

zione delle v.a. coinvolte. Tuttavia è facile dimostrare che

Xnm.q.→ X =⇒ Xn

i.p.→ X ,

103

Page 104: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

cioè la convergenza in media quadratica implica quella in probabilità. La dimostrazione

è basata sull'utilizzo della disuguaglianza di Chebyshev.

Pr(| Xn−X |> ε) = Pr(| Xn−X |2> ε

2)≤

IE(| Xn−X |2

)ε2

Dunque se l'ultima quantità tende a zero (convergenza in m.q.), a maggior ragione vi

convergerà anche la prima (convergenza in probabilità ).

Consideriamo ora un ultimo tipo di convergenza, detto in distribuzione. Questo è

il tipo di convergenza più debole e non è basato sulla natura delle v.a. quanto sulle loro

distribuzioni; non è nemmeno necessario che le v.a. siano denite sullo stesso spazio di

probabilità.

Convergenza in distribuzione.

Si dice che la successione Xn converge in distribuzione (i.d.) alla v.a. X e si scrive

Xni.d.→ X , per n→ ∞,

se, per ogni punto x di continuità della funzione di ripartizione F della v.a. X , vale

limn→∞

FXn(x) = FX(x).

La condizione che la convergenza si verichi solo nei punti di continuità della funzione di

ripartizione limite è necessaria per evitare che la condizione non sia vericata in situazioni

dove la convergenza è naturale.

Esempio 3.11 Sia Xn,n≥ 1 la successione delle variabili aleatorie degeneri tali che,

per ogni n ≥ 1, Xn assume il valore 1/n con probabilità pari a 1. Trattandosi di una

successione deterministica è naturale richiedere che il limite in distribuzione di tale

successione sia la v.a. degenere in 0. la cui funzione di ripartizione è

F0(t) =

0 t < 0

1 t ≥ 0.

104

Page 105: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Tuttavia, per ogni n≥ 1, la funzione di ripartizione associata alla Xn è data da

Fn(t) = Pr(Xn ≤ t) =

0 t < 1n

1 t ≥ 1n

.

E' facile vedere che la succesione dei numeri reali Fn(0),n ≥ 1, composta da tutti 0,

non converge al valore F0(0) = 1. ♦

Si può poi dimostrare che

Xni.p.→ X =⇒ Xn

i.d.→ X ,

cioè la convergenza in probabilità implica la convergenza in distribuzione. Il viceversa è

vero solo nel caso particolare in cui la v.a. limite è degenere cioè assume un solo valore.

Teorema 3.6. Sia Xn,n≥ 1 una successione di v.a.; se

Xni.d.→ X = c,

dove c è una costante allora

Xni.p.→ X = c.

Dimostrazione 3.6. Si veda, ad esempio, Dall’Aglio [2000].

Un teorema di continuità.

Abbiamo già visto che, quando esiste, la funzione generatrice dei momenti caratterizza

univocamente una distribuzione di probabilità footnotein realtà, occorrono altre condi-

zioni di regolarità, che qui assumeremo soddisfatte.. È allora ragionevole pensare che, a

fronte di una convergenza delle funzioni di ripartizione di una successione di v.a., debba

corrispondere una qualche convergenza delle funzioni generatrici dei momenti. Infatti,

vale il seguente teorema

Teorema 3.7. Sia Xn,n≥ 1 una successione di v.a.; assumiamo che, per ogni n≥ 1,

sia denita la funzione generatrice dei momenti associata alla distribuzione della v.a. Xn,

105

Page 106: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

diciamo Mn(u). Allora, se X è un'ulteriore v.a. e MX(u) è la funzione generatrice dei

momenti associata alla distribuzione di X ,

Mn(u)→MX(u),

per n→ ∞ e per u ssato, se e solo se

Xni.d.→ X .

Dimostrazione 3.7. Si veda, ad esempio, Dall’Aglio [2000].

L'ultimo risultato sarà particolarmente utile nella dimostrazione dei più importanti

teoremi limite della probabilità, le leggi dei grandi numeri e il teorema del limite centrale,

come vedremo nella prossima sezione.

3.5 Teoremi limite

Teorema 3.8. Legge debole dei grandi numeri. Sia Xn,n≥ 1 una successione di v.a.

indipendenti e somiglianti, tutte con media pari a IE(Xn) = µ < ∞. Sia inoltre

Sn = X1 +X2 + · · ·+Xn.

Allora, per ogni ε > 0, si ha, per n→ ∞,

Pr(| Sn

n−µ |> ε

)→ 0, (3.6)

Dimostrazione 3.8. Le seguenti affermazioni sono equivalenti per quanto già detto nei

paragrafi precedenti

Sn

n−µ

i.p.→ 0⇐⇒ Sn

ni.p.→ µ ⇐⇒ Sn

ni.d.→ µ ⇐⇒MSn/n(u)→Mµ(u),

dove la seconda relazione dipende dal fatto che µ e un limite degenere e la terza relazione

discende dal teorema di continuità della sezione precedente. Sarà allora sufficiente dimo-

strare l’ultima delle suddette relazioni, cioè la convergenza della successione delle funzioni

106

Page 107: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

generatrici dei momenti. Dopo aver notato che la funzione generatrice dei momenti di una

v.a. degenere nel valore µ si calcola facilmente, nel modo seguente

Mµ(u) = IE(euX)= exp(uµ),

occorre dimostrare che MSn/n(u)→ exp(uµ). Ma

MSn/n(u) = MX1/n+X2/n+···+Xn/n(u)

=[MX1/n(u)

]n=[MX1

(un

)]n

Sviluppando in serie di Taylor fino al primo ordine la MX1 si ha,

MX1

(un

)= MX1(0)+M′X1

(0)un+o(

1n

)= 1+

n+o(

1n

),

e quindi

MSn/n(u) =

[1+

n+o(

1n

)]n

→ euµ . ♦

Teorema 3.9. Legge forte dei grandi numeri. Sotto le stesse condizioni del Teorema

3.8, si può anche dimostrare cheSn

n−µ

q.c.→ 0. (3.7)

Dimostrazione 3.9. Si veda Dall’Aglio [2000]

Teorema 3.10. Teorema del limite centrale. Sia Xn,n≥ 1 una successione di v.a.

indipendenti e somiglianti, tutte con media pari a IE(Xn) = µ < ∞ e varianza pari a

Var(Xn) = σ2 < ∞. Sia inoltre

Sn = X1 +X2 + · · ·+Xn.

Allora, per n→ ∞,

Pr(

Sn−nµ

σ√

n≤ t)→Φ(t), (3.8)

dove Φ(t) è la funzione di ripartizione di una v.a. N(0,1).

107

Page 108: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Dimostrazione 3.10. Sia

Vn =Sn−nµ

σ√

n.

Per il teorema di continuità (vedi §1.6) è sufficiente dimostrare che la funzione generatrice

dei momenti di Vn converga alla funzione generatrice dei momenti di una v.a. N(0,1), cioè

che

MVn(u)→ exp(

u2

2

).

Poiché

Vn =X1−µ

σ√

n+

X2−µ

σ√

n+ · · ·+ Xn−µ

σ√

n

e gli addendi nella somma precedente sono v.a. indipendenti, avremo

MVn(u) =[M(X1−µ)/σ

√n(u)

]n

=

[MX1−µ

(u

σ√

n

)]n

.

Ricordando che IE(X1−µ) = 0 e IE(X1−µ)2 = σ2, avremo

MX1−µ

(u

σ√

n

)=MX1−µ(0)+M′X1−µ(0)

uσ√

n+M′′X1−µ(0)

u2

2σ2n+o(

1n

)= 1+

u2

2n+o(

1n

),

da cui

MVn(u) =

[1+

u2

2n+o(

1n

)]n

→ exp(

u2

2

),

come si voleva mostrare. ♦

Mostriamo ora, attraverso semplici esempi, alcune possibili utilizzazioni dei teoremi

limite.

Esempio 3.12 (Chung & AitSahlia [2003]) La distanza tra la terra e la stella Irex viene

misurata n volte con lo stesso strumento per ottenere un risultato più adabile. Ogni

misurazione è soggetta ad un errore casuale non controllabile. Si giudica ragionevole

108

Page 109: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

supporre che, in modo approssimato, l'errore si manifesti, ogni volta, come una v.a.

uniforme U(−1,1). Se consideriamo la media aritmetica delle n misurazioni, qual è la

probabilità che essa dierisca dal vero valore della distanza meno di δ , per δ ∈ (0,1)?

Per rispondere a questa domanda, sia µ il vero valore della distanza e denotiamo con

X1, . . . ,Xn le n v.a. associate alle n misurazioni. Dunque si può assumere che, per ogni

j = 1, . . . ,n,

X j = µ +ξ j,

dove ξ1, . . . ,ξniid∼ U(−1,1). Ne segue che

IE(X j)= µ + IE

(ξ j)= µ, Var

(X j)= IE

2j)=

13.

La v.a. Vn = (X1+ . . .Xn)/n, la media campionaria delle n misurazioni ha dunque media

e varianza pari a

IE(Vn) = µ, Var(Vn) =1n2

n3=

13n

.

Ne segue che, peril teorema del limite centrale, per grandi valori di n, la v.a. Zn =√

3n(Vn− µ) ha distribuzione approssimativamente normale standardizzata. Quindi l'e-

vento al quale siamo interessati,

|Vn−µ |< δ ,

ha probabilità

Pr(|Vn−µ |< δ ) = Pr(| Zn |< δ

√3n)

≈ Φ

√3n

)−Φ

(−√

3nδ

)= 2Φ

(δ√

3n)−1.

Ad esempio, con 36 replicazioni dell'esperimento e δ pari a 0.1, avremo

Pr(|V36−µ |< 0.1)≈ 2Φ(1.04)−1 = 0.702.

Con 100 replicazioni, la probabilità di non eccedere δ salirebbe a 0.92. Queste considera-

zioni sono ovviamente importanti anche per stabilire quale sia la numerosità campionaria

necessaria per ottenere risultati con un grado pressato di adabilità.

109

Page 110: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Esempio 3.13 [Approssimazione della legge binomiale mediante la legge normale] Siano

X1,X2, ·Xniid∼ Be(θ). Sappiamo allora che

IE(X1) = θ , Var(X1) = θ(1−θ).

Per grandi valori di n applicando il teorema del limite centrale si ha

Sn−nθ√nθ(1−θ)

≈ N(0,1),

cioè , ∀x ∈ R,

Pr

(Sn−nθ√nθ(1−θ)

≤ x

)→Φ(x) =

∫ x

−∞

1√2π

exp(−1

2t2)

dt

Ma è anche noto che la somma di n v.a. bernoulliane indipendenti e somiglianti ha

distribuzione binomiale e dunque Sn ∼ Bin(n,θ). Dunque,

Pr(Sn ≤ y) = Pr

(Sn−nθ√nθ(1−θ)

≤ y−nθ√nθ(1−θ)

)≈Φ

(y−nθ√nθ(1−θ)

)

La precedente approssimazione può essere migliorata tenendo conto della correzione di

continuità e avremo così,

Pr(Sn ≤ y)≈Φ

(y−nθ +0.5√

nθ(1−θ)

)

Esempio 3.14 [Il teorema del limite centrale per il calcolo approssimato di probabilità ]

Calcolare probabilità relative alla distribuzione binomiale è semplice ntanto che il valore

di n, il numero delle prove non è troppo grande. Supponiamo di dover eettuare n =

1000 lanci di una moneta che dà testa (T) con probabilità p = 0.4 e vogliamo calcolare

110

Page 111: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

la probabilià di ottenere un numero di T compreso tra almeno 350 e non più di 425.

Ovviamente sarà Y ∼ Bin(1000,0.4), da cui

IE(X) = 1000×0.4 = 400, varx = 1000×0.4×0.6 = 240.

Allora adottando la correzione di continuità tipica delle approssimazioni di distribuzioni

discrete avremo,

Pr(350≤ Y ≤ 425) = Pr(350−0.5≤ Y ≤ 425+0.5)

= Pr(

349−400√240

≤ Y −400√240

≤ 425.5−400√240

)= Pr(−3.26≤ Y ≤ 1.646)≈Φ(1.65)−Φ(−3.26)

= 0.9505−0.0006 = 0.9499

Queso risultato non può essere ottenuto con carta e penna usando la formula binomiale.

Da notare che il risultato esatto, calcolato con un qualunque software, fornisce il valore

0.94925.

3.5.1 Il metodo Monte Carlo

3.5.2 La notazione di Landau o(h)

Il simbolo o(h) non si riferisce ad una specica funzione. Esso indica qualsiasi funzione

che tenda a zero con una velocità (o tasso) superiore rispetto alla funzione f (h) = h

quando h→ 0, cioèo(h)

h→ 0 per h→ 0.

Una quantità o(h) gode di alcune proprietà inconsuete come ad esempio il fatto che

o(h)+o(h) = o(h),

così come

o(h)o(h) = o(h); e c ·o(h) = o(h),

111

Page 112: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

con c costante.

Esempio 3.15 La funzione f (h) = hk è un o(h) per ogni k > 1 al tendere di h a zero.

Infattihk

h= hk−1→ 0 as h→ 0.

La serie ∑∞k=2 ckhk, in cui |ck|< 1, per ogni k, è ancora o(h) poiché

limh→0

∑∞k=2 ckhk

h= lim

h→0

∑k=2

ckhk−1

=∞

∑k=2

ck limh→0

hk−1 = 0,

dove lo scambio di ordine tra limite e serie è giusticato dal fatto che la serie è maggiorata

da una serie convergente (cioè la quantità 1/(1−h), per h< 1, ponendo tutte le ck = 1. ♦

112

Page 113: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

CAPITOLO 4

Introduzione ai processi stocastici

La teoria dei processi stocastici è importante per la descrizione di sistemi complessi che

si evolvono nel tempo e/o nello spazio secondo regole probabilistiche. Formalmente, un

processo stocastico può essere denito come segue:

Denizione 4.1. Si dice processo stocastico una famiglia di variabili aleatorie X =

Xt , t ∈ T denite su uno spazio di probabilità (Ω, A , P).

Intuitivamente, un processo stocastico può essere visto - ma non necessariamente

- come una successione di variabili aleatorie X1, X2, . . . Xn, . . . che si realizzano nel

tempo, ordinate secondo un parametro t ∈ T .

Esempio 4.1 [ Lanci di ua moneta ] Si lancia una moneta indenitamente. Ogni lancio

è indipendente dagli altri e a ciascun lancio viene associata una v.a Bernoulliana di

parametro p,

Xt =

1(T ) p

0(C) 1− p

113

Page 114: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Sia poi, per ogni t = 1,2, . . . ,,

Yt = 2Xt−1,

il guadagno associato all'uscita di T (1 euro) oppure di C (-1 euro). Sia inoltre, per ogni t

St = X1 +X2 + . . .Xt la somma parziale delle prime n scommesse. Il processo Sn,n ∈Ncostituisce il primo esempio di processo stocastico, che rappresenta l'ammontare del

capitale guadagnato mediante le prime n scommesse. Ovviamente, per ogni n ∈ N,risulta Sn = Sn1 +Xn, che chiarisce come la successione delle v.a. Sn non è a componenti

indipendenti. Inoltre poiché Sn−1 dipende solo dalle prime n−1 v.a. Xi, essa non dipende

da Xn. Il processo Sn,n ∈N si dirà allora ad incrementi indipendenti. La classe dei

processi ad incrementi indipendenti è molto importante sia da un punto di vista teorico che

applicato. Molte applicazioni dei processi stocastici in ambito nanziario ed economico,

come ad esempio l'analisi classica delle serie temporali si basano proprio sull'ipotesi di

incrementi indipendenti.

Rimanendo al nostro esempio, lo studio del processo Sn,n ∈ N ha molti aspetti

interessanti che, nelle varie applicazioni, ha senso considerare. Noi saremo interessati, in

particolare ai seguenti problemi

(1) Qual è la probabilità che il processo Sn, partendo da zero, raggiunga la soglia

positiva a prima di raggiungere la soglia negativa −b

(2) Qual è la distribuzione del tempo aleatorio necessario per raggiungere un certo

valore c ∈ R?

(3) È possibile valutare, almeno in modo approssimato, la legge di probabilità di Sn,

per n molto grande? In altre parole, è possibile stabilire se la successione delle Sn

converge in distribuzione a qualche v.a. limite?

DA RISCRIVERE

114

Page 115: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

nel modo seguente: innanzitutto i dati oggetto di studio sono ricavati attraverso un

processo di misurazione che può essere falsato da disturbi di varia natura; sfortunata-

mente, è molto dicile fornire una descrizione accurata di tali disturbi perché possono

derivare dalle cause più disparate. Pertanto, maggiori sono le informazioni sul tipo di dati

che stiamo studiando, maggiori sono le possibilità di riuscire a capire le proprietà della

particolare serie osservata. Un modo per arontare questo problema è proprio quello di

trattare i dati come una particolare realizzazione di un processo stocastico (se abbiamo

due serie di dati le trattiamo semplicemente come due diverse realizzazioni di uno stesso

processo), ossia di assumere che il processo abbia delle particolari proprietà e che la serie

non sia altro che un esempio dei suoi possibili andamenti.

Anche nel caso in cui le caratteristiche della serie di dati siano note, potrebbe essere

comunque preferibile trattarla come la realizzazione di un processo descritto da poche ca-

ratteristiche; dal punto di vista pratico, infatti, per descrivere un processo basta limitarsi

a un piccolo insieme di parametri, mentre per studiare una serie occorre una quantità di

variabili deterministiche generalmente molto più grande. Questo tipo di approssimazione,

chiaramente, dà risultati non ottimali, ma risulta senz'altro migliore dello studio di tutti

i parametri di un dataset limitato (cosa che spesso risulta irrealizzabile). Esempio 4.2

Sono esempi di stati di processi stocastici il numero di email nella posta in arrivo in un

dato istante t, il saldo di conto corrente in un dato momento t, il numero di teste che

escono in t lanci della stessa moneta.

♦legame tra le Xt . Generalmente lo si deduce da problemi di carattere pratico. Ana-

liticamente, esso risulta dalla formalizzazione delle ipotesi fatte per analizzare il processo

e per fare previsioni sul fenomeno reale. Vedremo che i legami tra le Xt sono riconducibili

a legami tra le loro distribuzioni di probabilità e che questi a loro volta determinano la

famiglia di appartenenza del processo stocastico.

115

Page 116: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

4.1 Un po' di linguaggio.

In questo paragrafo verranno deniti alcune nozioni generali, comuni a tutti i processi

che incontreremo. Sia Xtt ∈ T la collezione di v.a. che forma il processo stocastico.

Chiameremo T l'insieme dei tempi in cui il processo viene osservato. T può essere un

insieme discreto come l'insieme N dei numeri naturali oppure un sottoinsieme della retta

reale R, in genere la semiretta positiva o l'intera retta reale. Nei due casi il processo si

dirà a parametro discreto oppure continuo.

Si denisce invece spazio degli stati S l'insieme dei valori che le variabili aleatorie

costituenti il processo possono assumere. È possibile che ciascuna v.a. Xt abbia un pro-

prio spazio degli stati St . In tal caso deniremo Anche lo spazio degli stati può essere

discreto o continuo a seconda della natura delle v.a. che costituiscono il processo. Si

chiama distribuzione congiunta nito dimensionale del processo Xt , t ∈ T la distribuzio-ne multivariata di un sottoinsieme nito di v.a. del processo Xt1,Xt2, . . . ,Xtk . Conoscere il

comportamento probabilistico del processo stocastico equivale a conoscere tutte le distri-

buzioni k-dimensionali per qualunque valore di K intero e per qualunque k-pla di variabili

aleatorie. In generale, questo è raramente possibile senza assumere alcune ipotesi sem-

plicatrici, come un particolare tipo di dipendenza, ad esempio quella di tipo markoviana

che discuteremo in seguito. Quando non è possibile assumere ipotesi semplicatrici, lo

studio del processo si limita all'analisi di particolari grandezze associate alle v.a. che

costituiscono il processo. Si potrà denire ad esempio la funzione deterministica

m(t) = IE(Xt) , t ∈ T

che rappresenta il livello medio del processo al variare del tempo. Può essere inoltre utile

denire, per ogni coppia di tempi (t,s) la funzione di covarianza

C(s, t) = Cov(Xs,Xt) ,

che descrive il grado di dipendenza delle coppie di v.a. costituenti il processo. Un caso

molto importante, che non discuteremo in dettaglio, è quello dei processi debolmente

stazionari, cioè processi in cui la funzione m(t) è costante mentre C(s, t) = γ(|s− t|

116

Page 117: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

dove la covarianza dipende solo dal lag temporale di osservazione delle due v.a.; si vede

facilmente che le v.a. che costituiscono un processo debolmente stazionario hanno tutte

la stessa varianza, pari a γ(0).

Ricordando inoltre che le v.a. sono denite come funzioni misurabili da Ω in R,possiamo interpretare un processo come la collezione

Xt(ω),ω ∈Ω, t ∈ T .

Al variare di t ∈ T , per ω ssato si ottiene una traiettoria del processo stocastico. Al

variare di ω ∈Ω, per t ssato si ha, ovviamente, la v.a. che descrive il processo al tempo

t.

Nei prossimi paragra introdurremo il primo e più elementare esempio di processo

stocastico, già introdotto all'inizio del capitolo, ovvero un processo di tipo bernoulliano,

comunemente noto come passeggiata aleatoria. La sua trattazione ci aiuterà ad acquisire

un linguaggio e un modo di arontare i problemi che risulterà utile nei capitoli successivi

in cui aronteremo processi aleaori più generali.

4.2 La passeggiata aleatoria

S come l'unione numerabile degli St , S =∪t∈T St . La più elementare passeggiata aleatoria

è quella in cui si descrive il moto di una particella che si muove ad intervalli unitari,

avanti o indietro di un passo con movimenti mutuamente indipendenti. Cerchiamo di

formalizzare meglio questo processo. Per ogni istante n = 1,2,3, . . . , deniamo una

variabile aleatoria dicotomica che assume il valore 1 con probabilità p e il valore −1 con

probabilità q = 1− p. In formula, per ogni n = 1,2,3, . . .

Xn =

+1 p

−1 q.

Assumiamo inoltre che le Xn siano indipendenti tra loro. In pratica si assume che, ad ogni

istante, la particella si sposti di un passo, avanti o indietro, con probabilità rispettivamente

pari a p e q = 1− p. Inoltre, il movimento ad ogni istante non dipende dalle mosse

117

Page 118: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

precedenti e future.

Esempio 4.3 Il caso bidimensionale Per avere una rappresentazione concreta di questo

tipo di processi, nel caso bidimensionale, si può pensare ad una passeggiata di un ubriaco

per un quartiere reticolare come Manhattan a New York, o Testaccio a Roma. Ad ogni

incrocio, egli sceglie quale delle quattro possibilili direzioni prendere in base a probabilità

pressate. Sia allora S(n) = (S(n)1 ,S(n)2 ) la posizione in R2 al tempo n, con

S(n)j = X (1)j +X (n)

j + · · ·+X (n)j .

Una possibile regola di cammino della passeggiata potrebbe essere ad esempio la seguente

P(S(n) = (x,y)|S(n−1) = (w,z)) =

1/4 x = w+1,y = z+1

1/4 x = w−1,y = z+1

1/4 x = w+1,y = z−1

1/4 x = w−1,y = z−1

.

A partire dalle v.a. sopra denite, per ogni n, si può allora costruire la v.a.

Sn = X1 +X2 + · · ·+Xn−1 +Xn

che rappresenta la posizione o il livello raggiunto dopo n passi. Ovviamente, la Sn soddisfa

la relazione:

Sn = X1 +X2 + · · ·+Xn−1 +Xn = Sn−1 +Xn, n = 1,2,3, . . . .

L'ultima espressione rappresenta la passeggiata aleatoria come un caso particolare di

catena di Markov omogenea nel tempo, di cui torneremo ad occuparci nel prossimo

capitolo.

Cercheremo ora di discutere ed illustrare le caratteristiche matematiche di questo

modello che, oltre ad avere una importanza per sé, rappresenta anche l'elemento base

per costruire e studiare modelli più complessi.

118

Page 119: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Lo studio di un processo aleatorio può essere eettuato concentarndoci sulla natura

delle relazioni che intercorrono tra le variabili aleatorie che lo compongono oppure, in

modo complemetare, studiando le traiettorie disegnate dal processo, cioè studiando le

realizzazioni che l'intera successione di v.a. può potenzialmente manifestare. Questo

secondo approccio, nel caso particolare della passeggiata aleatoria, ci consentirà, ad

esempio, di dare una risposta a domande del tipo:

1. Qual è la probabilità che la particella, partendo da un dato stato a, raggiunga prima

o poi un certo livello o una certa posizione c?

2. Qualora ci riesca, quanto tempo impiegherà ?

3. Il raggiungimento del livello c avverrà prima o dopo aver raggiunto un altro livello,

diciamo −b?

4. Quanto spesso la particella passa per un dato livello, ad esempio lo zero?

La risposta a queste domande può essere cercata rappresentando il processo aleatorio,

cioè la successione delle Sn, in modo colorito, come l'ammontare della fortuna di un

giocatore al casinò che, ad ogni puntata, perde o vince una quantità ssata di denaro.

4.3 Il problema della rovina del giocatore

Consideriamo la seguente situazione: Pietro e Paolo sono due giocatori di carte che

hanno a disposizione, rispettivamente, a euro e b euro. Ad ogni istante n = 1,2,3, . . .

giocano una partita: chi vince toglie un euro all'altro giocatore. Ogni partita ha esito

indipendente dalle altre: inoltre, in ogni partita, Pietro vince con probabilità p e Paolo

vince con probabilità q = 1− p.

Sia Sn il patrimonio di Pietro dopo n partite; la terza domanda che ci siamo posti può

essere allora riformulata nel modo seguente: partendo da S0 = a (l'ammontare iniziale di

Pietro), qual è la probabilità che Pietro tolga tutti i soldi a Paolo? In altre termini, qual

è la probabilità che la successione Sn tocchi il livello c = a+b prima di toccare lo zero,

cioè prima che Pietro perda tutto il capitale iniziale?

119

Page 120: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Per questa sua classica rappresentazione, il problema è denito come quello della

rovina del giocatore. Risponderemo alla domanda con un approccio che comporta calcoli

lunghi ma semplici, basati sulla risoluzione di un sistema di equazioni alle dierenze nite

che verrà risolto in modo ricorsivo.

Nel linguaggio formale della teoria dei processi aleatori, una situazione di questo

genere viene denita una passeggiata aleatoria con due barriere assorbenti, per indicare

il fatto che, quando il processo tocca uno dei livelli 0 oppure c il processo non ne esce

più. Riprenderemo questo concetto più diusamente nell'ambito delle catene di Markov.

4.3.1 Probabilità di vittoria dei due giocatori.

Sia allora A l'evento Sn raggiunge lo stato 0 prima dello stato c. Per ogni j = 1,2, . . . ,c−1 deniamo la quantità

u j = P(A | S0 = j),

la probabilità di rovina di Pietro qualora parta con j euro. Per come abbiamo impostato

il problema, sarebbe suciente calcolare il valore di ua, ma la soluzione che esporremo,

basata sulla risoluzione del sistema, ci fornirà il risultato per ogni capitale iniziale j di

partenza.

Innanzitutto esprimiamo la quantità u j tenendo conto di quanto può succedere nella

prima partita; questa tecnica è molto utilizzata nello studio dei processi di Markov e

prende il nome di condizionamento al primo passo.

u j = P(A∩X1 = 1|S0 = j)+P(A∩X1 =−1|S0 = j),

u j = P(A | X1 = 1∩S0 = j)P(X1 = 1)

+ P(A | X1 =−1∩S0 = j)P(X1 =−1)

= P(A | S1 = j+1)p+P(A | S1 = j−1)q,

dove l'ultima uguaglianza deriva da una proprietà del processo che chiameremo marko-

vianità nel prossimo capitolo: qui ci limitiamo a notare che l'informazione relativa al

risultato del primo passo (la v.a. X1) ci da informazioni sullo stato del processo delle Sn

120

Page 121: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

al tempo t = 1 e rende inutile, in quanto superata, l'informazione relativa al tempo t = 0.

Inoltre

P(A | S1 = j−1= P(A | S0 = j−1) = u j−1

e una relazione analoga vale condizionando all'evento X1 = 1; questo suggerisce la

relazione ricorrente, valida per j = 1,2, . . . ,n−1,

u j = pu j+1 +qu j−1.

Per costruzione del problema, possiamo anche ssare le condizioni al contorno,

u0 = 1; uc = 0; p+q = 1.

Infatti, partendo dallo stato 0, la rovina è un evento certo, mentre se n dall'inizio si

possiedono tutti gli euro, la rovina è un evento impossibile.

Avremo dunque, essendo p+q = 1,

u j = (p+q)u j = pu j+1 +qu j−1

da cui

q(u j−1−u j

)= p

(u j−u j+1

).

Ponendo inoltre

r =qp, d j = u j−u j+1, per j = 0,1, . . .c−1,

si ha che, per ogni j,

d j = rd j−1 = r2d j−2 = r3d j−3 = · · ·= r jd0.

Assumiamo per il momento che r 6= 1; il caso r = 1, in cui i due giocatori hanno la stessa

probabilità di vincere ogni singola partita, verrà arontato più avanti. Poiché u0−uc = 1,

avremo

1 = u0−uc = u0−u1 +u1−u2 + · · ·+uc−1−uc

=c−1

∑j=0

(u j−u j+1) =c−1

∑j=0

d j =c−1

∑j=0

r jd0 = d01− rc

1− r

121

Page 122: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

da cui

d0 =1− r1− rc ,

Ma d0 = 1−u1, e quindi

u1 = 1− 1− r1− rc =

r− rc

1− rc .

Con la stessa tecnica è possibile esprimere la generica u j:

u j = u j−uc = u j−u j+1 +u j+1 + · · ·+uc−1−uc

=c−1

∑k= j

(uk−uk+1) =c−1

∑k= j

dk =c−1

∑k= j

rkd0

= d0

[c−1

∑k=0

rk−j−1

∑k=0

rk

].

Allora

u j = d0

[1− rc

1− r− 1− r j

1− r

]=

r j− rc

1− rd0 (4.1)

=r j− rc

1− r1− r1− rc =

r j− rc

1− rc (4.2)

Dunque, per j = 1, . . . ,c−1, la probabilità di rovina di Pietro, con capitale iniziale pari

a j euro è

u j =r j− rc

1− rc . (4.3)

Se invece r = 1, cioè p = q, ritorniamo alla relazione

1 = u0−uc = u0−u1 +u1−u2 + . . .uc−1 +uc−1−uc =c−1

∑j=0

r jd0 = cd0 =⇒ d0 =1c.

Allo stesso modo

u j = u j−uc = (c− j)d0 =c− j

c.

In particolare si avrà quindi che la probabilità di rovina per un giocatore che inizia con a

euro, mentre il suo avversario parte con b euro è pari a

ua =

(ra− ra+b)/(1− ra+b) r 6= 1

(c−a)/c = b/(a+b) r = 1. (4.4)

122

Page 123: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Per calcolare la probabilità di rovina di Paolo, il giocatore che parte con b euro, non è

necessario riscrivere tutti i passaggi precedenti: sarà suciente scambiare tra loro, nelle

formule nali appena sopra, i valori di p e q (e quindi r diventerà 1/r) e i valori di a e b

(oppure j e c− j). Se v j denota allora la probabilità di rovina per Paolo quando parte

con j euro avremo che

v j =

(r−(c− j)− r−c)/(1− r−c) = (1− r j)/(1− rc) r 6= 1

j/c r = 1.

Si può dunque vericare che, per ogni j = 0,1, . . . ,c, vale la relazione

u j + v j = 1,

qualunque sia r: dunque il gioco ha sempre una ne. In altri termini possiamo enunciare

la seguente proposizione

Proposizione 4.1. Se la particella parte da un livello j compreso tra 0 e c, prima o poi

toccherà uno dei due livelli limite.

4.3.2 Durata media del gioco.

Avendo stabilito che il gioco ha una durata nita (cioè termina con probabilità 1), voglia-

mo adesso calcolare la durata media del gioco; in altre parole, quante partite occorrono,

in media, anché uno dei due giocatori sia rovinato? Risolveremo il problema in modo

simile, condizionando al risultato della prima prova.

Sia Tj la variabile aleatoria denita come Primo istante in cui la particella tocca i livelli

0 oppure c, partendo da j, per j = 1, . . . ,c−1. Sia inoltre E j = IE(Tj). Vediamo quali

relazioni soddisfano le E j.

E j = IE(Tj)= p

(E j+1 +1

)+q(E j−1 +1

)= pE j+1 +qE j−1 +1.

Notare che, in questo caso, condizionando al risultato della prima partita dobbiamo

aggiungere 1 al secondo membro in quanto una partita è stata già giocata! Nel corso

di questi calcoli stiamo poi tacitamente assumendo che il tempo medio sia nito, cioè

123

Page 124: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

che Pr(Tj < ∞

)= 1; questo andrebbe dimostrato in modo rigoroso ma lo daremo per

assunto. Inoltre, le condizoni al contorno sono ora

E0 = Ec = 0.

Per semplicità studieremo solo il caso in cui p = q.

Sia f j = E j−E j+1, per j = 0,1, . . . ,c−1. Allora, in base alla relazione precedente,

E j = pE j +qE j = pE j+1 +qE j−1 +1,

che diventa

p(E j−E j+1) = q(E j−1−E j)+1

cioè , essendo p = q = 1/2,

f j = f j−1 +2 = f j−2 +4 = f j−3 +6 = · · ·= f0 +2 j

Perciò

0 = E0−Ec =c−1

∑j=0

(E j−E j+1) =c−1

∑j=0

f j =c−1

∑j=0

( f0 +2 j) = c f0 +2c(c−1)/2

E0−Ec = c( f0 + c−1) =⇒ f0 = 1− c.

Inoltre, per ogni j = 1, . . . ,c−1, si può scrivere

E j =c−1

∑k= j

(E j−E j+1) =c−1

∑k= j

fk =c−1

∑k= j

( f0 +2k)

= (c− j) f0 +2c−1

∑k=0

k−2j−1

∑k=0

k = (c− j) f0 +2c(c−1)/2−2 j( j−1)/2

= (c− j)(1− c)+ c(c−1)− j( j−1) = (c− j)(1− c)− c(1− c)− j( j−1)

= − j(1− c)− j( j−1) = j(c−1− j+1) = j(c− j)

Dunque

E j = IE(Tj)= j(c− j)

oppure, tornando all'esempio dei due giocatori con un patrimonio iniziale di a e b, IE(Ta)=

ab. Notiamo inne che, come ci si poteva attendere, essendo p = q,

E j = Ec− j.

124

Page 125: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

4.3.3 Giocare contro il banco

Consideriamo adesso la situazione in cui uno dei due giocatori ha un capitale limitato,

diciamo a euro mentre l'avversario dispone di un capitale illimitato. Questo avviene, in

pratica, quando andiamo a giocare in un casinò, dove il nostro avversario è il banco,

innitamente ricco. Per studiare questo caso è suciente adattare le formule precedente-

mente ottenute al caso in cui la quantità b tenda a innito. Consideriamo allora il limite

di ua (formula 4.4) cioè la probabilità di rovina per il giocatore, al tendere di b a +∞.

Ovviamente, essendo a+b = c, per a ssato, dire che b→ ∞ equivale ad assumere che

c→ ∞; perciò

limc→∞

ua =

1 r ≥ 1 cioè q≥ p

ra r < 1 cioè q < p.

Dunque, giocando contro un avversario innitamente ricco, la rovina è certa se il gioco

è equo (p = q), o peggio ancora, quando il nostro avversario è favorito in ogni singola

partita; questa, del resto, è la situazione usuale nelle sale da gioco. Di contro, quando

p > q, cioè il giocatore in questione è più abile del suo avversario, esiste una piccola

probabilità, pari a 1− ra, di non nire rovinati; tale probabilità è. ovviamente, funzione

crescente di a.

Vediamo come interpretare, dal punto di vista del giocatore, i risultati appena ottenuti,

nel caso di gioco equo (p = q),:

1. il giocatore A o è quasi certo di vincere una quantità di denaro enorme, a patto

che sia in grado di sopportare qualunque livello di perdite.

2. Nel caso nito, quando A parte con a euro e B parte con b euro, con a e b interi

positivi qualunque, le probabilità di rovina sono inversamente proporzionali ai loro

averi

ua =b

a+b, ub =

aa+b

3. Quando c = a+b→ ∞ il valore di E j tende anch'esso a +∞: Dunque, per c→ ∞,

il tempo medio di durata del gioco è innito. In pratica, anche se uno dei due

125

Page 126: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

giocatori parte con un solo euro, la durata media prevista del gioco è innita.

Notare però che questo è un risultato vero in media; il più delle volte si perde

molto velocemente, mentre in pochi casi, il gioco durerà a lungo.

4.3.4 Visite e ritorni nei singoli stati

Nel caso in cui p < q, la legge dei grandi numeri ci permette di arrivare a conclusioni più

forti. Se X1, . . . ,Xn, . . . rappresentano le vincite del giocatore A nelle varie partite, poiché

esse sono v.a. indipendenti e somiglianti, tutte con media pari a IE(Xi) = p−q, allora la

successione delle somme parziali Sn,n≥ 0 è tale che

Sn

nq.c→ IE(X1) = p−q < 0.

Dunque, in assenza di barriere, quasi certamente, Sn tenderà ad assumere valori inni-

tamente piccoli, toccando via via tutti i punti al di sotto di a e quindi anche lo zero!

Dunque Sn diverge quasi certamente a −∞ e quasi certamente lo stato 0 verrà tocca-

to. Occupiamoci adesso, ad un livello molto intuitivo e poco formale di un problema

più generale: il calcolo della probabilità con cui una passeggiata aleatoria senza barriere

(si pensi a due giocatori in grado di sopportare perdite illimitate) ritorna allo stato di

partenza. Deniamo allora l'evento

H = Sn = 0, per qualche n≥ 1.

Sia inoltre

g(a) = P(H|S0 = a),

la probabilità di toccare lo stato 0 partendo da S0 = a. Ovviamente, per a 6= 0, g(a)

rappresenta la probablità che la passeggiata prima o poi tocchi lo stato 0, mentre per

a = 0 essa rappresenta la probabilità di ritornare nello stato 0. Intanto possiamo scrivere

g(1) = p×g(2)+q×1 = p×g(2)+q.

Inoltre vale la relazione

g(2) = g(1)2. (4.5)

126

Page 127: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

La (4.5) dipende dalla natura della passeggiata aleatoria, il cui comportamento futuro

dipende solo dalla posizione presente ma non di come si sia arrivati a tale livello. In

breve, per andare dallo stato 2 allo stato 0, la passeggiata deve prima arrivare allo stato

1 e poi da 1 deve arrivare in 0. È altrettanto evidente che la probabilità di andare da 2

a 1 e quella di andare da 1 a 0 sono uguali. Inoltre, anche se solo a livello intuitivo, è

chiaro che, una volta arrivata allo stato 1, la successione Sn dimentica quanto avvenuto

e la sua evoluzione futura non è inuenzata dal modo in cui è arrivata allo stato 1. In

altri termini, utilizzando l'indipendenza tra passato e futuro, si può scrivere

g(2) = P(H|S0 = 2) = P(toccare lo stato 1|S0 = 2)P(H|si è toccato lo stato 1,S0 = 2)

= P(toccare lo stato 1|S0 = 2)P(H|S0 = 1)

= P(toccare lo stato 0|S0 = 1)P(toccare lo stato 0|S0 = 1) = g(1)×g(1)

= g(1)2

Quindi

g(1) = pg(1)2 +q,cioè (pg(1)−q)(g(1)−1) = 0,

con soluzioni g(1) = q/p oppure 1. Se q ≥ p, l'unica soluzione possibile è dunque

g(1) = 1, cioè la probabilità di visitare 0 partendo da 1 è pari a uno. Se invece q < p,

possiamo notare come, essendo le v.a. Xn indipendenti e somiglianti con media pari a

IEXn = p− q, per la legge dei grandi numeri, Sn/n converge quasi certamente a p− q

e dunque Sn assumerà qualunque valore positivo grande a piacere. C'è dunque una

probabilità positiva che la passeggiata non torni a zero e quindi, in questo caso, la

soluzione è g(1) = q/p.

4.3.5 Numero atteso di ritorni allo stato iniziale

Abbiamo già argomentato come, a livello intuitivo, convenga pensare ad una passeggiata

aleatoria come ad un processo che, ogni qual volta ritorna nello stato iniziale, si rigeneri

completamente dal punto di vista probabilistico e il suo comportamento diventa, in di-

stribuzione, identico a quello che aveva al tempo t = 0. Questo signica che, se r è la

probabilità di ritorno nello stato di partenza, quando r 6= 0, il numero di ritorni nello stato

127

Page 128: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

zero segue una distribuzione geometrica di parametro r. Che cosa accade poi quando la

passeggiata parte dallo stato 0? Enunciamo qui un risultato che verrà dimostrato alla

ne di questo capitolo.

Teorema 4.1. Sia Sn,n≥ 0 una passeggiata aleatoria con S0 = 0. Se la passeggiata

è asimmetrica, p 6= q, lo stato 0verrà visitato, con probabilità 1, un numero nito di

volte. Nel lungo periodo, la passeggiata tenderà a divergere a +∞ o −∞.

Nel caso simmetrico (p = q), la probabilità di ritorno allo stato 0 è 1, e questo

implica che la passeggiata Sn tornerà a visitare lo stato 0 un numero innito di volte.

Più precisamente si può aermare che

P(nessun ritorno in 0|S0 = 0) = |p−q|;

questo risultato si può interpretare dicendo che il ritorno a zero è un evento certo nel

caso simmetrico ma diventa sempre meno probabile al divergere dei valori p e q.

Dimostrazione 4.1. Omessa.

4.3.6 Passeggiata aleatoria e teorema del limite centrale

Consideriamo ancora la passeggiata aleatoria semplice Sn, n≥ 0 in cui Sn = Sn−1 +Xn

e le Xn sono v.a. indipendenti e somiglianti tali che

P(Xn = 1) = p = 1−P(Xn =−1), ∀n.

Semplici calcoli ci conducono ad ottenere che IE(Xn) = p− q = 2p− 1, per ogni n, e

dunque IE(Sn) = n(2p−1). Inoltre

Var(Xn) = IE(X2

n)− (IE(Xn))

2 = 1− (p−q)2

= 1− (2p−1)2 = 4p(1− p),

e Var(Sn) = 4np(1− p). Per grandi valori di n, utilizzando il teorema del limite centrale

si può dunque aermare che, approssimativamente,

Sn−n(2p−1)2√

np(1− p)∼ N(0,1),

128

Page 129: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

o, in altri termini

Sn ∼ N (n(2p−1),4np(1− p)) .

Questo suggerisce che, nel caso di passeggiata asimmetrica, la passeggiata tende ad assu-

mere, mediamente, valori molto lontani dallo zero. In particolare, se p > q, la catena avrà

una media che cresce linearmente con n, mentre nel caso opposto, p < q, la catena tende

ad assumere valori negativi sempre più grandi. Ad esempio, con probabilità all'incirca del

95%, la passeggiata si troverà , dopo 2500 passi, nell'intervallo(2500(2p−1)−200

√p(1− p);2500(2p−1)+200

√p(1− p)

)Se si prende, ad esempio p = 0.6, avremo che

√p(1− p) =

√.24 ≈ 0.5 e l'intervallo

diventa (400,600). In altri termini, con pratica certezza, dopo un tempo sucientemente

grande, una passeggiata asimmetrica che parta da zero, abbandonerà tale stato senza più

ritornarvi.

Diverso è il discorso nel caso p = q in tal caso IE(Sn) = 0, ∀n e l'intervallo prima

calcolato diverrà, approssimativamente pari a (−2√

n;2√

n). In altri termini, una pas-

seggiata simmetrica si può trovare, dopo un grande numero di passi, in luoghi molto

diversi, molto vicini o molto lontani da zero. Più in la utilizzeremo la teoria e le tecniche

delle catene di Markov per dimostrare in modo formale che, mentre nel caso asimmetrico

lo zero (e tutti gli altri stati) sono transitori, cioè la passeggiata li abbandona denitiva-

mente con probabilità 1, nel caso simmetrico lo stato zero (come tutti gli altri) può essere

visitato anche dopo un lungo periodo di tempo. In particolare vedremo che lo stato zero,

nel caso simmetrico, verrà visitato innite volte ma che il tempo medio di ritorno tra una

visita e l'altra sarà anch'esso innito.

Le cose cambiano se ci riferiamo al processo delle medie parziali Vn = Sn/n, per ogni

n. In questo caso, poiché

IE(Vn) = 2p−1, e Var(Vn) = 4p(1− p)

n,

avremo che, per n grande,

Vn ∼ N(

2p−1;4p(1− p)

n

)129

Page 130: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

e un intervallo di condenza al 95% per Vn sarà allora, approssimativamente,(2p−1−4

√p(1− p)

n;2p−1−4

√p(1− p)

n

).

In questo caso l'ampiezza dell'intervallo diminuisce all'aumentare dei passi, contraria-

mente a quanto visto per il processo delle Sn. In particolare, essendo p(1− p) ≤ 1/4

∀p ∈ [0,1], avremo che, qualunque sia il valore di p, per n grande,

P(|Vn− IE(Vn) |< 2/

√n))≈ 0.95.

Esempio 4.4 Un giocatore va al casinò con 100 euro per giocare alla roulette; egli decide

di giocare sempre sul rosso e sempre un solo euro per partita. Sappiamo che, giocando

sul rosso, si vince con probabilità p = 18/37. Inoltre, il giocatore decide di lasciare la

sala non appena il suo capitale arriva a 101 euro oppure a zero.

1. Qual è la probabilità di rovina del giocatore?

2. Quanto vale la il suo guadagno atteso?

3. Ripetere i calcoli dei precedenti due punti, partendo però da un capitale iniziale di

10 e 1000 euro; discutere le dierenze fra i tre casi.

Risposta.

1. 0.0528

2. −94.66152

4.4 Catene di Markov

In questa e nelle prossime sezioni ci concentreremo su una particolare classe di processi,

costituiti da una successione di v.a. legate da una specica regola di dipendenza, che

illustreremo tra breve. Consideriamo allora una successione di v.a. reali X0,X1, . . . ,Xn, . . . ,

indicata brevemente con Xn,n≥ 0, dove ogni Xn ha come supporto l'insieme S.

130

Page 131: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Denizione 4.1. [Proprietà di Markov] Un processo stocastico Xn,n≥ 0, in cui ogni

Xn è denita su un insieme nito o numerabile S soddisfa la proprietà di Markov

quando:

P(Xn+k = j|(Xn = in∩Xn−1 = in−1∩ . . .∩X0 = i0)) = P(Xn+k = j|Xn = in) (4.6)

per ogni n e k, e per ogni scelta degli stati j, i0, . . . , in ∈ S.

Intuitivamente, la proprietà di Markov stabilisce che l'evoluzione del processo è tale

per cui, lo stato futuro Xn+k del processo dipenderà solamente dal valore corrente

Xn e non dai valori passati X0, X1, . . . ,Xn−1. In termini statistici, questo implica che la

previsione dello stato futuro del processo deve essere basata esclusivamente sullo stato

attuale del processo e non su come il processo è arrivato a quel livello. Questo avviene

perché il processo è soggetto a una forma di perdita di memoria, che rende il passato e il

futuro indipendenti, condizionatamente al valore presente. Forniamo ora una denizione

formale di catena di Markov, cioè un processo di Markov a tempo discreto, e spazio degli

stati S discreto.

Denizione 4.2. Un processo stocastico discreto Xn,n≥ 0, avente un supporto S con

cardinalità numerabile, si dice catena di Markov se soddisfa la proprietà di Markov,

cioè per ogni n≥ 0 e per ogni n-pla di stati i0, . . . in ∈ S,

P(Xn+k = j|Xn = in,Xn−1 = in−1, . . . ,X0 = i0) = P(Xn+k = j|Xn = in) = p(k)i j (n) (4.7)

Se la cardinalità di S è nita, si parlerà di catena di Markov nita. Per k = 1 la

relazione (4.7) ci dice che le probabilità di transizione in un passo dipendono in generale

dal tempo in cui si calcolano. Se, al contrario, si può assumere che

p(1)i j (n) = p(1)i j , (4.8)

cioè le probabilità di transizione non dipendono dal tempo, parleremo di catena di Markov

omogenea nel tempo; per brevità scriveremo pi j in luogo di p(1)i j . È facile dimostare

che se una catena è omogenea nel tempo, allora, per ogni k > 1, anche le p(k)i j (n) non

dipendono da n.

131

Page 132: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Se una catena di Markov omogenea ha un numero nito di stati, le probabilità di

transizione in un passo possono essere rappresentate attraverso una matrice quadrata. Più

in generale, l'intera teoria matematica delle catene di Markov nite può essere considerata

come una semplice applicazione dei metodi di algebra lineare. L'esistenza di catene di

Markov con numero degli stati innito numerabile, tuttavia, suggerisce di adottare un

approccio più probabilistico alla teoria delle catene di Markov, e questa seconda starada

verrà percorsa nel seguito.

Denizione 4.3. Sia Xn, n ≥ 0 una catena di Markov a stati niti. Si dice matrice

di transizione la matrice: P con elemento generico

Pi j = P(Xn = j|Xn−1 = i) ∈ [0,1], i, j ∈ S.

Se il numero degli stati è nito, cioè card(S) = s <+∞, P è una matrice quadrata di

ordine s, i cui elementi sono non negativi e le cui righe sommano a 1. La riga di i-esima,

infatti, rappresenta la distribuzione di probabilità dei valori Xn+1, sotto la condizione che

Xn = i. La matrice di transizione deve soddisfare le seguenti proprietà

Pi j ≥ 0 i, j ∈ S

∑j∈S

Pi j = 1, i, j ∈ S.

La seconda condizione stabilisce invece che ad ogni istante n, deve necessariamente veri-

carsi una transizione (per convenzione si dice che la transizione si verica anche se la

catena resta nello stesso stato).

Esempio 4.5 [Il clima dicotomico] Supponiamo che le condizioni meteorologiche di

una certa città possano essere semplicate nei due soli stati pioggia (P) e sole (S).

Supponiamo inoltre che le condizioni meteorologiche di ogni giornata dipendano solo da

quelle del giorno precedente. Più precisamente,

P(Xn+1 = P|Xn = S) = p P(Xn+1 = S|Xn = S) = 1− p

P(Xn+1 = P|Xn = P) = q P(Xn+1 = S|Xn = P) = 1−q.

132

Page 133: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Il processo che descrive le condizioni meteorologiche giornaliere della città è allora una

catena di Markov con matrice di transizione P data da:

P =

(q 1−q

p 1− p

).

Riprenderemo più volte questo esempio nel seguito. ♦Esempio 4.6 [Passeggiata aleatoria] Esempio di matrice a innite righe ♦

4.5 Probabilità di transizione in n passi

In questa sezione discuteremo di come calcolare sulla base della conoscenza della matrice

di transizione e della posizione iniziale della catena, le probabilità di muoversi da uno

stato all'altro in un qualunque numero di passi e le probabilità di trovarsi nel generico

stato j ∈ S al tempo n, indipendentemente dallo stato di partenza.

4.5.1 Equazioni di Chapman-Kolmogorov

Nello studio di una catena di Markov è spesso importante conoscere con quali probabilità

si possa passare da uno stato all'altro in un certo lasso di tempo ssato: è dunque

necessario conoscere le probabilità di transizione in un numero qualunque di passi,

P(k)i j = P(Xk = j|X0 = i) k =,2,3, . . . . (4.9)

La probabilità di transizione in k passi dallo stato i allo stato j è relativa all'evento che

si verica quando Xk = j sapendo che X0 = i, indipendentemente dal fatto che lo stato

j possa essere stato già visitato precedentemente dalla catena: il passaggio da i a j in k

passi può avvenire attraverso vari percorsi intermedi.

Ponendo ovviamente P(1)i j = P(X1 = j|X0 = i) = Pi j, e

P(0)i j = P(X0 = j|X0 = i) =

1 se i = j

0 se i 6= j,

133

Page 134: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

possiamo decomporre la probabilità di interesse come somma di eventi vincolati ai possibili

stati visitati in un certo tempo intermedio.

Teorema 4.2 (Equazioni di Chapman-Kolmogorov). Sia Xn, n ≥ 0 una catena di

Markov. Per ogni interi n e m e per ogni coppia di stati risulta:

P(n+m)i j = ∑

r∈SP(n)

ir P(m)r j (4.10)

Dimostrazione 4.2.

P(n+m)i j = P(Xn+m = j|X0 = i) =

= P

(Xn+m = j∩

(⋃r∈S

Xn = r|X0 = i

))=

= ∑r∈S

P(Xn+m = j∩Xn = r|X0 = i) = (per il teorema delle probabilità totali)

= ∑r∈S

P(Xn+m = j|Xn = r∩X0 = i)P(Xn = r|X0 = i) =

= ∑r∈S

P(Xn+m = j|Xn = r)P(Xn = r|X0 = i) = (per la proprietà di Markov)

= ∑r∈S

P(m)r j P(n)

ir = ∑r∈S

P(m)ir P(m)

r j .

Si noti che l'ultima espressione non è altro che il prodotto di righe per colonne della

matrice di transizione con probabilità a n passi per la matrice di transizione con probabilità

a m passi; di conseguenza, le varie P(n+m)i j non sono altro che gli elementi di posto (i, j)

della matrice di transizione P(n+m). Avremo dunque

P(n+m) = P(n)P(m) ∀n,m≥ 1.

Esprimere le equazioni di Chapman-Kolmogorov in forma matriciale permette inoltre di

dimostrare che in una catena di Markov a stati niti la matrice di transizione a n passi

non è altro che l'n-esima potenza della matrice di transizione.

Teorema 4.3. Sia Xn n≥ 0 una catena di Markov a stati niti. Risulta:

P (k) = P k. (4.11)

134

Page 135: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Dimostrazione 4.3. La dimostrazione si può eettuare in modo ricorsivo, sfruttando

le equazioni di Chapman-Kolmogorov, cominciando dal caso k = 2:

P (2) = P (1+1) = P (1)P (1) = P ·P = P 2

P (3) = P (1+1+1) = P (1)P (1)P (1) = P ·P ·P = P 3

... = ...

P (k) = P (1+1+...+1) =

k volte︷ ︸︸ ︷P (1)P (1)...P (1) = P k.

Dalle equazioni di Chapman-Kolmogorov si derivano inoltre, in modo ovvio, le seguenti

proprietà che utilizzeremo spesso nel seguito:

i) P(n+m)i j ≥ P(n)

ik P(m)k j ∀i, j,k ∈ S

ii) P(n·m)i j ≥

[P(n)

i j

]m∀n,m≥ 1 ∀i ∈ S.

4.5.2 Distribuzioni di probabilità al tempo n

Oltre alle probabilità condizionate, ottenibili mediante le equazioni di Chapman e Kol-

mogorov, è spesso necessario poter calcolare le distribuzioni di probabilità della posizione

del processo ad un dato istante n≥ 0. Denotiamo allora con

π0(i)≡ P(X0 = i), i ∈ S

[∑j∈S

π0( j) = 1

]il vettore delle probabilità iniziali della catena. Analogamente deniamo le probabilità

relative al tempo generico n con il vettore

πn(i)≡ P(Xn = i), i ∈ S

[∑j∈S

πn( j) = 1

]Si ha allora per ogni n≥ 0

πn( j) = P(Xn = j) = ∑i∈S

P(Xn = j|X0 = i)P(X0 = i) = ∑i∈S

P(n)i j π0(i).

La distribuzioni di probabilità al tempo 0, π0, può essere usata per ottenere le

probabilità di transizione in n passi, secondo quanto enuncia il seguente risultato:

135

Page 136: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Teorema 4.4. Per una catena di Markov omogenea nel tempo, con probabilità di

transizione P e distribuzione iniziale π0, risulta:

πn = π0Pn

e, più in generale,

πn = πkPn−k.

Dimostrazione 4.4. Procediamo calcolando la probabilità di giungere a un particolare

stato j al tempo n+ 1 partendo dallo stato iniziale e poi estendendo il risultato a uno

stato qualunque. La probabilità di essere nello stato j al tempo n+ 1 si può scrivere

come:

πn+1( j) = P(Xn+1 = j) = ∑i∈S

P(Xn = i∩Xn+1 = j)

= ∑i∈S

P(Xn+1 = j|Xn = i)P(Xn = i)

= ∑i∈S

Pi jπn(i).

L'ultima espressione è il prodotto righe per colonne tra il vettore riga πn e il cor-

rispondente vettore colonna P. j della matrice di transizione, ovvero la j-esima colonna

della matrice P. In termini matriciali, dunque,

πn+1 = πn ·P

dove πn+1 e πn sono due vettori riga e πn ·P è il prodotto di un vettore riga per una

matrice quadrata di ordine s = card(S). Da quest'espressione possiamo dedurre che:

π1 = π0 ·P

π2 = π1 ·P = π0 ·P ·P = π0 ·P 2

π3 = π2 ·P = π0 ·P 2 ·P = π0 ·P 3

. . .

πn = π0 ·P = · · ·= πkPn−k

136

Page 137: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

che non è altro che una versione matriciale dell'equazione di Chapman-Kolmogorov.

Esempio 4.7 [Catena di Markov a due stati].

Sia S = A,B e assumiamo che la matrice di transizione della catena di Markov Xn, n≥0 sia

P =

(1−α α

β 1−β

),

con α e β strettamente compresi in (0,1). Sappiamo che, per ogni n, la matrice di

transizione in n passi si ottiene dalla relazione P(n) = P(n−1)P. In particolare

p(n)AA = p(n−1)AA (1−α)+ p(n−1)

AB β

= p(n−1)AA (1−α)+(1− p(n−1)

AA )β

= β +(1−α−β )p(n−1)AA .

Abbiamo ottenuto così una formula ricorsiva: se riapplicata alla quantità p(n−1)AA essa

produce

p(n)AA = β +β (1−α−β )+(1−α−β )2 p(n−2)AA ;

Iterando la formula n volte otterremo una espressione del tipo

p(n)AA = X +Y (1−α−β )n.

Le costanti X e Y possono essere determinate in base alle condizioni iniziali,

P(0)AA = 1, P(1)

AA = 1−α,

ovvero P(0)AA = X +Y = 1

P(1)AA = X +Y (1−α−β ) = 1−α

da cui

X =β

α +β; Y =

α

α +β

Quindi avremo

p(n)AA =β

α +β+

α

α +β(1−α−β )n

137

Page 138: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

per ogni coppia (α,β ) la cui somma sia un mumero positivo. Se α + β = 0, avremo

banalmente che p(n)AA = 1 per ogni n. Stesso discorso se α + β = 2: in tal caso la

catena cambia stato ogni giorno. Se solo uno tra α e β è uguale a zero mentre l'altro è

positivo,la catena nirà certamente nell'unico stato in cui è possibile andare. Ad esempio,

se 0 = α < β , p(n)AA = 1; se invece 0 = β < α p(n)AA = (1−α)n+1.

Ovviamente le p(n)AB si ottengono per dierenza, mentre p(n)BB si ottiene scambiando il

ruolo di α e β e sostituendo alle quantità p(n)AB e p(n)BA i loro complementi a 1. Asinto-

ticamente, per n→ ∞, escludendo i casi degeneri con α +β = 0 oppure 2, il secondo

addendo di p(n)AA tende a zero e la matrice di transizione di equilibrio, risultaerà

P =

α

α +β

β

α +β

α

α +β

β

α +β

Ritorneremo più avanti su queste considerazioni, cruciali nello studio delle catene di Mar-

kov. ♦

4.6 Stazionarietà

Oltre a determinare le distribuzioni di probabilità condizionate per tutta la durata del

processo (nella maggior parte dei casi un compito irrealizzabile), può essere utile deter-

minare il comportamento asintotico di P(n)i j quando n→∞. Intuitivamente, è ragionevole

attendersi che l'inuenza dello stato iniziale diminuisca col tempo e che, di conseguenza,

all'aumentare di n P(n)i j si avvicini a un limite indipendente da i. Per analizzare precisa-

mente il comportamento asintotico del processo è necessario però approfondire prima il

concetto di invarianza di una legge di probabilità per una catena di Markov.

Consideriamo una distribuzione di probabilità π su S relativa ad un istante temporale

non specicato. Ricordiamo che, essendo π un vettore di probabilità, devono valere le

138

Page 139: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

condizioni:

π(i) ∈ [0,1] ∀i ∈ S

∑i∈S

π(i) = 1(4.12)

Denizione 4.4. Si dice che π è una distribuzione invariante per la catena di Markov

Xn,n≥ 0 se:π = π ·P .

In termini intuitivi questo signica che, partendo da una situazione iniziale con di-

stribuzione di probabilità π, dopo un passo (o dopo un numero arbitrario di passi) la

distribuzione di probabilità marginale resta invariata. Infatti:

πP n = πP ·P n−1 = (πP )P n−1 = ...= πP = π.

Di conseguenza, una catena di Markov la cui distribuzione iniziale è π, avrà tutte le

distribuzioni marginali ai vari tempi identiche. Per questo motivo π è chiamata distri-

buzione invariante. Riferendoci a un solo stato j, un modo per interpretare il signicato

della distribuzione invariante è che, se osserviamo lo stato della catena in un certo istante

futuro n, πn( j) è la probabilità di trovare la catena in j al tempo n.

É facile intuire che l'interesse per le probabilità invarianti è prevalentemente ricon-

ducibile allo studio di πn quando n→ ∞. Se tale limite esiste, ogni sua componente

rappresenta approssimativamente la probabilità che il sistema si trovi nello stato i quan-

do n→ ∞, cioè dopo che è trascorso un tempo sucientemente lungo. Questo limite,

se esiste, costituisce la distribuzione di equilibrio del processo. Le sue componenti sono

chiamate probabilità di equilibrio e ovviamente soddisfano anch'esse l'equazione π=πP;

quindi una distribuzione stazionaria, se esiste, è sempre invariante. Vedremo nel prossimo

teorema che la distribuzione di equilibrio esiste solo se la catena soddisfa alcuni requisiti.

Questa intuizione è surrogata dal fatto che, poiché la regola di evoluzione del processo

in un passo è πn = πn−1P , quando la successione delle v.a. Xn ammette un limite in

distribuzione, sia πn che πn−1 ammettono lo stesso limite π∗ e deve per forza risultare

π∗ = π∗P .

139

Page 140: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Osservazione 4.1. Il sistema lineare πt =πtP è equivalente al sistema (P ′−I)π′= 0.

Quest'ultimo è un sistema omogeneo che ammette sempre almeno la soluzione banale

π′ = 0. In tal caso, però , questa soluzione non è accettabile poiché non rappresenta una

distribuzione di probabilità . In generale, il sistema ammette altre soluzioni se la matrice

(I−P ) non ha rango pieno. Quando s∗ è un numero nito e il rango di (I−P ) è s∗−1,

il sistema ammette innite soluzioni ma solo una soddisferà i requisiti

π(i) ∈ [0,1]

∑i∈S

π(i) = 1(4.13)

Nella pratica, la verica della esistenza di una distribuzione di equilibrio per la catena

permette di determinare in modo semplice un serie di caratteristiche della catena stessa.

Ad esempio potremmo valutare

1. la probabilità che la catena si trovi in un particolare stato i ∈ S per grandi valori di

n;

2. il numero di visite della catena allo stato i ;

3. la probabilità che la catena visiti lo stato i prima dello stato j

4. il tempo trascorso prima di tornare in i ;

5. il tempo necessario per raggiungere j partendo da i ;

Vedremo come le suddette (ed altre) caratteristiche della catena possano essere es-

senzialmente dedotte dalla natura della matrice delle probabilità di transizione P . Prima

di presentare i risultai principali, è però necessario introdurre alcune denizioni che ci

aiuteranno a chiarire la diversa natura degli stati che compongono lo spazio S.

4.7 Classicazione degli stati

4.7.1 Stati accessibili e stati comunicanti

Una prima classicazione che va introdotta riguarda l'accessibilità di uno stato, ossia la

possibilità, per uno stato j, di essere visitato quando la catena parte da uno stato i.

140

Page 141: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Denizione 4.5. Per una catena di Markov Xn, n≥ 0, uno stato j si dice accessibile

dallo stato i se esiste almeno un valore di n≥ 0 tale che:

P(n)i j > 0.

Uno stato j accessibile da un altro stato i è indicato dal simbolo

i j.

In altre termini, j è accessibile da i se c'è una probabilità positiva che j possa essere

raggiunto, partendo da i, in un numero n nito di passi. Per convenzione, poiché P(0)ii =

P(X0 = i|X0 = i) = 1, uno stato i è sempre auto-raggiungibile.

Partendo dalla precedente denizione è possibile ricavare altre caratterizzazioni utili

per classicare ulteriormente gli stati della catena.

Denizione 4.6. Gli stati i e j si dicono comunicanti se lo stato j è accessibile dallo

stato i e lo stato i è accessibile dallo stato j, ossia se ∃n,m≥ 0 tali che P(n)i j > 0 e P(m)

ji > 0.

Due stati i e j comunicanti si indicano col simbolo

i! j.

Teorema 4.5. La relazione di comunicazione tra due stati gode delle proprietà seguenti

Riessiva: uno stato i comunica sempre con sé stesso: i! i.

Simmetrica: se i comunica con j, anche j comunica con i: i! j⇒ j! i.

Transitiva: se lo stato i comunica con lo stato j e lo stato j comunica con lo stato

h, allora lo stato i comunica con lo stato h:

i! j e j! h⇒ i! h.

Dimostrazione 4.5. 1) Segue dal fatto che P(0)ii = P(X0 = i|X0 = i) = 1.

2) Segue banalmente dalla denizione stessa.

3) Siano a,b,c,d,≥ 0 tali che

P(a)i j > 0, P(b)

ji > 0, P(c)jh > 0, P(d)

h j > 0;

141

Page 142: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

dalle equazioni di Chapman-Kolmogorov segue che:

P(a+c)ih = ∑

k∈SP(a)

ik P(c)kh ≥ P(a)

i j P(c)jh > 0

P(d+b)hi = ∑

k∈SP(d)

hk P(b)ki ≥ P(d)

h j P(b)ji > 0.

Denizione 4.7. Uno stato i si dice assorbente se:

P(n)ii = 1 ∀n≥ 0.

In altre parole uno stato è assorbente se, una volta raggiunto, non viene più abbando-

nato. Poiché gode delle proprietà riessiva, simmetrica e transitiva, la relazione che lega

due stati comunicanti è detta una relazione di equivalenza; questo permette di classicare

gli stati di una catena come appartenenti ad opportune classi di equivalenza1 disgiunte,

composte solo da stati che comunicano tra loro (nel caso di stato assorbente, una classe

è addirittura composta da un solo stato). In generale sarà possibile, partendo da una

classe, entrare in un'altra classe con probabilità positiva (qualora uno stato in una classe

sia accessibile da uno stato appartenente un'altra classe); tuttavia, non sarà possibile

tornare alla classe iniziale, altrimenti le due classi formerebbero insieme una classe unica.

Denizione 4.8. Si dice che una catena di Markov è irriducibile se è composta da una

sola classe, ossia se tutti i suoi stati comunicano tra loro.1Ricordiamo che una relazione di equivalenza è un concetto matematico che esprime in termini formali

il concetto di similitudine tra oggetti. In particolare, ricordiamo che:

una relazione binaria ∼ è una relazione di equivalenza se gode delle proprietà riessiva,

simmetrica e transitiva;

due elementi tra i quali sussiste la relazione di equivalenza ∼ si dicono equivalenti (per la

relazione ∼). La proprietà di simmetria ci consente infatti di prescindere dall'ordine con cui

quegli elementi compaiono all'interno della relazione;

un sottoinsieme di un insieme A che contiene tutti e soli gli elementi equivalenti a un qualche

elemento x di A prende il nome di classe di equivalenza di x. In una classe di equivalenza tutti

gli elementi in essa contenuti sono tra loro equivalenti.

142

Page 143: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Se una catena è irriducibile, per ogni coppia di stati i e j esiste un n > 0 tale che

P(n)i j > 0. In particolare, si può dimostrare che, se la catena ha un numero nito di stati,

esiste un n tale che la matrice P n ha tutti elementi positivi. In questo caso la catena

viene detta regolare.

Esempio 4.8

A) La catena di Markov, composta dagli stati 0, 1 e 2 e dotata della seguente matrice di

transizione:

P =

12

12 0

12

14

14

0 23

13

è irriducibile. Infatti, è possibile andare dallo stato 0 allo stato 2 (passando per lo stato

1) ed è altresì possibile andare dallo stato 2 allo stato 0 (sempre passando per lo stato

1).

B) La catena di Markov, composta dagli stati 0, 1, 2 e 3 e dotata della seguente matrice

di transizione:

P =

12

12 0 0

12

12 0 0

14

14

14

14

0 0 0 1

non è irriducibile, essendo composta dalle classi 0,1, 2, e 3. Si noti che mentre gli

stati 0 e 1 sono accessibili dallo stato 2, il contrario non è vero. Inoltre, poiché P33 = 1,

nessun altro stato può essere raggiunto da 3. ♦Le proprietà 1), 2) e 3) esplicitano la possibilità di suddividere lo spazio degli stati S in

classi di stati intercomunicanti che non si sovrappongono tra loro.

Esempio 4.9

143

Page 144: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Sia lo spazio degli stati S = 1,2,3,4. Con riferimento alla matrice P:

P =

0.5 0.5 0 0

1 0 0 0

0 1/2 1/3 1/6

0 0 0 1

possiamo dire che lo stato 4 rappresenta una classe (lo stato 4 comunica con se stesso),

in quanto, se siamo in 4, non è possibile raggiungere un qualsiasi altro stato. Partendo

dallo stato 1 è possibile raggiungere lo stato 2 con probabilità di transizione 1/2. Una

volta raggiunto lo stato 2 si ha una probabilità pari ad 1 di tornare in 1. Gli stati 1 e

2 formano dunque un'altra classe di stati intercomunicanti. A sua volta, partendo dallo

stato 3, si può raggiungere lo stato 2 con probabilità 1/2 e raggiungere lo stato 4 con

probabilità 1/6; una volta raggiunto lo stato 4 naturalmente non è più possibile raggiun-

gere il 3, il quale rappresenta quindi una classe a sé stante. Riassumendo, le classi di stati

intercomunicanti per la matrice P sono: A = 1,2, B = 3, C = 4. All'interno di

una particolare classe, ciascuna coppia di stati intercomunica; per gli stati appartenenti

a classi diverse può esserci raggiungibilità solo in un senso. ♦

Esempio 4.10 Sia S = 0,1,2 e

P =

1 0 0

0.5 0 0.5

0 1 0

Lo stato 0 forma una classe irriducibile. Dallo stato 1 è possibile raggiungere lo stato 0

oppure lo stato 2. Da qui, prima o poi, si tornerà comunque a 0. Le classi irriducibili per

la matrice P sono dunque: A=0, B=1,2. ♦

Esempio 4.11 Consideriamo la catena di Markov avente spazio degli stati S=0,1,2,3 e

144

Page 145: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

matrice di transizione P:

P =

0 0 0 1

0 0 0 1

0.5 0.5 0 0

0 0 1 0

Partendo dallo stato 0 è possibile raggiungere lo stato 3. Dallo stato 3 è possibile rag-

giungere solamente lo stato 2. A sua volta, dallo stato 2 è possibile raggiungere lo stato

0 o lo stato 1. Dallo stato 1 si va quindi nello stato 3. La matrice P è costituita da

un'unica classe irriducibile A = 0,1,2,3; dunque la catena è irriducibile. ♦

Esempio 4.12 Consideriamo la catena di Markov avente spazio degli stati S= 1,2,3,4e matrice di transizione P:

P =

0.5 0.5 0 0

0.5 0.5 0 0

0.25 0.25 0.25 0.25

0 0 0 1

La classe costituita dagli stati 1 e 2 è una classe irriducibile. Partendo dallo stato 3 è

possibile raggiungere tutti gli altri stati, ma non è raggiungibile da nessun altro stato. Lo

stato 4 è una classe irriducibile. Le classi irriducibili sono dunque: A = 1,2, B = 3,C = 4. ♦

4.7.2 Stati ricorrenti e stati transitori

Un secondo tipo di classicazione è basato sul numero di volte in cui uno stato può

essere visitato dal processo. In particolare, gli stati di una catena di Markov si dividono

in due tipi: quelli che, potenzialmente, verranno visitati innite volte e quelli che verrano

visitati solamente un numero nito di volte. Per poter enunciare formalmente questa

classicazione è necessario introdurre le seguenti variabili casuali:

145

Page 146: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Denizione 4.9. Per ogni i ∈ S deniamo la quantità

Ti = min(n≥ 0 : Xn = i).

Ti è detta tempo di primo passaggio della catena nello stato i.

La quantità Ti registra il momento in cui il processo visita per la prima volta lo stato

i. Si noti che Ti non è propriamente una variabile aleatoria perché può potenzialmente

assumere anche valore innito (quando lo stato i non è mai visitato) e questo può avvenire

con probabilità positiva. Inoltre, si noti che Ti è denita senza specicare alcuno stato

iniziale.

Denizione 4.10. Siano i, j ∈ S e sia

f (n)i j = P(Xn = j∩Xn−1 6= j∩ ...∩X1 6= j|X0 = i)

o in modo equivalente

f (n)i j = P(Tj = n|X0 = i).

f ni j è in pratica la probabilità che, partendo da i, la catena visiti per la prima

volta lo stato j al tempo n.

Per convenzione si pone f (0)i j = 0, in quanto in zero passi la catena non può andare

dallo stato i allo stato j a meno che non sia i = j. Dalla probabilità del tempo di primo

passaggio nello stato j si può ricavare la probabilità che il processo visiti prima o poi lo

stato i. Indichiamo con

A(n)j (i) = Tj = n|X0 = i= Xn = j∩Xn−1 6= j∩ ...∩X1 6= j|X0 = i

l'evento il processo entra per la prima volta nello stato j al tempo n, partendo da i. Per

il teorema delle probabilità totali si può scrivere:

fi j = P

(∞⋃

n=1

A(n)j (i)

)=

∑n=1

P(Tj = n|X0 = i) =∞

∑n=1

f (n)i j .

Da questo possiamo costruire la seguente denizione:

146

Page 147: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Denizione 4.11. Siano i, j ∈ S. Si dice probabilità eventuale di arrivo dallo stato

i allo stato j la probabilità :

fi j = P(Tj <+∞|X0 = i) = P(∃n≥ 1 : Xn = j|X0 = i).

Se è i = j, fii è detta probabilità di eventuale ritorno nello stato i ed è indicata più

brevemente con fi.

Le quantità fi sono essenziali per capire il comportamento dei singoli stati nel lungo

periodo.

Denizione 4.12. Sia S lo spazio degli stati di una catena di Markov e sia i ∈ S.

a) lo stato i è detto ricorrente se fi = 1;

b) lo stato i è detto transitorio se fi < 1.

Intuitivamente, se il processo parte dallo stato i e i è ricorrente, esso prima o poi

tornerà in i con probabilità 1. Tuttavia, poiché vale la proprietà di Markov, il processo

compie traiettorie la cui probabilità, ad ogni passo dipende solo dalla posizione attuale

della catena. Questo implica che, ad ogni ritorno nello stato i di partenza la catena si

rigenera in senso probabilistico e può essere studiata come se fosse di nuovo al tempo

0. Questo a sua volta implica che, se lo stato i è tale per cui f1 = 1, lo stato i verrà

visitato innite volte. Se invece f1 < 1 c'è una probabilità positiva che la catena, dopo

un certo numero di ritorni abbandoni per sempre lo stato i. Le condizioni di ricorrenza e

transitorietà possono essere caratterizzate attraverso il seguente teorema

Teorema 4.6. Lo stato i ∈ S è :

ricorrente se e solo se ∑∞n=1 P(n)

ii = ∞

transitorio se e solo se ∑∞n=1 P(n)

ii < ∞

Dimostrazione 4.6. Sia, per ogni n ≥ 0, p(n)j j la probabilità di ritornare in j dopo n

passi, con la convenzione che p(0)j j = 1. Sia inoltre f (n)j la probabilità che, partendo da

147

Page 148: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

j, la catena torni per la prima volta in j al tempo n. Si vede facilmente, in base alle

equazioni di Chapman-Kolmogorov, che

p(n)j j =n

∑k=1

p(n−k)j j f (k)j . (4.14)

Per le successioni p(n)j j , n ≥ 0 e f j(n), n ≥ 1 introduciamo le rispettive funzioni

generatrici Pj(s) e Fj(s). Si ha

Pj(s) =∞

∑n=0

p(n)j j sn = 1+∞

∑n=1

n

∑k=1

p(n−k)j j f (k)j sn

= 1+∞

∑k=1

∑n−k=0

p(n−k)j j sn−k f (k)j sk

= 1+Pj(s)Fj(s).

Ne segue che, per ogni j ∈ S,

Pj(s) =1

1−Fj(s).

Inoltre, è ovvio che Fj(1) = ∑∞n=1 f (n)j rappresenta la probabilità di un eventuale ritorno

allo stato j. Inoltre, al tendere di s a 1, si ha che Pj(1) = 1/(1−Fj(1).

Se Fj(1) = 1 lo stato è ricorrente per denizione e per la relazione appena scritta

risulterà

Pj(1) =∞

∑n=1

p(n)j j =+∞

Al contrario, se Fj(1)< 1, lo stato è transitorio e risulterà

Pj(1) =∞

∑n=1

p(n)j j <+∞

Esempio 4.13 [Passeggiata aleatoria] Nel caso della passeggiata aleatoria, si ipotizzi di

partire dallo stato 0, ovvero S0 = 0, e verichiamo se lo stato è ricorrente o transitorio.

Poiché si può tornaare a 0 solo in un numero pari di passi avremo che P(S2n+1 = 0) = 0,

per ogni n, mentre, anché S2n = 0 se e solo se si hanno, nelle prime 2n prove, n passi

in avanti ed n indietro. Quindi

P(S2n = 0) =(

2nn

)pn(1− p)n,

148

Page 149: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

e∞

∑n=1

pn00 =

∑n=1

(2nn

)pn(1− p)n. (4.15)

Per la formula di Stirling (6.3),

(2n)!n!n!

≈ e−2n(2n)2n√

4πne−2nn2n2πn

=4n√

πn

Per grandi valori di n il termine generico della serie (4.15) è dunque dello stesso ordine

di (4p(1− p))n/√

πn. Se p = 1/2, il termine generico vale 1/√

πn e la serie diverge,

dunque lo stato 0 è ricorrente. Se invece p 6= 1/2, il termine generico vale cn/√

πn

con |c| < 1. Dunque la serie converge e lo stato è transitiorio. Vedremo più avanti che

tutti gli stati della passeggiata hanno la stessa natura ovvero sono tutti transitori oppure

tutti ricorrenti. Questo ci garantisce che, nel caso simmetrico p = 1− p, la catena torna

sempre sui suoi passi, ovvero tutti gli stati sono ricorrenti. Se invece p 6= 1− p, tutti gli

stati sono transitori e verranno abbandonati prima o poi: la passeggiata diverge a +∞ se

p > 1− p e a −∞ se p < 1− p. ♦

Dalla denizione di stato ricorrente e transitorio e dalla susseguente discussione è

facilmente deducibile anche che il numero di ritorni allo stato i ricorrente saranno innite.

Al contario, se i è transitorio è possibile studiare la v.a. Ni =numero di ritorni nello

stato i. Abbiamo visto che, per la proprietà di Markov, la catena si rigenera ogni volta

che ritorna nello stato di partenza i. Denendo ciclo il tempo necessario a ciascun ritorno

nello stato i, possiamo allora pensare ogni ciclo come una v.a. dicotomica che assume

il valore 1 (il ciclo si compie) con probabilità fi e 0 (il ciclo non si compie e la catena

non torna più in i) con probabilità 1− fi. È allora immediato concludere che, se i è uno

stato transitorio, la v.a. Ni ha distribuzione geometrica con parametro 1− fi, ovvero

Ni ∼ Geo(1− fi). In particolare avremo

IE(Ni) =1

1− fi.

Per gli stati appartenenti a una stessa classe di equivalenza vale inoltre la seguente

proprietà importante:

149

Page 150: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Teorema 4.7. In una stessa classe di stati comunicanti, gli stati sono tutti o ricorrenti

o transitori, ovvero la transitorietà e la ricorrenza sono proprietà di classe.

Dimostrazione 4.7. È suciente dimostrare che se gli stati i e j appartengono alla

stessa classe e lo stato i è ricorrente, allora anche lo stato j è ricorrente.

Se questo è vero, allora sarà anche vero che se due stati sono comunicanti e i è

transitorio allora anche j sarà transitorio.Infatti, se lo stato j fosse ricorrente, per il teorema

precedente, i dovrebbe anch'esso essere ricorrente e non potrebbe quindi essere transitorio.

Dimostriamo allora la seguente implicazione

i! j e i è ricorrente ⇒ j è ricorrente .

Poiché per ipotesi lo stato i comunica con lo stato j, devono esistere due numeri interi k

e m tali che P(k)i j > 0 e P(m)

ji > 0. Per le equazioni di Chapman-Kolmogorov risulta

P(m+n+k)j j ≥ P(m)

ji P(n)ii P(k)

i j

da cui otteniamo, sommando su n:

∑n=1

P(m+n+k)j j ≥

∑n=1

P(m)ji P(n)

ii P(k)i j = P(m)

i j P(k)ji

∑n=1

P(n)ii = ∞

poiché P(m)i j P(k)

ji > 0 e ∑∞n=1 P(n)

ii = ∞ perché i è ricorrente per ipotesi. Pertanto, per il

teorema precedente, possiamo concludere che anche j è ricorrente.

Il teorema precedente ovviamente aerma che anche la transitorietà è una proprietà

di classe.

Quando una catena ha un numero nito di stati s∗ < +∞ ed è irriducibile, gli stati

non possono essere transitori. Infatti, se lo fossero, dopo un tempo aleatorio ma nito

T0 la catena non visiterebbe più lo stato 0, dopo un tempo aleatorio T1 la catena non

toccherebbe più lo stato 1, e così via per tutti gli stati. Dopo un tempo T ∗ = max(Ti, i =

0,1, . . . ,s∗), la catena non avrebbe più stati da visitare e questo è impossibile. Dunque

una catena nita e irriducibile è per forza di cose composta da tutti stati ricorrenti. In

questo caso parleremo di catena ricorrente.

150

Page 151: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Invece, nel caso in cui lo spazio degli stati S è numerabile, possono esistere catene

ricorrenti e catene transitorie.

Esempio 4.14 [Ancora la passeggiata aleatoria]

Osservazione 4.2. È importante sottolineare la dierenza tra il concetto di accessibilità

e quello di ricorrenza. Mentre l'accessibilità implica solo la possibilità per la catena di

Markov, di passare da uno stato i a uno stato j, il concetto di ricorrenza implica la certezza

che dallo stato i si ritorni nuovamente a esso, in un futuro più o meno prossimo.

4.7.3 Stati ricorrenti positivi e stati ricorrenti nulli; periodicità

Il fatto che uno stato sia ricorrente, ossia che possa essere visitato innite volte,non

garantisce che l'intervallo di tempo tra una visita e l'altra in quello stato sia nito. In altre

parole, può accadere che pur essendo certo che uno stato i verrà visitato di nuovo, prima di

tornare a visitarlo ancora occorra aspettare un tempo innitamente lungo. Pertanto, una

volta individuati gli stati ricorrenti, conviene classicarli ulteriormente in base a quanto

spesso la catena è in grado di visitarli. Questa classicazione viene fatta in base al valore

assunto dalla media del tempo di primo ritorno di un dato stato i.

Limitiamoci al caso di stati ricorrenti, per i quali il ritorno allo stato di partenza è un

evento certo. Per ogni i ∈ S ricorrente, deniamo allora la variabile aleatoria

Ri = min(n : Xn = i|X0 = i),

ovvero Ri è il primo istante in cui la catena ritorna nello stato di partenza. Notare che la

v.a. Ri non coincide con la variabile Ti denita nel paragrafo precedente. Il valore atteso

di Ri è denito da

µi = IE(Ri) =∞

∑n=1

n f (n)ii

151

Page 152: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

dove f (n)ii è stata già denita come la probabilità che una catena, partendo dallo stato i,

torni nello stato i per la prima volta dopo n passi. Si noti che questa media ha senso solo

quando le f (n)ii costituiscono una distribuzione di probabilità , e questo peraltro avviene

solo quando lo stato i è ricorrente perché in quel caso ∑∞n=1 f (n)ii = fi = 1.

Partendo dal tempo medio di primo ritorno, è possibile dunque classicare gli stati

della catena in modo alternativo, espresso dalla seguente denizione

Denizione 4.13. Uno stato i si dice ricorrente positivo se

µi = IE(Ri)< ∞,

ossia se il tempo medio di ritorno è nito; lo stato i si dice ricorrente nullo se

µi = IE(Ri) = ∞,

Si può dimostrare che all'interno di una classe di equivalenza C tutti gli stati si

comportano allo stesso modo, ovvero sono tutti ricorrenti positivi, oppure tutti ricorrenti

nulli.

Si potrebbe supporre, a livello intuitivo, che quando uno stato j è ricorrente esso abbia

una probabilità positiva di essere visitato ad ogni tempo n. In altri termini si potrebbe

supporre che valga la relazione

j ricorrente ⇒ limn→∞

Pnj j > 0;

questo risultato tuttavia non è sempre vero. Consideriamo di nuovo l'esempio di una

passeggiata aleatoria in cui Sn = Sn−1+Xn, e le Xn sono una successione di v.a. indipen-

denti e somiglianti con distribuzione concentrata in −1 e 1, con probabilità (1− p) e p.

Poiché la catena si può muovere, ad ogni passo solo in uno stato adiacente a quello in

cui si trova, risulta che, per ogni j ∈ S avremo p(2n+1)j j = 0, qualunque sia n positivo. In

altri termini può accadere che una catena abbia bisogno, anche nel lungo periodo, di più

di un passo per ritornare nella posizione di partenza. Nel caso della passeggiata aleatoria

avremo allora, ad esempio, che

limn→∞

P(2n)j j > 0

limn→∞

P(2n+1)j j = 0

152

Page 153: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

e dunque la successione P(n)j j non ammette limite. In altri termini la catena non ammette

una distribuzione limite, anche se tutti gli stati sono ricorrenti (caso in cui p = 0.5).

Per poter allora individuare la tipologia di catene markoviane che ammettono un

comportamento limite regolare, occorre escludere casi come quello appena descritto.

È necessario allora introdurre una ulteriore classicazione degli stati basata sulla periodi-

cità con cui la catena ritorna in uno stato visitato in precedenza.

Denizione 4.14. Uno stato j ha periodo d se d è il massimo comun divisore di ogni n

tale che P(n)j j > 0. Se d > 1 lo stato si dice periodico, se d = 1 lo stato si dice aperiodico.

In pratica, d è il massimo comun divisore del numero di passi che una catena deve

compiere per tornare nello stesso stato. Se indichiamo con Q j l'insieme Q j = n ≥ 1 :

P(n)j j > 0 il periodo d è il massimo comun divisore di tutti i numeri che stanno in Q j. In

sostanza, P(n)j j = 0 ogni volta che n non è multiplo di d.

Quest'ultima osservazione ci permette di dedurre, almeno a livello intuitivo, una ca-

ratteristica importante della catena, legata alla periodicità. Se uno stato j è periodico,

esso si presenta a intervalli regolari, quando invece è aperiodico, può presentarsi in un

momento qualunque. Anche la periodicità è una proprietà di classe.

Teorema 4.8. Se due stati i e j comunicano, essi hanno lo stesso periodo.

Dimostrazione 4.8. La dimostrazione formale del teorema richiederebbe nozioni di

teoria dei numeri che non abbiamo. Forniremo qui solo una spiegazione intuitiva. Sup-

poniamo che i due stati siano comunicanti, ma che abbiano periodi diversi, ad esempio

supponiamo che i abbia periodo 2 e j abbia periodo 3. In tal caso per compiere il tragitto

i→ i si potrebbe andare da i a j in due passi, poi da j a j in tre passi e inne da j a i in

due passi. In questo modo però si compierebbe il tragitto da i a i in 2+3+2 = 7 passi,

cosa impossibile perché 7 non è multiplo di 2.

Se dunque gli stati di una stessa classe hanno lo stesso periodo, si può concludere

che una catena irriducibile deve essere composta da stati che sono tutti periodici dello

stesso periodo oppure aperiodici. A seconda dei casi, la catena si dirà periodica oppure

153

Page 154: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

aperiodica. Alla ne di questo elenco di classicazioni abbiamo allora individuato una

specie di stati particolari:

Denizione 4.15. Uno stato che sia ricorrente positivo, aperiodico, è detto ergodico.

Una catena irriducibile con tutti stati ricorrenti positivi ed aperiodici si chiama ergodica.

4.8 Distribuzioni di equilibrio

Una volta denite le varie forme di classicazione degli stati di una catena di Markov

possiamo nalmente riprendere lo studio del suo comportamento asintotico e stabilire

quali siano le condizioni sucienti a garantire l'esistenza di una distribuzione di equilibrio.

Studiare il comportamento di lungo termine di una catena è fondamentale poiché ci

permette diapprossimare la distribuzione esatta della posizione della catena al tempo n,

per n molto grande, con la sua versione asintotica.

Ricordiamo che una distribuzione di probabilità π su S è detta distribuzione invariante

se soddisfa la relazione

π = πP ;

per quanto detto in precedenza, questa distribuzione, se esiste, è anche una candidata ad

essere la distribuzione di equilibrio della catena poiché la sua natura garantisce stabilità

nel tempo, in quanto le distribuzione di probabilità marginali ai vari tempi saranno tutte

uguali a π. A priori tuttavia non è detto che una tale distribuzione esista; inoltre, se una

distribuzione con queste caratteristiche esiste, non è detto che sia unica. Ad esempio, per

la catena di Markov della rovina del giocatore (con due barriere assorbenti), le distribuzioni

π1 = (1, 0, 0, . . . 0) e π2 = (0, 0, 0, . . .1) sono entrambe stazionarie. Inoltre, si può

dimostrare che ogni combinazione convessa di esse, vale a dire ogni distribuzione del

tipo π∗ = απ1 + (1−α)π2, 0 ≤ π ≤ 1 è una distribuzione stazionaria; quindi ogni

catena che possiede più di una distribuzione stazionaria, ne possiede innite. É chiaro

che se una catena possiede innite distribuzioni stazionarie o non ne possiede nessuna,

cercare di prevederne il comportamento di lungo periodo diventa impossibile. Occorre

allora stabilire sotto quali condizioni siamo in grado di garantire l'esistenza e l'unicità

della distribuzione di equilibrio.

154

Page 155: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Teorema 4.9 (Teorema ergodico). Sia Xn, n > 0 una catena di Markov irriducibile

ed ergodica; allora

A) esiste un'unica distribuzione di probabilità π su S tale che per ogni j ∈ S

π( j) = ∑i∈S

π(i)pi j,

oppure, in forma matriciale, π = πP .

B) Per ogni i ∈ S

limn→∞

P(n)i j = π( j).

In termini matriciali, questo implica che esiste una matrice Q le cui righe sono

tutte uguali e coincidono con la distribuzione di equilibrio π del punto A), e tale

che P (n)→Q per n→ ∞.

C) Per ogni j ∈ S sia

I j(n) =

1 Xn = j

0 Xn 6= j.

Allora

P[

limn→∞

I j(1)+ I j(2)+ · · ·+ I j(n)n

= π( j)]= 1

ossia π( j) è il tempo che la catena spende mediamente nello stato j, nel lungo

periodo.

Dunque, anché una catena di Markov a stati niti ammetta una sola distribuzione

stazionaria, è suciente che essa sia irriducibile ed ergodica. Se sono soddisfatte que-

ste ipotesi, la distribuzione dell'istante n, πn, converge alla distribuzione stazionaria π

indipendentemente dallo stato iniziale, nel senso che, per ogni j ∈ S,

limn→∞

P(Xn = j) = limn→∞

∑i∈S

P(n)i j π0(i) = ∑

i∈Sπ0(i) lim

n→∞P(n)

i j = ∑i∈S

π0(i)π( j) = π( j).

Se una distribuzione π è di equilibrio per la catena, allora essa risulta anche invariante,

ovvero π = πP . Tuttavia il contrario non è vero in generale, in quanto esistono catene

che ammettono più di una distribuzione invariante.

155

Page 156: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Dimostrazione 4.9. Omessa, ma vedi oltre per alcune considerazioni informali.

Aldilà della dimostrazione formale, si possono comunque fare le seguenti considera-

zioni intorno teorema ergodico.

1. La condizione di aperiodicità è necessaria solo per garantire gli ultimi due punti della

dimostrazione. La prima tesi può essere stabilita sotto la sola ipotesi di irriducibilità

e di ricorrenza positiva della catena.

2. Per quanto riguarda il punto C), se è necessario che le catene siano irriducibili e

dotate di stati ricorrenti positivi per ammettere una distribuzione di equilibrio, è

intuitivo supporre che esista un legame tra la distribuzione di equilibrio e il tempo

medio di ritorno in uno stato. Sia allora µi = E(Ti) il tempo medio tra una visita

e l'altra della catena allo stato i, e sia

Ni(n) = il numero di ritorni allo stato i no al tempo n.

Allora

IE(Nni )≈

nIE(Ri)

=nµi,

ovvero

IE(

Nni

n

)≈ 1

µi

per ogni n e dunque

π(i) = limn→∞

IE(

Nni

n

)=

1µi.

In altri termini, se la catena, in media visita lo stato i una volta ogni IE(Ri) istanti

di tempo, allora deve risultare π(i) = 1E(Ti)

= 1µi

e questo numero rappresenta anche

il tempo mediamente speso nello stato i.

Esempio 4.15 Supponiamo che l'orizzonte temporale di un processo sia 60 secondi

e che mediamente esso visiti un certo stato i ogni 5 secondi: questo signica che il

processo, in media visiterà lo stato i un numero di volte pari a 60/µi = 60/5 = 12, ossia

156

Page 157: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

trascorrerà nello stato i 12 secondi. In termini di proporzioni di tempo, questo si traduce

dicendo che1µi

=160

605

=1260

= 0.2 = π(i)

cioè il processo spende mediamente il 20% del suo tempo in i. ♦Dal teorema ergodico derivano i seguenti due corollari

Teorema 4.10 (Corollario 1). Se una catena di Markov possiede una distribuzione di

equilibrio π e lo stato j è uno stato transitorio, allora π( j) = 0.

Dimostrazione 4.10. Per ipotesi è vero che π = πP o, equivalentemente, π = πP n.

Si ha allora

π( j) = ∑i∈S

π(i)P(n)i j .

Poiché j è uno stato transitorio, è facile notare che2

limn→∞

P(n)i j = 0,∀i ∈ S

e dunque

π( j) = ∑i∈S

π(i) limn→∞

P(n)i j = 0.

Teorema 4.11 (Corollario 2). Se una catena di Markov possiede una distribuzione

stazionaria π ed è irriducibile, allora tutti i suoi stati sono ricorrenti.

Dimostrazione 4.11. Dal corollario precedente sappiamo che se uno stato è transitorio,

allora π( j) = 0. In questo caso sappiamo però che la catena è irriducibile, quindi deve

essere π( j) = 0, ∀ j ∈ S. Dal momento però che questo non è possibile, concludiamo che,

se una catena di Markov aperiodica ed irriducibile possiede una distribuzione di equilibrio,

allora essa dev'essere anche ricorrente.

2Basta ricordare che uno stato è transitorio se e solo se ∑∞n=1 p(n)ii < ∞ e notare che questo avviene

necessariamente se p(n)ii → 0. È facile estendere tale risultato per dimostrare che, indipendentemente

dallo stato di partenza, se j è transitorio, anche P(n)i j → 0.

157

Page 158: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Si noti che non è sempre vero il contrario; ossia, se la catena è ricorrente, non è detto

che abbia una distribuzione stazionaria. In particolare, come abbiamo accennato prima,

la distribuzione stazionaria non esiste se la catena è ricorrente nulla, mentre esiste se la

catena è ricorrente positiva.

Esempio 4.16 [Ancora sulla passeggiata aleatoria]

Riassumendo, per una catena di Markov irriducibile, si possono vericare i seguenti

casi, validi sia per catene con un numero di stati nito o innito numerabile.

Teorema 4.12. Per una catena irriducibile e aperiodica si hanno solo le seguenti quattro

possibilità :

la catena è transitoria. Allora

limn→∞

P(n)i j = 0 ∀i, j ∈ S.

In tal caso ∑∞n=1 P(n)

i j < ∞ e non esiste una distribuzione stazionaria.

La catena è ricorrente ma non esiste una distribuzione stazionaria. Allora

limn→∞

P(n)i j = 0 ∀i, j ∈ S

e inoltre ∑∞n=1 P(n)

i j =∞ e tuttavia µi =∑∞n=1 n f (n)j j =∞. La catena è allora ricorrente

nulla.

La catena è ricorrente ma periodica. In questo caso limn→∞ P(n)i j esiste positivo solo

per alcuni valori di n; quindi P(n)i j non ammette limite e non esiste una distribuzione

di equilibrio.

La catena è ricorrente ed esiste una distribuzione di equilibrio. Allora

limn→∞

P(n)i j > 0 ∀i, j ∈ S

158

Page 159: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

e inoltre

µi =∞

∑n=1

n f (n)j j =1

π( j).

La catena è ricorrente positiva e aperiodica.

Se la catena ha un numero nito di stati ed è irriducibile, è possibile, come già detto,

solo il quarto caso.

Teorema 4.13. Ogni catena di Markov irriducibile e con uno spazio degli stati niti è

ricorrente positiva e, se è anche aperiodica, ha un'unica distribuzione di equilibrio, ovvero

un'unica soluzione del sistema π = πP .

Prima di concludere la sezione, diamo un teorema con dimostrazione meno generale

del Teorema Ergodico, ma più semplice da dimostrare

Teorema 4.14 (Legge forte dei grandi numeri per catene di Markov). Sia

Xn, n≥ 0 una catena di Markov con X0 = i. Si supponga inoltre che i j. Allora

P

(limn→∞

1n

n

∑j=1

I(X j = k

)=

1EkTk|X0 = i

)= 1

o, equivalentemente

1n

n

∑j=1

I(X j = k

)→ 1

EkTkquasi certamente

Osservazione 4.3. In un processo di Markov, se una catena è ricorrente, le traiettorie

possono essere considerate come successioni di cicli C1, ...,Ck, in cui ogni ciclo rappre-

senta il tempo che trascorre tra una visita e l'altra allo stato k. Se indichiamo con

Lk la lunghezza del ciclo, possiamo condiderare le v.a. L1,L2, . . . come indipendenti e

somiglianti, e possiamo utilizzare tali grandezze all'interno della dimostrazione.

Dimostrazione 4.12. Caso 1: Sia k uno stato transitorio. Allora Rk è una v.a. tale

che

Pk Rk = ∞> 0

IE(Rk) = ∞

159

Page 160: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

e quindi

limn→∞

1n

n

∑j=1

I(X j = k

)= 0 =

1IE(Rk)

Caso 2: sia k uno stato ricorrente.

a) Sia L(Cr) , la lunghezza del ciclor-esimo, per r = 1,2,3, ... con L(Cr)∼ Tk.

b) Sia Sr = L(C1)+L(C2)+ ...+L(Cr).

c) Sia Vn (k) = ∑nj=1 I

(X j = k

), ossia il numero di visite a k ≤ n. Secondo un'altra

interpretazione, Vn(k) è denito come:

Vn (k) = maxl : Sl ≤ n con l=intero

⇒SVn(k) ≤ n≤ SVn(k)+1

Dividendo per Vn (k), si ottiene

SVn(k)

Vn (k)≤ n

Vn (k)≤

SVn(k)+1

Vn ((k))

Se n→ ∞: Vn(k)→ ∞

Essendo SVn(k) somma di v.a. iid con media EkTk, per la Legge forte dei grandi numeri:

SVn(k)

Vn (k)→ EkTk quasi certamente

⇒SVn(k)

Vn (k)·Vn(k)+1

Vn(k)+1=

SVn(k)

Vn(k)+1·Vn(k)+1

Vn(k)→ EkTk quasi certamente

Quindin

Vn(k)→ EkTk quasi certamente

⇒Vn(k)

n→ 1

EkTkquasi certamente

-Caso 3: k, stato ricorrente, con i 6= k.

160

Page 161: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Per n→ ∞, poiché per ipotesi i k il caso 3 rappresenta una semplice estensione del

precedente caso particolare (= caso 2: i = k) . Di conseguenza, a livello asintotico si

ottiene un rapporto di v.a che tendono entrambe ad innito (anche partendo da i 6= k.

Criterio di convergenza: Sia Zn una v.a.

Zn→C quasi certamente

e tutte le Zn hanno supporto limitato:

EZn→C

Criterio di Cesáro Data una successione a1, ...,an:

an→ a⇔ 1n

n

∑t=1

at → a

I criteri appena enunciati consentono di dimostrare il teorema fondamentale del limite

per le catene di Markov, precedentemente introdotto.

Dimostrazione: Sia Zn =Vn(k)

n .

⇒Zn =

∑nj=1 I(X j = k)

n→ 1

EkTk

Per il criterio di convergenza:

EZn→1

EkTk

Se la catena di Markov è irriducibile:

EZn =1n

n

∑j=1

E(I(X j = k)) =1n

n

∑j=1

Pi(X j = k)1n

n

∑j=1

P( j)ik

Per il criterio di Cesáro:

EZn =1n

n

∑j=1

P( j)ik →

1EkTk

Poiché, per ipotesi, la catena è aperiodica e ricorrente con distribuzione stazionaria π:

π(k) =1

EkTk∀k ∈ S

161

Page 162: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

La catena di Markov converge a π(k): tale distribuzione esiste ed è unica.

Dimostrazione unicità. Se esiste una distribuzione π:

πk = ∑i

πiP( j)ik ∀ j ∈ N

πk = ∑i

πi1n ∑

jP( j)

ik →1

EkTk

πk = ∑i

πi1

EkTk

πk =1

EkTk∀k

Dimostrazione esistenza: Sia S = 1, ...,N. Poiché

1n ∑

jP( j)

ik →1

EkTk∀n

Sommando per k:

1 =1n ∑

j∑k∈S

P( j)ik →

1EkTk

∑k∈S

1EkTk

= 1

Poiché è P jP = P j+1: P( j+1)ik = ∑t P j

itPtk per j = 1, ...n. Sommando e dividendo per n:

∑j

1n

n

∑k=1

P( j)it Ptk =

1n

n

∑k=1

P( j)it

∑j

1E jTj

Ptk =1

EkTk

162

Page 163: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

4.9 Esercizi

4.9.1. Consideriamo una catena di Markov Xn,n≥ 0 con spazio degli stati S= 1,2,3,4,5e matrice di transizione

P =

0 12

12 0 0

14 0 1

412 0

14

14 0 0 1

2

0 0 0 1 0

0 0 0 0 1

Determinare le classi irriducibili di stati comunicanti e classificarle in termini di tran-

sitorietà e ricorrenza positiva e nulla. Stabilire se esiste o meno una distribuzione di

equilibrio: se esiste, determinarla.

4.9.2. Consideriamo una catena di Markov Xn,n≥ 0 con spazio degli stati S= 1,2,3,4,5,6e matrice di transizione

P =

0 1 0 0 0 0

0 0 1 0 0 012 0 0 1

2 0 0

0 0 0 0 12

12

0 0 0 13

13

13

0 0 0 13

13

13

Determinare le classi irriducibili di stati comunicanti e classificarle in termini di tran-

sitorietà e ricorrenza positiva e nulla. Stabilire se esiste o meno una distribuzione di

equilibrio: se esiste, determinarla.

4.9.3. Una stampante può trovarsi in due stati dierenti: occupata dalla stampa di un

documento (stato 1) oppure libera (stato 0). Per ogni unità di tempo, sia α la probabilità

di passare dallo stato occupata allo stato libera e (1−α) la probabilità di rimanere

nello stato occupato. Sia inoltre β la probabilità di passare dallo stato libera allo

stato occupata e (1−β ) la probabilità di rimanere nello stato libera.

163

Page 164: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

1. Costruire una catena di Markov che rappresenti lo stato della stampante al trascorre

del tempo ed analizzarla al variare di α e β in [0,1].

2. Assumendo 0 < α < 1, e 0 < β < 1, determinare la distribuzione stazionaria.

3. Assumendo 0 < α < 1, e 0 < β < 1, calcolare la probabilità a regime che la

stampante sia occupata.

4.9.4. Tre partiti politici, A, B, e C, si preparano alle elezioni. Ogni lunedì, si eettua un

sondaggio per vericare quale partito è in vantaggio. Durante la settimana, il partito che

è in testa sore una crisi con probabilità α , indipendentemente da cosa sia accaduto nelle

precedenti settimane. Se il partito sore la crisi, nel sondaggio successivo esso risulta

ultima in graduatoria e gli altri due partiti restano nello stesso ordine Se invece il partito

in testa non sore la crisi, esso rimane in testa la settimana successiva. in tal caso, gli

altri due partiti rimangono nello stesso ordine con probabilità 0.5 e si scambiano i posti

con probabilità 0.5. Ad esempio, se il ranking nella settimana t è (A,B,C), nella settimana

t +1 si avrà

B,C,A se c'è una crisi

A,B,C oppure A,C,B con la stessa probabilità se non c'è crisi.

Sia Xn,n≥ 0 una catena di Markov, con Xn che rappresenta il ranking del partito

A nella settimana n. Quindi Xn può assumere i valori 1 (se il partito A è in testa), 2, and

3 (se il partito A è ultimo).

1. Trova la matrice di transizione della catena.

2. Disegna il diagramma di transizione.

3. Verica se la catena converge ad una qualche distribuzione di equilibrio, per n→∞.

4.9.5. Un dado regolare viene lanciato ripetutamente e ogni lancio è indipendente dagli

altri. Sia Xn denito come il valore più alto uscito nei primi n lanci. Spiegare perché la

successione delle Xn costituisce una catena di Markov. Scrivere la matrice di transizione.

Determinare, se esiste, la distribuzione invariante della catena.

164

Page 165: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

4.9.6. Consideriamo una catena di Markov Xn,n≥ 0 con spazio degli stati S= 1,2,3,4,5e matrice di transizione

P =

12

12 0 0 0

0 13 0 2

3 0

0 1 0 0 0

0 0 0 15

45

0 0 0 1 0

Determinare le classi irriducibili di stati comunicanti e classificarle in termini di transi-

torietà e ricorrenza positiva e nulla. Stabilire se esiste o meno una distribuzione di equi-

librio: se esiste, determinarla. Trovare il tempo medio di primo passaggio in 5 partendo

da 1.

4.9.7. Consideriamo una catena di Markov Xn,n≥ 0 con spazio degli stati S= 1,2,3,4e matrice di transizione

P =

12

14

14 0

14

34 0 0

12 0 0 1

2

0 0 α 1−α

Determinare le classi irriducibili di stati comunicanti e classificarle in termini di tran-

sitorietà e ricorrenza positiva e nulla, nel caso in cui α = 0 e nel caso in cui 0 < α <

1. Stabilire nei due casi se esiste o meno una distribuzione di equilibrio: se esiste,

determinarla.

4.9.8. Modello di Ehrenfest per l'equilibrio termodinamico. Ci sono 2 urne e K palline.

Al tempo 0 ci sono h palline nell'urna 1 e K−h palline nell'urna 2. Sia, per ogni n, Xn il

numero di palline nell'urna 1. Ad ogni istante si sceglie a caso una delle K palline e le si

cambia urna. Questo implica che lo spazio degli stati della catena è

S = 0,1,2,3, . . .K.

Inoltre, gli elementi della matrice di transizione sono, per i = 1,2, . . . ,K−1,

pi,i+1 =K− i

K; pi,i−1 =

iK

;

165

Page 166: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Invece, per i = 0 si ha p0,1 = 1 e per i = K, pK,K−1 = 1. Tutti gli altri elementi della

matrice di transizione sono uguali a zero. Stabilire se la catena è ergodica o meno. In

caso positivo detrminare la distribuzione di equilibrio.

4.9.9. Consideriamo una catena di Markov Xn,n≥ 0 con spazio degli stati S= 1,2,3,4,5e matrice di transizione

P =

0 12

12 0 0

14 0 1

412 0

14

14 0 0 1

2

0 0 0 1 0

0 0 0 0 1

Determinare le classi irriducibili di stati comunicanti e classicarle in termini di tran-

sitorietà e ricorrenza positiva e nulla. Stabilire se esiste o meno una distribuzione di

equilibrio: se esiste, determinarla.

4.9.10. Un'urna contiene inizialmente 2 palline rosse e 2 palline nere. Due giocatori A e

B eettuano delle estrazioni successive con le regole seguenti: se la pallina estratta è nera,

essa viene eliminata; se la pallina estratta è rossa, essa viene rimessa nell'urna insieme ad

una nera. A vince non appena l'urna contiene 4 palline nere, B vince non appena l'urna

non contiene più palline nere. Sia Xn il numero di palline nere nell'urna dopo n estrazioni.

Stabilire se la successione Xn,n ≥ 1 è una catena di Markov. Determinare la matrice

di transizione.

4.9.11. Consideriamo una catena di Markov Xn,n ≥ 0 con spazio degli stati S =

1,2,3 e matrice di transizione

P =

0 1−2−k 2−k

1−2−k 0 2−k

0 0 1

dove k è un intero positivo. Classicare gli stati della catena. Determinare, se esiste, la

distribuzione di equilibrio. Detto T il tempo di primo arrivo in 3 partendo da 1, calcolare

166

Page 167: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

IE(T ). Determinare le classi irriducibili di stati comunicanti e classicarle in termini di

transitorietà e ricorrenza positiva e nulla.

4.9.12. Consideriamo la catena di Markov avente come stati i 6 vertici di un esagono

regolare, numerati da 1 a 6 e dove Xn rappresenta il vertice occupato al tempo n. Gli

spostamenti avvengono secondo la seguente regola: ad ogni passo, ci si sposta sul vertice

adiacente in senso orario con probabilità p e sul vertice adiacente in senso anti-orario con

probabilità q; inoltre si resta con probabilità r = 1− p− q dove ci si trova. Scrivere la

matrice di transizione. Dimostrare che, se almeno uno tra p e q è strettamente positivo,

allora la catena è irriducibile.

4.9.13. Consideriamo una catena di Markov Xn,n ≥ 0 con spazio degli stati S =

0,1,2,3 e probabilità di transizione

p0,0 = 1, p1,0 =14, p1,2 =

34, p2,0 =

18, p2,1 =

18, p2,3 =

34, p3,3 = 1,

mentre lo stato iniziale è scelto a caso. Disegnare il grafo associato alla catena e

individuare gli stati transitori e ricorrenti. Calcolare la probabilità di assorbimento in

0.

4.9.14. Consideriamo una catena di Markov Xn,n ≥ 0 con spazio degli stati S =

0,1,2,3, · · · e matrice di transizione

P =

13

23 0 0 0 · · ·

13

13

13 0 0 · · ·

13 0 1

313 0 · · ·

13 0 0 1

313 · · ·

......

......

......

,

ovvero p0,0 = 1/3, p0,1 = 2/3 e, per ogni i≥ 1, pi0 = pii = pi,i+1 = 1/3. Determinare le

classi irriducibili di stati comunicanti e classicarle in termini di transitorietà e ricorrenza

positiva e nulla. Stabilire se esiste o meno una distribuzione di equilibrio: se esiste,

determinarla.

167

Page 168: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

4.9.15. Sia X0,X1,X2, · · · una catena di Markov con spazio degli stati S = 0,1. InoltrePr(X0 = 1) = p e Pr(Xn+1 = 1|Xn = 1) = α , per n = 0,1,2, · · · . Sia poi, per ogni n,

Zn = X0 X1 · · ·Xn =n

∏j=0

X j.

Spiegare perché Zn,n≥ 0 è una catena di Markov e scrivere la matrice di transizione.

Determinare, per un n generico, Pr(Zn = 1).

4.9.16. Sia Xn,n≥ 0 una catena di Markov, e siano A e B due sottoinsiemi dello spazio

degli stati.

(a) È vero che PX2 ∈ B|X1 = x1,X0 ∈ A = PX2 ∈ B|X1 = x1? Se ne dia una dimo-

strazione o un controesempio.

uccessi (b) È vero che PX2 ∈ B|X1 ∈ A,X0 = x0 = PX2 ∈ B|X1 ∈ A? Se ne dia una

dimostrazione o un controesempio.

4.9.17. Sia Xn,n ≥ 0 una catena di Markov ne llo spazio degli stati −1,0,1 e si

supponga che P(i, j)> 0 ∀i, j. Quale è una condizione necessaria e suciente perché la

successione Yn,n ≥ 0, con Yn = |Xn|, ovvero la successione dei valori assoluti sia una

catena di Markov?

4.9.18. Sia Xn,n≥ 0 una catena di Markov nita e sia A un sottoinsieme dello spazio

degli stati. Supponiamo di voler determinare il tempo atteso prima che la catena entri

nell'insieme A, cominciando da un iniziale stato arbitrario. In altra forma, si indichi con

τA = infn≥ 0 : Xn ∈ A

la prima volta che la catena raggiunge A (τA è pari a 0 se X0 ∈ A). Si vuole calcolare

Ei(τA). Dimostrare che:

Ei(τA) = 1+ ∑k∈S

P(i,k)Ek(τA)

per i /∈ A

168

Page 169: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

4.9.19. Si supponga che una catena di Markov abbia una distribuzione stazionaria π e

che lo stato j abbia riorrenza nulla. Dimostrare che π( j) = 0.

4.9.20. Birth-collapse di una catena. Si consideri una catena di Markov su S =

0,1,2, ... con P(i, i+ 1) = pi, P(i,0) = 1− pi ∀i, e p0 = 1 e 0 < pi < 1 ∀i > 0. Si

dimostri che

(i) La catena è ricorrente se e solo se limn→ ∞ ∏ni=1 pi = 0 (Questo, a sua volta, è

equivalente alla condizione ∑∞i=1(1− pi) = ∞)

(ii) La catena è ricorrente positiva se e solo se ∑∞n=1 ∏

ni=1 < ∞.

(iii) Quale è la distribuzione stazionaria se pi = 1/(i+1)?

4.9.21. Si consideri una catena di Markov irriducibile Xn,n≥ 0 denita in uno spazio

degli stati con n < ∞ stati. Si indichi con π la distribuzione stazionaria della catena e si

supponga che X0 sia distribuita secondo la legge π. Si denisca τ come l'istante di primo

ritorno allo stato iniziale, cioè τ = in fk > 0 : Xk = X0. Qual è il valore atteso di τ?

4.9.22. Si consideri una catena di Markov sugli interi non negativi S = 0,1,2, ....Denendo P(i, i+ 1) = pi e P(i, i− 1) = qi, si assuma che pi + qi = 1 ∀i ∈S , p0 = 1,

e 0 < pi ≤ 1/2 ∀i ≥ 1. Sulla base di quanto conosciuto circa la semplice, simmetrica

passeggiata casuale, si dimostri che la catena di Markov data è ricorrente.

4.9.23. Si dimostri che la relazione comunica con ( ) è una relazione di equivalenza.

Cioè. si dimostri che è una relazione riessiva, simmetrica e transitiva.

4.9.24. Teoria del rinnovamento e campionamento residuo lenghth-biased Siano X1,X2, . . .

iid con supporto 1, ...,d. Si denisca Sk = X1 + · · ·+Xk, e τ(n) = infk : Sk ≥ n e

Rn = Sτ(n)− n. In altri termini Rn è la durata residua al tempo n, ossia il periodo di

utilizzo rimanente della v.a. in opera al tempo n.

La sequenza R0,R1, ... è una catena di Markov. Qual è la matrice di transizione?

Qual è la distribuzione stazionaria?

169

Page 170: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Si denisca la durata totale Ln al tempo n come Ln = XT (n). Questa è la durata

complessiva della v.a. in opera al tempo n. Si dimostri che L0,L1, ... non è una

catena di Markov. Tuttavia Ln ha una distribuzione limite Lo faremo costruendo

una catena di Markov espandendo lo spazio degli stati e considerando la sequenza di

vettori casuali (R0,L0), (R1,L1), . . . . Questa sequenza forma una catena di Markov.

Quali sono la sua funzione di (probabilità di) transizione e la sua distribuzione

stazionaria?

Assumendo che si possa applicare il Teorema (Fondamentale) del limite (per catene di

Markov), quale è la distribuzione limite di Ln per n→ ∞?

4.9.25. Si richiami la denizione data di catena di Ehrenfest.

(a) Qual è la distribuzione stazionaria?

(b) Puoi spiegare senza calcoli perché la distribuzione è stazionaria? Cioè. supponendo di

far partire la catena di Ehrenfest al tempo 0 scegliendo uno stato secondo la distribuzione

che si aerma essere stazionaria, dovresti argomentare senza calcoli che anche lo stato

al tempo 1 dovrebbe avere la stessa distribuzione.

4.9.26. Si consideri una catena di Markov sui numeri interi con

P(i, i+1) = .4eP(i, i−1) = .6peri > 0

P(i, i+1) = .6eP(i, i−1) = .4peri < 0

P(0,1) = P(0,−1) = 1/2

Questa è una catena con inniti stati, ma ha una `forza di ripristino che ogni volta la

riporta indietro verso lo stato iniziale 0. Si trovi la distribuzione stazionaria.

4.9.27. [Un processo a media mobile]. I modelli a media mobile sono frequentemente

usati nell'analisi delle serie storiche, in economia ed in ingegneria. Alla base di questi

modelli, si assume che ci sia un processo non osservato Y0,Y1, · · · di variabili indipendentie identicamente distribuite. Un processo a media mobile considera una media (even-

tualmente una media ponderata) delle variabili Y all'interno di una nestra scorrevole.

170

Page 171: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Ad esempio, si ipotizzi che al tempo n consideriamo semplicemente la media tra Yn e

Yn−1, denendo così il nuovo processo

Xn = (1/2)(Yn +Yn−1).

In generale, il processo Xn, n ≥ 0 denito in questo modo non è markoviano. Come

semplice esempio, si ipotizzi che la distribuzione delle variabili casuali Yn, n ≥ 0 sia

dicotomica con

PYi = 1= 1/2 = PYi =−1.

Dimostrare che X0,X1, ... non è una catena di Markov.

4.9.28. Si lanci una moneta ripetutamente. È più probabile osservare prima la sequenza

T T oppure la sequenza TC? Siano N1 e N2 il numero di lanci necessari per osservare T T

e TC rispettivamente; Spiega, a livello intuitivo se se E(N1) è maggiore, minore o uguale

a E(N2). Risolvere l'esercizio in modo formale esplicitando il valore di E(Ni), i = 1,2.

Suggerimento: costruisci una catena di Markov con 4 stati: T T , TC, CT eCC.

4.9.29. Di seguito ci sono le matrici di transizione relative a tre diverse catene di Markov.

Per ognuna di queste

1. determinare le classi irriducibili di stati intercomunicanti e stabilire se si tratta di

classi transitorie, ricorrenti nulle o ricorrenti positive. Stabilire anche il periodo

delle classi

2. Stabilire, motivandolo, se, per ognuna delle tre catene di Markov, esiste o meno

una distribuzione di equilibrio. Nel caso esista scrivere qual è,

(A) S = 1,2,3,4; P =

0 0 0.5 0.5

1 0 0 0

0 1 0 0

0 0 1 0

171

Page 172: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

(B) S = 1,2,3,4; P =

0 0 1 0

.25 .25 .25 .25

1 0 0 0

.25 .25 .25 .25

(C) S = N0 = 0,1,2,3, . . .

p0,0 = 1; p1,1 = 1;

pi,i−2 = pi,i+2 = 1/2, for i = 2,4,6, . . .

pi,i−2 = pi,i−1 = pi,i+2 = 1/3, for i = 3,5,7, . . .

4.9.30. Sia X0,X1,X2, . . . una catena di Markov su S = 1,2,3 con matrice di tran-

sizione

P =

0 1 0

0.5 0 0.5

0 1 0

1. Disegna il diagramma di transizione

2. Determina una distribuzione invariante per la catena

3. Calcola Pr(X4 = 1 | X0 = 1)

4. La distribuzione di Xn converge alla legge trovata al punto precedente? Se si,

perché? Se no, perché?

4.9.31. Si hanno due monete. La moneta A dà testa (T) con probabilità 0.6 e la

moneta B dà testa con probabilità 0.5. Si inizia a lanciare con la moneta A e la si lancia

continuamente no a che non esce croce (C); a quel punto si passa a giocare con la

moneta B. Analogamente, alla prima uscita di croce con la moneta B, si torna a giocare

con A, e così via. Sia Xn il risultato del lancio n-esimo.

1. Dimostrare che la successione X1,X2, . . . ,Xn, . . . è una catena di Markov.

172

Page 173: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

2. Nel lungo periodo, quale proporzione di lanci verrà eettuata con la moneta A?

3. Qual è la probabilità che il quinto lancio si eettuerà con la moneta B?

4.9.32. Sia X0,X1,X2, . . . una catena di Markov sullo spazio degli stati S = 0,1,2con matrice di transizione

P =

.1 .7 .2

.2 .3 .5

0 .8 .2

1. Disegna il diagramma di transizione

2. Supponiamo che X0∼Bin(2,0.1). Determinare il vettore delle probabilità marginali

al tempo 1, ovvero le probabilità di trovarsi, al tempo 1, negli stati 0,1,2.

3. Calcolare P(X1 = 1,X2 = 1,X3 = 1|X0 = 2).

4. Calcolare P(X2 = 1,X3 = 1|X0 = 2).

5. (Facoltativo) Trovare una formula generale, valida per ogni t per P(Xt = 1 | X0 = 1)

4.9.33. Consideriamo una catena di Markov Xn,n ≥ 0 con spazio degli stati S =

1,2,3,4,5 e matrice di transizione

P =

0 12

12 0 0

14 0 1

412 0

14

14 0 0 1

2

0 0 0 1 0

0 0 0 0 1

Determinare le classi irriducibili di stati comunicanti e classicarle in termini di transitorie-

tà e ricorrenza positiva e nulla. Stabilire se esiste o meno una distribuzione di equilibrio:

se esiste, determinarla.

4.9.34.

173

Page 174: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

4.9.35.

4.9.36. Consideriamo una catena di Markov Xn,n ≥ 0 con spazio degli stati S =

1,2,3,4,5,6 e matrice di transizione

P =

0 1 0 0 0 0

0 0 1 0 0 012 0 0 1

2 0 0

0 0 0 0 12

12

0 0 0 13

13

13

0 0 0 13

13

13

Determinare le classi irriducibili di stati comunicanti e classicarle in termini di transitorie-

tà e ricorrenza positiva e nulla. Stabilire se esiste o meno una distribuzione di equilibrio:

se esiste, determinarla.

4.9.37. Un'urna contiene inizialmente 3 palline rosse e 2 palline nere. Due giocatori A

e B eettuano delle estrazioni successive con le regole seguenti: se la pallina estratta

è nera, essa viene eliminata; se la pallina estratta è rossa, essa viene rimessa nell'urna

insieme ad una nera. A vince non appena l'urna contiene 5 palline nere, B vince non

appena l'urna non contiene più palline nere. Sia Xn il numero di palline nere nell'urna

dopo n estrazioni.

1. Stabilire se la successione Xn,n≥ 1 è una catena di Markov.

2. Determinare la matrice di transizione.

3. Stabilire se la catena è irriducibile o meno. Nel primo caso determinare se esiste

una distribuzione di equilibrio. Nel secondo determinare le cassi di stati irriducibili.

4.9.38. Sia X0,X1,X2, . . . una catena di Markov sullo spazio degli stati S = 0,1,2con matrice di transizione

P =

.6 .2 .2

.4 0 .6

0 .8 .2

174

Page 175: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

1. Disegna il diagramma di transizione

2. Suppose that X0 ∼ Bin(2,0.4).Determina il vettore delle probabilità marginali al

tempo 1, ovvero le probabilità di trovarsi, al tempo 1, negli stati 0,1,2.

3. Calcolare P(X1 = 1,X2 = 2,X3 = 3|X0 = 2).

4. (Facoltativo) Trovare una formula generale, valida per ogni t per P(Xt = 3 | X0 = 1)

4.9.39. Assumiamo che la professione di un uomo possa essere classicata in tre cate-

gorie:

A) professionista

B) specializzato

C) non specializzato.

Supponiamo che tra i gli dei professionisti, l'80% è ancora professionista, il 10% è spe-

cializzato e l'altro 10% è non specializzato. Tra i gli degli specializzati, il 60% sono

specializzati, 20% professionisti e 20% non specializzati. Inne tra i non specializzati,

50% dei gli è non specializzato e il restante 50% si divide nelle altre due categiorie.

Assumiamo che ogni uomo abbia almeno un glio.

1. Costruisci una catena di Markov che rappresenti, ad ogni generazione, la categoria

professionale del rappresentante di una certa famiglia.

2. Determina la matrice di transizione

3. Calcola la probabilità che il nipote di un non specializzato sia un professionista

4. Calcola la probabilità che il pronipote di un non specializzato sia un professionista

Ora assumiamo che ogni uomo abbia un glio maschio con probabilità 0.8. Ferme re-

stando le altre probabilità nel caso un uomo abbia glio maschio, costruisci una matrice

di transizione a 4 stati in cui il quarto stato (diciamo D) rappresenta la ne della storia

per quella famiglia.

175

Page 176: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

4.9.40. Un signore possiede 3 ombrelli che usa, quando servono, per andare da casa in

ucio e viceversa. Quando si trova a casa di mattina, e sta piovendo, prende con sé un

ombrello, a patto che ne abbia uno. Analogamente si comporta la sera quando torna. Se

non piove, non prende ombrelli. Assumiamo che, indipendentemente dal passato, ogni

mattina e ogni sera piove con probabilità p

1. Descrivi la catena di Markov con 4 stati, relativa al numero di ombrelli presenti la

mattina a casa, e scrivi la matrice di transizione.

2. Dimostra che esiste una distribuzione di equilibrio e che è data da

π j =

1−p4−p j = 0

14−p j = 1,2,3

3. calcola la percentuale di giorni in cui il signore si bagna

4.9.41. La popolazione di tre città A, B, e C, si sposta continuamente. I censimenti

fotografano la situazione una volta all'anno stabilendo in quale città risiede ciascun in-

dividuo. Supponiamo che tale processo sia una catena di Markov e che la matrice di

transizione associata allo spazio degli stati (A,B,C) sia la seguente:

A B C

A 0.7 0.2 0.1

B 0.3 0.5 0.2

C 0.2 0.2 0.6

Nella matrice di transizione, ad esempio, il valore 0.3 rappresenta la probabilità di risiedere

nella città A al tempo t sapendo che si viveva nella città B al tempo t−1. Assumiamo

inoltre che le popolazioni al tempo 0 nelle tre città siano pari 100mila per A, 500mila per

B e 200mila per C. Calcolare:

La matrice di transizione in due passi.

Le probabilità marginali di risiedere nelle varie città al tempo 1

176

Page 177: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Le probabilità marginali di risiedere nelle varie città al tempo 2

la eventuale distribuzione stazionaria della catena.

4.9.42. Uno studio sociologico ha evidenziato sei diversi stati associati con il consumo

di televisione: 0 (non la guardo mai), 1 (occasionalmente), 2 (frequentemente), 3 (di-

pendente), 4 (con modiche comportamentali dovute al troppo uso), 5 (malato). Le

transizioni da stato a stato sono regolate dalla seguente matrice di transizione di Markov,

dove Xn rappresenta la situazione di un generico paziente al tempo n.

P =

1 0 0 0 0 0

.5 0 .5 0 0 0

.1 0 .5 .3 0 .1

0 0 0 .7 .1 .2

0 0 0 0 0 1

1. Quali stati sono transitori e quali ricorrenti? Suddividi gli stati della catena in classi

separate.

2. Calcola P(Xn+1 = 4 | Xn−1 = 2)

3. Sia qi = P(Xn = 5,prima o poi | X0 = i) Partendo da X0 = 1 dimostra che la proba-

bilità di arrivare a 5 prima di 0 è proprio q1.

4. Esprimi q1 in termini della distribuzione limite

4.9.43. Alberto e Barbara vivono nella stessa città , dove ci sono due bar. Ogni notte,

Alberto sceglie il bar dove andare secondo la catena di Markov descritta dalla matrice P

P =

(.8 .2

.2 .8

)

Barbara invece sceglie il suo bar secondo una catena di Markov con matrice Q

Q =

(.1 .9

.9 .1

)

177

Page 178: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Assumiamo che, il giorno 0 (zero) Alberto vada al bar 1 mentre Barbara va al bar 2.

Dal primo giorno in cui si incontrano i due andranno sempre insieme allo stesso bar.

1. Modella il fenomeno come una singola catena di Markov con un solo stato assor-

bente. Determina la matrice di transizione per tale catena.

2. Sia N il numero aleatorio di notti che ci vorranno prima che i due si possano

incontrare. Calcola IE(N)

3. Dopo che si sono incontrati, i due continuano ad andare insieme al bar scegliendo

ogni sera secondo la matrice P: qual è la frequenza relativa di volte in cui andranno

al bar 1?

4. Rispondi alla stessa domanda usando però la matrice Q.

4.9.44. Il clima, in una data città , dipende dalle condizioni climatiche dei due giorni

precedenti. Si può allora formare una catena di Markov con 4 stati: A( SS) se c'è stato

sole nei due giorni precedenti, B(SN) se c'è stato sole due gioni prima e nuvole il giorno

prima. Analogamente deniamo gli stati C(NS) e D(NN).

Sappiamo che

dopo due giorni di sole si avrà ancora sole con probabilità pari a 0.7

dopo la sequenza (SN) si avrà sole con probabilità pari a 0.4;

dopo la sequenza (NS) si avrà sole con probabilità pari a 0.5;

dopo la sequenza (NN) si avrà sole con probabilità pari a 0.2;

4.9.45. Sia Z1,Z2, . . . v.a. indipendenti e somiglianti e tali che

P(Zi = 1) = p = 1−P(Zi = 0), i = 1, . . . , .

Siano inoltre S0 = 0 e Sn = Z1 + · · ·+Zn. Determinare in ognuno dei seguenti casi se

la successione Xn,n≥ 1 è una catena di Markov.

178

Page 179: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

1. Xn = Zn

2. Xn = Sn

3. Xn = S0 +S1 + · · ·+Sn

Nei casi in cui si aermi che Xn,n ≥ 0, è una catena di Markov, determinare lo

spazio degli stati e la matrice di transizione. Se invece si aerma che Xn,n≥ 0 non è

una catena di Markov, spiegare perché.

4.9.46. In ognuno dei casi seguenti determinare se la catena di Markov Xn,n≥ 0 conassociata la matrice di transizione P è reversibile oppure no

1.

P =

(p 1− p

1−q q

)2.

P =

0 p 1− p

1− p 0 p

p 1− p 0

3. S = 0,1,2, . . . e

p01 = 1, pi,i+1 = p, pi,i−1 = 1− p, per i≥ 1.

4.9.47. A e B hanno in tasca 2 monete da 1 euro a testa. Decidono di giocare nel

seguente modo. Ognuno di loro prende una moneta e la lancia; se le monete mostrano

lo stesso lato (TT o CC) A vince l'euro di B. Se invece le due monete cadono su facce

diverse (TC o CT) B vince l'euro di A. Il gioco continua no a quando uno dei due resta

senza monete. Ognuna delle 4 monete dà T con probabilità p=0.6. Sia Xn,n ≥ 0 lacatena di Markov che denota, al tempo n, il numero di monete posseduto da A.

1. Scrivere la matrice di transizione della catena e identicare eventuali classi di stati.

2. qual è la probabilità che A possieda le 4 monete dopo solo due lanci?

179

Page 180: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

3. qual è la probabilità che A possieda le 4 monete dopo esattamente tre lanci?

4. qual è la probabilità che il gioco nisca entro la terza partita?

5. qual è l'ammontare atteso di denaro che A posside dopo due partite?

180

Page 181: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

CAPITOLO 5

Applicazioni delle catene di Markov

5.1 Processi branching

Un altro esempio notevole di applicazione della teoria delle catene di Markov è dato dai

cosiddetti processi branching. Questo tipo di processo è utilizzato spesso per modellare

processi biologici relativi ai meccanismi di crescita della popolazione, in particolare per

studiarne l'ereditarietà genetica ed epidemica1. Più in particolare, i processi branching

descrivono l'evoluzione di una popolazione che si riproduce secondo regole probabilistiche

ad ogni generazione.

Consideriamo una popolazione (di individui, molecole, maschi con un dato cognome,

etc.) Assumiamo che al tempo 0 vi sia un solo individuo nella popolazione e che egli

generi un numero aleeatorio di discendenti Y , dove Y è una v.a. discreta con legge PY (y)

P(Z = y) = py, y = 0, 1, 2 3, . . .

1La prima applicazione di questo modello, realizzata da Galton e Watson, fu usata per spiegare il

fenomeno della scomparsa dei nomi di famiglia in una popolazione in crescita

181

Page 182: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

e funzione generatrice delle probabilità GY (s) = IE(sY). Gli individui sono generati tutti

allo stesso istante e formano la generazione al tempo 1: dopo aver generato la sua prole,

l'individuo iniziale muore. Al tempo 1, ognuno degli Y individui generati produrrà a sua

volta un numero aleatorio di discendenti che formeranno la generazione 2 e così via.

Ognuno degli individui della generazione j produce un numero di discendenti secondo la

legge PY (y) e le varie realizzazioni sono indipendenti sia all'interno di ogni generazione

che tra generazioni. Denotiamo allora con Zn la dimensione della popolazione al tempo

n, n≥ 0. Avremo

Z0 = 1

Z1 = Y

Z2 = Y (1)2 +Y (2)

2 + . . .Y (Z1)2

Z3 = Y (1)3 +Y (2)

3 + . . .Y (Z2)3

· · ·

Zn = Y (1)n +Y (2)

n + . . .Y (Zn−1)n

· · ·

dove le Y (k)j sono mutuamente indipendenti, sia al variare di j in 1,2, . . . ,k, sia al

variare di k. Poiché il valore del processo Zn, n ≥ 0, al tempo n, dipende solo da

quanto avviene al tempo n e dalla dimensione della popolazione al tempo n−1, ne segue

facilmente che si tratta di una catena di Markov omogenea nel tempo. Nel resto di questa

sezione mostreremo come sia possibile calcolare alcune grandezze notevoli relative ad un

processo branching, con particolare riferimento alla sua dinamica evolutiva. Studieremo

infatti come calcolare

IE(Zn) ; il valore atteso della dimensione della popolazione al tempo n;

Var(Zn) ; la sua varianza;

la distribuzione di probabilità di Zn, disponibile solo in alcuni casi in forma esplicita

182

Page 183: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

la probabilità di estinzione eventuale della popolazione

Si noti che, anché abbia senso parlare di estinzione, occorre assumere che P(Y = 0)> 0,.

Infatti, se fosse P(Y = 0) = 0, tutti gli individui si riprodurrebbero con probabilità 1 ad

ogni iterazione e l'estinzione sarebbe impossibile.

5.1.1 Valore atteso e varianza di Zn

Prima di cominciare a studiare le caratteristiche del processo, conviene sottolineare che

poiché la dimensione della popolazione Z è data dalla somma di n variabili casuali in-

dipendenti e discrete (n variabile), risulterà particolarmente utile nei calcoli la funzione

generatrice delle probabilità. In tal senso sarà utile il seguente risultato.

Teorema 5.1. Siano Y1,Y2, · · · ,YN N v.a. discrete con supporto 0,1,2, . . . indipendentie somiglianti con funzione generatrice delle probabilità GY (s) e sia N una v.a. discreta con

stesso supporto e funzione generatrice delle probabilità GN(s). Sia inoltre N indipendente

dalle Yi. Allora, se ZN =Y1+Y2+ · · ·+YN , la funzione generatrice delle probabilità di ZN

è

GZN (s) = GN(GY (s)).

Dimostrazione 5.1.

GZN (s) = IE(sZN)= IE

(sY1+Y2+···+YN

)= IE

(IE(sY1+Y2+···+YN |N = n

))= IE(GY (s))

n

= GN(GY (s))

Il precedente risultato ci dice che, nel caso di un processo branching, denotando con

Gn(s) la quantità GZn(s), e denotando

GY (s) = G1(s)

con il simbolo G(s), risulterà

Gn(s) = Gn−1(G(s)). (5.1)

183

Page 184: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Utilizzando la (5.1) più volte, si ottiene facilmente che

Gn(s) = G(G(G(· · ·G(s))))︸ ︷︷ ︸nvolte

(5.2)

oppure, più in generale,

Gn(s) = Gn−k(Gk(s)), ∀k < n. (5.3)

Ciò posto, il valore atteso e la varianza di Zn sono forniti dai seguenti teoremi.

Teorema 5.2. Sia Zn, n ≥ 0 un processo branching e sia Y la variabile casuale che

descrive il numero di nati da ogni individuo. Si supponga inoltre che E(Y ) = µ. Allora

IE(Zn) = µn. (5.4)

Dimostrazione 5.2. Per quanto detto in precedenza possiamo scrivere

GZn(s) = GZn−1[G(s)], (5.5)

Derivando i due membri dell'uguaglianza, otteniamo

G′Zn(s) = G′Zn−1

[G(s)]G′(s), (5.6)

ovvero, calcolando il valore delle quantità in s = 1,

G′Zn(1) = G′Zn−1

(G(1))G′(1) = G′Zn−1(1)µ.

Si ricordi, infatti che, in ogni caso, G(1) = 1 e G′(1) = IE(Y ). L'ultima relazione può

allora essere scritta come

IE(Zn) = µ IE(Zn−1)

da cui

E(Zn) = E(Zn−1)µ = E(Zn−2)µ2 = . . . = µ

n

Fin da ora è intuitivamente chiaro che il comportamneto asintotico del processo sarà

molto diverso a seconda che il valore µ risulti maggiore, uguale oppure minore di 1.

184

Page 185: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Teorema 5.3. Sia Zn un processo branching e sia Y la variabile casuale che descrive

il numero di nati da ogni individuo. Si supponga inoltre che IE(Y ) = µ e Var(Y ) = σ2 Si

ha allora

Var(Zn) =

nσ2 se µ = 1

µn−1σ2 1−µn

1−µ, se µ 6= 1.

(5.7)

Dimostrazione 5.3. Poiché, per ogni v.a. X si ha IE(X(X−1)) = IE(X2)− IE(X) e

G′′X(1) =∂

∂ s

(∂

∂ sIE(sX)) |s=1 =

∂ sIE(Xsx−1)= IE(X(X−1)) ,

e poiché

Var(X) = IE(X2)− (IE(X))2 ,

risulta

G′′Zn(1) = IE

(Z2

n)− IE(Zn) = Var(Zn)+(IE(Zn))

2− IE(Zn) = Var(Zn)+µ2n−µ

n. (5.8)

Inoltre, ricordando la (5.6), si ha

G′′Zn(1) = [G′(GZn−1(1))G

′Zn−1

(1)]′ =

= G′′[GZn−1(1)]G′Zn−1

(1) ·G′Zn−1(1)+G′′Zn−1

(1)G′[GZn−1(1)] =

= G′′[GZn−1(1)] · [G′Zn−1

(1)]2 +G′′Zn−1(1)G′[GZn−1(1)] =

= G′′(1)[G′Zn−1(1)]2 +G′′Zn−1

(1)G′(1) =

= G′′(1)[µn−1]2 +µG′′Zn−1(1).

(5.9)

Da quest'equazione possiamo ottenere una relazione ricorsiva per Var(Zn) sostituendo

la (5.8) nella (5.9):

Var(Zn)−µn +µ

2n = [µn−1]2[Var(Z1)−µ +µ2]+µ[Var(Zn−1)−µ

n−1 +µ2n−2] =

= µ2n−2 Var(Z1)−µ

2n−2µ +µ

2n−2µ

2 +µ Var(Zn−1)−µµn−1 +µµ

2n−2 =

= µ2n−2 Var(Z1)+µ

2n +µ Var(Zn−1)−µn,

ottenendo

Var(Zn) = µ2n−2

σ2 +µ Var(Zn−1) . (5.10)

185

Page 186: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Si proceda ora per induzione. Per n = 1, la tesi si riduce a Var(Z1) = σ2, ovviamente

vera; assumendo la tesi vera per n, dimostriamo ora che vale anche per n+1. Se µ = 1,

per la (5.10), si ha

Var(Zn+1) = Var(Z1)+nσ2 = (n+1)σ2.

Per µ 6= 1, invece,

Var(Zn+1) = µ2n

σ2 +µ

σ2µn−1(1−µn)

1−µ=

=µ2nσ2(1−µ)+µσ2µn−1(1−µn)

1−µ=

=σ2µn[µn(1−µ)+(1−µn)]

1−µ=

=σ2µn[µn−µn+1 +1−µn]

1−µ=

=σ2µn(1−µn+1)

1−µ.

(5.11)

Riguardo al caso µ 6= 1, si può notare che:

se µ > 1, la varianza tende a esplodere (la popolazione stessa, infatti, è in costante

crescita);

se µ < 1, la varianza tende a zero (la popolazione, infatti, tende ad estinguersi).

5.1.2 Distribuzione di Zn

Il calcolo della distribuzione di Zn, pur basandosi su un'idea relativamente semplice, è

piuttosto dicile da realizzare in pratica. L'idea è che conoscendo la distribuzione delle

Yn, si può usare la funzione generatrice delle probabilità delle Yn per trovare la funzione

generatrice delle probabilità di Zn utilizzando la (5.5) e, successivamente, la sua funzione

di probabilità attraverso la relazione

P(Zn = k) =1k!

G(k)Zn(0).

Tuttavia, come abbiamo detto, questo calcolo non è sempre possibile.

186

Page 187: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

5.1.3 Probabilità di estinzione

L'aspetto forse più interessante nello studio dei processi branching è il calcolo della

probabilità di estinzione della popolazione. In termini formali sia l'evento

An = La popolazione è estinta al tempo n,

e sia γn = P(An). Se la popolazione è estinta al tempo n dovrà risultare Zn = 0 e,

di conseguenza, Zn+k = 0,∀k > 0. Detto in altri termini gli eventi An formano una

successione monotona

A1 ⊂ A2 ⊂ ·· · ⊂ An ⊂ An+1 ⊂ ·· · ⊂ A,

dove A è l'evento

A = La popolazione prima o poi si estingue.

Ne consegue che anche la successione γn, n≥ 1 è una successione monotona crescente

e limitata dal valore 1. Ne consegue che essa ammette un limite γ . Poiché la probabilità

è una funzione continua di insieme risulterà allora

limn→∞

γn = limn→∞

P(An) = P(

limn→∞

An

)= P(A) = γ.

Teorema 5.4. Sia γ la probabilità di eventuale estinzione della popolazione. Allora γ

è la più piccola soluzione non negativa dell'equazione s = G(s), dove G(·) è la funzione

generatrice della v.a. Y che determina la dimensione della prole di ciascun individuo.

Dimostrazione 5.4. Prima di dimostrare il teorema notiamo come, la funzione ge-

neratrice delle probabilità di una v.a. Y, denita sugli interi positivi oltre allo zero, sia

necessariamente una funzione crescente e convessa di s in [0,1]. la dimostrazione di

questo asserto è basata sul semplice calcolo delle due prime d due derivate. Inoltre, per

qualunque G, valgono

G(0) =∞

∑n=0

0yP(Y = y) = P(Y = 0),

187

Page 188: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

e

G(1) =∞

∑n=0

1yP(Y = y) =∞

∑n=0

P(Y = y) = 1.

Innanzitutto mostriamo che, per ogni n ≥ 0, vale la relazione γn+1 = G(γn). Infatti, se

Gn(s) è la funzione generatrrice delle probabilità di Zn, γn = P(Zn = 0) = Gn(0). Allo

stesso modo, γn−1 = Gn−1(0), e inoltre

Gn(0) = G(G(G(· · ·G(0))))︸ ︷︷ ︸nvolte

= G(Gn−1(0)),

e quindi

γn = G(γn−1).

Entriamo ora nella dimostrazione del teorema. Occorre prima dimostrare che γ = G(γ),

ovvero la probabilità di estinzione è un punto sso di G(·), e inoltre che ∀s≥ 0 tali che

s = G(s), risulta s≥ γ . La prima delle due aermazioni è ovvia in quanto G è continua

e quindi

γ = limn→∞

γn = limn→∞

G(γn−1) = G(

limn→∞

γn−1

)= G(γ).

Per la seconda asserzione ricordiamo che G è non decrescente in [0,1] e quindi, ∀0 ≤s1 < s2 ≤ 1, G(s1) ≤ G(s2). Poiché Z0 = 1, si ha γ0 = 0. Sia ora s∗ ≥ 0 una soluzione

dell'equazione s = G(s). Allora vale la serie di implicazioni

0≤ s∗ ⇒ γ0 ≤ s∗⇒ G(γ0)≤ G(s∗)

γ1 ≤ s∗ ⇒ G(γ1)≤ G(s∗)⇒ γ2 ≤ s∗

...

⇒ γn ≤ s∗.

In pratica la successione γn,n≥ 0 è limitata da s∗ e

γ = limγn ≤ s∗.

Esempio 5.1 Legge Binomiale Sia Y una v.a. Bin(3,1/4) e Zn, n ≥ 0 un processo

branching con dimensione aleatoria della prole Y . Vogliamo calcolare la probabilità di

estinzione del processo.

188

Page 189: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Occorre allora determinare la più piccola soluzione di s = G(s) Sappiamo che la fun-

zione generatrice delle probabilità di Y ∼Bin(n, p) è pari a G(s) = (ps+ 1− p)n. Nel

nostro caso

G(s) = (s4+

34)3 =

164

(s+3)3

da cui

(s+3)3 = 64s⇒ s3 +9s2−37s+27 = 0

Poiché s = 1 è certamente una soluzione dell'equazione, applicando le regole per la

divisione dei polinomi,

(s3 +9s2−37s+27)/(s−1) = (s2 +10s+27)

e (s2+10s+27) non ha radici reali, ne segue che l'unica soluzione dell'equazione è s = 1

e 1 ecc dunque la probabilità di estinzione del processo. ♦

Per quanto detto nora, è evidente che debba esistere un legame tra la media µ della

variabile Y e la probabilità di estinzione γ. Tale legame in eetti esiste ed è illustrato dal

seguente teorema.

Teorema 5.5. Se µ = IE(Y ) > 1, la probabilità di estinzione è l'unica soluzione dell'e-

quazione γ = G(γ) ed è strettamente compresa tra 0 e 1.

Se µ = IE(Y )≤ 1, allora γ = 1. Più in dettaglio,µ > 1 ⇒ 0 < γ < 1

µ < 1 ⇒ γ = 1

µ = 1 ⇒ γ = 1 tranne nel caso P(Y = 1) = 1

(5.12)

In altri termini, se la media di riproduzione è inferiore a un individuo per membro,

allora la popolazione è destinata, prima o poi ad estinguersi. Lo stesso accade se la media

di riproduzione è esattamente pari a un individuo per membro, a meno che ogni individuo

non generi un glio con probabilità 1. Se invece la media di riproduzione è maggiore di un

individuo per membro, allora la popolazione ha una probabilità positiva di sopravvivere.

189

Page 190: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Dimostrazione 5.5. Daremo una dimostrazione essenzialmente graca. Prima di tutto,

riassumiamo le informazioni relative ad una generica funzione generatrice delle probabilità

GY (s).

GY (s) è crescente e convessa in [0,1];

GY (0) = P(Y = 0)> 0 (questa è una nostra assunzione per evitare che il problema

risulti banale);

G(1) = 1;

G′(1) = IE(Y ) = µ ;

γ è la più piccola soluzione positiva dell'equazione G(s) = s.

Da queste informazioni possiamo dedurre le seguenti conclusioni:

Caso µ > 1 : la curva G(γ) parte dal punto (0,GY (0)) e arriva al punto (1,1)

seguendo un percorso crescente e convesso. Poiché µ = G′Y (1), la tangente alla

curva G(s) in s = 1 ha coeciente angolare maggiore di 1 e dunque, per forza di

cose, la curva deve intersecare la bisettrice del primo quadrante in uno e un sol

punto 0 < s∗ < 1 che rappresenta la nostra soluzione γ . In questo caso, dunque,

l'estinzione non è certa ma avviene con una specica probabilità positiva.

6

-

r

G(s)

s

G(0)

P(Z = 0)

γ = s

γ = G(γ)

(1, 1)

190

Page 191: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Caso µ < 1 : la curva GY (s) parte ancora da 0,GY (0) e arriva al punto (1,1) in

modo crescente e convesso. Ora, però , la tangente alla curva in s = 1 è minore di

1 e dunque, per forza di cose, la curva G(s) giace, nell'intervallo (0,1), tutta al di

sopra della bisettrice. Ne consegue che l'unica soluzione dell'equazione s = G(S) è

pari a s = 1.

6

-

r

G(s)

s

G(0) G(s) = s

G(s)

(1, 1)

La stessa situazione si verica quando µ = 1, a meno che non sia P(Y = 1) = 1.

Infatti, in questo caso specico, si ha la certezza che ogni individuo ne produrrà un

altro, rendendo impossibile l'estinzione della popolazione.

Esempio 5.2 [Ancora sulla binomiale] Sia Zn, n≥ 0 un processo branching con Y ∼Bin(2,0.25)

Determinare la probabilità di estinzione o assorbimento a zero del processo.

Sia Y ∼ Bin(2,0.25) La media di Y è pari a µ = 0.5 Dunque, in base al teorema

precedente, la probabilità di assorbimento per la catena è pari a 1 . ♦

Esempio 5.3 [Legge geometrica] Sia Zn, n≥ 0 un processo branching con Y ∼Geo(0.25).

In questo caso la v.a. geometrica deve per forza di cose essere denita a partire da 0 e

la sua media in tal caso è pari a

µ =1/4

1−1/4= 3

191

Page 192: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Ne segue che γ è pari ad un numero strettamente minore di 1. Per ottenere il valore

esatto di γ occorre allora risolvere l'equazione s = G(s). ♦

5.2 Esempi notevoli

5.2.1 PageRank: un'applicazione per il web

PAGERANK è un algoritmo utilizzato nel più famoso motore di ricerca, GOOGLE, per

assegnare un livello di importanza alle varie pagine web legate ad una chiave di ricerca.

Il modo in cui è stato concepito fa un uso essenziale del concetto di distribuzione di

equilibrio di una catena di Markov. Vediamo in dettaglio.

Supponiamo che la chiave di ricerca - ad esempio la parola Markov - abbia individuato

un certo numero di pagine web diciamo N. Occorre adesso determinare un ordine di

importanza per tali link. Immaginiamo allora che l'algoritmo consideri le N pagine e

tutte quelle a loro connesse. Si ottiene così un grafo, formato da un insieme di vertici V

(le pagine web) e un insieme di archi orientati che rappresentano i possibili link, ovvero

se la pagina i connette alla pagina j vi sarà un arco che parte da i e va in j. Per ogni

pagina web i sia L(i) l'insieme dei link disponibili in quella pagina. Naturalmente L(i) può

anche essere vuoto; in tal caso si dice che la pagina i è dangling. Sia |A| la cardinalità delgenerico insieme A. Deniamo allora le probabilità di transizione da una pagina all'altra

come

pi j =

1/|L(i)| se j ∈ L(i)

1/|V | se L(i) = /0

0 altrimenti

Sia Xn,n ≥ 0 la catena di Markov che individua la pagina in cui ci si trova al tempo

n. Se Xn = i, la prossima posizione Xn+1 verrà determinata in modo casuale fra tutte

quelle collegate alla pagina i, a meno che i non sia dangling: in tal caso si riparte a caso

da una qualunque pagina. Purtroppo non è facile stabilire se tale matrice di transizione,

così costruita, sia irriducibile, né tantomeno se sia aperiodica. Modichiamo allora le

192

Page 193: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

probabilità di transizione in modo che sia sempre possibile saltare ad un'altra pagina, non

collegata a quella in cui ci troviamo. Scegliamo allora un valore α ∈ (0,1) - in genere si

prende α ≈ 0.2 - e sia

pi j = (1−α)pi j +α1|V |

. (5.13)

In tal modo, c'è la possibilità che un navigatore annoiato abbandoni il suo percorso e

ricominci da una nuova pagina web, non collegata alla precedente.

A questo punto si può dimostrare che la nuova matrice di transizione [la quale, pur

essendo in genere di dimensione enorme è pur sempre nita!] è anche irriducibile e

aperiodica in quanto non contiene più zeri. È possibile allora determinare la distribuzione

di equilibrio risolvendo il sistema π = πP.

Esiste un modo alternativo per interpretare questo approccio. Supponiamo di voler

misurare l'importanza di una pagina, la j-esima, mediante un numero positivo π( j).

Assumiamo inoltre che tali importanze sommino, su tutte le pagine considerate, ad 1.

Sia Oi è il numero di pagine che possiedono un link a j. È ragionevole assumere che

una pagina è tanto più importante quante più pagine importanti puntano ad essa. In tal

senso π( j) dovrebbe risultare pari alla somma ponderata delle altre π(i), relativamente

alle i che contengono un link alla pagina j. Se il peso della pagina i-esima è preso pari a

1/Oi, ne risulta la relazione

π( j) = ∑i∈I j

π(i)1Oi

equivalente al consueto sistema per la determinazione della distribuzione di equilibrio.

Il vettore delle soluzioni π∗ rappresenta dunque le frequenze con cui queste pagine

vengono visitate dalla catena e possono essere dunque considerate come un punteggio

per le pagine stesse. In altre parole la pagina i ottine un ranking superiore a quella j

se π∗(i) > π∗( j). Sebbene l'idea sia molto semplice, la sua implementazione non lo è

aatto, per via delle dimensioni del problema, e sosticate tecniche di analisi matriciale e

numerica sono considerate nell'algoritmo. In parole molto semplici, l'algoritmo parte da

una soluzione iniziale π(0) per poi evolvere secondo la regola

π(k+1) = π

(k)P.

193

Page 194: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Alcuni commenti nali

In una società oramai dominata da Internet, il rank di una pagina può essere molto

importante per il protto di una impresa. Ci sono perciò compagnie che vendono

pagine con alto rank. Insomma la posizione di rango nelle classiche GOOGLE si

può comprare.

Lo stesso algoritmo è stato usato anche per formare delle graduatorie tra ricerca-

tori che competono per un posto di lavoro o tra dipartimenti che competono per

l'assegnazione di fondi da parte delle autorità statali.

L'idea è semplice e geniale ma anche facilmente soggetta ad operazioni di corru-

zione, in una forma molto dicile da individuare.

5.2.2 Il modello di Wright e Fisher in biologia

5.3 Reversibilità di una Catena di Markov stazio-

naria

Consideriamo una catena di Markov Xn,−∞ < n < +∞ stazionaria ed ergodica, con

probabilità di transizione P e probabilità di equilibrio π. Supponiamo che a partire da un

certo istante, di tracciare la sequenza degli stati della catena andando indietro nel tempo.

Ossia, partendo dal tempo n, consideriamo la nuova successione Yn,−∞ < n < +∞con Yn = X−n, per ogni n 6= 0 e Y0 = X0. Si può dimostrare che questa nuova successione

di stati è a sua volta una catena di Markov con probabilità di transizione date da, per

194

Page 195: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

ogni coppia (i, j) ∈ S,

Qi j = P(Ym = j|Ym−1 = i) =P(Ym = j∩Ym−1 = i)

P(Ym−1 = i)

=P(Ym = j)P(Ym−1 = i|Ym = j)

P(Ym−1 = i)

=P(X−m = j)P(X−m+1 = i|X−m = j)

P(X−m+1 = i)

=π( j)Pji

π(i).

Per dimostrare che questo processo è ancora una catena di Markov, occorre vericare che

risulti

P(Ym = j|Ym−1 = i∩Ym−2∩Ym−3∩ ...) = P(Ym = j|Ym−1 = i).

Poiché la successione X0, X1, X2, . . . è una catena di Markov, ne consegue che la distri-

buzione condizionata degli stati futuri Xm, Xm+1, Xm+2, . . ., condizionatamente al valore

di Xm−1, non dipende dagli stati passati (Xm−1,Xm−2, · · ·) Tuttavia, la relazione di indi-

pendenza è una relazione simmetrica (A ⊥⊥ B ⇐⇒ B⊥⊥ A); quindi per Xm−1 ssato Xm

non dipende da Xm+1, Xm+2, . . .. Questo è suciente a garantire che la catena rovesciata

nel tempo è ancora di Markov. Se oltre a rispettare la proprietà di Markov, il processo

rispetta anche la relazione

Pi j = Qi j ∀i, j ∈ S,

la catena Xn si dice reversibile e il processo rovesciato Xm si dice catena di Markov

rovesciata. Riepiloghiamo queste aermazioni nella seguente denizione.

Denizione 5.1. Sia Xn una catena di Markov dotata di distribuzione di equilibrio e sia

Yn il processo denito da Yn = X−n per ogni n. Siano inoltre P e Q le rispettive matrici

di transizione. Se risulta

Qi j = Pi j (5.14)

∀(i, j) ∈ S, allora la catena Xn,−∞ < n <+∞ si dice reversibile e Yn si dice catena

di Markov rovesciata.

195

Page 196: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

La condizione (5.14) può essere banalmente riformulata nel modo seguente

π(i)Pi j = π( j)Pji ∀i, j ∈ S. (5.15)

Questa ultima espressione è chiamata Detailed Balance Equation (DBE) e stabilisce, più

o meno che il tasso col quale il processo entra in un certo stato i proveniente da j deve

essere uguale al tasso con cui il processo entra in j proveniente da i. Più precisamente,

per un processo in equilibrio, il numero di volte in cui il processo entra in un certo stato

in un intervallo di tempo pressato deve essere uguale al numero di volte in cui ne esce.

La verica delle equazioni DBE presuppone la conoscenza della distribuzione di equilibrio.

In realtà , nella pratica si determina spesso la distribuzione di equilibrio proprio risolvendo

le equazioni DBE, come enunciato nel seguente teorema.

Teorema 5.6. Se per una data catena di Markov irriducibile con matrice di transizione

P esiste un'unica soluzione π per il sistema di equazioni

π(i)Pi j = π( j)Pji, i, j ∈ S,

allora la catena è ricorrente positiva, reversibile e la soluzione π è l'unica distribuzione di

equilibrio del processo.

Dimostrazione 5.6. Per dimostrare che la (5.15) soddisfa la relazione π = πP è

suciente sommare rispetto ad i ∈ S le due quantità

∑i

π(i)Pi j = ∑i

π( j)Pji

= π( j)∑i

Pji = π( j) ·1 =

= π( j),

che in forma matriciale fornisce ancora π = πP .

L'importanza del teorema precedente risiede nel fatto che la (5.15) sono in genere

più semplici da vericare rispetto al sistema π = πP . questo accade soprattutto in quei

196

Page 197: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

casi, come ad esempio la passeggiata aleatoria, in cui ogni stato ecc accessibile solo da

alcuni stati limitro.

Concludiamo questa sezione con una caratterizzazione del concetto di reversibilità di

una catena stazionaria, dovuto a Kolmogorov.

Teorema 5.7. Criterio di reversibilità di Kolmogorov. Una catena di Markov Xn,n≥ 0è reversibile se, per ogni scelta di stati ( j1, j2, . . . , jk)∈ S, e per ogni k positivo, la matrice

di transizione della catena soddisfa la relazione

p j1, j2 p j2, j3 · · · p jk−1, jk p jk, j1 = p jk, jk−1 p jk−1, jk−2 · · · p j2, j1 p j1, jk .

Traducendo il criterio in italiano, esso stabilisce che, dato un qualunque stato di

partenza j1 ∈ S della catena, ogni cammino che ritorna a j1 in un numero qualunque di

passi, deve avere la stessa probabilità di vericarsi, in un senso di percorrenza o nell'altro.

5.4 L'Algoritmo di Metropolis

The algorithm was named after Nicholas Metropolis, who was an author along with

Arianna W. Rosenbluth, Marshall N. Rosenbluth, Augusta H. Teller, and Edward Teller

of the 1953 paper Equation of State Calculations by Fast Computing Machines which

rst proposed the algorithm for the specic case of the Boltzmann distribution;[1] and

W. Keith Hastings,[2] who extended it to the more general case in 1970.[3] There is

controversy over the credit for discovery of the algorithm. Edward Teller states in his

memoirs that the ve authors of the 1953 paper worked together for days (and nights).

[4] M. Rosenbluth, in an oral history recorded shortly before his death [5] credits E. Teller

with posing the original problem, himself with solving it, and A.W. Rosenbluth (his wife)

with programming the computer. According to M. Rosenbluth, neither Metropolis nor

A.H. Teller participated in any way. Rosenbluth's account of events is supported by other

contemporary recollections.[6]

The Metropolis-Hastings algorithm can draw samples from any probability distribu-

tion, requiring only that a function proportional to the density be calculable. In Bayesian

applications, the normalization factor is often extremely dicult to compute, so the abili-

ty to generate a sample without knowing this constant of proportionality is an important

197

Page 198: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

feature of this and other commonly-used sampling algorithms. The general idea of the

algorithm is to generate a series of samples that are linked in a Markov chain (where

each sample is correlated only with the directly preceding sample). At suciently long

times, the distribution of the generated samples matches the distribution. The algorithm

essentially works as follows (this is actually a description of the Metropolis algorithm, a

special case of Metropolis - Hastings)

In maniera analoga, l'algoritmo di Metropolis è ancora oggi utilizzato per generare una

catena di Markov reversibile.

Siano:

π ( j) =b( j)

Bj = 1,2, ...

le probabilità stazionarie, in cui b( j) deniscono numeri positivi con somma nita data

da: B = ∑nj=1 b( j).

Sia Q la matrice di transizione di una catena di Markov irriducibile con elementi q(i, j)

e sia X0,X1, ... la catena di Markov oggetto di studio denita nel modo seguente: se

Xn = i, si genera una variabile casuale Y tale che PY = j= q(i, j).

Di conseguenza, se Y = j, si pone:

Xn+1 =

j con probabilità a(i, j)

i con probabilità 1−a(i, j)

Sotto tali condizioni, è possibile osservare che la sequenza di stati costituisce una

catena di Markov con probabilità di transizione P(i, j) date da:

P(i, j) = q(i, j)a(i, j) se i 6= j

P(i, i) = q(i, i)+∑i 6= j

q(i, j)(1−a(i, j)) ∀i

Tale catena risulta reversibile con probabilità stazionarie π ( j) se:

π (i)P(i, j) = π ( j)P( j, i) se i 6= j

198

Page 199: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

o, equivalentemente:

π (i)q(i, j)a(i, j) = π ( j)q( j, i)a( j, i)

Assumendo π ( j) = b( j)B e ponendo:

a(i, j) = min(

π ( j)q( j, i)π (i)q(i, j)

,1)

è facile vericare che la penultima equazione è soddisfatta.

Inoltre, ponendo:

a(i, j) =π ( j)q( j, i)π (i)q(i, j)

si ha a( j, i) = 1 e l'equazione risulta nuovamente soddisfatta.

In modo analogo, se a(i, j) = 1 si ottiene:

a( j, i) =π (i)q(i, j)π ( j)q( j, i)

e ancora una volta la predente uguaglianza è soddisfatta.

Da ciò consegue la reversibilità della catena di Markov: tale catena sarà caratterizzata

dalle probabilità stazionarie, π ( j).

Inoltre, essendo π ( j) = b( j)B dall'equazione:

a(i, j) = min(

π ( j)q( j, i)π (i)q(i, j)

,1)

si evince che il valore di B non è necessario per denire la catena: i valori b( j) risultano,

dunque, i soli valori sucienti per descrivere e denire una catena di Markov.

One problem with applying Monte Carlo integration is in obtaining samples from some

complex probability distribution p(x). Attempts to solve this prob- lem are the roots of

MCMC methods. In particular, they trace to attempts by mathematical physicists to

integrate very complex functions by random sam- pling (Metropolis and Ulam 1949,

199

Page 200: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Metropolis et al. 1953, Hastings 1970), and the resulting Metropolis-Hastings algorithm.

A detailed review of this method is given by Chib and Greenberg (1995). Suppose our

goal is to draw samples from some distribution p(θ) where p(θ) = f (θ)/K, where the

normalizing constant K may not be known, and very dicult to compute. The Metropolis

algorithm ((Metropolis and Ulam 1949, Metropolis et al. 1953) generates a sequence of

draws from this distribution is as follows:

1. Start with any initial value θ0 satisfying f (θ0)> 0.

2. Using current θ value, sample a candidate point θ ∗ from some jumping distribution

q(θ1;θ2), which is the probability of returning a value of θ2 given a previous value

of θ1. This distribution is also referred to as the proposal or candidate-generating

distribution. The only restriction on the jump density in the Metropolis algorithm

is that it is symmetric, i.e.,

q(θ1;θ2) = q(θ2;θ1)

3. Given the candidate point θ ∗, calculate the ratio of the density at the candidate

θ ∗ and current state (θt−1) points,

α = min(

1,p(θ ∗

p(θt−1)

)= min

(1,

f (θ ∗

f (θt−1)

)Notice that because we are considering the ratio of p(x) under two dierent values,

the normalizing constant K cancels out.

4. If the jump increases the density (α > 1), accept the candidate point (set θt =

θ ∗) and return to step 2. If the jump decreases the density (α < 1), then with

probability α accept the candidate point, else reject it and return to step 2.

We can summarize the Metropolis sampling as rst computing α and then accepting

a candidate point with probability α (the probability of a move). This generates a Markov

chain (θ0,θ1, . . . ,θk, . . .), as the transition probabilities from θt to θt+1 depends only on

200

Page 201: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

θt and not (θ0, . . . ,θt−1). Following a sucient burn-in period (of, say, M steps), the

chain approaches its stationary distribution and (as we will demonstrate shortly), samples

from the vector (θM+1, . . . ,θM+n) are samples from p(x).

Hastings (1970) generalized the Metropolis algorithm by using an arbitrary transition

probability function q(θ1;θ2) = Pr(θ1→ θ2), and setting the acceptance probability for

a candidate point as

α = min(

1,f (θ ∗)q(θ ∗;θt−1)

f (θt−1)q(θt−1;θ ∗

)This is the Metropolis-Hastings algorithm. Assuming that the proposal distribution

is symmetric, i.e., q(x,y) = q(y,x), recovers the original Metropolis algorithm

5.5 Algoritmo Metropolis2

L'algoritmo Metropolis fornisce un metodo per calcolare una sequenza di campioni casuali

da una distribuzione di probabilità dalla quale è dicile eettuare un campionamento

diretto. Questa sequenza può essere usata per approssimare la distribuzione (per esempio

generarne l'istogramma) o per calcolarne un integrale (per esempio il valore atteso).

L'algoritmo prende il nome di Nicholas Metropolis, che nel 1953 lo presentò , insieme

ad altri autori, per approssimare la distribuzione di Boltzmann e simulare l'evoluzione di

un sistema sico verso l'equilibrio termico.

L'algoritmo Metropolis può estrarre campioni da qualunque distribuzione di probabilità

P(x) e richiede solo che sia possibile calcolare una funzione proporzionale alla sua funzione

di densità . L'idea dell'algoritmo è quella di usare una catena di Markov che, dopo un

tempo sucientemente lungo, produca la distribuzione P(x). Per produrre questo risultato

la catena deve soddisfare due requisiti: deve

essere ergodica e deve soddisfare un'equazione di bilancio dettagliato. La prima

condizione assicura che esista al massimo una distribuzione asintotica, mentre la seconda

assicura che esista almeno una distribuzione asintotica per la catena.

Come sappiamo, una catena di Markov genera un nuovo stato xt+1 facendolo dipen-

dere solo dallo stato corrente xt . L'algoritmo usa una distribuzione proposta Q(x′, xt)

201

Page 202: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

che dipende dallo stato corrente xt per generare un nuovo campione x′. La proposta è

accettata se il nuovo valore Xt+1 = x′ soddisfa

α <P(x′)Q(xt , x′)P(xt)Q(x′, xt)

(5.16)

con α ottenuto dalla distribuzione uniforme U(0, 1). Se la proposta non è accettata, si

mantiene il valore corrente xt+1 = xt .

Più in dettaglio, i passi dell'algoritmo sono i seguenti:

Passo 0: si pone X0 = x0

Passo t: si propone il valore Y ∼ Q(y, xt−1)

Passo t +1: si calcola α = min(

1, π(y)Q(y, xt+1)π(xt+1)Q(y, xt−1)

) Passo t +2: si pone Xt =

Y con probabilità α

Xt−1 con probabilità 1−α

5.6 Modello markoviano nelle assicurazioni

5.7 Applicazioni in nanza

5.8 Esercizi

5.8.1. Sia Zn,n ≥ 0 un processo branching standard, con Z0 = 1 e con variabile

aleatoria di riproduzione Y avente legge Geo(p = 2/5).

Calcolare la funzione generatrice delle probabilità di Y , G(s).

Usa G(s) per ottenere la media di una v.a. Geometrica(2/5 =.

Calcolare la funzione generatrice delle probabilità di Z2, G2(s).

Calcolare P(Z1 = 0), P(Z2 = 0), P(Z3 = 0) e P(Z4 = 0)

Calcolare la probabilità di estinzione eventuale γ .

202

Page 203: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Calcolare la probabilità di estinzione alla generazione 4.

Supponiamo che Y ∼Poi(2/5). In questo caso quanto vale la probabilità di even-

tuale estinzione?

5.8.2. Sia Zn,n≥ 0 un processo branching standard con variabile aleatoria di riprodu-

zione Y avente legge Geometrica di parametro p = 0.25.

Calcolare la funzione generatrice delle probabilità di Y , G(s).

Calcolare la funzione generatrice delle probabilità di Z2, G2(s)

Calcolare la probabilità di estinzione eventuale γ .

Calcolare P(Z3 = 0) e P(Z4 = 0)

5.8.3. Sia Zn,n ≥ 0 un processo branching standard, con Z0 = 1 e con variabile

aleatoria di riproduzione Y avente legge Binomiale (2,0.6) .

Calcolare la funzione generatrice delle probabilità di Y , G(s).

Calcolare la funzione generatrice delle probabilità di Z2, G2(s)

Calcolare la probabilità di estinzione eventuale γ .

Calcolare la probabilità di estinzione alla generazione 4.

Supponiamo che alla generazione 8 ci siano 10 individui. Qual è la probabilità di

estinzione eventuale condizionata a tale informazione?

5.8.4. Sia Z0,Z1,Z2, . . . un processo branching. dove Zn denota il numero di individui

nati nella generazione n e sia Z0 = 1. Sia poi Y la v.a. che denisce la il numero di gli

di ogni individuo e assumiamo Y ∼ Geo(1/3)

1. Sia G(s) = IE(sY) la funzione generatrice delle probabilità di Y . Usando il foglio di

aiuto, calcola G(s).

203

Page 204: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

2. Sia G2(s) la funzione generatrice delle probabilità di Z2. Calcola G2(s) cercando di

non semplicare l'espressione.

3. Calcola la probabilità di estinzione eventuale γ

4. Calcola Pr(Z4 = 0)

5. Supponi che Z6 = 8 Calcola la probabilità di estinzione condizionata a questa

informazione

6. Supponi ancora che Z6 = 8. Calcola la probabilità che esattamente 5 degli 8

individui vivi al tempo 6 avranno ancora discendenti al tempo 10

5.8.5. Sia Z0,Z1,Z2, . . . un processo branching. dove Zn denota il numero di individui

nati nella generazione n e sia Z0 = 1. Sia poi Y la v.a. che denisce la il numero di gli

di ogni individuo e assumiamo Y ∼ Bin(2,3/4)

1. Sia G(s) = IE(sY) la funzione generatrice delle probabilità di Y . Usando il foglio di

aiuto, calcola G(s).

2. Sia G2(s) la funzione generatrice delle probabilità di Z2. Calcola G2(s) cercando di

non semplicare l'espressione.

3. Calcola la probabilità di estinzione eventuale γ

4. Dimostra che Pr(Z4 = 0) = 0.106

5. Supponi che Z6 = 8 Calcola la probabilità di estinzione condizionata a questa

informazione

6. Supponi ancora che Z6 = 8. Calcola la probabilità che esattamente 5 degli 8

individui vivi al tempo 6 avranno ancora discendenti al tempo 10

204

Page 205: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

CAPITOLO 6

La legge esponenziale e il processo di Poisson

6.1 La Distribuzione Esponenziale

In un certo senso, abbiamo già un'ottima conoscenza delle catene di Markov nel tempo

continuo basata sulla nostra teoria sulle catene di Markov nel tempo discreto. Ad esempio,

un modo per descrivere una catena di Markov nel tempo continuo è di dire che

essa è una catena di Markov nel tempo discreto, tranne per il fatto che qui viene

esplicitamente modellato il tempo che intercorre tra una transizione e l'altra attraverso

variabili aleatorie continue e positive. Dunque il processo viene osservato ad ogni istante

t di un intervallo di numeri reali positivi.

La più importante distribuzione nel continuo per costruire e comprendere le catene

di Markov nel continuo è senza dubbio la distribuzione esponenziale, per ragioni che ora

illustreremo.

Denizione 6.1. Una v.a. continua X ha distribuzione esponenziale Exp(λ ) se la sua

funzione di densità è

fX(x|λ ) = λ exp(−λx) , x > 0,

205

Page 206: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

mentre vale 0 per x ≤ 0.Il parametro λ deve essere positivo ed è chiamato tasso della

distribuzione.

Nello studio dei processi stocastici in tempo continuo, la distribuzione esponenziale è di

solito utilizzata per modellare il tempo di attesa di un determinato evento

La funzione di ripartizione di una distribuzione Exp(λ ) si calcola facilmente. Infatti

FX(t) = 0 per ogni t ≤ 0; per t positivo invece,

FX(t) =∫ t

0λ exp(−λy)dy

= −λ1λ

exp(−λy)∥∥t

0 = 1− exp(−λ t)

6.1.1 I primi momenti di una v.a. Exp(λ)

La media di una v.a. Exp(λ ) si calcola facilmente mediante integrazione per parti:

IE(X) =∫

0xλ exp(−λx)dx

= λ

[−xexp(−λx)

λ|∞0 +

∫∞

0exp(−λx)dx

]= λ

[0+

−exp(−λx)λ

|∞0]

= λ1

λ 2 =1λ.

Al crescere del parametro λ , dunque, il livello medio di attesa dell'evento dimiinuisce;

per questo motivo λ viene pensato come un tasso del processo.

Come esercizio si può vericare che, applicando l'integrazione per parti due volte, il

momento secondo della distribuzione esponenziale vale

IE(X2)= ∫ ∞

0x2

λ exp(−λx) = · · ·= 2λ 2 .

Dai primi due momenti si può ottenere poi la varianza di X

Var(X) = IE(X2)− (IE(X))2 =

2λ 2 −

1λ 2 =

1λ 2 .

206

Page 207: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

6.1.2 Assenza di memoria

Si dice che una v.a. X non ha memoria se, per ogni valore di (s, t) positivi,

Pr(X > s+ t | X > t) = Pr(X > s) .

Se si pensa ad X come il tempo di vita di uno strumento, l'equazione precedente aerma

che la probabilità che lo strumento viva almeno un tempo pari a s+ t dato che ha già

vissuto un tempo t equivale alla probabilità che ha un pezzo nuovo di vivere almeno un

tempo s. In pratica, se lo strumento non ha memoria, non invecchia. L'equazione

precedente si può riscrivere come

Pr(X > s+ t ∩X > t)Pr(X > t)

= Pr(X > s) ,

ovvero

Pr(X > s+ t) = Pr(X > s)Pr(X > t) , ∀s, t > 0. (6.1)

Se deniamo come G(t) = Pr(X > t) = 1−F(t) la funzione di sopravvivenza associata

alla v.a. X , l'equazione (6.1) si scrive

G(s+ t) = G(s)G(t)

e si può dimostrare che l'unica soluzione della precedente equazione funzionale è proprio

G(t) = exp(−λ t) , λ > 0.

Dunque l'unica v.a. che gode della proprietà di assenza di memoria è quella che la

funzione di sopravvivenza pari a G(t) = exp(−λ t), per un qualche λ > 0 e per ogni t

positivo. Dunque l'unica distribuzione che soddisfa la proprietà di assenza di memoria è

la distribuzione esponenziale.

Esempio 6.1 [] L'ammontare di tempo che un cliente trascorre in banca ha distribuzione

esponenziale, con media pari a cinque minuti. Qual è la probabilità che il cliente spenda

più di 15 minuti in banca? Qual è la probabilità che spenda in tutto più di 15 minuti in

207

Page 208: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

banca sapendo che ne ha già trascorsi 10?

Soluzione: Sia X ∼Exp(λ ). Nel nostro caso λ = 0.2. Allora

Pr(X > 15) = exp(−λ15) = exp(−3) = 0.0498

Per rispondere alla seconda domanda dobbiamo ricorrere all'assenza di memoria della

legge esponenziale.

Pr(X > 15 | X > 10) = Pr(X > 5) = exp(−λ5) = exp(−1) = 0.368.

Esempio 6.2 [] L'ammontare in euro del danno associato ad un singolo incidente d'auto è

giudicato, dalla compagnia assicuratrice, avere una distribuzione esponenziale con media

pari a 1000 euro. Di questi, tuttavia l'assicurazione paga solo la quota che eccede la

franchigia di 400 euro. Determinare la media e la varianza della v.a. Y : ammontare in

euro che la compagnia paga per ogni incidente.

Soluzione: Possiamo denire la nostra Y come

Y = (X−400)+ =

X−400 X > 400

0 X ≤ 400

Per semplicità conviene introdurre una variabile dicotomica I denita come

I =

1 X > 400

0 X ≤ 400.

In pratica I è una v.a. di Bernoulli con probabilità di successo pari a

Pr(I = 1) = Pr(X > 400) = exp(−0.4) = 0.67.

Per l'assenza di memoria della v.a. esponenziale possiamo dire che, se il danno è superiore

a 400 euro, esso seguirà ancora una legge esponenziale con lo stesso parametro (λ =

208

Page 209: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

10−3). Dunque

IE(Y | I = 1) = 103; Var(Y | I = 1) = 106

IE(Y | I = 0) = 0; Var(Y | I = 0) = 0

oppure

IE(Y | I) = 103I; Var(Y | I) = 106I

Inne, per i risultati sul calcolo della media e della varianza iterate,

IE(Y ) = IE(IE(Y | I)) = 103×0.67 = 670 euro.

Inoltre

Var(Y ) = IE(Var(Y | I))+Var(IE(Y | I)) = IE(

106I)+Var

(103I

)= 106×0.67+106×0.67(1−0.67) = 891100

6.1.3 Minimi di v.a. esponenziali.

Elenchiamo qui alcuni risultati relativi alla legge di funzioni di v.a. esponenziali, che

saranno utili nel seguito.

Teorema 6.1. Siano X1, . . . ,Xn delle v.a. indipendenti, e assumiamo che, per ogni i, Xi

segua una distribuzione esponenziale con parametro λi. Allora la distribuzione della v.a.

Y = min(X1, . . . ,Xn)

è ancora di tipo esponenziale con parametro (λ1 + · · ·+λn). Inoltre, la probabilità che il

minimo tra le n v.a. sia X j è pari a λ j/(λ1 + · · ·+λn).

Dimostrazione 6.1. Calcoliamo la funzione di sopravvivenza di Y ,

GY (t) = Pr(Y > t) .

209

Page 210: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Essa può esprimersi come

Pr(Y > t) = Pr(min(X1, . . . ,Xn)> t) = P(X1 > t, . . . ,Xn > t)

= P(X1 > t)×·· ·×P(Xn > t) = exp(−t[λ1 + . . .λn])

Dunque Y ha legge esponenziale con parametro λ1 + . . .λn.

Inoltre, la probabilità che sia proprio X j ad assumere il minimo valore, può ottenersi

attraverso il metodo del condizionamento: infatti

Pr(X j è il minimo

)= Pr

(X j < Xh, per h 6= j

)e l'ultima quantità scritta è pari a

∫∞

0Pr(X j < Xh, h 6= j|X j = t

)fX j(t)dt

=∫

0Pr(X j < Xh, h 6= j|X j = t

)λ j exp(−λ jt)dt

=∫

0Pr(t < Xh, h 6= j)λ j exp(−λ jt)dt

=∫

0λ j exp(−λ jt)∏

h6= jPr(Xh > t)dt

=∫

0λ j exp(−λ jt)∏

h6= jexp(−λht)dt

= λ j

∫∞

0exp−(λ1 + ...+λn)tdt

= λ j−exp−(λ1 + ...+λn)t

λ1 + · · ·+λn|∞0

=λ j

λ1 + · · ·+λn.

come si voleva dimostrare. ♦

Vediamo ora un esempio in cui le proprietà del minimo sono utilizzate insieme alla

proprietà di assenza di memoria,

Esempio 6.3 (Ross, p.332 numero 20). Consideriamo un sistema composto da due

sportelli: il cliente che arriva viene prima servito dallo sportello 1, e successivamente dal

210

Page 211: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

server 2; al termine dei due servizi, esce dal sistemaI tempi di servizio nei due sportelli

sono v.a. esponenziali con parametro µi, i = 1, 2. Essi sono mutuamente indipendenti.

Supponiamo che un cliente, arrivando, trovi lo sportello 1 libero e ci siano invece due

clienti allo sportello 2, ovvero il cliente A, attualmente in servizio e il cliente B, che

aspetta in linea. Calcolare

(A) PA, ovvero la probabilità che A sia ancora allo sportello 2 quando il cliente termina

il primo servizio.

(B) PB, ovvero la probabilità che B si trovi ancora nel sistema quando il cliente termina

il primo servizio.

(C) IE(T ), dove T è la v.a. Tempo trascorso dal cliente nel sistema.

Soluzione:

[(A)]: Per calcolare PA occorre calcolare la probabilità che il servizio del nostro cliente

allo sportello 1 duri meno del tempo residuo del cliente A allo sportello 2. Per l'assenza

di memoria delle leggi esponenziali, il servizio residuo di A ha ancora legge esponenziale

di parametro (µ2), mentre il servizio del cliente allo sportello 1 ha legge esponenziale di

parametro (µ1). Quindi, PA è la probabilità che una v.a Exp(µ1) sia minore di una v.a.

Exp(µ2), e vale, per i risultati relativi ai minimi tra v.a. esponenziali,

PA =µ1

µ1 +µ2.

[(B)] Il cliente B sarà ancora nel sistema quando il nostro cliente arriva allo sportello 2

se il tempo di servizio del cliente è minore della somma del tempo di servizio residuo di

A e del tempo di servizio di B. Operiamo allora un condizionamento relativo a quale dei

due eventi si vericherà prima: che A concluda il suo servizio allo sportello 2 oppure che

211

Page 212: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

il cliente concluda il suo servizio allo sportello 1.

Pr(B ancora nel sistema)

= Pr(B ancora nel sistema | A termina prima del cliente)µ2

µ1 +µ2

+ Pr(B ancora nel sistema | cliente termina 1 prima che A termini 2)

× µ1

µ1 +µ2.

Ora, Pr(B ancora nel sistema| il cliente termina 1 prima che A termini 2) è pari a 1 dal

momento che B è ancora in attesa che A termini il suo servizio quando il cliente arriva allo

sportello 2. D'altra parte, se A nisce il servizio prima del nostro cliente, per l'assenza

di memoria, il tempo di servizio residuo del cliente allo sportello 1 è di tipo Exp(µ1) e

dunque B sarà ancora nel sistema al termine del servizio del cliente allo sportello 1 con

probabilità µ1/(µ1 +µ2). Quindi,

Pr(B è ancora nel sistema) =µ1µ2

(µ1 +µ2)2 +µ1

µ1 +µ2.

[(C)] Suddividiamo il tempo T del cliente nel sistema in

T = T1 +R,

in cui T1 è il tempo che occorre anché il primo dei due eventi accada (che il cliente

termini il suo primo servizio oppure che A termini il servizio allo sportello 2), mentre R è

il tempo residuo. La v.a. T1 è dunque il minimo di due v.a. esponenziali indipendenti e

dunque T1 ∼ Exp(µ1 +µ2), cosicché

IE(T1) =1

µ1 +µ2.

Per calcolare IE(R), condizioniamo rispetto a qual è stato il primo dei due eventi sopra-

citati a vericarsi. Se il primo evento è la ne del servizio del cliente allo sportello 1

(e questo si verica con probabilità µ1/(µ1 + µ2)), il cliente passa allo sportello 2, e il

tempo residuo nel sistema per il cliente è pari alla somma de

il tempo residuo per A allo sportello 2;

212

Page 213: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

l'intero tempo di servizio di B allo sportello 2;

l'intero tempo di servizio del cliente allo sportello 2.

Il tempo residuo per A allo sportello 2 è ancora di tipo Exp(µ2), mentre gli altri due tempi

sono due v.a. indipendenti e somiglianti Exp(µ2) per costruzione. Dunque il tempo medio

residuo nel sistema è pari a 3/µ2. Abbiamo allora stabilito che

IE(R| il primo evento è la ne del servizio del cliente allo sportello 1 ) =3µ2

,

e

IE(R) =µ1

µ1 +µ2

3µ2

+µ2

µ1 +µ2

× IE(R| il primo evento è la ne del servizio di A allo sportello 2) .

Ma se il primo evento a vericarsi è la ne del servizio di A possiamo di nuovo calcolare

il tempo residuo atteso del cliente nel sistema come la somma de:

il tempo atteso no al prossimo evento (o il cliente oppure B termina il proprio

servizio)

il tempo atteso residuo dopo l'evento sopradetto.

Il primo dei due tempi medi vale 1/(µ1+µ2). Per il calcolo del secondo occorre reiterare

la tecnica precedente condizionando ai due possibili eventi primi ad accadere. Si può

dimostrare con semplicità che

IE(R| il primo evento è la ne del servizio di A allo sportello 2)

=1

µ1 +µ2+

2µ2

µ1

µ1 +µ2+

(1µ1

+1µ2

)µ2

µ1 +µ2.

È così possibile calcolare IE(R) e, di conseguenza, IE(T ). ♦

Per esercizio considerate come risolvere il precedente problema assumendo una distribu-

zione diversa del tempo di servizio, ad esempio, una distribuzione uniforme [0, 1] o un

tempo di servizio deterministico come 1'unità di tempo.

213

Page 214: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

6.2 La distribuzione Gamma

Iniziamo questa sezione con alcune nozioni relative alla funzione Gamma di Eulero Si

chiama funzione Gamma e si indica con Γ(ν) la funzione denita, per ν > 0, come

Γ(ν) =∫

0xν−1e−xdx.

Si può facilmente dimostrare, mediante la formula di integrazione per parti (∫

udv =

uv−∫

vdu), che vale la relazione ricorrente

Γ(ν +1) = ν Γ(ν), t > 0. (6.2)

Infatti, ponendo u = xν−1 e dv = exp(−x)dx, si ha du = (ν−1)xν−2dx e v =−exp(−x)

in modo che

Γ(ν) =∫

0xν−1 exp(−x)dx

= −xν−1 exp(−x)|∞0 +(ν−1)∫

0xν−2 exp(−x)dx

= 0+(ν−1)Γ(ν−1)

Dunque Γ(ν) = (ν−1)Γ(ν−1). In particolare, se ν = n, un intero positivo maggiore o

uguale a 1, si ha, ricorsivamente,

Γ(n) = (n−1)Γ(n−1) = · · ·= (n−1)× (n−2)×·· ·×2×1×Γ(1) = (n−1)!Γ(1).

D'altronde

Γ(1) =∫

0e−xdx = 1,

e quindi, se t è un numero intero,

Γ(t) = (t−1)!

Inoltre vale la formula Γ(1/2)=√

π, che si può dimostrare attraverso il cambio di variabile

x = y2/2 e ricordando l'espressione della densità della normale standardizzata. Per valori

elevati dell'argomento t, Γ(t) può essere approssimata mediante la formula di Stirling

Γ(t +1) =√

2πt tt e−t . (6.3)

214

Page 215: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

La relazione che denisce la funzione Gamma può essere generalizzata nel modo seguente:

siano λ e ν due parametri positivi; allora l'integrale∫∞

0xν−1e−λxdx,

attraverso il cambio di variabile

λx = w =⇒ dx = dw/λ ,

vale ∫∞

0

1λ ν

wν−1e−wdw =Γ(ν)

λ ν. (6.4)

La relazione (6.4), oltre ad essere interessante per sé, suggerisce la denizione di una

nuova distribuzione di probabilità detta legge Gamma(ν ,λ ).

Si dice che X ∼ Gamma(ν ,λ ) quando S(x,ν ,λ ) = (0,∞) e, per ogni ν e λ positivi,

la funzione di densità vale

fX(x;ν ,λ ) =λ ν

Γ(ν)e−λxxν−1, x > 0. (6.5)

Il parametro λ prende il nome di parametro di scala mentre ν è detto parametro di forma.

La relazione (6.4) è utile per il calcolo dei momenti. Infatti,

IE(

Xk)=∫

0

λ ν

Γ(ν)e−λxxν+k−1dx =

λ ν

Γ(ν)

Γ(ν + k)λ ν+k =

ν(ν +1) · (ν + k−1)λ k ,

da cui, ad esempio

IE(X) =ν

λ, Var(X) =

ν(ν +1)λ 2 − ν2

λ 2 =ν

λ 2 .

Casi particolari.

Se ν = 1, X ∼ Exp(λ ).

215

Page 216: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Se ν = ν/2 e λ = 1/2,

f (x;ν) =1

2ν/2Γ(ν/2)exp−1

2x

2−1,

e la distribuzione prende il nome di Chi quadrato con ν gradi di libertà: in simboli

X ∼ χ2ν .

Una variabile X ∼ χ22 è equivalente ad una X ∼ Exp(1

2).

Se X ∼ Gamma(ν ,λ ), la trasformazione lineare Y = 2λX ha distribuzione χ22ν.

Attraverso la formula (6.4) è facile calcolare la funzione generatrice dei momenti MX(u)

di una distribuzione Gamma.

MX(u) = IE(euX)= ∫ ∞

0

λ ν

Γ(ν)exp(−x(λ −u))xν−1dx

=λ ν

Γ(ν)

Γ(ν)

(λ −u)ν

=

λ −u

Poiché la legge esponenziale è un caso particolare della legge Gamma (ν = 1) la legge

esponenziale ha funzione generatrice dei momenti

M(u) =λ

λ −u. (6.6)

La legge Gamma è importante nella teoria dei processi di Poisson soprattutto per la

seguente proprietà :

Teorema 6.2. Siano X1,X2, . . .Xn n v.a. indipendenti e somiglianti con distribuzione

esponenziale di parametro λ , e sia

Sn = X1 +X2 + · · ·+Xn.

Allora la v,a. Sn ha distribuzione di tipo Gamma(n,λ )

216

Page 217: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Dimostrazione 6.2. Calcoliamo la funzione generatrice dei momenti di Sn:

MSn(u) = IE(exp(uSn)) = IE(exp(u(X1 + . . .Xn)))

=n

∏i=1

IE(exp(uXi)) = per la somiglianza

= (λ/(λ −u))n ,

che è proprio la funzione generatrice dei momenti di una v.a. Gamma(n,λ ). ♦

Una dimostrazione della formula di Stirling

Diamo qui una dimostrazione piuttosto informale della formula di approssimazione di

Stirling, basata sul teorema del limite centrale e che vale solo per argomenti interi della

funzione Gamma, ovvero

Γ(n+1) = n!≈ e−nnn√

2πn, (6.7)

o meglio

limn→∞

n!nnen√

2πn= 1.

Sia dunque X0,X1,X2, . . . una successione di v.a. indipendenti e somiglianti con distri-

buzione di Poisson di parametro 1, ovvero

P(X j = k) = e−1 1k!, j = 1,2, . . . ;k = 0,1,2, . . . ;

Allora, per ogni n, Sn = X0 +X1 + · · ·+Xn ha ancora legge di Poissom con parametro n

e dunque

Pr(Sn = n) = e−n nn

n!(6.8)

Per grandi valori di n, tuttavia (Sn−n)/√

n converge in distribuzione ad una v.a. N(0,1).

e quindi

Pr(Sn = n) = Pr(n−1 < Sn ≤ n) = Pr(−1/√

n <Sn−n√

n≤ 0)

=∫ 0

−1/√

n

1√2π

e−x2/2dx≈ 1√2πn

;

217

Page 218: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Uguagliando l'ultima espressione con la (6.8) si ottiene allora

1√2πn≈ e−n nn

n!

da cui la tesi.

6.3 Il Processo di Poisson: un'introduzione

Il Processo di Poisson è il primo esempio di processo in tempo continuo che qui con-

sideriamo. La sua relativa semplicità, insieme all'utilità pratica lo rendono una buona

introduzione ai più generali processi in tempo continuo. Inizieremo fornendo diverse de-

nizioni equivalenti del Processo di Poisson; ognuna di queste, in modo diverso, fornisce

alcune informazioni sulla struttura e sulle proprietà del processo stesso. Prima ancora,

tuttavia, sarè necessario introdurre due nuovi concetti: quelli di incrementi stazionari e

di incrementi indipendenti.

Incrementi stazionari e indipendenti.

Per un processo stocastico in tempo continuo

X(t) : t ≥ 0 ,

si chiama incremento la dierenza tra valore del processo osservato in due tempi, detti s

e t. Per s< t, l'incremento dal tempo s al tempo t è dunque la v.a. dierenza X(t)−X(s).

Si dice che un processo ha incrementi stazionari se la distribuzione dell'incremento X(t)−X(s) dipende da s e t solo attraverso la dierenza t− s per tutti gli s < t. Dunque, se

t1− s1 = t2− s2, la distribuzione della v.a. incremento X(t1)−X(s1) è la stessa della

v.a. X(t2)−X(s2); è da notare come gli intervalli [s1, t1] e [s2, t2] non debbano essere

necessariamente disgiunti.

Si dice che un processo ha incrementi indipendenti se, comunque si scelgano quattro

tempi s1 < t1 < s2 < t2, le v.a. X(t2)−X(s2) e X(t1)−X(s1) sono indipendenti. In altri

termini, incrementi relativi a intervalli disgiunti, avranno un comportamento mutuamente

indipendente.

218

Page 219: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Non esistono molti esempi di processi stocastici che abbiano incrementi sia stazionari

che indipendenti. In genere, gli incrementi non soddisferanno nessuna delle due proprie-

tà. Un'eccezione che già conosciamo è la passeggiata aleatoria semplice; siano infatti

ξ1,ξ2,ξ3, . . . una successione di v.a. i.i.d. tali che

P(ξi = 1) = p e P(ξi =−1) = q = 1− p;

la passeggiata aleatoria semplice è allora denita come il processo

Xn : n≥ 0 ,

dove X0 = 0 e, per ogni n > 0,

Xn =n

∑i=1

ξi.

Attraverso questa rappresentazione, non è dicile vericare che il processoXn : n≥ 0ha incrementi stazionari e indipendenti.

6.3.1 Prima denizione del processo di Poisson

Denizione 6.2. (Prima denizione del processo di Poisson) Un processo stocastico in

tempo continuo N(t) : t ≥ 0 è un processo di Poisson con tasso λ > 0 se

1. N(0) = 0

2. N(t) ha incrementi stazionari e indipendenti.

3. Per ogni t > 0, la distribuzione della v.a. N(t) è di tipo Poisson con media pari a

λ t, ovvero

Pr(N(t) = k) =(λ t)k

k!exp(−λ t) , k = 0,1,2, . . .

La denizione precedente ci dice immediatamente qualcosa relativamente alla struttura

del processo di Poisson:

Per via della stazionarietà degli incrementi, le variabili aleatorie N(t)−N(s), per

s < t e N(t− s)−N(0) = N(t− s) hanno la stessa distribuzione, ovvero una legge

di Poisson con media λ (t− s).

219

Page 220: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Le traiettorie del processo sono non decrescenti con probabilità 1, in quanto N(t)−N(s)≥ 0 quasi certamente per ogni s < t.

Lo spazio degli stati del processo è chiaramente

S = 0,1,2, . . . .

Un modo intuitivo per interpretare il processo di Poisson è come un processo di conteggio,

in quanto, per ogni t > 0, N(t) rappresenta il numero di eventi che si sono vericati

nell'intervallo (0, t].

Va subito sottolineato come N(t)→ ∞ quando t → ∞; dunque N(t) non è un processo

stazionario, sebbene i suoi incrementi lo siano.

Un uso comune del processo di Poisson è quello di denire N(t) come il numero di

arrivi di clienti ad uno sportello nell'intervallo (0, t]. Secondo questa interpretazione, al

crescere di λ , i clienti tenderanno ad arrivare con maggiore frequenza, e questo spiega

perché il parametro λ si chiami tasso del processo.

Il processo di Poisson può essere introdotto, in modo alternativo, come limite di una

successione di processi di tipo bernoulliano, a parametro discreto. Per illustrare questo

risultato, dobbiamo prima di tutto denire il cosiddetto processo di Bernoulli, nel modo

che segue.

6.3.2 Il Processo di Bernoulli

Consideriamo la semiretta [0,∞) e suddividiamola in intervalli disgiunti, ognuno di lun-

ghezza pari ad h, dove h è molto piccolo. Otteniamo così gli intervalli

[0,h), [h,2h), [2h,3h), . . .

e così via. Supponiamo, poi, che ogni intervallo corrisponda a una prova indipendente di

Bernoulli, cosicché in ogni intervallo, indipendentemente dagli altri, si verica un evento

(un arrivo) con probabilità λh e non si verica nulla con probabilità 1−λh. Deniamo

il processo di Bernoulli

B(t) : t = 0,h,2h,3h, ... ,

220

Page 221: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

dove la generica v.a. B(t) rappresenta il numero di eventi che si verica prima del tempo

t.

Per come è stato denito, il processo di Bernoulli B(t) ha incrementi stazionari e indipen-

denti. Inoltre B(0) = 0. Così il processo di Bernoulli sarà un'approssimazione nel tempo

discreto del processo di Poisson con tasso λ se la distribuzione di B(t) è approssimativa-

mente di tipo Poisson(λ t). Fissiamo un valore di t della forma nh; per esso conosciamo

l'esatta distribuzione di B(t). Infatti, al tempo t si sono vericate già n prove indipenden-

ti, ed ognuna con probabilità di successo pari a λh. Dunque B(t) ha una distribuzione

binomiale con parametri n e λh. Ne segue che il numero medio di successi no al tempo

t è pari a nλh = λ t, come sarebbe se B(t) avesse legge di Poisson con parametro λ t.

Inoltre, sia k un numero intero non negativo e sia t > 0, con t = nh per qualche n intero.

Allora, per n sucientemente grande, ovvero h molto piccolo,

Pr(B(t) = k) =

(nk

)(λh)k(1−λh)n−k

=n!

(n− k)!k!(λ tn)k(1− λ t

n)n−k

=n!

(n− k)!nk (1−λ tn)−k (λ t)k

k!(1− λ t

n)n

≈ n!(n− k)!nk (1−

λ tn)−k (λ t)k

k!exp(−λ t),

dove solo nell'ultimo passaggio si richiede che n sia grande. Inoltre, sotto le stesse

condizioni,

(1− λ tn)−k ≈ 1

en!

(n− k)!nk =n(n−1) · · ·(n− k+1)

nk ≈ 1.

Quindi, Pr(B(t) = k)≈ (λ t)k/k!exp(−λ t); questa ultima approssimazione risulterà esat-

ta per h→ 0).

Dunque, il processo di Bernoulli descrive una situazione molto naturale in cui, in ogni

piccolo intervallo di tempo, può accadere qualcosa oppure no: esso fornisce un'ulteriore

221

Page 222: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

prospettiva di interpretazione per il processo di Poisson. Ad esempio, se si sono vericati

m eventi nell'intervallo (0, t], (ovvero N(t) = m), alla luce dell'interpretazione in termini

di processo di Bernoulli, i tempi in cui tali m eventi si sono vericati dovrebbero essere

distribuiti in modo uniforme, perché questo è quello che ci attenderemmo nel processo di

Bernoulli. Vedremo più avanti che tale intuizione è eettivamente corretta.

Pensare in termini del processo di Bernoulli rende più comprensibili alcune proprietà del

processo di Poisson. Questa impostazione risulterà ancora utile quando considereremo,

più in generale, le catene di Markov in tempo continuo. Nel processo di Bernoulli, la

probabilità di un evento in un qualsiasi intervallo specico è pari a λh mentre la probabilità

di osservare due o più successi è pari a 0 (ovvero Pr(B(h) = 1)= λh e Pr(B(h)≥ 2)= 0)).

Questo ci dice che, nel processo di Poisson, si avrà l'approssimazione Pr(N(h) = 1)≈ λh

e Pr(N(h)≥ 2) ≈ 0. Tale approssimazione si scrive in modo più formale ricorrendo alla

notazione di Landau

Pr(N(h) = 1) = λh+o(h); Pr(N(h)≥ 2) = o(h).

La notazione o(h) è chiamata notazione di Landau, e si legge o piccolo di h'. Se una

funzione f è o(h), questo sta a signicare che f è un innitesimo di ordine superiore

rispetto ad h, ovvero f (h)/h→ 0 quando h→ 0. In termini meno precisi, f (h) tende a

zero più velocemente rispetto ad h. Dal punto di vista notazionale, l'uso degli o(h) è utile

perché evita di scrivere lunghe, complicate o addirittura sconosciute espressioni quando

l'unica proprietà che interessa di una certa espressione è quanto velocemente essa tenda

a zero. Nel seguito faremo ampio uso della notazione di Landau ed è forse utile fare una

pausa e assicurarci di averne ben compreso il signicato.

6.3.3 Denizione 2 di Processo di Poisson

Denizione 6.3. Un processo stocastico in tempo continuo N(t) : t ≥ 0 è un processodi Poisson con tasso λ > 0 quando

i N(0) = 0

ii Ha incrementi stazionari e indipendenti.

222

Page 223: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

iii

Pr(N(h) = 0) = 1−λh+o(h)

Pr(N(h) = 1) = λh+o(h)

Pr(N(h)≥ 2) = o(h).

Questa seconda denizione può sembrare più generale della Denizione 1 in quanto basata

su condizioni più primitive, maggiormente legate al processo di Bernoulli. Inoltre, essa

non utilizza, in modo esplicito, alcuna legge di probabilità e suggerisce, in qualche modo,

una naturalezza del processo di Poisson. In realtà le due denizioni sono equivalenti,

ovvero deniscono lo stesso processo stocastico, come adesso dimostreremo.

Teorema 6.3. Le due denizioni del processo di Poisson sopra presentate sono equiva-

lenti, ovvero la denizione 2 implica la denizione 1 e viceversa

Dimostrazione 6.3. Per prima cosa dimostriamo che la Definizione 1 implica la Defi-

nizione 2. Poiché le prime due condizioni sono uguali, occorre dimostrare che il terzo as-

sunto della prima definizione implica il terzo punto della seconda definizione. Assumiamo

allora che, per ogni t, N(t)∼ Po(λ t). Quindi,

Pr(N(h) = 0) = exp(−λh).

Se sviluppiamo l’esponenziale in serie di Taylor, si ha

Pr(N(h) = 0) = 1−λh+(λh)2

2!− (λh)3

3!+ . . .

= 1−λh+o(h).

Allo stesso modo,

Pr(N(h) = 1) = λhexp(−λh)

= λh[

1−λh+(λh)2

2!− (λh)3

3!+ . . .

]= λh−λ

2h2 +(λh)3

2!− (λh)4

3!+ . . .

= λh+o(h).

223

Page 224: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Infine,

Pr(N(h)≥ 2) = 1−Pr(N(h) = 1)−Pr(N(h) = 0)

= 1− (λh+o(h))− (1−λh+o(h))

= −o(h)−o(h) = o(h).

e quindi la Definizione 1 implica la Definizione 2.

Dimostriamo ora che il terzo assunto della seconda definizione implica il terzo punto

della prima definizione. Si fissi u≥ 0, e sia

g(t) = IE(exp(uN(t))) .

In altri termini, g(t) è la funzione generatrice dei momenti della v.a. N(t): essa è qui

considerata come una funzione di t. Allora

g(t +h) = IE(exp(uN(t +h)))

= IE(exp(uN(t))exp(u[N(t +h)−N(t)]))

= IE(exp(uN(t))) IE(exp(u[N(t +h)−N(t)]))

= g(t) IE(exp(u[N(h)])) .

Calcoliamo ora IE(exp(−u[N(h)])). Dalle assunzioni del terzo punto della Definizione

2, sappiamo che, per h “piccolo”, la distribuzione di N(h) si concentra sui valori 0 e 1 con

Pr(N(h)≥ 2) = o(h). Dunque,

IE(exp(uN(h))) = 1×Pr(N(h) = 0)+ eu Pr(N(h) = 1)+ ∑h≥2

euho(h)

= 1−λh+o(h)+ eu(λh+o(h))+o(h)

= 1+λheu−λh+o(h).

Mettendo insieme gli ultimi due risultati si ottiene

g(t +h) = g(t)(1+λheu−λh+o(h)) ,

224

Page 225: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

ovverog(t +h)−g(t)

h= λg(t)(eu−1)+

o(h)h

.

Per h→ 0 si ottiene

g′(t) = λg(t)(eu−1),

da cuig′(t)g(t)

= λ (eu−1).

Integrando rispetto a t, ed usando la condizione g(0) = IE(exp(uN(0))) = 1, si ottiene

g(t) = exp(λ t(eu−1)) . (6.9)

Dunque, g(t) coincide con la trasformata di Laplace (o funzione generatrice dei momenti)

di una v.a. di Poisson di parametro λ t. Questo implica che, per ogni t > 0,

N(t)∼ Po(λ t),

che conclude la dimostrazione. ♦

6.3.4 Denizione alternativa del processo di Poisson.

Un terzo modo per denire il processo di Poisson consiste nel descrivere le leggi di

probabilità dei tempi di attesa tra il vericarsi di eventi successivi. In particolare dimo-

streremo che i tempi che intercorrono fra il vericarsi degli eventi seguono una distribu-

zione esponenziale di parametro λ , e sono tra loro delle v.a indipendenti e identicamente

distribuite.

Abbiamo già sottolineato come il processo di Poisson si tratti di un caso particolare di

processo di conteggio, in cui N(t) rappresenta il numero di eventi che si sono vericati no

al tempo t, e dove i tempi intercorsi tra il vericarsi di eventi successivi sono chiamati

tempi di interarrivo. Dimostreremo ora che i tempi di interarrivo per un processo di

Poisson con tasso λ sono v.a. esponenziali di parametro (λ ), indipendenti e somiglianti.

Questa proprietà caratterizza il processo di Poisson tra i processi di conteggio. Un

generico processo di conteggio in cui i tempi di attesa tra un evento e l'altro hanno leggi

225

Page 226: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

arbitrarie si chiama processo di rinnovo. Noi non studieremo questa particolare classe di

processi stocastici. Ci limitiamo ad aermare che, qualora i tempi di attesa non fossero

esponenziali, allora il processo non avrebbe incrementi indipendenti e stazionari. Dunque,

il processo di Poisson è l'unico processo di rinnovo ad avere incrementi indipendenti e

stazionari.

Dimostriamo ora che i tempi di interarrivo tra un evento e l'altro in un processo di

Poisson sono indipendenti e somiglianti, tutti con distribuzione esponenziale di parame-

tro λ . Per prima cosa, si consideri il tempo necessario al vericarsi del primo evento,

denominato T1.

Per ogni t > 0, l'evento T1 > t è equivalente all'evento N(t) = 0. Quindi,

Pr(T1 > t) = Pr(N(t) = 0) = exp(−λ t);

dunque la funzione di ripartizione di T1 vale, per ogni t > 0,

FT1(t) = Pr(T1 ≤ t) = 1−Pr(T1 > t) = 1− exp(−λ t).

In altri termini, T1 ∼ Exp(λ ). In generale, sia Ti il tempo fra l'(i− 1)-esimo e l'i-esimo

evento. Possiamo allora usare una dimostrazione per induzione, nella quale la n-esima

proposizione si esprime come

Pn : T1, . . . ,Tn sono v.a. indipendenti e somiglianti con legge Exp(λ ).

per n = 1,2, . . .

Poiché abbiamo già vericato che la proposizione P1 è vera (ovvero T1 ha legge espo-

nenziale di parametro λ ed è. banalmente, indipendente da un un insieme vuoto di v.a.),

assumiamo per ipotesi che sia vera Pn e dimostriamo che è vera Pn+1. Per fare questo s-

siamo dei tempi (t, t1, . . . , tn > 0. La Proposizione Pn+1 è vera se dimostriamo che la distri-

buzione di Tn+1, condizionata all'evento (T1 = t1, . . . ,Tn = tn), non dipende da (t1, ..., tn)

(e questo dimostrerebbe che Tn+1 è indipendente da (T1, . . . ,Tn) e se dimostriamo che

P(Tn+1 > t) = exp(−λ t). Consideriamo allora la probabilità condizionata

Pr(Tn+1 > t|Tn = tn, . . . ,T1 = t1) ,

226

Page 227: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

e riesprimiamo l'evento Tn = tn, . . . ,T1 = t1, che descrive i primi n tempi di interarrivo,

in un evento equivalente, espresso in termini degli istanti in cui gli n eventi si vericano.

Sia allora, per k = 1, . . . ,n,

Sk = T1 + · · ·+Tk

il k-esimo tempo di arrivo (il tempo in cui si verica il k-esimo evento) e sia sk = t1+ ...+tk.

Allora vale l'equivalenza tra i due eventi

Tn = tn, . . . ,T1 = t1= Sn = sn, . . . ,S1 = s1 .

Dunque possiamo riscrivere la nostra probabilità condizionata come

Pr(Tn+1 > t|Tn = tn, . . . ,T1 = t1) = Pr(Tn+1 > t | Sn = sn, . . . ,S1 = s1)

Ora, il fatto che Tn+1 > t sia indipendente dall'evento Sn = sn, ...,S1 = s1 deriva in

modo intuitivo dall'ipotesi di incrementi indipendenti ma occorrerebbe una dimostrazione

più rigorosa, che qui ci limitiamo ad accennare.

Dato l'evento Sn = sn, . . . ,S1 = s1, l'evento Tn+1 > t si verica se e solo se non ci

sono arrivi nell'intervallo di tempo (sn,sn + t], cosicché possiamo scrivere

Pr(Tn+1 > t|Sn = sn, . . . ,S1 = s1)

= Pr(N(sn + t)−N(sn) = 0|Sn = sn, . . . ,S1 = s1) . Per l'ipotesi di incrementi indipen-

denti, quello che accade nell'intervallo (sn,sn + t] non può dipendere da qualcosa che

si riferisce ai tempi no ad sn, come il nostro evento condizionante. Dunque l'ultima

quantità scritta equivale, per la stazionarietà degli incrementi, a

Pr(N(sn + t)−N(sn) = 0) = Pr(N(t) = 0) = exp(−λ t)

Abbiamo allora dimostrato che Tn+1 ha distribuzione di tipo esponenziale con parametro

λ ed è indipendente dai precedenti tempi di arrivo (T1, . . . ,Tn).

Dunque, un processo di Poisson può essere descritto come un processo di conteggio

in cui i tempi che intercorrono tra un evento e l'altro sono v.a. indipendenti e tutte di

legge esponenziale di parametro λ .

227

Page 228: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Denizione 6.4. (Denizione 3 di Processo di Poisson) Un processo stocastico in tempo

continuo N(t) : t ≥ 0 è un processo di Poisson con tasso λ > 0 se

1. N(0) = 0.

2. N(t) conta il numero di eventi che si sono vericati entro il tempo t (cioè N(t) è

un processo di conteggio).

3. I tempi che intercorrono fra gli eventi sono indipendenti e identicamente distribuiti

con una distribuzione esponenziale (λ ).

In pratica abbiamo appena dimostrato come la Denizione 1 implichi le 3 condizioni

della Denizione 3. Si può ovviamente dimostrare anche come il fatto che i tempi di

arrivo seguano la distribuzione esponenziale di parametro (λ ) implichi a sua volta la

terza condizione della Denizione 2. Questa dimostrazione è molto simile a quella già

vista e verrà omessa.

Denire un processo di Poisson mediante la terza denizione fornita può essere utile

se si vogliono studiare eventuali generalizzazioni a più sosticati processi di rinnovo. Da

un punto di vista formale, essa può benissimo essere considerata come una proprietà che

discende direttamente sia dalla Denzione 1 che dalla 2; infatti, entrambe queste deni-

zioni implicano che i tempi che intercorrono tra eventi successivi sono v.a. indipendenti

e somiglianti con legge esponenziale di parametro (λ ).

6.3.5 Distribuzione del tempo dell' n-esimo evento

Denominiamo Sn il tempo dell'n-esimo arrivo in un processo di Poisson, Sn = T1+ ...+Tn

è la somma dei primi n tempi di interarrivo. La distribuzione di Sn è una Gamma di

parametri (n,λ ). Questo risultato deriva direttamente dal teorema 6.2, relativo alla

distribuzione della somma di v.a. esponenziali indipendenti e somiglianti.

Qui daremo una dimostrazione alternativa, basata sulla natura del processo di Poisson.

Supponiamo dunque di voler calcolare la funzione di ripartizione della v.a. Sn, ovvero

FSn(t) = Pr(Sn ≤ t) .

228

Page 229: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

L'evento Sn ≤ t coincide esattamente con l'evento N(t)≥ n. Infatti il tempo in cui

si verica l'n-esimo arrivo risulta minore o uguale a t se e solo se il numero degli arrivi

che si sono vericati nell'intervallo [0, t] risulta maggiore o uguale a n. Dunque,

Sn ≤ t⇐⇒ N(t)≥ n .

Allora

FSn(t) = P(Sn ≤ t) = P(N(t)≥ n) = ∑∞j=n (λ t) j/ j!exp(−λ t).

Per ottenere la densità di Sn, è suciente calcolare la derivata rispetto a t di FSn(t),

ottenendo

fSn(t) = −∞

∑j=n

λ(λ t) j

j!exp(−λ t)+

∑j=n

λ(λ t) j−1

( j−1)!exp(−λ t)

= λ(λ t)n−1

(n−1)!exp(−λ t) =

λ n

(n−1)!tn−1 exp(−λ t).

che è proprio la densità di una v.a. Gamma con parametri (n,λ ), come già sapevamo.

6.4 Altre nozioni sul processo di Poisson

In questa sezione discuteremo alcuni processi che vengono deniti a partire dal semplice

processo di Poisson. In particolare, vedremo come

Il processo denito come la somma di due processi di Poisson indipendenti (spesso

denominato come sovrapposizione dei due processi), è ancora un processo di

Poisson, il cui tasso è pari a λ1 +λ2, dove λ1 e λ2 sono i rispettivi tassi dei due

processi di Poisson costituenti.

Se ogni evento relativo ad un processo di Poisson è segnato con una certa probabilità

p, indipendentemente da evento a evento, allora il processo segnato ¯N(t) : t ≥ 0,

dove ¯N(t) è il numero di eventi segnati no al tempo t, è ancora un processo

di Poisson con tasso pari λ p, dove λ è il tasso dell'originale processo di Poisson.

Questa operazione è chiamata thinning o selezione del processo di Poisson.

229

Page 230: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Le operazioni di somma di due o più processi di Poisson indipendenti e di thinning di

un processo di Poisson possono essere di grande utilizzo pratico nella modellizzazione di

sistemi in cui, ad esempio, i processi di Poisson rappresentano i ussi di arrivo ad un

sistema e si vuole classicare gli eventi in base a certe categorie. Ad esempio, potremmo

supporre che il numero di messaggi e-mail che riceviamo nel corso della giornate segua

un processo di Poisson di tasso pari 3 per ora. Tuttavia, ogni messaggio ha probabilità

2/3 di essere una mail interessante e una probabilità pari a 1/3 di essere spam. Allora

il numero di messaggi interessanti che riceviamo nella giornata è ancora un processo di

Poisson con tasso pari a 2.

6.4.1 Sovrapposizione di processi di Poisson

Siano allora N1(t) : t ≥ 0 e N2(t) : t ≥ 0 due processi di Poisson indipendenti con

rispettivi tassi pari λ1 e λ2. Il processo N(t) denito come la somma di N1(t) e N2(t),

N(t) = N1(t)+N2(t) : t ≥ 0 ,

è chiamato sovrapposizione dei due processi N1(t) e N2(t). Per dimostrare che N(t) è un

processo di Poisson, ricorrendo alla Denizione 1, occorre prima dimostrare che N(0) = 0;

questo è ovvio perché

N1(0) = N2(0) = 0.

Inoltre bisogna dimostrare che per ogni t, N(t)∼Po((λ1 +λ2)t). Questo è facile poiché,

230

Page 231: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

per ogni k ≥ 0,

Pr(N(t) = k) = Pr(N1(t)+N2(t) = k)

=k

∑j=1

Pr(N1(t) = j∩N2(t) = k− j)

=k

∑j=1

Pr(N1(t) = j)Pr(N2(t) = k− j)

=k

∑j=1

1j!(k− j)!

exp(−(λ1 +λ2)t)λj

1 λk− j2 tk

=1k!

exp(−(λ1 +λ2)t) tkk

∑j=1

(kj

j1 λ

k− j2

=1k!

exp(−(λ1 +λ2)t) tk(λ1 +λ2)k,

dove l'ultimo passaggio deriva da un'applicazione diretta del teorema del binomio di

Newton. Per mostrare che N(t) è un processo di Poisson con tasso λ1+λ2 resta solamente

da dimostrare che che il processo N(t) ha incrementi stazionari e indipendenti.

Dati allora due tempi t1 < t2, deniamo la v.a. incremento

I(t1, t2) = N(t2)−N(t1).

Sappiamo che

I(t1, t2) = N(t2)−N(t1)

= N1(t2)+N2(t2)− (N1(t1)+N2(t1))

= (N1(t2)−N1(t1))+(N2(t2)−N2(t1))

≡ I1(t1, t2)+ I2(t1, t2)

dove I1(t1, t2) e I2(t1, t2) rappresentano i corrispondenti incrementi nei processi N1(t) e

N2(t). Tuttavia, per ipotesi, la v.a. incremento I1(t1, t2) ha distribuzione di Poisson di

parametro λ1(t2− t1) mentre la v.a. incremento I2(t1, t2) ha una distribuzione di Poisson

di parametro (λ2(t2− t1)). Inoltre I1(t1, t2) e I2(t1, t2) sono indipendenti in quanto lo sono

231

Page 232: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

i due processi originali. Quindi, come prima, la somma dei due incrementi ha distribuzione

di Poisson con media (λ1+λ2)(t2−t1). Poiché Ni(t) è un processo di Poisson per i= 1,2,

la distribuzione dell'incremento Ii(t1, t2) dipende da t1 e t2 solo attraverso la loro dierenza

t2− t1, e questo basta a dimostrare che N(t) ha incrementi stazionari.

In secondo luogo, per t1 < t2 < t3 < t4, e siano I(t1, t2) = N(t2)−N(t1) e I(t3, t4) =

N(t4)−N(t3) gli incrementi relativi a due intervalli che non si sovrappongono, ovvero gli

intervalli (t1, t2] e (t3, t4] sono disgiunti. Allora

I(t1, t2) = I1(t1, t2)+ I2(t1, t2)

e

I(t3, t4) = I1(t3, t4)+ I2(t3, t4).

La v.a. I1(t1, t2) è indipendente da I1(t3, t4) perché il processo N1(t) ha incrementi in-

dipendenti, mentre I1(t1, t2) è indipendente da I2(t3, t4) perché i processi N1(t) e N2(t)

sono indipendenti. In modo analogo, possiamo vedere che I2(t1, t2) è indipendente sia da

I1(t3, t4) che da I2(t3, t4). Da tutto questo possiamo concludere che l'incremento I(t1, t2) è

indipendente dall'incremento I(t3, t4) in quanto sono v.a. ottenute come funzioni di altre

v.a. tra loro indipendenti. Dunque anche il processo N(t) ha incrementi indipendenti.

Abbiamo dunque dimostrato che il processo

N(t) : t ≥ 0

soddisfa le tre condizioni della Denizione 1 per cui è esso stesso un processo di Poisson

con tasso pari a λ1 +λ2.

Osservazione 1: Applicando più volte l'argomento qui usato si dimostra facilmente che,

per ogni k intero, la sovrapposizione di k processi di Poisson, indipendenti tra loro e con

tassi rispettivi pari a λ1,λ2, . . . ,λk, è ancora un processo di Poisson con tasso λ1+ ...+λk.

Osservazione 2: Il processo di Poisson è importante nel campo della probabilità poiché

gioca un ruolo, nell'ambito dei processi di conteggio, simile a quello che svolge la legge

normale in statistica. Si può dimostrare infatti che se consideriamo N processi di conteg-

gio indipendenti e li sommiamo tra loro, il processo risultante è in modo approssimativo,

232

Page 233: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

ancora un processo di Poisson. Anché tale risultato sia valido, N deve essere sucien-

temente grandee i tassi dei processi individuali devono essere sucientemente piccoli.

Questo risultato è spesso impiegato come una giusticazione per l'utilizzo del processo

di Poisson.

Ad esempio, in una rete telefonica, ogni individuo produce un usso di richieste di

collegamento a un dato telefono: sebbene il comportamento di ogni singolo individuo non

somigli ad un processo di Poisson, è ragionevole tuttavia pensare che il usso complessivo

di richieste da parte di molti utenti sia formato da comportamenti pressoché indipendenti,

ed anche l'evidenza empirica suggerisce che tali grandezze possano essere modellate

attraverso un processo di Poisson.

Tuttavia, alcune scoperte recenti hanno messo in rilievo che, nelle reti internet, gli arrivi

di pacchetti di dati a specici gateway possono mostrare un comportamento che non

si adatta bene ad un processo di Poisson. Il usso di traco dei pacchetti mostra in

genere picchi molto elevati, chiamati bursts, che non suggeriscono una stazionarietà

del processo nel tempo. Quindi, anche se il usso di traco è l'aggregato dei ussi di

molti utenti, sembra non valere quel risultato asintotico prima accennato. Questo avviene

perché, in genere, il traco globale su un gateway tende a essere dominato da pochi

utenti ad ogni istante.

6.4.2 Thinning di un processo di Poisson

Sia N(t) : t ≥ 0 un processo di Poisson con tasso λ . Supponiamo che ogni evento

che si verichi nel processo sia segnato con probabilità pari a p, indipendentemente da

evento a evento, e che

N1(t) : t ≥ 0

sia il processo che conta gli eventi segnati. Dimostriamo che tale processo è ancora un

processo di Poisson di tasso λ p utilizzando la Denizione 2.

Notiamo prima di tutto che, banalmente N1(0) = N(0) = 0. Successivamente, la

probabilità che ci sia un solo evento segnato nell'intervallo [0,h] è pari alla probabilità

che ci sia un solo evento e questo evento sia segnato più la probabilità che ci sia un

233

Page 234: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

numero maggiore di eventi ma che solo uno ne venga segnato. In formule

Pr(N1(h) = 1) = Pr(N(h) = 1) p+∞

∑k=2

Pr(N(h) = k)(

k1

)p(1− p)k−1

= (λh+o(h))p+∞

∑k=2

o(h)kp(1− p)k−1

= λ ph+o(h)

In modo analogo,

Pr(N1(h) = 0) = Pr(N(h) = 0)+Pr(N(h) = 1)(1− p)

+∞

∑k=2

Pr(N(h) = k)(1− p)k

= 1−λh+o(h)+(λh+o(h))(1− p)

= +∞

∑k=2

o(h)(1− p)k

= 1−λ ph+o(h).

Inne, la Pr(N1(h)≥ 2) può essere ottenuta mediante sottrazione:

Pr(N1(h)≥ 2) = 1−Pr(N1(h) = 0)−Pr(N1(h) = 1)

= 1− (1−λ ph+o(h))− (λ ph+o(h))

= o(h).

Dimostriamo ora che il processo thinned ha incrementi stazionari; calcoliamo allora la

distribuzione della v.a. incremento I1(t1, t2)≡N1(t2)−N1(t1): per questo calcolo useremo

234

Page 235: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

la tecnica del condizionamento al valore della v.a. incremento relativa all'intero processo.

Pr(I1(t1, t2) = k) =∞

∑n=0

Pr(I1(t1, t2) = k|I(t1, t2) = n)Pr(I(t1, t2) = n)

=∞

∑n=k

Pr(I1(t1, t2) = k|I(t1, t2) = n)Pr(I(t1, t2) = n)

=∞

∑n=k

(nk

)pk(1− p)n−k [λ (t2− t1)]n

n!exp(−λ (t2− t1))

=[λ p(t2− t1)]k

k!exp(−λ p(t2− t1))

× ×∞

∑n=k

[λ (1− p)(t2− t1)]n−k

(n− k)!exp(−λ (1− p)(t2− t1))

=[λ p(t2− t1)]k

k!exp(−λ p(t2− t1))

Il risultato precedente mostra che la distribuzione della v.a. incremento I1(t1, t2)

dipende da t1 e t2 solo attraverso la dierenza t2− t1, e questo è suciente a stabilire che

gli incrementi del processo thinned sono stazionari. Inne, il fatto che gli incrementi

nel processo thinned siano indipendenti discende direttamente dall'indipendenza degli

incrementi nell'originario processo di Poisson N(t).

Concludiamo questa sezione con un'annotazione. Il processo N2(t) costituito dagli

eventi non segnati, è anch'esso un processo di Poisson, stavolta con tasso pari a λ (1−p). È inoltre possibile dimostrare che i due processi N1(t) e N2(t) sono indipendenti..

6.5 Cenno al caso non omogeneo

Sia Nt , t ≥ 0, una collezione di v.c. e assumiamo che per ogni t, Nt può assumere

i valori 0,1, . . .. Possiamo pensare a Nt come al numero di arrivi o di eventi che si

vericano nell'intervallo [0, t). Siano inoltre N0 = 0 e N(t, t + h) la v.a. che descrive il

numero di arrivi nell'intervallo [t, t + h), con t ≥ 0 e h > 0; si assume che tale variabile

sia indipendente da Nt , ossia che il processo abbia incrementi indipendenti. Si dice allora

che Nt , t ≥ 0 è un processo di Poisson non omogeneo se, per h→ 0,

Pr(N(t, t +h) = 0) = 1−λ (t)h+o(h)

235

Page 236: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

e

Pr(N(t, t +h) = 1) = λ (t)h+o(h) ,

con λ (t) funzione positiva, detta intensità del processo, mentre o(h) è una quantità

innitesima rispetto a h. Si può dimostrare facilmente che

N(s,s+ t)∼ Po(µ(s, t)),

con

µ(s, t) =∫ s+t

sλ (u)du.

Il processo si riduce ovviamente ad uno omogeneo se la funzione di intensità è costante ov-

vero λ (t) = λ . In tal caso, i tempi intercorrenti tra due arrivi successivi sono indipendenti

ed hanno distribuzione esponenziale con media 1/λ .

6.6 Alcuni aspetti inferenziali∗

Supponiamo di osservare un processo di Poisson non omogeneo in cui la funzione di in-

tensità è incognita. La nestra di osservazione è data dall'intervallo [0, t0) e assumiamo

che gli eventi si verichino agli istanti t1 ≤ t2 ≤ . . .≤ tn. Un procedimento semplice per

denire la funzione di verosimiglianza è il seguente: dividiamo la nestra di osservazione

in m piccoli intervalli di ampiezza h= t0/m. Il generico intervallo è denotato con il simbolo

[u j,u j +h), j = 1, . . . ,m. Ogni intervallo fornisce un contributo al processo indipendente

dagli altri (per una delle proprietà del processo di Poisson). L'osservazione relativa all'in-

tervallo [u j,u j +h) contribuisce con un fattore pari a λ (u j)h+o(h) = λ (ti)h+o(h) se,

per qualche i = 1, . . . ,n, risulta

u j ≤ ti < u j +h,

ossia se si registra un arrivo nell'intervallo in questione; stiamo implicitamente assumendo

che h sia molto piccolo e che non sia possibile osservare più di un evento in un singolo

intervallo. Se invece nell'intervallo non si verica alcun evento, il contributo sarà pari a

un fattore 1−λ (u j)h+o(h). La funzione di verosimiglianza si ottiene allora come

Lh(λ (t)) =n

∏i=1λ (ti)h+o(h)

∏j

1−λ (u j)h+o(h)

, (6.10)

236

Page 237: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

dove il secondo prodotto si intende esteso a tutti i valori dell'indice j tali che l'intervallo

[u j,u j +h) non contenga alcuno dei tempi di arrivo t1, . . . , tn.

Il secondo fattore può allora essere riscritto come

∏j

1−λ (u j)h+o(h)

= exp

∑j

log(1−λ (u j)h+o(h)

)

≈ exp

−∗

∑j(λ (u j)h+o(h))

.

Fin qui la verosimiglianza ottenuta dipende da h. È necessario dunque determinare il

limite per h→ 0 di tale quantità, e osservare che esso è pari a

exp−∫ t0

0λ (u)du

.

Trascurando il fattore hn nel primo fattore, si ottiene allora

L(λ (t)) = exp−∫ t0

0λ (u)du

n

∏i=1

λ (ti) . (6.11)

Nel caso particolare di omogeneità, λ (t) = λ , la (6.11) diventa, più semplicemente,

L(λ ) = λne−λ t0 , (6.12)

equivalente alla verosimiglianza che si ottiene considerando un campione i.i.d. estratto

da una distribuzione di Poisson con media λ t0.

6.7 Esercizi

6.7.1. Sia (N(t), t ≥ 0) un processo di Poisson omogeneo con tasso pari a λ . Supponiamo

che N(1) = 2. Determinare

La distribuzione di probabilità di N(t) dato che N(1) = 2, sia per t ≥ 1 che per

t < 1.

Spiegare a parole perché i due risultati al punto precedente sono dierenti.

237

Page 238: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Sempre condizionando all'informazione N(1) = 2, calcolare la legge di probabilità

del tempo in cui si è vericato il primo evento.

6.7.2. Sia N1(t), t ≥ 0 un processo di Poisson di tasso λ1. Stabilire che tipo di distri-

buzione ha la variabile aleatoria N1(3) e determinarne media e varianza. Per 0 < s < t

ssati, calcolare Pr(N1(s) = 1,N1(t) = 3)

Sia T1 è il tempo in cui si verica il primo evento. Determinare la distribuzione di T1

e calconarne media e varianza.

Se al tempo t0 si è vericato un solo evento, determinare la legge di probabilità

dell'istante in cui tale evento si è vericato.

6.7.3. All'ucio passaporti le richieste di rinnovo che arrivano ogni giorno seguono una

distribuzione di Poisson con media pari a 5 passaporti, e tutti i giorni sono mutuamente

indipendenti e il numero di passaporti che arriva in un giorno non dipende da quanti

passaporti sono già nell'ucio. Ci vogliono 3 giorni anché una pratica venga sbrigata

(quindi se un passaporto arriva nel giorno 1, esso lascia l'ucio nel giorno 4). Per

n = 1,2,3, . . . sia Un il numero di passaporti che arrivano nell'ucio il giorno n, e sia Xn il

numero di passaporti presenti nell'ucio il giorno n. In pratica, Xn =Un−2+Un−1+Un).

Specicare qual è lo spazio degli stati del processo Xn,n≥ 3.Per n≥ 3, determinare la distribuzione di Xn.

Stabilire se la successione Xn,n≥ 1 è una catena di Markov oppure no e spiegarne

il perché.

6.7.4. Gli arrivi alla mia fermata dell'autobus n.1 seguono un processo di Poisson con

tasso pari ad 1 autobus per ora. Alla stessa fermata gli autobus della linea 7 arrivano

secondo un processo di Poisson con tasso pari a 7 autobus per ora. I due processi sono

indipendenti. Calcolare

1. la probabilità che, in un'ora, arrivino esattamente tre autobus (di una qualunque linea).

2. la probabilità che esattamente tre autobus della linea 7 arrivino alla fermata mentre

io aspetto un autobus della linea 1

238

Page 239: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

6.7.5. Il numero X di visite ad una pagina web in un intervallo di tempo pressato segue,

una distribuzione di Poisson con parametro θ . A sua volta θ è considerato aleatorio e

segue una legge esponenziale di parametro λ .

Dimostrare che la legge marginale di X è di tipo geometrico: specicare il valore del

parametro.

6.7.6. In un processo di Poisson di tasso λ , sia T1 il tempo da 0 al primo evento. Sia

inoltre T2 il tempo che intercorre tra il primo e il secondo evento. Spiegare perché e

in base a quali proprietà matematiche ciascuno dei seguenti passaggi è giusticato. Per

t > 0,

Pr(T2 > t|T1 = s) = Pr(nessun evento in (s,s+ t)|T1 = s)

= Pr(nessun evento in (s,s+ t)) = exp−λ t

6.7.7. La compagnia di assicurazioni riceve richieste di indennizzo secondo un processo

di Poisson con tasso λ pari a 2 per settimana, e l'ammontare della i−esima richiesta è

una variabile aleatoria Yi. Tutte le Yi sono mutuamente indipendenti, con media pari a

400 euro e deviazione standard pari a 200 euro.

Calcolare il valore medio e la varianza dell'ammontare totale in euro degli indennizzi

chiesti in un periodo di 13 settimane.

6.7.8. Sia N1(t), t ≥ 0 un processo di Poisson di tasso λ1.

Dire che tipo di distribuzione ha la variabile aleatoria N1(3) e determinarne media e

varianza.

Per 0 < s < t ssati, trovare Pr(N1(s) = 1,N1(t) = 3)

Sia T1 è il tempo in cui si verica il primo evento. Determinare la distribuzione di T1

e calconarne media e varianza.

6.7.9. Sia N1(t), t ≥ 0 un processo di Poisson di tasso λ1. Sia inoltre N2(t), t ≥ 0un processo di Poisson di tasso λ2, e i due processi sono mutuamente indipendenti.

Se T 11 è il tempo in cui si verica il primo evento nel processo N1(t), t ≥ 0 e e T 1

2

è il tempo in cui si verica il primo evento nel processo N2(t), t ≥ 0, determinare la

Pr(T 1

1 > T 12 )).

239

Page 240: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Suggerimento: eettuare i calcoli usando il condizionamento rispetto a T 11 .

6.7.10. Alcuni moschini cadono nella brocca della limonata secondo un processo di

Poisson di tasso pari a λ = 5 moschini per ora. Le vespe invece cadono nella stessa

brocca secondo un processo di Poisson di tasso pari a λ = 3 vespe per ora. Supponiamo

che non ci siano altri insetti nei dintorni e supponiamo anche che, una volta che l'insetto

è caduto, resti nella brocca. Al tempo t = 0 ci sono 0 insetti nella brocca.

Sia T il tempo di arrivo del primo insetto, moschino o vespa nella brocca. Calcolare

la densità della v.a. T .

Dato che dopo 10 minuti (1 sesto di ora...) la brocca contiene esattamente due

insetti, calcolare la probabilità che si tratti di una vespa e di un moschino.

6.7.11. Sia N(t), t ≥ 0 un processo di Poisson con tasso pari a λ , e sia T1 il tempo in

cui si verica il primo evento.

Determinare esattamente la distribuzione di N(3).

Calcolare Pr(T1 > t).

Calcolare il valore atteso di T1 sapendo che T1 > s, ovvero

IE(T1|T1 > s)

6.7.12. I clienti arrivano in un negozio secondo un processo di Poisson di tasso pari a 5

per ora. Ogni cliente ha una probabilità pari a 0.2 di andarsene senza aver comprato nulla.

Quando comprano, l'ammontare della loro spesa in euro è una v.a. di tipo Gamma(α,δ )

con α = 100 e λ = 2.5.

1. Calcola l'incasso medio orario e la deviazione standard del negozio in una data ora.

2. Se la giornata di lavoro consta di 10 ore, calcola l'incasso medio e la deviazione

standard relativa all'intera giornata.

3. Ricalcola le stesse quantità del punto 2, condizionatamente all'informazione che

quel giorno si sono avuti 40 clienti.

240

Page 241: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

CAPITOLO 7

Martingale

7.1 Introduzione

Il concetto di martingala è necessario per la modellizzazione matematica dei giochi equi.

La caretteristica principale di un gioco equo, qualunque esso sia, è che il guadagno atteso

di una scommessa o di un sistema di scommesse, deve essere pari a zero. In altri termini

il capitale di un giocatore dopo una giocata dovrà essere, in media, pari al valore del

capitale prima della giocata stessa. Formalizziamo questa idea nella seguente denizione

Denizione 7.1. La successione Mn; n≥ 1 è una martingala se, per ogni n,

a) IE(|Mn|)<+∞

b) IE(Mn+1|M1, . . . ,Mn) = Mn

Più in generale si può denire il condizionamento al punto b) mediante una successione di

variabili aleatorie Xn, n≥ 0, dove, per ogni n, Xn rappresenta l'informazione disponibile

al tempo n. Dunque avremo la condizione equivalente

241

Page 242: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

b2) IE(Mn+1|X1, . . . ,Xn) = Mn.

In tal caso si dice che la successione Mn;n≥ 1 è una martingala rispetto alla successione

Xn, n≥ 0.

La condizione b) si può altresì esprimere come

IE(Mn+1−Mn|M1, . . . ,Mn) = 0,

che meglio coglie il signicato di scommessa equa: condizionatamente a quanto avvenuto

nelle prime n scommesse, il guadagno medio della (n+1)-esima scommessa è pari a zero.

Nelle vere case da gioco, tuttavia, il gioco non è mai equo ed il banco è favorito. Dal

punto di vista del giocatore questo si esprime attraverso il concetto di super-martingala,

per la quale la condizione b) diventa

IE(Mn+1|M1, . . . ,Mn)≤Mn,

Dualmente, è possibile interpretare il gioco da parte del banco, mediante il concetto di

sub-martingala, in cui la seconda condizione diventa

IE(Mn+1|M1, . . . ,Mn)≥Mn.

Illustriamo ora alcuni esempi di martingale.

Esempio 7.1 Sianio X1,X2, . . . v.a. indipendenti con media E(Xn) = µn; allora la

successione Sn,n≥ 1, con

Sn =n

∑r=0

(xr−µr)

è una martingala. Infatti

IE(|Sn|) = IE(|∑

r(xr−µr) |

)≤ IE

(∑r|xr−µr|

)< ∞.

Inoltre

IE(Sn|S1, . . . ,Sn−1) = IE(Xn−µn +Sn−1 | S1, . . . ,Sn−1) = 0+Sn−1 = Sn−1.

242

Page 243: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Esempio 7.2 Sia Sn,n≥ 1 una passeggiata aleatoria simmetrica, ovvero

∀n, Sn = Sn−1 +Xn,

con le Xn v.a. indipendenti e somiglianti con distribuzione

Xn =

+1 0.5

−1 0.5.

Allora, la successione Mn,n≥ 1, con Mn = S2n−n è una martingala. Infatti

IE(|Mn|) = IE(|S2

n−n|)≤ IE

(S2

n)+n

= IE(X1 + · · ·+Xn)2 +n = IE

(X2

1 + · · ·+X2n +∑

i∑

jXiX j

)+n

= 2n+∑i

∑j

IE(xix j)

= 2n+∑i

IE(xi)∑j

IE(x j)= 2n

Inoltre

IE(Mn+1|M1, . . . ,Mn) = IE(S2

n+1−n−1 | S20,S

21, . . .S

2n)

= IE((Sn +Xn+1)

2−n−1 | S20,S

21, . . .S

2n)

= IE(S2

n +2SnXn+1 +X2n+1−n−1 | S2

0,S21, . . .S

2n)

= S2n +2Sn IE(Xn+1)+ IE

(X2

n+1)−n−1

= S2n +1−n−1 = S2

n−n = Mn.

Nel corso della dimostrazione abbiamo considerato equivalente, come è ovvio, il condizio-

namento alla successione delle Mn e quello alla successione delle S2n, visto che, per ogni

243

Page 244: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

n, le due successioni dieriscono per una costante nota. ♦

Esempio 7.3 Processi branching Sia Zn,n≥ 1 un processo branching, ovvero per ogni

n, Zn rappresenta la dimensione numerica della n-esima generazione di una popolazione.

Dalla teoria dei processi branching (vedi 5.1) sappiamo già che

IE(Zn+1 | Z1,Z2, . . . ,Zn) = µZn,

in quanto Zn+1 è la somma di Zn v.a. somiglianti con media pari µ , il valore atteso della

dimensione della prole di ciascun individuo nella popolazione. Sappiamo inoltre che, ad

ogni n,

IE(Zn) = µn.

Deniamo allora il processo stocastico Wn;n≥ 1 in cui, per ogni n,

Wn =Zn

IE(Zn).

Allora

IE(Wn+1|Z1, . . . ,Zn) = IE(Zn+1/µ

n+1|Z1, . . . ,Zn)

=1

µn+1 µZn

= Wn.

Dunque il processo Wn;n ≥ 0 è una martingala rispetto alla successione Zn;n ≥ 0.♦

7.2 Tempi di arresto

Per apprezzare a pieno l'utilità dell'idea di martingala nella teoria dei processi aleatori,

è importante introdurre il concetto di tempo di arresto. In ogni gioco, equo o meno,

occorre inserire, tra le regole, il criterio con cui il gioco terminerà. Per essere ecace

244

Page 245: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

nel contesto delle martingale, una regola d'arresto deve basarsi su quanto successo in

precedenza e non su quanto potrà accadere in futuro. Supponete di trovarvi su su un

treno che da Milano va a Napoli e chiedete qual è la fermata di Roma. Se Tizio vi dice

che la vostra fermata è quella dopo Firenze, Tizio sta utilizzando una buona regola di

arresto. Se Caio invece vi suggerisce di scendere alla fermata prima di Napoli, allora Caio

non sta usando una buona regola d'arresto.

Denizione 7.2. [ Tempo di arresto]. Sia Xn,n≥ 1 un processo aleatorio. La v.a.

non negativa T è un tempo di arresto per il processo Xn, n≥ 0 se, per ogni n, l'evento

T = n dipende solo dalle v.a. X0,X1, . . . ,Xn (cioè da quanto già avvenuto) e non

dipende da Xn+1,Xn+2, . . . (ovvero dal futuro). Analogamente, si può dire che la variabile

indicatrice dell'evento T = n, diciamo I(T = n), può essere funzione solo delle v.a.

X0,X1, . . . ,Xn.

Rincontreremo più volte questo concetto nella teoria dei processi di Markov. Vedia-

mone ora una prima applicazione concreta a proposito dell'idea di martingala. Il prossimo

teorema si chiama dei sistemi semplici, in quanto determina un risultato utile per quella

categoria di strategie di gioco, molto semplici, che consistono nel giocare no a che non

abbiamo raggiunto un certo target predenito.

Teorema 7.1. (Teorema dei sistemi semplici) Sia Xn,n≥ 0 una martingala e sia T un

tempo di arresto per Xn. Sia poi Zn,n≥ 0 un processo denito da

Zn =

Xn se T ≥ n

XT altrimenti.

ovvero il processo Xn stoppato al tempo aleatorio T . Allora Zn è una martingala

rispetto alla successione Xn, n≥ 0.

Prima di dimostrare il teorema è bene sottolinearne il signicato. Esso ci dice che la

successione dei capitali relativi ad un gioco equo, interrotto in modo aleatorio mediante

una regola di arresto come sopra descritto, ovvero un tempo di arresto, è ancora una

martingala.

245

Page 246: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Dimostrazione 7.1. Definiamo la funzione indicatrice

I(T > n) =

1 se T > n

0 altrimenti.

Si può allora verificare che vale sempre la relazione

Zn+1 = Zn +(Xn+1−Xn)I(T > n).

Infatti, quando T ≤ n la relazione diventa XT = XT + 0; al contrario se T > n si avrà

Xn+1 = Xn +Xn+1−Xn.

Dunque

IE(Zn+1|X0, . . . ,Xn) = IE(Zn +(Xn+1−Xn)I(T > n)|X0, . . . ,Xn)

(Zn e I(T > n) dipendono solo da X0, . . . ,Xn)

= Zn + I(T > n) IE(Xn+1−Xn|X0, . . . ,Xn) = Zn.

Dobbiamo infine dimostrare che IE(|Zn|)< ∞. Riscriviamo Zn nel modo seguente,

Zn =n−1

∑r=0

XrI(T = r)+XnI(T ≥ n).

Poiché le v.a. I(T = r) sono limitate superiormente da 1, per ogni r,

IE(|Zn|)≤n−1

∑r=0

IE(|Xr|)+ IE(|Xn|)< n IE(|X1|)< ∞,

perché le Xn formano una martingala. ♦

Il teorema precedente, in sostanza, ci dice che, partecipando ad un gioco equo e decidendo

di interrompere il gioco secondo una strategia ragionevole, ovvero un tempo di arresto,

la successione delle nostre vincite è ancora una martingala, ovvero non c'è modo di

trasformare, a nostro vantaggio, un gioco equo. In altri termini, si ha la relazione

IE(Zn) = IE(Z0) = IE(X0) .

246

Page 247: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Tuttavia, giova ricordare che, a meno di non aggiungere alcune speciche restrizioni sulla

v.a. tempo di arresto T , non è sempre vero che

IE(XT ) = IE(X0) .

In altri termini, non è sempre vero che la martingala, interrotta in un momento aleatorio,

conservi le sue caratteristiche. Il prossimo esempio ci suggerisce come, senza aggiunge-

re ulteriori ipotesi, si potrebbero costruire strategie tali che IE(XT ) risulti maggiore di

IE(X0).

Esempio 7.4 [ Passeggiata aleatoria simmetrica.] Consideriamo una passeggiata alea-

toria simmetrica Sn, n ≥ 0. Sappiamo già, per altre vie, che la passeggiata tocca

ogni livello con probabilità 1, e sappiamo anche che Sn, n ≥ 0 è una martingala. Un

giocatore potrebbe allora decidere di giocare no al momento in cui non raggiunge un

determinato livello positivo. Questa strategia condurrebbe ad una vincita certa. Tuttavia

una strategia del genere è possibile solo se il giocatore è in grado di subire perdite di

qualunque importo; inoltre, il tempo di attesa per arrivare al livello voluto è innito. In

altri termini, occorrerebbero sia un tempo che un credito inniti per attuare una tale

strategia. ♦Occorre allora stabilire sotto quali condizioni aggiuntive accade che IE(XT ) = IE(X0). In-

tanto, dalla denizione di Zn nel Teorema 7.1, possiamo notare che, se Pr(T < ∞) = 1,

allora Znq.c.→ XT .

Teorema 7.2. (Teorema del campionamento opzionale elementare).

Siano Xn,n≥ 0, T , e Zn,n≥ 0, denite come nel teorema precedente: allora, se

esiste una v.a. Y con IE(Y )< ∞ e |Zn|< Y , per ogni n, allora EXT = EX0.

Dimostrazione 7.2. Poiché Znq.c.→ XT , |XT −Zn| → 0. Per il teorema della convergenza

dominata di Lebesgue1, essendo |Zn|< Y , si avrà IE(|XT −Zn|)→ 0. Dunque

| IE(X0)− IE(XT ) |= | IE(Zn)− IE(XT ) | ≤ IE(|Zn−XT |)1Si tratta di un risultato classico di teoria della misura, si veda ad esempio il testo di Ash, Real

Analysis and Probability, 1971.

247

Page 248: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

In conclusione,

| IE(X0)− IE(XT ) | ≤ limn→∞

IE(|Zn−XT |) = 0

da cui la tesi. ♦

Una versione più generale del teorema è la seguente

Teorema 7.3. (Teorema del campionamento opzionale).

Sia Xn,n ≥ 0 una martingala e sia T un tempo d'arresto per Xn. Sia T ∧ n =

min(T,n). Vale allora la seguente relazione

IE(X0) = IE(XT∧n) .

Dimostrazione 7.3. [[Orsingher, 2005]]

IE(XT∧n) = IE(XT∧nI(T ≤ n))+ IE(XT∧nI(T > n))

=n

∑k=1

IE(XT∧nI(T = k))+ IE(XT∧nI(T > n))

=n

∑k=1

IE(XkI(T = k))+ IE(XT∧nI(T > n))

=n

∑k=1

IE(IE(Xn|X(1:k)I(T = k)

))+ IE(XT∧nI(T > n))

=n

∑k=1

IE(IE(XnI(T = k)|X(1:k)

))+ IE(XT∧nI(T > n))

=n

∑k=1

IE(XnI(T = k))+ IE(XT∧nI(T > n))

= IE(XnI(T ≤ n))+ IE(XT∧nI(T > n))

= IE(Xn) = IE(X0) . ♦

Il teorema precedente mostra che IE(X0) è uguale al valore atteso del processo inter-

rotto al tempo minimo tra T e il generico n. Inserendo l'ipotesi che il tempo d'arresto T

sia limitato possiamo enunciare il seguente teorema alternativo

Teorema 7.4. Se Xn,n≥ 0 è una martingala e T è un tempo d'arresto per la succes-

sione Xn; allora IE(XT ) = IE(X0) se vale una delle seguenti condizioni

248

Page 249: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

T è limitato

oppure

IE(T )< ∞ ed esiste una costante c tale che

IE(|Xn+1−Xn||X0, . . . ,Xn)< c.

Dimostrazione 7.4. Si veda, ad esempio, Grimmett & Stirzaker [1992]

Un'applicazione diretta del teorema precedente permette una dimostrazione alternativa

dell'equazione di Wald. Siano allora X1,X2, . . . delle v.a. indipendenti e somiglianti con

media IE(X j)= µ e si ponga, per ogni n, Sn = ∑

nj=1 X j, con S0 = 0. Sia inoltre T un

tempo d'arresto per Sn. Allora

IE(ST ) = µ IE(T ) .

Per dimostrare questo risultato occorre prima vericare che la successione Mn =

Sn−nµ,n≥ 1 è una martingala, che lasciamo per esercizio. Inoltre

IE(|Mn+1−Mn| |M0, . . . ,Mn) = IE(|Xn+1−µ|)≤ IE(|Xn+1|)+ |µ|= c.

Perciò vale il teorema precedente e

IE(MT ) = IE(M0) = 0.

Ma MT = ST −µT e quindi

IE(ST ) = µ IE(T )

7.3 Alcune disuguaglianze

Sia Xn,n≥ 1 una martingala composta da v.a. non negative. Sia t > 0. Deniamo le

seguenti due v.a.

U = maxn≥0

Xn, e Vn = maxk≤n

Xk. (7.1)

U è il massimo valore che la martingala raggiunge lungo l'intera traiettoria, mentre Vn è

il massimo raggiunto no al tempo n. Allora valgono le seguenti disuguaglianze

249

Page 250: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Teorema 7.5. [Stirzaker, 2005].

Pr(U ≥ t)≤ 1t

IE(X0)

e

IE(V 2

n)≤ 4IE

(X2

n).

Dimostrazione 7.5. Dimostriamo prima la disuguaglianza relativa alla U , tenendo

conto che

limn→∞

Vn =U. (7.2)

Definiamo allora T = minm : Xm ≥ t come il primo istante in cui la martingala tocca o

supera il livello t. Dunque la v.a. Tn = T ∧n è un tempo d’arresto limitato e per il Teorema

7.3,

IE(XTn) = IE(X0) = IE(Xn) .

Inoltre si può scrivere

IE(Xn) = IE(XT∧n) = IE(XT∧nI(T ≤ n))+ IE(XT∧nI(T > n))

≥ t IE(I(T ≤ n))+ IE(XT∧nI(T > n)) poiché XT ≥ t

= t Pr(T ≤ n)+ IE(XT∧nI(T > n))

≥ t Pr(T ≤ n) poiché le Xn ≥ 0.

Dunque

t Pr(T ≤ n)≤ IE(Xn) = IE(X0) .

Ora i due eventi T ≤ n e Vn ≥ t sono equivalenti e dunque

t Pr(Vn ≥ t)≤ IE(Xn) = IE(X0) ,

da cui la prima delle tue tesi, lasciando n tendere all’infinito.

Lo stesso risultato, noto come disuguaglianza di Doob, si può ottenere con una dimo-

strazione alternativa, costruita sullo spazio Ω di partenza. Consideriamo la successione di

eventi, incompatibili tra loro, tutti contenuti nello spazio Ω di partenza

Ak = ω : X1 < t,X2 < t, . . . ,Xk ≥ k , k = 1,2, . . . ,n.

250

Page 251: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Si ha chen⋃

k=1

Ak =

max

1≤k≤nXk ≥ t

.

Ciascun evento Ak può essere espresso in termini delle prime k v.a. della martingala; perciò

IE(Xn) =∫

Ω

Xn(ω)dP

≥∫⋃n

k=1 Ak

Xn(ω)dP

=n

∑k=1

∫Ak

Xn(ω)dP

=n

∑k=1

∫Ak

IE(Xn | X0, . . . ,Xk)dP

≥n

∑k=1

∫Ak

Xk(ω)dP

≥ tn

∑k=1

∫Ak

dP

= t Pr

(n⋃

k=1

Ak

)= t Pr(Vn ≥ t) ,

che fornisce, di nuovo, la tesi.

Per quanto riguarda la seconda tesi si ha

IE(V 2

n)

=∫

0Pr(V 2

n > t)

dt

=∫

0Pr(Vn >

√t)

dt

= 2∫

0zPr(Vn > z)dz

≤ 2∫

0IE(XnI(Vn ≥ z)dz (per la prima parte del teorema)

= 2IE(∫ Vn

0Xndx

)= 2IE(XnVn)

≤ 2√

IE(X2n ) IE(V 2

n )

251

Page 252: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Dunque, √IE(V 2

n )≤ 2√

IE(X2n )

ed elevando al quadrato si ottiene la tesi ♦

7.4 Applicazione al problema della rovina del gio-

catore

Il teorema del campionamento opzionale fornisce una via alternativa e più elegante per

riottenere i risultati già descritti nella 4.3. Torniamo allora alla situazione in cui due

giocatori si giocano un euro ad ogni partita. Il capitale iniziale del giocatore A è pari ad

a euro, quello del giocatore B è pari a b euro. Il giocatore A vince ognuna delle partite

(tra loro mutuamente indipendenti) con probabilità p. Vogliamo ora dimostrare, in modo

alternativo, che, quando p = q, detta ua la probabilità di rovina di un giocatore che parte

con a euro, si ottiene ua = b/(a+b). Se Sn è il capitale del giocatore A dopo n partite,

è facile dimostrare che Sn,n ≥ 0, con S0 = a, è una martingala. Infatti, per ogni n

Sn = Sn−1 +Xn, dove Xn vale 1 oppure −1 con uguale probabilità. Allora

IE(Sn | S0,S1, . . . ,Sn−1) = (Sn−1 +1)× 12+(Sn−1−1)× 1

2= Sn−1.

Inoltre, le regole del gioco fanno sì che, la v.a.

T = T0∧Ta+b,

ovvero il primo istante in cui uno dei due giocatori resta senza soldi, è un tempo di

arresto. Questo fa allora sì che

IE(Sn) = IE(ST ) = IE(S0) = a.

Tuttavia la v.a. ST può assumere solo i due valori 0 e a+ b: poniamo ρ = P(ST = 0)

e P(ST = a+ b) = 1−ρ . Ovviamente, ρ rappresenta quello che, nella $4.3, avevamo

chiamato ua. Dall'equazione

IE(ST ) = ρ×0+(1−ρ)× (a+b) = a

252

Page 253: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

si ricava, come nella 4.3,

ρ = 1− aa+b

=b

a+b.

253

Page 254: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

254

Page 255: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

CAPITOLO 8

Moto browniano

Il moto browniano è un particolare processo stocastico che, per la sua trattabilità ma-

tematica, ha assunto una notevole popolarità nella letteratura economica e nanziaria;

esso rappresenta infatti un modello matematico sucientemente semplice da essere uti-

lizzato nelle applicazioni ordinarie della teoria delle decisioni in condizioni di incertezza.

Si può aermare che il moto browniano rappresenti probabilmente il più semplice modello

probabilistico in tempo continuo adatto a caratterizzare sistemi dinamici complessi quali

quelli di natura nanziaria.

Robert Brown, un biologo-botanico inglese, nel 1826, osservò che particelle sospese

nell'acqua depositata nell'incavo di un pezzo di quarzo, erano soggette a continui impatti e

avevano un moto caotico. Bown congetturò che le vibrazioni a cui era soggetto il quarzo si

propagavano nell'acqua, le cui molecole colpivano le particelle in sospensione provocando

un moto apparentemente caotico. Nei primi anni del '900, Einstein e Smoluchowski per

primi scoprirono che il caos poteva avere delle regole. Einstein per primo descrisse il

moto di una foglia che cade a terra da un albero, assumendo che essa venga sollecitata

dal calore mediante un gran numero di shocks indipendenti e somiglianti in un piccolo

255

Page 256: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

intervallo di tempo; e proprio questa situazione sarà poi tipica del moto browniano.

La teoria di Einstein era molto complicata perché ai suoi tempi non esistevano quegli

strumenti matematici, primo tra tutti il concetto di media condizionata, che consentirono

a Wiener (1923) una formulazione più rigorosa di quello che poi diventerà noto come

processo di Wiener o moto browniano.

In campo economico, fu Louis Bachelier, che nel 1900, e quindi prima ancora di

Einstein, concepì l'andamento del valore di un asset nel tempo come inuenzato da

un numero enorme di shocks aleatori, ovvero le domande e le oerte dei singoli agenti.

Sebbene il modello di Bachelier fosse molto rozzo, in quanto assumeva che i cambiamenti

di prezzo nel tempo (e non i logaritmi) fossero normalmente distribuiti, la sua idea aprì

la strada ad ulteriori sviluppi che portarono alla teoria dei mercati ecienti, sviluppata

poi da ?, ed alla formalizzazione matematica della moderna nanza matematica.

8.1 Una prima denizione costruttiva

Si consideri una passeggiata aleatoria simmetrica in cui si compie un passo di ampiezza

±z ogni δ istanti, con δ > 0 piccolo a piacere. Nel tempo [0, t] si eettuano allora [t/δ ]

passi, dove [c] rappresenta la parte intera di c. Questo signica che ad ogni passo opera

una v. a.

X j =

z 1/2

−z 1/2.

per j = 1,2, . . . , [t/δ ] da cui IE(X j)= 0 e Var

(X j)= z2.

Siano poi

S0 = 0, e St =[t/δ ]

∑j=1

X j.

In genere δ è molto piccolo rispetto a t, e per questo consideriamo [t/δ ] = t/δ . Avremo

così

IE(St) = 0, e Var(St) =tδ

z2.

Inne, anché il processo abbia una varianza che non esploda o non degeneri (se non

per t → ∞. . . ) possiamo porre z =√

δ , ovvero l'ampiezza del passo è in una relazione

256

Page 257: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

quadratica con la frequenza. Avremo così

X j =

+√

δ 1/2

−√

δ 1/2

e

IE(St) = 0, e Var(St) = t.

Consideriamo adesso t ssato, e facciamo tendere δ a zero. Per il Teorema del limite

centrale applicato alla quantità St avremo che

St−E(St)

σ(St)

d→ N(0,1),

oppure

St−E(St)d→ N(0, t).

Quello appena presentato è un modo costruttivo per denire un moto browniano o pro-

cesso di Wiener, come limite di passeggiate aleatorie simmetriche, rendendo la frequenza

e l'ampiezza dei passi entrambe innitesime, secondo un rapporto stabilito. Diamo ora

una denizione formale del processo.

Denizione 8.1. Una famiglia di v.a. Xt , t ∈ R è detta processo di Wiener se e solo

se soddisfa le seguenti condizioni:

1) X0 = 0

2) ∀(s1,s2, . . . ,sk) e (t1, t2, . . . , tk) tali che

s1 < s1 + t1 < s2 < s2 + t2 < · · ·< sk < sk + tk,

le v.a. Xs1+t1−Xs1 , Xs2+t2−Xs2 , . . . , Xsk+tk−Xsk sono mutuamente indipendenti;

3) ∀s≥ 0 e ∀t ≥ 0,

Xs+t−Xs ∼ N(0, t)

ed in particolare, ∀t > 0,Xt ∼ N(0, t)]

257

Page 258: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Un processo così denito ha alcune caratteristiche molto speciche che ora illustre-

remo con un certo dettaglio.

1. Le variabili incremento relative a intervalli disgiunti sono indipendenti e stazionarie.

Queste proprietà sono intuitivamente chiare se pensiamo alla costruzione del moto

browniano come limite di passeggiate aleatorie.

2. Le traiettorie del moto browniano sono, con probabilità 1, continue ma non die-

renziabili. Questo risultato è troppo avanzato dal punto di vista matematico per

essere dimostrato in modo rigoroso. Ne daremo una dimostrazione euristica alla

ne di questa sezione. Tuttavia è importante sapere che tutte le possibili traiettorie

del moto browniano saranno continue, ovvero possono essere tracciate senza mai

alzare la matita dal foglio: le traiettorie saranno inoltre talmente caotiche da

cambiare direzione continuamente, al punto da non poter calcolarne la derivata

in nessun punto.

3. Il moto browniano è. in tutto e per tutto una passeggiata aleatoria in tempo

continuo, e per questo eredita molte delle proprietà delle passeggiate aleatorie nel

discreto.

4. La denizione del moto browniano si dierenza da quella del processo di Poisson

solo per la legge di probabilità del processo ai vari istanti (legge gaussiana invece

che di Poisson).

Sulle traiettorie del moto browniano.

Diamo qui di seguito due teoremi che illustrano la natura continua ma non dierenziabile

delle traiettorie di un moto browniano. Le dimostrazioni saranno di natura euristica e

non rigorosa.

Teorema 8.1. Le traiettorie di un modo browniano X(t), t ≥ 0 hanno lunghezza innitain ogni intervallo di tempo limitato.

258

Page 259: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Dimostrazione 8.1. Consideriamo l’intervallo di tempo [0, t] e rifacendoci alla deri-

vazione del moto browniano come limite di passeggiate aleatorie, sappiamo che in tale

intervallo si effettuano t/δ passi, ognuno di ampiezza z per un cammino totale pari a

l = zt/δ . Ma z =√

δ e dunque l = t/√

δ , e

limδ→0

t√δ=+∞.

Teorema 8.2. Le traiettorie di un moto browniano X(t), t ≥ 0 sono continue ma non

dierenziabili, come se la traiettoria cambiasse direzione ad ogni intervallo innitesimale.

Dimostrazione 8.2. Consideriamo l’incremento del processo in un piccolo intervallo di

tempo X(t +∆t)−X(t); esso ha distribuzione normale con media 0 e varianza ∆t. Inoltre

IE(| X(t +∆t)−X(t) |2

)= ∆t,

ovvero, la dimensione “tipica” dell’incremento | X(t +∆t)−X(t) | è dell’ordine di√

∆t.

Quando ∆t → 0, anche√

∆t → 0, e questo è in accordo con la continuità delle traiettorie.

Tuttavia, se consideriamo la derivata

∂X(t)∂ t

= lim∆t→0

X(t +∆t)−X(t)∆t

≈ lim∆t→0

1√∆t

.

In pratica per valori di ∆t molto piccoli, il valore assoluto del numeratore è dell’ordine di√

∆t che è molto più grande di ∆t e quindi il limite non esiste. Questo implica, sebbene

in modo tutt’altro che rigoroso, che il moto browniano X(t) ha traiettorie che non sono

differenziabili in alcun punto.

8.2 Distribuzioni associate al moto browniano

Fin dalla denizione si evince che il moto browniano è un processo stazionario in me-

dia, ovvero IE(Xt) = 0, ∀t > 0, ma non in varianza in quanto Var(Xt) è funzione di t.

Una immediata generalizzazione del processo si ha qualora si assuma che i passi della

passeggiata aleatoria iniziale siano di ampiezza c√

δ cosicché Xt ∼ N(0,c2t) cioè

fXt (u) =1

c√

2πtexp(− 1

2c2tu2)

259

Page 260: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Il parametro c governa l'ampiezza delle uttuazioni delle traiettorie intorno al valore

medio.

Determiniamo ora la leggi multivariate del processo, ovvero la densità congiunta del

livello del processo agli istanti t1 < t2 < · · ·< tk. Sia allora t = (t1, . . . , tk) la generica k-pla

di tempi e x = (x1, . . . ,xk) un generico valore di Rk. Si vuole determinare la legge del

vettore aleatorio

X = Xt = (Xt1,Xt2, . . . ,Xtk) .

Dunque,

fX(x) = fX(x1,x2, . . . ,xk)

= ft1(x1) ft2(x2|x1) ft3(x3|x2,x1) . . . ftn(xk | xk−1, . . .x1)

= ft1(x1) ft2(x2|x1) ft3(x3|x2) . . . ftk(xk|xk−1),

dove il simbolo ft j(x j|x j−1) rappresenta la densità della v.a. Xt j nel punto x j condizionata

all'informazione che Xt j−1 = x j−1. Nei calcoli precedenti, mentre le prime due uguaglianze

sono ovvie, la terza deriva dalla natura markoviana del processo, ereditata dalla sua natura

di limite di passeggiate aleatorie. Inoltre, per la omogeneità temporale si ha che, per ogni

j = 2, . . . ,k

ft j(x j|x j−1) = ft j−t j−1(x j− x j−1),

cosicché, ponendo per comodità di notazione x0 = t0 = 0, avremo

fX(x) = ft1(x1) ft2−t1(x2− x1) ft3−t2(x3− x2) . . . ftk−tk−1(xk− xk−1)

=k

∏j=1

ft j−t j−1(x j− x j−1)

=k

∏j=1

1c√

2π√(t j− t j−1)

exp(−

(x j− x j−1)2

2c2(t j− t j−1)

)Abbiamo così ridotto, per la proprietà di Markov, la distribuzione congiunta ad un prodot-

to di densità univariate ognuna condizionata al valore osservato al tempo immediatamente

precedente. Inoltre, la legge del vettore X, essendo il prodotto di k normali univariate, è

260

Page 261: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

ancora di tipo normale, con vettore delle medie e matrice di covarianza che specicheremo

nel seguito.

Questo tipo di semplicazione rende alcuni calcoli molto semplici; ad esempio, sup-

poniamo di voler calcolare la densità del processo al tempo s sapendo che al tempo t > s

si avrà Xt = L. In altri termini occorre determinare la legge di (Xs|Xt = L) per s < t.

Avremo allora

fs|t(x|L) = fXs|Xt (x|L) = fs,t(x,L)/ ft(L)

= fs(x) ft−s(L− x)/ ft(L)

=1

c√

2πse(− 1

2c2sx2)

1c√

2π(t− s)e− 1

2c2(t−s)(L−x)2 c

√2πt

e−L2

2c2t

=1

c√

√t

s(t− s)exp(− 1

2c2 [x2

s+

(L− x)2

t− s− L2

t])

=1

c√

√t

s(t− s)exp(− 1

2c2x2(t− s)t +(L− x)2ts−L2s(t− s)

st(t− s))

=1

c√

√t

s(t− s)exp(− 1

2c2t

s(t− s)[x2 (t− s)

t+(L− x)2 s

t−L2 s(t− s)

t2 ])

=1

c√

√t

s(t− s)exp(− 1

2c2t

s(t− s)[x2(1− s

t+

st)−2Lx

st+L2(

st− s

t+

s2

t2 )]

=1

c√

√t

s(t− s)exp(− 1

2c2t

s(t− s)[x2−2xL

st+

L2s2

t2 ])

=1

c√

√t

s(t− s)exp(− 1

2c2t

s(t− s)(x− s

tL)2).

Allora

Xs|(Xt = L)∼ N(

Lst,c2 s(t− s)

t

). (8.1)

È importante sottolineare che il moto browniano appartiene alla famiglia dei processi gaus-

siani, ovvero ad una categoria di processi in cui tutte le distribuzioni nito-dimensionali

risultano di tipo gaussiano.

Denizione 8.2. Sia Xt , t ≥ 0 un processo tale che

261

Page 262: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

1) X0 = 0

2) Per ogni k e per ogni k-pla (t1, t2, . . . , tk) il vettore aleatorio (Xt1,Xt2, . . . ,Xtk) ∼Nk(µ,Σ), per qualche vettore µ e qualche matrice simmetrica semidenita positiva

Σ,

si chiama processo gaussiano: il processo è interamente caratterizzato da µ = µ(t) e

Σ = σ(t,s),s, t ∈ℜ+.

Avendo già mostrato, nel caso del moto browniano, che la legge congiunta di (Xt1,Xt2, . . . ,Xtk)

è un prodotto di leggi normali e quindi a sua volta normale, il moto browniano è un pro-

cesso gaussiano. Esso potrà essere descritto completamente dal vettore µ delle medie e

dall'elemento generico σ(t,s) = Cov(Xs,Xt). Si vede facilmente che il vettore delle medie

è composto da tutti zeri (ovvero µt = IE(Xt) = 0,∀t ≥ 0), mentre, per s < t,

σ(s, t) = Cov(Xs,Xt) = Cov(Xs,Xs +Xt−Xs)

= Var(Xs)+Cov(Xs,Xt−Xs) = sc2 +0 (per l'indipendenza degli incrementi)

= sc2

Più in generale risulterà

σ(s, t) = c2(s∧ t).

Esempio 8.1 Si consideri un moto browniano standard Xt , t ≥ 0 con c = 1. Se volessimo

scrivere la distribuzione congiunta delle variabili (X3,X5,X10) avremo che

IE

X3

X5

X10

=

0

0

0

,

e

Var

X3

X5

X10

=

3 3 3

3 5 5

3 5 10

.

262

Page 263: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

8.2.1 Il ponte browniano

Consideriamo un moto browniano vincolato a tornare al livello 0 ad un dato istante t0: per

semplicità notazionale poniamo t0 = 1 e studiamo il moto browniano Xs,s ∈ R sotto

la condizione X1 = 0. Per quanto già visto nel paragrafo precedente, ponendo t = 1 e

L = 0, la legge univariata di Xt |X1 = 0 per t < 1 è

Xt |X1 = 0∼ N(0, t(1− t)c2).

Dunque il ponte browniano ha tutte le distribuzioni marginali con media nulla. Inoltre,

poiché le distribuzioni condizionate associate ad una legge normale multivariata sono

ancora normali, il ponte browniano è un processo gaussiano. Per essere completamente

caratterizzato, è necessario allora ottenere la funzione di coviarianza

Cov(Xs,Xt | X1 = 0) , (s, t)< 1.

Senza perdere in generalità assumiamo s < t. Avremo allora

Cov(Xs,Xt | X1 = 0) = IE(XsXt |X1 = 0)

= IE(IE(XsXt |Xt ,X1 = 0) |X1 = 0)

= IE(Xt IE(Xs|Xt) |X1 = 0) (per la markovianità )

= IE(

X2t

st|X1 = 0

)(per la 8.1)

=st

IE(X2

t | X1 = 0)

=st

t(1− t)c2 = s(1− t)c2

Il ponte browniano è importante anche per le sue applicazioni statistiche. Vedre-

mo adesso come, in una impostazione non parametrica dell'inferenza, la distribuzione

campionaria della funzione di ripartizione empirica ha distribuzione che converge asin-

toticamente a quella di un moto browniano. Per semplicità assumiamo di osservare un

campione (X1,X2, . . . ,Xn)iid∼ U(0,1) e, ssato 0 < s < 1, denotiamo con Nn(s) il nume-

ro di osservazioni con valore minore o uguale ad s. Formalizziamo questa grandezza,

263

Page 264: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

introducendo, per ogni j = 1, . . .n, la v.a.

I j(s) =

1 X j ≤ s

0 X j > s.

In questo modo si avrà Nn(s) = ∑nj=1 I j(s); essendo le I j(s) mutuamente indipendenti,

risulta

Nn(s)∼ Bin(n,s).

Per la legge forte dei grandi numeri, avremo allora che, per n→ ∞,

Fn(s) =Nn(s)

nn→∞→ IE(I1(s)) = Pr

(X j ≤ s

)= FX(s) = s.

È anche noto che, per il teorema di Glivenko e Cantelli, la convergenza alla vera funzione

di ripartizione è uniforme, ovvero

sup0<s<1

|Fn(s)− s| → 0.

Utilizzando il teorema del limite centrale è anche possibile dimostrare che, sempre per s

ssato,√

n(Fn(s)− s)≈ N(0,s(1− s))

ovvero, ponendo Tn(s) =√

n(Fn(s)− s),

limn→∞

Pr(Tn(s)≤ x) =∫ x

−∞

ϕ (u,0,s(1− s))du,

dove ϕ(a,b,c) è la densità di una legge gaussiana di media b, varianza c, calcolata in

a. Dunque, per s ssato, la funzione di ripartizione empirica converge ad una legge nor-

male. Analizziamo ora il comportamento asintotico della legge congiunta della funzione

di ripartizione empirica trasformata Tn(s) e calcolata in diversi tempi. Essa converge ad

un processo gaussiano di cui dobbiamo calcolare media e matrice di covarianza. Il valor

264

Page 265: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

medio è pari a zero ∀t e questo è ovvio. La covarianza vale invece

Cov(Tn(s),Tn(t)) = Cov(√

n(Fn(s)− s),√

n(Fn(t)− t))

= nCov(Fn(s),Fn(t)) =1n

Cov(Nn(s),Nn(t))

=1n[IE(Nn(s)Nn(t))− IE(Nn(s)) IE(Nn(t))]

=1n

IE(IE(Nn(s)Nn(t)|Nn(s)))−1n

n2st

=1n

IE(Nn(s) IE(Nn(t)|Nn(s)))−nst

=1n

IE(

Nn(s)[

Nn(s)+ [n−Nn(s)]t− s1− s

])−nst,

dove l'ultimo passaggio è motivato dal fatto che, sapendo che Nn(s) delle v.a. risultano

minori di s, il valore medio di tutte quelle minori di t si ottiene considerando le Nn(s) e

aggiungendo il valor medio delle altre, ottenibile ricalibrando le probabilità di successo.

Avremo dunque

Cov(Tn(s),Tn(t)) =1n

[IE((N2

n (s)+(nNn(s)−N2

n (s)) t− s

1− s

)]−nst

=1n

IE(

N2n (s)(1−

t− s1− s

)+nNn(s)t− s1− s

)−nst

Il momento secondo di Nn(s) = Nn vale

IE(N2

n)= Var(Nn)+(IE(Nn))

2 = ns(1− s)+n2s2.

Dunque

Cov(Tn(s),Tn(t)) =1n

[1− t1− s

(ns−ns2 +n2s2)+n2 s(t− s)1− s

]−nst

=1− t1− s

(s− s2 +ns2)+ns(t− s)

1− s−nst

=1− t1− s

[s(1− s)+ns2]+nst−ns2−nst +ns2t

1− s

= (1− t)s+(1− t)ns2

1− s+

ns2(1− t)1− s

= s(1− t).

Dunque, il processo Tn(s), s > 0 converge ad un processo gaussiano con elemento di

covarianza pari a s(1− t) che riconosciamo essere quello di un ponte browniano.

265

Page 266: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

8.2.2 Altri risultati

Tempo di primo passaggio

Consideriamo un moto browniano standard (c = 1) e deniamo la v.a. positiva

Ta = Tempo di primo passaggio in a,

e calcoliamone la distribuzione. Senza perdere in generalità assumiamo a > 0. Conviene

esprimere la grandezza Pr(Ta ≤ t) in termini della Pr(X(t)≥ a). Si ha infatti

Pr(X(t)≥ a) = Pr(X(t)≥ a|Ta ≤ t)Pr(Ta ≤ t)

+ Pr(X(t)≥ a|Ta > t)Pr(Ta > t) .

Quando (Ta ≤ t), il processo tocca a non oltre il tempo t e, per la markovianità, al tempo

t il processo si troverà sopra o sotto il livello a con uguale probabilità. Se invece Ta > t,

l'evento X(t)≥ a ha probabilità nulla. Dunque

Pr(X(t)≥ a) =12

Pr(Ta ≤ t) . (8.2)

È possibile allora calcolare la funzione di ripartizione della v.a. Ta:

Pr(Ta ≤ t) = 2∫

a

1√2πt

exp−x2

2tdx

=2√2π

∫∞

a/√

texp−u2

2du ponendo x/

√t = u

= 2[

1−Φ

(a√t

)].

La funzione di densità si ottiene per derivazione e vale

fTa(t) =∂

∂ t2[

1−Φ

(a√t

)]=

at3/2 ϕ

(a√t

)=

a√2π

1t3/2 exp

(−1

2a2

t

), (8.3)

266

Page 267: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

che è la densità di una v.a. Gaussiana Inversa. Dall'espressione della funzione di

ripartizione di può desumere che

Pr(Ta < ∞) = limt→∞

Pr(Ta ≤ t) = 1, (8.4)

ovvero il processo toccherà qualunque livello a con certezza. Inoltre il tempo medio di

primo passaggio in a si ottiene, ricordando il teorema 2.4, come segue

IE(Ta) =∫

0Pr(Ta > t)dt

=∫

0

[1−2Φ

(− a√

t

)]dt

=∫

0

(− a√

t

)−Φ

(− a√

t

)]dt

=∫

0

∫ a/√

t

−a/√

tϕ(y)dydt

= 2∫

0

∫ a/√

t

0

1√2π

exp−(12

y2)dydt

= 2∫

0

∫ a2

y2

0

1√2π

dt exp−(12

y2)dy

=2a2√

∫∞

0

1y2 exp−(1

2y2)dy

≥ 2a2√

∫ 1

0

1y2 exp−(1

2y2)dy >

2a2√

∫ 1

0

1y2 exp−(1

2)dy = ∞

Dunque, il processo tocca qualunque livello a con probabilità 1 ma il tempo medio che

impiega per arrivare ad a è innito, per quanto piccolo sia a! Questo dipende dal fatto

che, con probabilità positiva, il processo prende una direzione opposta ad a ed il tempo

di ritorno può essere innitamente lungo.

Va aggiunto che, per simmetria, Tad= T−a, e la densità della v.a. T−a si ottiene

riscrivendo la (8.3) con |a| al posto di a. Nella derivazione della (8.2) abbiamo utilizzato

un caso particolare di un risultato più generale che va sotto il nome di principio di

riessione. Se, ssato un tempo d'arresto T , a partire da quel punto riettiamo il moto

browniano originale, il nuovo processo sarà ancora un moto browniano. Più precisamente

267

Page 268: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Teorema 8.3. Sia T un tempo di arresto per il moto browniano standard Xt , t ≥ 0.Allora, il processo così denito ∀t ≥ 0,

X∗t = XtI(t≤T )+(2XT −Xt) I(t>T )

è ancora un moto browniano standard.

0.0 0.2 0.4 0.6 0.8 1.0

−6

−4

−2

02

46

Principio di riflessione

t

Un'altra quantità di interesse è la v.a. massimo livello del processo in [0, t], denito da

Yt = max0≤s≤t

X(s).

268

Page 269: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

La funzione di ripartizione di Yt si calcola facilmente sulla base dei risultati precedenti.

Per a > 0,

Pr(Yt ≥ a) = Pr(Ta ≤ t)

= 2Pr(X(t)≥ a)

=2√2π

∫∞

|a|/√

texp−(u2

2)du,

da cui

FYt (a) = 1−Pr(Ta ≤ t) = 1−FTa(t).

Tempo di massimo livello

Come conseguenza dei risultati della sezione precedente, descriveremo ora la legge di

probabilità dell'istante aleatorio Ht in cui il processo X(s) raggiunge per la prima volta il

suo massimo valore nell'intervallo [0, t] (Orsingher [2005], pag.84). Sia

Ht = inf

s < t : X(s) = maxz∈(0,t)

X(z).

Otterremo la distribuzione di Ht come legge marginale della distribuzione doppia di Ht e

della v.a.

max0≤z≤t

X(z).

Avremo allora

Pr(

Ht ∈ ds, max0≤z≤t

X(z) ∈ da)

= Pr(

Ta ∈ ds, maxs≤z≤t

X(z) ∈ da)

= Pr(Ta ∈ ds)Pr(

maxs≤z≤t

X(z) ∈ da|Ta ∈ ds)

= Pr(Ta ∈ ds)Pr(

maxs≤z≤t

X(z) ∈ da|X(s) = a)

[proprietà di Markov forte]

269

Page 270: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Concentriamoci ora sulla funzione di ripartizione associata al fattore dell'ultima quantità

scritta. Per la omogeneità spazio-temporale del processo si può scrivere

Pr(

maxs≤z≤t

X(z)≤ r|X(s) = a)

(8.5)

= Pr(

maxz∈(0,t−s)

X(z)≤ r−a|X(0) = 0)

= 1−2Pr(X(t− s)≥ r−a)

= 1−2+2Pr(X(t− s)≤ r−a)

= 2Pr(X(t− s)≤ r−a)−1

La derivata della (8.5) sarà allora

Pr(

maxs≤z≤t

X(z) ∈ dr | X(s) = a)

= 2ϕ(r−a√t− s

)1√t− s

=2√

2π√

t− sexp(−1

2(r−a)2

t− s

),

per ogni s < t. Ponendo r = a si ottiene

Pr(

maxs≤z≤t

X(z) ∈ da | X(s) = a)=

2da√2π(t− s)

.

Tornando al calcolo principale, si ha dunque

Pr(

Ht ∈ ds, maxs≤z≤t

X(z) ∈ da)

= Pr(Ta ∈ ds)2da√

2π(t− s)

=2da√

2π(t− s)

∂ s

[2√2π

∫∞

|a|√s

exp(−u2

2)du

]

=2da√

2π(t− s)

2√2π

exp−(a2

2s)

a

2√

s3ds

=dads

π√

s3(t− s)a exp(−a2

2s)

270

Page 271: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Integrando rispetto ad a, si ottiene

Pr(Ht ∈ ds) =ds

π√

s3(t− s)

∫∞

0aexp(−a2

2s)da

=ds

π√

s(t− s)

∫∞

0

as

exp(−a2

2s)da

=ds

π√

s(t− s)

[−∫

0d exp

(−a2

2s

)]=

ds

π√

s(t− s),

È facile vedere cheHt

t∼ Beta(1/2,1/2).

Infatti, sia Yt = Ht/t. Allora

fYt (y) = fHt (ty) |∂Ht

∂Yt|

=tdy

π√

ty(t− ty)

=dy

π√

y(1− y), y ∈ (0,1).

Il moto browniano come martingala.

Il moto browniano standard è una martingala rispetto alla successione B(s),s ≥ 0.Osserviamo infatti che per t > s:

IE(B(t)|B(u),u≤ s) = IE(B(s)+B(t)−B(s)|B(u),u≤ s)

= B(s)+ IE(B(t)−B(s)|B(u),u≤ s) = B(s).

Nell'ultimo passaggio si sono considerate la proprietà di indipendenza degli incrementi ed

il fatto che IE(B(s)) = 0, per ogni s. Ovviamente, per ogni t, IE(|B(t)|)< ∞.

271

Page 272: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

8.3 Alcune varianti del moto browniano

8.3.1 Moto browniano con drift o deriva

Un processo X(t), t ≥ 0 si chiama moto browniano con drift µ e parametro di varianza

σ2 se

1. X(0) = 0;

2. X(t), t ≥ 0 ha incrementi stazionari e indipendenti

3. ∀t > 0, X(t)∼ N(µt,σ2t)

Si ottiene un moto browniano con drift e varianza a partire da un moto browniano standard

B(t), t ≥ 0 con la trasformazione lineare

X(t) = σB(t)+µt, t > 0.

8.3.2 Moto browniano geometrico

A partire da un moto browniano X(t), t ≥ 0, con drift µ e parametro di dispersione

σ2, è possibile denire un moto browniano geometrico Y (t) mediante la trasformazione,

denita per ogni t ≥ 0, da

Y (t) = exp(X(t))

Il moto browniano geometrico, a dierenza di quello standard, assume solo valori non

negativi e questo lo rende un modello matematico particolarmente adatto alle applicazioni

economiche e nanziarie.

Intermezzo: la legge log-normale

Sia X ∼ N(µ,σ2), e consideriamo la trasformazione Y = eX . La densità di Y si ottiene

mediante calcoli standard

fY (y) = fX(logy) | ∂X∂Y|

=1√

2πσyexp(− 1

2σ2 (logy−µ)2)

272

Page 273: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

La v.a. Y ha distribuzione log-normale di parametri µ e σ . Il calcolo dei momenti

è semplice se si ricorre alla funzione generatrice dei momenti per una legge normale.

Sappiamo già che, se X ∼ N(µ,σ2),

MX(u) = IE(euX)= exp

(µu+

σ2u2

2

).

Dunque,

IE(Y ) = IE(eX)= MX(1)

= exp(

µ +σ2

2

),

e

Var(Y ) = IE(Y 2)− [IE(Y )]2

= IE(e2X)− [IE(eX)]2

= MX(2)− [MX(1)]2

= exp(2µ +2σ

2)− exp(2µ +σ

2)= exp

(2µ +σ

2)(exp(σ

2)−1).

Torniamo allora al moto browniano geometrico e calcoliamone il livello medio al tempo

t sulla base di quanto avvenuto in precedenza. Calcoliamo cioè. per s < t, la quantità

IE(Y (t) | Y (u),0≤ u≤ s).

IE(Y (t) | Y (u),0≤ u≤ s) = IE(

eX(t) | X(u),0≤ u≤ s)

= IE(

eX(s)+X(t)−X(s) | X(u),0≤ u≤ s)

= eX(s) IE(

eX(t)−X(s) | X(u),0≤ u≤ s)

= Y (s) IE(

eX(t)−X(s))

[incrementi indipendenti].

Poiché X(t)−X(s)∼ N(µ(t− s),σ2(t− s)), il calcolo precedente relativo ai momenti di

una v.a. log-normale ci dice che

IE(

eX(t)−X(s))= exp

(µ(t− s)+

12

σ2(t− s)

)273

Page 274: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

e

IE(Y (t) | Y (u),0≤ u≤ s) = X(s)exp(

µ(t− s)+12

σ2(t− s)

).

Il moto browniano geometrico può essere molto utile per la modellizzazione nel tempo

dei prezzi nei mercati nanziari, quando si assume che le variazioni percentuali di un

prezzo siano indipendenti e somiglianti. Allora, se Xn è il prezzo al tempo n e si assume

che le v.a. Xn/Xn−1, con n≥ 1, siano indipendenti e somiglianti, si vede facilmente che,

ponendo Yn = Xn/Xn−1, si ha, per ogni n,

Xn = YnXn−1 = YnYn−1Xn−2 = · · ·= YnYn−1 · · ·Y2Y1X0,

ovvero

logXn = logX0 +n

∑j=1

logYj. (8.6)

Essendo le logYj indipendenti e somiglianti, la loro somma, adeguatamente standardiz-

zata, si distribuirà approssimativemente come un moto browniano con drift, e dunque il

processo Xn,n≥ 0 sarà l'approssimazione di un moto browniano geometrico.

8.4 Alcuni risultati sul moto browniano

In questo paragrafo utilizzeremo alcune nozioni relative alle martingale, in particolare

il teorema del campionamento opzionale per risolvere alcuni semplici problemi associati

ad un moto browniano. Per approfondimenti su questi aspetti si veda Orsingher [2005].

Consideriamo allora un moto browniano standard X(t), t ≥ 0 limitato all'intervallo [a,b]

con a < 0 < b. Vogliamo studiare il processo in corrispondenza di alcuni tempi aleatori;

in particolare, vogliamo considerare il tempo di arresto

Ta,b = min(Ta,Tb) = (Ta∧Tb),

dove

Ta = inft : X(t) = a , Tb = inft : X(t) = b .

Deniamo la quantità,

u(x) = Pr(Ta < Tb | X(0) = x) .

274

Page 275: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Essa rappresenta, nel continuo, la probabilità di rovina del giocatore già incontrata: essa

valuta la probabilità di raggiungere prima il limite a rispetto al limite b, per un moto

browniano che parte da un punto x ∈ (a,b). Per quanto riguarda il caso a), ricorrendo al

teorema 7.3, si può scrivere

IE(X(Ta,b)

)= IE(X(0)) .

Dunque, se X(0) = x, si ricava

x = a×Pr(Ta < Tb | X(0) = x)+b×Pr(Ta > Tb | X(0) = x)

= (a−b)u(x)+b,

da cui si ricava

u(x) =b− xb−a

.

Consideriamo adesso la quantità

IE(Ta∧Tb | X(0) = x) .

Essa rappresenta la durata media del gioco nel caso continuo. In questo caso il risultato

si può ottenere tenendo conto che U(t) = X2(t)− t è una martingala. Allora, ancora per

il teorema 7.3,

IE(U(Ta,b)

)= IE

(X2(Ta,b)−Ta,b

)= IE

(X2(0)

)= x2.

Dunque

IE(Ta,b | X(0) = x

)= a2×Pr(Ta < Tb | X(0) = x)

+ b2×Pr(Ta ≥ Tb | X(0) = x)− x2

= a2(

b− xb−a

)+b2

(1− b− x

b−a

)− x2

=1

b−a

(ab(a−b)− x(a2−b2)− x2(b−a)

)= (a− x)(x−b).

Questo risultato generalizza quello trovato a proposito della rovina del giocatore in cui si

partiva da x = 0 e si era ottenuto un tempo medio di durata del gioco pari ad ab.

275

Page 276: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

276

Page 277: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

APPENDICE A

Alcune nozioni di algebra lineare

Denizioni preliminari

Una matrice A si dice quadrata se ha lo stesso numero d di righe e colonne. Relativamente

ad una matrice quadrata A si dice che

A è simmetrica se ai j = a ji, i, j = 1, · · ·d;

A è denita positiva (denita non-negativa) se

t′At > 0; (t

′At≥ 0)

per ogni vettore t ∈ Rd, t 6= 0d, dove 0d è un vettore composto da d zeri.

A è ortogonale se A′= A−1 (ovvero se, A

′A = AA

′= Id).

Si dice che λ ∈C è un autovalore di A se A−λ I è singolare (o, in modo equivalente

se det(A−λ I) = 0). Se x ∈ Cd\0 soddisfa la relazione Ax = λx, allora x è un

autovettore associato all'autovalore λ .

277

Page 278: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Si denisce traccia di A la somma degli elementi sulla diagonale principale, ovvero

tr(A) =k

∑j=1

a j j.

La traccia gode di alcune proprietà. Se A e B sono due matrici quadrate di dimensione

d, allora

tr(A+B) = tr(A)+ tr(B) (A.1)

e

tr(AB) = tr(BA) . (A.2)

La proprietà (A.1) garantisce che la traccia è un operatore lineare. La proprietà (A.2)

continua a valere anche in caso di matrici non quadrate ma tali che lo siano i loro prodotti,

ovvero nel caso in cui A ha dimensione k×h e B ha dimensione h× k.

Si può dimostrare che se una matrice simmetrica è denita positiva allora i suoi k

autovalori sono tutti strettamente positivi.

Teorema A.1. [della decomposizione spettrale].

Se A è una matrice simmetrica denita positiva, esiste una matrice ortonormale1 Q della

stessa dimensione di A tale che

A = QΛQ′,

dove Λ = diag(λ1, · · · ,λk) è una matrice diagonale costruita con gli autovalori di A,

mentre le colonne di Q sono gli autovalori di A.

Da quanto sopra si deduce anche, ricordando proprietà elementari del determinante e

dell'inversa di una matrice quadrata, che

| A |=k

∏j=1

λ j

e

A−1 = QΛ−1Q′.

1tale cioè, che le colonne hanno norma pari a 1, sono tra loro ortogonali, e vale la relazione Q′ = Q−1.

278

Page 279: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Data una matrice simmetrica di dimensione k denita positiva, è possibile denire la

matrice radice quadrata di A ovvero quella matrice R tale che A = RR′; in virtù del

teorema precedente basta porre

R = QΛ1/2 = Qdiag

(√λ1, · · · ,

√λk

).

Da questo si deduce, inoltre, che

| R |=| A |1/2; R−1 = Λ−1/2Q′.

279

Page 280: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

280

Page 281: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

APPENDICE B

Nozioni di calcolo combinatorio

Qui di seguito riportiamo i principali risultati relativi ai vari modi in cui è possibile

contare N oggetti a seconda delle regole di conteggio. Si abbia allora un insieme

I = a1, a2, . . . , an di n oggetti; si vuole contare il numero dei possibili modi che esistono

per suddividere questi oggetti e contare in quanti modi essi possono essere raggruppati.

Iniziamo da un principio basilare, la cosiddetta regola moltiplicativa. Se un esperi-

mento consiste nel prendere a caso un oggetto a dall'insieme I e poi di scegliere un altro

oggetto b da un altro insieme J = b1, b2, . . . , bm, di m oggetti, allora i possibili risultati

complessivi di questo esperimento composto saranno m ·n, ovvero

(a1,b1) (a1,b2) . . . . . . (a1,bm)

(a2,b1) (a2,b2) . . . . . . (a2,bm)

. . . . . . . . . . . . . . .

(an,b1) (an,b2) . . . . . . (an,bm)

Ad esempio, se esistono 3 dierenti strade per andare da Firenze a Roma e altre 5 strade

per andare da Roma a Napoli, allora i modi per andare da Firenze a Napoli, passando

281

Page 282: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

per Roma, sono 3 · 5 = 15. Questa regola può essere facilmente estesa ad un numero

qualunque di stadi dell'esperimento.

Nel seguito illustreremo i principali criteri del calcolo combinatorio outilizzando come

esempi guida le metafore del mazzo di n carte distringuibili tra loro o, in alternativa,

quello dell'urna contenente n palline, anche queste considerate distinguibili tra loro.

Raggruppamenti ordinati e non: estrazioni senza ripetizione

Si ha un mazzo di n carte e se ne estrae una a caso. Dal mazzo rimanente, composto

da n−1 carte, se ne estrae un'altra, e poi ancora una dal mazzo di n−2 carte. Questo

procedimento è chiamato di estrazione senza ripetizione. I possibili tris di carte estratte

sono, in base alla regola moltiplicativa, n(n−1)(n−2). Si può ovviamente generalizzare

il ragionamento a un qualunque numero di estrazioni, diciamo k(k≤ n) e il numero totale

di k-ple di n elementi presi k alla volta sarà allora pari a

Pn,k = n(n−1)(n−2) . . . (n− k+1) =n!

(n− k)!.

Il simbolo Pn,k, iniziale di permutazioni rappresenta dunque il numero di possibili estra-

zioni di k elementi da un insieme di n, tenendo conto dell'ordine in cui tali estrazioni sono

state eettuate. Quando k = n, cioè quando tutte le carte sono estratte, si ha Pn,n = n!,

che rappresenta dunque anche il numero dei modi in cui n oggetti possono essere ordinati

tra loro. Abbiamo già notato che questo tipo di estrazione è ordinata, perchè si tiene

conto dell'ordine in cui le carte vengono estratte. Ad esempio, le n! permutazioni di n

oggetti sarebbero in realtà tutte uguali qualora non tenessimo conto dell'ordine di estra-

zione e si considerassero uguali insiemi composti dagli stessi elementi. Cosa accade allora

se vogliamo individuare non più le permutazioni, bensì le combinazioni di n elementi presi

k per volta? In altri termini, quanti modi abbiamo di estrarre k oggetti da un insieme di

n, quanlora non si voglia tener conto dell'ordine di estrazione?

Iniziamo con un esempio relativo a un mazzo di sei carte da cui ne vengono estratte due.

Sappiamo già che P6,2 = 6 · 5 = 30.

Tuttavia, se consideriamo uguali le coppie (1,5) e (5,1), (1,3) e (3,1), e così via,

282

Page 283: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

(1,2) (1,3) (1,4) (1,5) (1,6)

(2,1) (2,3) (2,4) (2,5) (2,6)

(3,1) (3,2) (3,4) (3,5) (3,6)

(4,1) (4,2) (4,3) (4,5) (4,6)

(5,1) (5,2) (5,3) (5,4) (5,6)

(6,1) (6,2) (6,3) (6,4) (6,5)

avremo che il numero delle Cn,k sarà pari a 15 = 302! .

Più in generale Pn,k =Cn,k · k!, in quanto le permutazioni di n oggetti di classe k sono

uguali a gruppi di k!, tenendo conto dei k! modi in cui si possono riordinare i k oggetti

estratti. Dunque,

Cn,k=Pn,k

k!=

n!(n− k)!k!

=

(nk

),

ovvero il numero delle permutazioni si ottiene dalle combinazioni, ognuna contata tante

volte quante sono le permutazioni dei suoi elementi. Il simbolo(nk

)prende il nome di coeciente binomiale, di cui parleremo tra breve.

Finora, dunque, siamo in grado di riempire due caselle della tabella che segue

ORDINATO NON ORDINATO

Estrazioni senza ripetizione Pn,k =n!

(n−k)! Cn,k=(n

k

)Estrazioni con ripetizione

Nel seguito riempiremo anche le restanti due caselle. Esempio B.1 Dobbiamo colloca-

re 6 libri su uno scaale. In quanti modi possono essere ordinati? [Risposta: 6!= 720] ♦

Esempio B.2 Un'associazione di 25 membri deve eleggere un segretario e un presidente.

283

Page 284: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

In quanti modi possiamo selezionare una coppia di persone? Supponiamo poi che la stessa

associazione voglia eleggere un comitato di 8 persone. Quanti possibili comitati esistono?

[Risposta: (1) P25,2 = 25 ·24 = 600; (2) 25!8!17! ] ♦

Proprietà del coeciente binomiale

Il coeciente binomiale gode di alcune proprietà. Esso à deginito da(nk

)=

n!k!(n− k)!

, k ≤ n

Per convenzione si assume che 0! = 1. Questo implica che(n0

)= 1 =

(nn

)Più in generale, si avrà la seguente relazione di simmetria:(

nk

)=

(n

n− k

).

L'ultima relazione scritta appare ovvia non appena si consideri la denizione stessa del

coeciente binomiale. Una sua semplice interpretazione probabilistica è che, il numero

di modi di estarre k palline da un'urna non può che coincidere con il numero di modi di

lasciare n− k palline nell'urna. Questo modo di ragionare porge un nuovo signicato del

coeciente binomiale: se un'urna contiene k palline bianche ed n− k palline bianche, e

queste palline vengono estratte e messe in la, Cn,k rappresenta il numero di modi in cui

posizionare le k palline rosse, oppure le n− k palline bianche.

Una seconda proprietà è data da(nk

)=

(n−1k−1

)+

(n−1

k

), ∀k ≤ n :

La suddetta relazione può essere facilmente ottenuta mediante il calcolo diretto. Esiste

però una giusticazione combinatoria più interessante. Supponiamo di avere un'urna con

284

Page 285: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

1 pallina rossa e n−1 palline bianche. I modi di estrarre k palline dall'urna, con il vincolo

che ci sia tra loro la rossa è pari a (n−1k−1

)in quanto la rossa ci va di diritto; inoltre il numero di modi di estrarre k palline dall'urna

con il vincolo che non ci sia la rossa sono invece(n−1

k

)in quanto la rossa viene esclusa dalle estrazioni. Ma la somma dei due coecienti corri-

sponde a tutti i modi in cui posso estrarre le k palline (alcuni con la rossa, altri senza),

da cui la tesi.

Un'applicazione fondamentale del coeciente binomiale è nell'enunciato del famoso

risultato di Newton noto come Teorema Binomiale.

Denizione B.1. Dato un intero n e due numeri reali qualunque x,y si ha

(x+ y)n =n

∑j=0

[(nj

)x jyn− j

]L'enuciato si può dimostrare per induzione: esso vale per n = 1 in quanto

(x+ y)1 =

(10

)x0y+

(11

)xy0 = x+ y.

Basta allora dimostrare che il fatto che sia vero per n−1 implica che sia vero anche per

n.

Una dimostrazione alternativa è di tipo combinatorio. Si parta dal prodotto di binomi

(x1 + y1)(x2 + y2) . . .(xn + yn). Esapandendo tutti i prodotti, si ottengono 2n monomi,

ognuno composto da n elementi. Ognuno di questi monomi contiene il valore xi oppure

yi, per ogni i = 1, . . .n. Tra i 2n termini, quelli che contengono k delle xi e (n− k) delle

yi sono esattamente(n

k

)per quanto detto in precedenza. Inoltre, se xi = x, per ogni i e

yi = y, per ogni i, si ottiene

(x1 + y1) · · ·(xn + yn) = (x+ y)n =n

∑k=0

((nk

)xkyn−k

)285

Page 286: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

che rappresenta il risultato cercato. Quando x = y = 1 si ha

(1+1)n = 2n =n

∑k=0

(nk

),

una formula che ci dice che 2n rappresenta il numero di tutti i sottoinsiemi di un insieme

di n oggetti, ovvero la cardinalità dell'insieme delle parti.

Prendendo invece x =−1, y = 1 si ha

(1−1)n = 0 =n

∑k=0

(nk

)(−1)k.

Generalizzazioni al caso di più gruppi

Le considrazioni intorno al coeciente binomiale possono essere generalizzate al caso di

un'urna contenente palline di tre o più colori oppure, in modo duale, al caso in cui n palline

debbano essere suddivise in k gruppi di dimensione ssata. Partiamo da questa seconda

situazione: si hanno n palline e si vogliono allocare in k diverse buche in modo che la

prima buca ne contenga n1, il secondo n2, e così via, in modo che n1+n2 · · ·+nk = n. In

quanti modi è possibile eettuare questa operazione? Il primo gruppo può essere formato

in( n

n1

)modi diversi, tanti quanti sono i modi di scegliere n1 palline da un insieme di

n. Dopo la prima selezione, le altre n2 palline relative al secondo gruppo possono essere

selezionate in(n−n1

n2

)modi diversi. Secondo lo stesso ragionamento, il terzo gruppo può

essere poi selezionato in(n−n1−n2

n3

)modi dierenti, e così via. Per la regola moltiplicativa,

dunque il numero totale di modi in cui n palline possono essere suddivise in k gruppi di

numerosità n1,n2, . . . ,nk è pari a(nn1

)(n−n1

n2

). . .

(n−n1−n2−nk1

nk

).

Notando che l'ultimo fattore ï¾½ pari a 1, e fatte le dovute semplicazioni si ottiene la

quantità (n

n1,n2, . . . ,nk

)=

n!n1!n2! . . .nk!

. (B.1)

L'ultima quantità scritta prende il nome di coeciente multinomiale e rappresenta, come

già anticipato, anche il numero di modi in cui si possono ordinare n palline di cui n1 di

286

Page 287: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

un colore, n2 palline di un altro colore, no alle ultime nk di un altro colore e in modo

che n1 + · · ·+nk = n. Vale anche una generalizzazione del teroema binomiale.

Teorema B.1. (Teorema Multinomiale). Per ogni k-pla di numeri reali (x1,x2, . . . ,xk) e

per ogni ntero n, si ha

(x1 + x2 + · · ·+ xk)n = ∑

n!n1! · · ·nk!

xn11 xn2

2 · · ·xnk

k ,

dove la sommatoria è estesa a tutte le k-ple di numeri interi non negativi (n1,n2, . . . ,nk)

la cui somma è pari a n.

Esempio B.3 Si hanno 25 membri in un'organizzazione da dividere in 3 commissioni A,

B, C, tali che si abbiano 10 persone in A e B, e 5 persone in C. I modi possibili saranno

allora

Pr10,10,525 =

25!10!25!

Estrazioni con ripetizione

Siamo in grado ora di riempire la seconda riga della Tabella B, ovvero contare tutti i modi

in cui si possono scegliere k oggetti da un insieme di n quando le scelte vengono eettuate

con ripetizione, ovvero ogni oggetto può essere scelto più di una volta. Analizziamo prima

il caso in cui si tenga conto dell'ordine, ovvero si vogliono contare tutti i modi in cui è

possibile selezionare k palline ordinate da un insieme di n, quando ogni pallina può essere

scelta più volte. È chiaro che la prima scelta può essere scelta in n modi diversi, la

seconda ancora in n modi diversi e così via no alla k-esima scelta. Avremo così che il

numero di Disposizioni con ripetizione di n oggetti di classe k è pari a

Dn,k = nk.

Si noti che, in questo caso si può anche avere k ≥ n.

Analizziamo ora il caso in cui non si debba tener conto dell'ordine con cui le palline

vengono selezionate. Vogliamo cioè contare quante sono le Combinazioni con ripetizione.

287

Page 288: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Immaginiamo allora di estrarre k palline, rimettendole ogni volta nell'urna, e si voglia

contare tutte le possibili k− ple, di palline estratte, non tenendo conto dell'ordine con

cui le palline vengono estratte. Per contare tuttii possibili modi, è conveniente numerare

le palline da 1 a n e disporle in la. Pensiamo ora alle k scelte come k bastoncini da

inserire fra le palline, con la convenzione che, se viene scelta la pallina j, il bastoncino

viene posizionato nell'immediata destra della pallina. Ad esempio con 5 palline e k = 2,

selezionare la prima e la seconda pallina corrisponde al graco a sinistra nella gura

mentre scegliere due volte la terza pallina corrisponde al graco a destra.

Ogni scelta delle k palline, corrisponde quindi ad una particolare disposizione in la

delle n palline e dei k bastoncini, col solo vincolo che la prima della la deve essere per

forza una pallina. Possiamo allora aermare che il numero di combinazioni con ripetizione

è pari al numero di modi in cui posso piazzare k bastoncini tra n−1 palline, ovvero

Denizione B.2. Il numero di combinazioni con ripetizione di n oggetti di classe k è

pari a

C′n.k =(

n+ k−1k

)=

(n+ k−1

n−1

).

Esempio B.4 Una fabbrica di dolciumi deve confezionare scatole di cioccolatini da 10

pezzi ciascuna con 5 tipi diversi di cioccolatini. Determinare quante scatole diverse si

possono confezionare. ♦

Poichè non di interessa l'ordine con cui i cioccolatini vengono collocati ma solo quanti

ce ne sono per ogni tipo, allora il numero totale di scatole sarà

C15,10 =

(5+10−1

5

)=

(1410

)

cioè in questo caso le n palline sono i cinque tipi di cioccolatini e k = 10 sono il numero

di estrazioni con ripetizione che vengono fatti.

288

Page 289: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

B.1 Esercizi

B.1.1. Dato un mazzo di 32 carte da poker - ovvero con 7,8,9,10,J,Q,K,A - determinare

il numero di possibili scale, con la usuale convenzione che l'asso A può stare prima del 7

e dopo il K.

B.1.2. Due giocatori si arontano in 10 partite di scacchi, 12 partire di dama, 15 partite

a carte. Determinare il numero N1 di modi possibili in cui possono spartirsi le vittorie.

Determinare poi lo stesso numero sapendo però che a scacchi è nita pari, a dama ha

vinto il Giocatore 1 e a carte ha vinto il Giocatore 2.

289

Page 290: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

290

Page 291: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

APPENDICE C

Le principali distribuzioni di probabilità

In questa appendice, dopo un breve cenno ad alcune speciali funzioni matematiche, molto

frequenti nei calcoli statistici, sono elencate le principali famiglie di leggi di probabilità

utilizzate nei problemi di inferenza, bayesiana e non. Per ognuna di esse, oltre ad una

breve introduzione sulla genesi della famiglia, vengono fornite le principali caratteristiche.

Per comodità di lettura elenchiamo qui la notazione utilizzata:

funzione di ripartizione F(x) = P(X ≤ x);

funzione di densità (nel caso assolutamente continuo) f (x;θ), dove θ rappresenta il

generico vettore dei parametri (nel caso in cui il parametro è scalare, verrà indicato

con θ ) oppure funzione di probabilità (nel caso discreto) p(x;θ) = P(X = x;θ);

media: IE(X ;θ) ; varianza: Var(X ;θ).

si indica con S(X ;θ) il supporto della variabile aleatoria X , ovvero l'insieme dei valori

x per i quali P(X = x;θ)> 0 (caso discreto) oppure f (x;θ)> 0 (caso assolutamente

continuo).

291

Page 292: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Funzione Gamma di Eulero

Si chiama funzione Gamma e si indica con Γ(t) la funzione denita, per t > 0, come

Γ(t) =∫

0xt−1e−xdx.

Si può facilmente dimostrare, mediante un'integrazione per parti, che vale la relazione

ricorrente

Γ(t +1) = t Γ(t), t > 0. (C.1)

Dalla (C.1) e dal fatto che

Γ(1) =∫

0e−xdx = 1,

discende che, se t è un numero intero,

Γ(t) = (t−1)!

Inoltre vale la formula Γ(1/2)=√

π, che si può dimostrare attraverso il cambio di variabile

x = y2/2 e ricordando l'espressione della densità della curva normale standardizzata. Per

valori elevati dell'argomento t, Γ(t) può essere approssimata mediante la formula di

Stirling

Γ(t +1) =√

2πt tt exp−t +ε

12t(

1+O(1t)

), 0≤ ε ≤ 1. (C.2)

Funzione Beta di Eulero

Si denisce funzione Beta e si indica con B(s, t) la funzione denita, per s > 0, t > 0,

come

B(s, t) =∫ 1

0xs−1(1− x)t−1dx;

Si può dimostrare, anche in questo caso attraverso un semplice cambio di variabile, che

B(s, t) è esprimibile in termini della funzione Gamma attraverso la relazione

B(s, t) =Γ(s)Γ(t)Γ(s+ t)

.

292

Page 293: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

C.1 Distribuzioni discrete

Bernoulliana [Be(θ)]

Si dice che la v.a. X ∼ Be(θ) quando S(X ;θ) = 0,1 per ogni θ ∈ [0,1], e

p(x;θ) = θx(1−θ)1−x, x = 0, 1.

Inoltre, si calcola facilmente che

IE(X ;θ) = θ , Var(X ;θ) = θ(1−θ).

Binomiale [Bin(n,θ)]

Si dice che la v.a. X ∼ Bin(n,θ) quando S(X ;θ) = 0,1,2, · · · ,n per ogni θ ∈ [0,1] e

P(k;n,θ) = P(X = k;n,θ) =(

nk

k(1−θ)n−k, k = 0,1,2, · · · ,n.

Si può facilmente dimostrare che, se Y1,Y2, · · · ,Yn sono n v.a. indipendenti, tutte con

distribuzione Be(θ), allora la variabile somma

X = Y1 +Y2 + · · ·Yn ∼ Bin(n,θ); (C.3)

dalla (C.3) è immediato dedurre che, se X ∼ Bin(n,θ), allora

IE(X ;n,θ) = nθ , Var(X ;n,θ) = nθ (1−θ).

Geometrica [Geo(θ)]

Si dice che la v.a. X ∼ Geo(θ) quando S(X ;θ) = 0,1,2, · · · per ogni θ ∈ [0,1] e

P(k;θ) = P(X = k;θ) = θ (1−θ)k, k = 0,1,2, · · · .

La v.a. geometrica ha una naturale interpretazione come il numero di insuccessi che

precedono il vericarsi del primo successo in una successione di prove bernoulliane, ovvero

293

Page 294: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

indipendenti e tutte con la stessa probabilità di successo. Il calcolo della media si eettua

con un piccolo trucco

IE(X ;θ) =∞

∑j=0

jθ(1−θ) j =∞

∑j=1

jθ(1−θ) j

=∞

∑k=0

(k+1)θ(1−θ)k+1 =−θ (1−θ)∞

∑k=0

∂θ(1−θ)k+1;

Assumendo la possibilità di invertire il simbolo di integrazione e quello di serie, si ottiene

che la quantità precedente è pari a

−θ(1−θ)∂

∂θ

∑k=0

(1−θ)k+1 =

=−θ (1−θ)∂

∂θ

(1−θ)

θ=

θ(1−θ)

θ 2 =1−θ

θ,

la quale suggerisce come il numero atteso di insuccessi che precedono il primo successo

è inversamente proporzionale alla probabilità di successo nella singola prova. Con calcoli

simili si ottiene che Var(X ;θ) = (1−θ)/θ 2. A volte, la v.a. geometrica viene denita

come il numero Z di prove necessarie per ottenere il primo successo. È ovvio che risulta

Z = X +1 e che

P(k;θ) = Pr(Z = k;θ) = θ (1−θ)k−1, k = 1,2,3, · · · .

Binomiale negativa [BiNeg(n,θ)]

Si dice che la v.a. X ∼ BiNeg(n,θ) quando S(X ;θ) = 0,1,2, · · · per ogni θ ∈ [0,1] e

P(k;n,θ) = Pr(X = k;n,θ) =(

n+ k−1k−1

n (1−θ)k, k = 0,1,2, · · · .

La v.a. binomiale negativa, in analogia con quanto detto a proposito della v.a. geometri-

ca, ha una naturale interpretazione come il numero di insuccessi che precedono il vericarsi

dell'n-esimo successo in una successione di prove bernoulliane, ovvero indipendenti e tutte

con la stessa probabilità di successo.

294

Page 295: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Una v.a. X ∼ BiNeg(n,θ) può essere vista come la somma di n v.a. Y1,Y2, · · · ,Yn,

indipendenti e somiglianti, con distribuzione Geo(θ). Ne segue che

IE(X ;θ) =n

∑j=1

IE(Yj;θ

)= n

1−θ

θ; Var(X ;θ) =

n

∑j=1

Var(Yj;θ

)= n

1−θ

θ 2 ;

Ipergeometrica [IpGeo(N,n,θ)]

Si dice che la v.a. X ∼ IpGeo(N,n,θ) quando S(X ;N,n,θ) = 0,1,2, · · · ,n per ogni

0 < θ < 1,n < N ed Nθ ∈ N e

P(k;N,n,θ) =(

k

)((1−θ)N

n− k

)/

(Nn

),

per n− (1− θ)N ≤ k ≤ Nθ . La distribuzione ipergeometrica emerge in modo naturale

negli schemi di estrazione senza ripetizione o in blocco. Consideriamo un'urna contenente

N palline di cui Nθ di colore rosso, e eettuiamo l'estrazione in blocco di n palline. Allora

il numero di palline rosse tra le n estratte avrà distribuzione di tipo IpGeo(N,n,θ). Con

semplici calcoli si dimostra che

IE(X ;N,n,θ) = nθ ; Var(X ;N,n,θ) =N−nN−1

nθ(1−θ)

Beta-binomiale [BeBi(n,α,β )]

Si dice che la v.a. X ∼ BeBi(n,α,β ) quando S(X ;θ) = 0,1,2, · · · ,n per ogni α >

0,β > 0,n ∈ N e

P(k;n,α,β ) =

(nk

)B(α + k,β +n− k)

Beta(α,β )

L'interpretazione più naturale di una v.a. beta-binomiale è quella di una mistura di

distribuzioni binomiali con parametro n ssato e parametro θ aleatorio con distribuzione

di tipo Beta(α,β ). Si vede infatti facilmente che

P(k;n,α,β ) =∫ 1

0

(nk

k(1−θ)n−k 1Beta(α,β )

θα−1dθ(1−θ)β−1.

Calcoli semplicissimi (utilizzando la denizione e le proprietà della funzione Beta di Eulero)

conducono a

IE(X ;n,α,β ) =nα

α +β, Var(X ;n,α,β ) =

nαβ

(α +β )(α +β +1).

295

Page 296: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Poisson [Po(θ)]

Si dice che X ∼ Po(θ) quando S(X ;θ) = 0,1,2, · · · per ogni θ ∈ [0,1], e

P(k;θ) = Pr(X = k;θ) = e−θ θ k

k!

Inoltre

IE(X ;θ) = Var(X ;θ) = θ .

C.2 Distribuzioni assolutamente continue

Beta [Beta(α,β )]

Si dice che X ∼ Beta(α,β ) quando S(x,α,β ) = [0,1] e, per ogni α > 0, e β > 0, la

funzione di densità vale

f (x;α,β ) =1

B(α,β )xα−1 (1− x)β−1 , x ∈ [0,1].

Dall'espressione della densità si ottiene la seguente uguaglianza, utile per il calcolo dei

momenti: ∫ 1

0xα−1 (1− x)β−1 dx = B(α,β ) =

Γ(α)Γ(β )

Γ(α +β ).

Da questo si deduce immediatamente che, per ogni k positivo,

IE(

Xk)=

Γ(α + k)Γ(β )Γ(α +β + k)

Γ(α +β )

Γ(α)Γ(β )=

α(α +1) · · ·(α + k−1)(α +β )(α +β +1) · · ·(α +β + k−1)

.

Così, ad esempio,

IE(X) =α

α +β; Var(X) = IE

(X2)− (IE(X))2 =

αβ

(α +β )2(α +β +1)(C.4)

Caso particolare. Per α = β = 1 si ottiene la distribuzione uniforme nell'intervallo

[0,1]. Una v.a. con tale distribuzione si denota con il simbolo X ∼ U(0,1).

296

Page 297: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Esponenziale [Exp(θ)]

Si dice che X ∼ Exp(θ) quando S(x,θ) = (0,∞) e, per ogni θ > 0, la funzione di densità

vale

f (x;θ) = θ e−θx, x > 0

I momenti si ottengono come casi particolari dei momenti di una distribuzione di tipo

Gamma.

Gamma [Gamma(α,θ)]

Si dice che X ∼ Gamma(α,θ) quando S(x,α,θ) = (0,∞) e, per ogni α e θ positivi, la

funzione di densità vale

f (x;α,θ) =θ α

Γ(α)e−θxxα−1, x > 0 (C.5)

Il parametro θ prende il nome di parametro di scala mentre α è detto parametro di forma.

Dalla forma della densità (6.2) si deduce l'uguaglianza∫∞

0e−θxxα−1dx =

Γ(α)

θ α, (C.6)

utile per il calcolo dei momenti. Infatti,

IE(

Xk)=∫

0

θ α

Γ(α)e−θxxα+k−1dx =

θ α

Γ(α)

Γ(α + k)θ α+k =

α(α +1) · (α + k−1)θ k ,

da cui, ad esempio

IE(X) =α

θ, Var(X) =

α(α +1)θ 2 − α2

θ 2 =α

θ 2 .

Casi particolari.

Se α = 1, X ∼ Exp(θ).

297

Page 298: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Se α = ν/2 e θ = 1/2,

f (x;ν) =1

2ν/2Γ(ν/2)exp−1

2x

2−1,

e la distribuzione prende il nome di Chi quadrato con ν gradi di libertà: in simboli

X ∼ χ2ν .

Una variabile X ∼ χ22 è equivalente ad una X ∼ Exp(1

2).

Se X ∼ Gamma(α,θ), la trasformazione lineare Y = 2θX ha distribuzione χ22α.

Gamma inversa [GI(α,θ)]

Si dice che X ∼ GI(α,θ) quando S(X ,α,θ) = R+ per ogni α,θ > 0, e la funzione di

densità vale

f (x;α,θ) =θ α

Γ(α)

1xα+1 e−θ/x, x > 0. (C.7)

La densità (C.7) deve il suo nome al fatto che

X ∼ GI(α,θ)−→ 1/X ∼ Gamma(α,θ).

Dall'espressione della (C.7) si deduce la seguente identità, utile per il calcolo dei momenti

della X : ∫∞

0e−θ/x 1

xα+1 dx =Γ(α)

θ α(C.8)

Utilizzando la (C.8) si ottiene facilmente che, ad esempio,

IE(X) =θ

α−1; Var(X) =

θ 2

(α−1)2(α−2).

Pareto [Pa(γ,β )]

Si dice che X ∼ Pa(γ,β ) quando S(X ,γ,β ) = (β ,+∞) per ogni γ , e la funzione di densit

vale

f (x;γ,β ) = γβ γ

xγ+1 , x > β , β > 0.

Inoltre

IE(X ;γ,β ) =γ

γ−1β ; Var(X ;γ,β ) =

γ

(γ−1)2(γ−2)β

2.

298

Page 299: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Normale o Gaussiana [N(µ,σ2)]

Si dice che X ∼ N(µ,σ) quando S(x,µ,σ) = IR e, per ogni µ ∈ IR e σ > 0, la funzione

di densità vale

f (x; µ,σ) =1

σ√

2πexp

−1

2

(x−µ

σ

)2, x ∈ R.

Con semplici integrazioni per parti si ottengono i momenti di X . Elenchiamo di seguito i

più importanti dal punto di vista statistico;

IE(X) = µ; Var(X) = σ2;

IE(X−µ)2k−1 = 0,∀k ∈ N, IE(X−µ)2k =(2k)!σ2k

k!2k .

Quando µ = 0 e σ = 1, la v.a. prende il nome di normale standardizzata e la densità

viene in genere indicata con il simbolo ϕ(·).La funzione di ripartizione non ha una espressione esplicita. Nel caso standardizzato, per

approssimare

Φ(x) =∫ x

−∞

ϕ(t)dt,

si utilizza, per x→+∞, il seguente risultato:

1−Φ(x)≈ ϕ(x)x

.

Cauchy [Ca(µ,σ)]

Si dice che X ∼ Ca(µ,σ) quando S(x,µ,σ) = IR e, per ogni µ ∈R and σ > 0, la funzione

di densità vale

f (x; µ,σ) =σ

π (σ2 +(x−µ)2), x ∈ R.

Si dimostra facilmente che la media (e ovviamente tutti i momenti di ordine superiore)

di una v.a. di Cauchy non esiste. La v.a. di Cauchy può essere ottenuta mediante

trasformazioni elementari di altre v.a. note. Ad esempio,

299

Page 300: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

se X ∼ U(−π

2 ,π

2 ), allora Y = tan(X) ∼ Ca(0,1) (questa relazione può essere utile

per generare valori pseudo-aleatori da una legge di Cauchy).

se X1 e X2 sono indipendenti con distribuzione N(0,1), allora Y = X1/X2 ∼ Ca(0,1)

Logistica [Lo(µ,σ)]

Si dice che X ∼ Lo(µ,σ) quando S(x,µ,σ) = IR e, per ogni µ ∈ R e σ > 0, la funzione

di densità vale

f (x; µ,σ) =1σ

exp

x−µ

σ

(

1+ exp

x−µ

σ

)2 , x ∈ R.

Si dimostra facilmente che

V ∼ U(0,1)−→ X = logV

1−V∼ Lo(0,1) (C.9)

Laplace o doppia esponenziale [La(µ,λ )]

Si dice che X ∼ La(µ,λ ) quando S(x,µ,λ ) = IR e, per ogni µ ∈ R e λ > 0, la funzione

di densità vale

f (x; µ,λ ) =λ

2exp−λ |x−µ| , x ∈ R.

La densità è simmetrica rispetto al parametro di posizione µ che ne rappresenta quindi

la media e la mediana. Il parametro λ , o meglio 1/λ , è il parametro di scala. Inoltre

Var(X ;λ ) = 2/λ 2.

Student [St(ν ,µ,σ)]

Si dice che X ∼ St(ν ,µ,σ) quando S(x,µ,σ ,ν) = IR e, per ogni µ ∈ IR, ν > 0, e σ > 0,

la funzione di densità vale

f (x; µ,σ) =Γ((ν +1)/2)

Γ(ν/2)Γ(1/2)σ√

ν

(1+

(x−µ)2

σ2ν

)−(ν+1)/2

, x ∈ IR . (C.10)

Il parametro ν prende il nome di gradi di libertà. Si può dimostrare che il momento

k-esimo di una v.a. t di Student esiste solo quando ν > k.

300

Page 301: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Caso particolare: per k = 1 si riottiene una distribuzione di Cauchy.

È importante ricordare che se X ∼ N(µ,σ2) e Y ∼ χ2ν , con X e Y indipendenti, allora

(X−µ)√

ν

σ√

Y∼ St(ν ,µ,σ)

Fisher [Fis(ν ,ξ )]

Si dice che X ∼ Fis(ν ,ξ ) quando S(x,ν ,ξ ) = IR e, per ogni ν ,ξ > 0, la funzione di densità

vale

f (x;ν ,ξ ) =Γ((ν +ξ )/2)

Γ(ν/2)Γ(ξ/2)ν

ξ/2ξ

ν/2 x(ν−2)/2

(ν +ξ x)(ν+ξ )/2, x > 0 .

I parametri ν e ξ prendono il nome di gradi di libertà. Questa legge appare in molti

sviluppi della teoria del campionamento da popolazioni gaussiane. Ad esempio se X ⊥⊥Y ,

X ∼ χ2ν e Y ∼ χ2

ξ, allora

X ξ

Y ν∼ Fis(ν ,ξ ).

Inoltre

X ∼ Fis(ν ,ξ )⇒ ξ Xν +ξ X

∼ Beta(ν ,ξ ).

C.3 Distribuzioni multivariate

Multinomiale [MNomk(n,p)]

Si dice che il vettore k-dimensionale ha distribuzione multinomiale e si indica con il

simbolo X ∼ MNomk(n,p), dove n è un intero e p = (p1, p2, · · · , pk), con p j ≥ 0 e

p1 + p2 + . . . pk = 1, quando

S(x,n,p,) =

(n1, · · · ,nk) interi : ni ≥ 0,

k

∑i=1

ni = n

e la funzione di probabilità vale

Pr(X1 = n1, · · · ,Xk = nk) =n!

n1!n2! · · ·nk!pn1

1 pn22 · · · p

nkk .

301

Page 302: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

La distribuzione multinomiale rappresenta la versione multidimensionale della legge bi-

nomiale; per questo motivo, se X ∼ MNomk(n,p), ogni coordinata del vettore X ha

distribuzione binomiale. Più precisamente,

X∼MNomk(n,p) =⇒ X j ∼ Bin(n, p j), j = 1, · · · ,k.

Inoltre,

IE(X) =

np1

np2

· · ·npk

,

e

Var(X j)= np j(1− p j), j = 1, · · · ,k; Cov

(Xi,X j

)=−npi p j,∀i 6= j.

Dirichlet [Dirk(α,γ)]

Si dice che il vettore k-dimensionale X∼ Dirk(α,γ) quando

S(x,α,γ) =

x ∈ IRk : xi > 0,

k

∑i=1

xi < 1

e la funzione di densità vale

f (x;p,γ) =Γ(α1 + · · ·αk + γ)

γ ∏ki=1 Γ(α j)

k

∏i=1

xαi−1i

(1−

k

∑i=1

xi

)γ−1

. (C.11)

La distribuzione di Dirichlet si dice anche Beta multivariata; infatti, per k = 1, la (C.11)

si riduce alla densità di una Beta(α1,γ).

Un modo costruttivo per ottenere una v.a. con legge di Dirichlet è il seguente: siano

Z1,Z2, · · · ,Zk+1 v.a. indipendenti tali che Zi ∼ Gamma(αi,1), i = 1, · · · ,k + 1, e sia

T = ∑k+1i=1 Zi. Allora il vettore

X =1T(Z1, · · · ,Zk)

ha distribuzione di Dirichlet con parametri p = (α1, · · · ,αk) e γ = αk+1. Da questa

rappresentazione si deduce che Z d= T X; si può inoltre dimostrare facilmente che T è

302

Page 303: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

indipendente da X: quindi, moltiplicando tra loro le coordinate dei due vettori, si ottiene

che, per ogni k-pla di interi (r1, · · · ,rk), si ha

k

∏i=1

Zrii

d= T r

k

∏i=1

X rii ,

con r = ∑ki=1 ri, ovvero

IE

(k

∏i=1

X rii

)=

∏ki=1 IE

(Zri

i)

IE(T r)

Da questa formula generale, ricordando che T ∼Gamma(∑k+1i=1 αi,1), si deduce facilmente

che

IE(Xi) =IE(Zi)

IE(T )=

αi

∑ki=1 αi + γ

;

IE(X2

i)

=IE(Z2

i)

IE(T 2)=

αi(αi +1)(∑k

i=1 αi + γ)(∑ki=1 αi + γ +1)

;

IE(XiX j

)=

IE(Zi) IE(Z j)

IE(T 2)=

αiα j

(∑ki=1 αi + γ)(∑k

i=1 αi + γ +1).

Normale multivariata [Nk(µ,Σ)]

Si dice che il vettore X= (X1, . . . ,Xk) ha distribuzione Normale multivariata con parametri

di posizione e scala pari a µ e Σ, matrice denita positiva, e si indica col simbolo Nk(µ,Σ),

se la densità vale

f (x) =1

(2π)k/2|Σ|1/2 exp−1

2(x−µ)′Σ−1(x−µ

).

Per k = 1 si ottiene la distribuzione normale univariata. Si può vericare facilmente che

IE(X) = µ, Var(X) = Σ.

Una delle proprietà più importanti della distribuzione Nk(µ,Σ) è la seguente, che stabilisce

che ogni trasformazione lineare di X ha ancora legge normale.

303

Page 304: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Proposizione C.1. Sia Ap,k una matrice di rango p≤ k: allora

AX∼ Np(Aµ;AΣA′).

Distribuzioni marginali e condizionate.

Se X∼ Nk(µ,Σ) allora ogni sottoinsieme delle coordinate di X ha ancora legge normale;

anche la distribuzione di un sottoinsieme delle coordinate di X condizionatamente al

resto delle coordinate ha legge normale; più precisamente, consideriamo la partizione di

X = (X1,X2), con X1 di dimensione p < k e X2 di dimensione k− p.

Proposizione C.2. Sia

X =

(X1

X2

)∼ Np

((µ1µ2

),

(Σ11 Σ12

Σ21 Σ22

));

allora

X1 ∼ Nk (µ1,Σ11) (C.12)

e

[X2 | X1 = x1]∼ Nk−p(µ2 +Σ21Σ

−111 (x1−µ1),Σ22−Σ21Σ

−111 Σ12

)(C.13)

Normale Gamma [NoGa(µ,σ ,α,θ)]

Si dice che il vettore (X ,Y ) ha distribuzione normale-gamma, e si indica col simbolo

NoGa(µ,σ ,α,θ), se la densità vale, per x ∈ IR e y > 0,

f (x,y; µ,σ ,α,θ) = f (x;y,µ,σ) f (y;α,θ) =

√y

σ√

2πe−

y2

((x−µ)

σ

)2θ α

Γ(α)e−θyyα−1.

In pratica, la distribuzione della variabile doppia viene denita in termini della legge

marginale di Y , di tipo Gamma(α,θ), e della legge condizionata di X | Y = y, di tipo

N(µ,σ2/y). L'importanza di questa legge è dovuta al fatto che essa rappresenta la di-

stribuzione a priori coniugata nel modello gaussiano con parametro di posizione e scala

entrambi incogniti.

304

Page 305: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Student multivariata [Stk(µ,Σ,ν)]

Si dice che il vettore X = (X1, . . . ,Xk) ha distribuzione t con ν gradi di libertà e parametri

di posizione e scala pari a µ e Σ, matrice denita positiva, e si indica col simbolo

Stk(µ,Σ,ν), se la densità vale

f (x) =Γ((ν + k)/2)

|Σ|1/2Γ(ν/2)(ν π)k/2

(1+

(x−µ)′Σ−1(x−µ)

ν

)− ν+k2

.

Per k = 1 si ottiene la t di Student univariata. La distribuzione t multivariata può

essere ottenuta come mistura di scala di distribuzioni normali multivariate come mostra

il seguente risultato [Dickey, 1968].

Teorema C.1. Siano X un vettore aleatorio k-dimensionale e Y una variabile aleatoria

positiva tali che

X | Y ∼ Nk(µ,Y Ψ), Y ∼ GI(a,b);

allora la legge marginale di X è del tipo

X∼ Stk

(2a,µ,

ba

Ψ

).

Se poi, come caso particolare, si pone a = ν/2 e b = 1/2, allora Y−1 ∼ χ2ν e X ∼

Stk(ν ,µ,Ψ/ν).

Dimostrazione C.1. Lasciata per esercizio.

Da sottolineare anche il seguente noto risultato.

Teorema C.2. Nelle condizioni del teorema precedente si ha che

(a)

W =2bY∼ χ

22a;

(b) La v.a.

V =(X−µ)′Ψ−1 (X−µ)

Y∼ χ

2k

è indipendente da Y .

305

Page 306: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

(c)

2a(X−µ)′Ψ−1 (X−µ)

2bk∼ Fis(k,2a)

Dimostrazione C.2. Si tratta di un risultato classico della teoria del campionamento

da popolazioni normali. Si veda ad esempio, Azzalini [2000].

Wishart [Wk(m,Σ)]

Si dice che la matrice quadrata k-dimensionale V, denita positiva, ha distribuzione di

Wishart con m gradi di libertà e parametro di scala pari a Σ, matrice denita positiva, e

si indica col simbolo Wk(m,Σ), se la densità vale

f (V) =1

2mk/2Ψk(m/2)|Σ|m/2 |V|(m−k−1)/2 exp

−1

2tr(Σ−1V

),

dove

Ψk(u) = πk(k−1)/4

k

∏i=1

Γ

(u− 1

2(i−1)

), u >

k−12

.

Un modo di costruire una matrice aleatoria di Wishart è il seguente: siano (Z1, · · · ,Zm)iid∼

Nk(0,I); allora la quantità

W =m

∑i=1

ZiZ′i

si distribuisce secondo una legge di Wishart Wk(m,I).Alcune proprietà della distribuzione Wk(m,Σ):

Proposizione C.3. Sia V∼Wk(m,Σ):

se A è una matrice q× k, allora Y = AVA′ ∼Wq(m,AΣA′)

tr(V)∼ χ2mk.

IE(V ) = mΣ

306

Page 307: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Wishart inversa [W−1k (m,Σ)]

Sia V∼Wk(m,Σ). Poiché V è denita positiva con probabilità 1, è possibile calcolare la

funzione di densità della matrice aleatoria inversa Z = V−1:

f (Z) =|Z|−(m+k+1)/2

2mk/2Ψk(m/2)|Σ|m/2 exp−1

2tr(Σ−1Z−1) .

Inoltre

IE(Z) =Σ−1

m− k−1.

La distribuzione è particolarmente utile nell'analisi coniugata del modello normale multi-

variato.

307

Page 308: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

308

Page 309: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

Bibliograa

Azzalini, A. (2000). Inferenza Statistica. Una presentazione basata sul concetto di

verosimiglianza. Springer Italia, Milano.

Bayes, T. (1763). An essays towards solving a problem in the doctrine of chances. Phil.

Trans. Roy. Soc. 53 370418.

Chung, K. & AitSahlia, F. (2003). Elementary Probability Theory. New York:

Springer.

Cifarelli, D. & Muliere, P. (1989). Statistica bayesiana. Giappichelli, Torino.

Dall'Aglio, G. (2000). Calcolo delle Probabilità (II ed.). Zanichelli, Bologna.

de Finetti, B. (1937). La prévision: ses lois logiques, ses sources sujectives. Ann.

Inst. H. Poincaré 7 168.

de Finetti, B. (1970). Teoria delle probabilità: sintesi introduttiva con appendice

critica. Volumi primo e secondo. Turin: Giulio Einaudi Editore. Nuova Biblioteca

Scientica Einaudi, 25* et 25**.

309

Page 310: Appunti per il corso di Probabilità e processi aleatoriweb.uniroma1.it/memotef/sites/default/files/file lezioni/libro12.pdfunione ( E [F). È l'evento che si veri ca quando si veri

de Finetti, B. (1974). Theory of probability: a critical introductory treatment. Vol.

1. John Wiley & Sons, London-New York-Sydney. Translated by Antonio Machì

and Adrian Smith, With a foreword by D. V. Lindley, Wiley Series in Probability and

Mathematical Statistics.

de Finetti, B. (1975). Theory of probability: a critical introductory treatment. Vol. 2.

John Wiley & Sons, London-New York-Sydney. Translated from the Italian by Antonio

Machì and Adrian Smith, Wiley Series in Probability and Mathematical Statistics.

de Finetti, B. (1981). Scritti (19261930). Padua: Casa Editrice Dott. Antonio

Milani (CEDAM). With a preface by Massimo de Felice.

Dickey, J. M. (1968). Three multidimensional-integral identities with Bayesian

applications. Ann. Math. Statist. 39 16151628.

Grimmett, G. & Stirzaker, D. (1992). Probability and Random Processes (II ed.).

Oxford Univ. Press.

Orsingher, E. (2005). Moto browniano. Roma: Aracne.

Stirzaker, D. (2005). Stochastic Processes and Models. Oxford Univ. Press.

310