Appunti per il corso di
Probabilità e processi aleatori
Brunero Liseo
Dipartimento di metodi e modelli per il territorio, l'economia
e la nanza
Sapienza Università di Roma
27 marzo 2013
Indice
1 Introduzione 7
1.1 Richiami di Calcolo delle Probabilità . . . . . . . . . . . . . . . . . . . 7
1.2 Probabilità condizionata e indipendenza stocastica . . . . . . . . . . . . 14
1.3 Il teorema di Bayes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.3.1 Probabilità a priori e verosimiglianze . . . . . . . . . . . . . . . 23
1.4 L'impostazione soggettiva della probabilità . . . . . . . . . . . . . . . . 24
1.4.1 Denizione e condizione di coerenza . . . . . . . . . . . . . . . . 25
1.5 Variabili casuali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.6 Vettori aleatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1.7 Relazioni tra variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . 41
1.7.1 Il caso di X e Y entrambe v.a. reali . . . . . . . . . . . . . . . . 42
1.7.2 Il caso di Y reale e X multidimensionale . . . . . . . . . . . . . . 43
1.8 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
1.9 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2 Il valore atteso di una variabile aleatoria 53
2.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.2 Denizioni e proprietà . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.2.1 Alcune proprietà . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.3 Varianza, covarianza, correlazione . . . . . . . . . . . . . . . . . . . . . 57
2.4 I momenti di una variabile aleatoria . . . . . . . . . . . . . . . . . . . . 62
2.5 Media e varianza condizionate . . . . . . . . . . . . . . . . . . . . . . . 64
2
2.6 Applicazioni notevoli del concetto di condizionamento . . . . . . . . . . 69
2.6.1 Alcuni risultati sulle medie . . . . . . . . . . . . . . . . . . . . . 72
2.7 La legge normale multivariata . . . . . . . . . . . . . . . . . . . . . . . 74
2.8 Alcune dimostrazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
2.8.1 Dimostrazione della (3.3) . . . . . . . . . . . . . . . . . . . . . 78
2.8.2 Dimostrazione della (2.16) . . . . . . . . . . . . . . . . . . . . . 79
2.9 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
3 Funzioni generatrici e teoremi di convergenza 89
3.1 Funzione generatrice dei momenti . . . . . . . . . . . . . . . . . . . . . 89
3.1.1 Alcune proprietà . . . . . . . . . . . . . . . . . . . . . . . . . . 92
3.2 Funzione generatrice delle probabilità . . . . . . . . . . . . . . . . . . . 97
3.3 Disuguaglianze notevoli. . . . . . . . . . . . . . . . . . . . . . . . . . . 99
3.4 Convergenza di successioni di v.a. . . . . . . . . . . . . . . . . . . . . . 102
3.5 Teoremi limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
3.5.1 Il metodo Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . 111
3.5.2 La notazione di Landau o(h) . . . . . . . . . . . . . . . . . . . 111
4 Introduzione ai processi stocastici 113
4.1 Un po' di linguaggio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
4.2 La passeggiata aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . 117
4.3 Il problema della rovina del giocatore . . . . . . . . . . . . . . . . . . . 119
4.3.1 Probabilità di vittoria dei due giocatori. . . . . . . . . . . . . . . 120
4.3.2 Durata media del gioco. . . . . . . . . . . . . . . . . . . . . . . 123
4.3.3 Giocare contro il banco . . . . . . . . . . . . . . . . . . . . . . 125
4.3.4 Visite e ritorni nei singoli stati . . . . . . . . . . . . . . . . . . . 126
4.3.5 Numero atteso di ritorni allo stato iniziale . . . . . . . . . . . . . 127
4.3.6 Passeggiata aleatoria e teorema del limite centrale . . . . . . . . 128
4.4 Catene di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
4.5 Probabilità di transizione in n passi . . . . . . . . . . . . . . . . . . . . 133
3
4.5.1 Equazioni di Chapman-Kolmogorov . . . . . . . . . . . . . . . . 133
4.5.2 Distribuzioni di probabilità al tempo n . . . . . . . . . . . . . . 135
4.6 Stazionarietà . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
4.7 Classicazione degli stati . . . . . . . . . . . . . . . . . . . . . . . . . . 140
4.7.1 Stati accessibili e stati comunicanti . . . . . . . . . . . . . . . . 140
4.7.2 Stati ricorrenti e stati transitori . . . . . . . . . . . . . . . . . . 145
4.7.3 Stati ricorrenti positivi e stati ricorrenti nulli; periodicità . . . . . 151
4.8 Distribuzioni di equilibrio . . . . . . . . . . . . . . . . . . . . . . . . . . 154
4.9 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
5 Applicazioni delle catene di Markov 181
5.1 Processi branching . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
5.1.1 Valore atteso e varianza di Zn . . . . . . . . . . . . . . . . . . . 183
5.1.2 Distribuzione di Zn . . . . . . . . . . . . . . . . . . . . . . . . . 186
5.1.3 Probabilità di estinzione . . . . . . . . . . . . . . . . . . . . . . 187
5.2 Esempi notevoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
5.2.1 PageRank: un'applicazione per il web . . . . . . . . . . . . . . . 192
5.2.2 Il modello di Wright e Fisher in biologia . . . . . . . . . . . . . . 194
5.3 Reversibilità di una Catena di Markov stazionaria . . . . . . . . . . . . . 194
5.4 L'Algoritmo di Metropolis . . . . . . . . . . . . . . . . . . . . . . . . . 197
5.5 Algoritmo Metropolis2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
5.6 Modello markoviano nelle assicurazioni . . . . . . . . . . . . . . . . . . 202
5.7 Applicazioni in nanza . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
5.8 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
6 La legge esponenziale e il processo di Poisson 205
6.1 La Distribuzione Esponenziale . . . . . . . . . . . . . . . . . . . . . . . 205
6.1.1 I primi momenti di una v.a. Exp(λ ) . . . . . . . . . . . . . . . . 206
6.1.2 Assenza di memoria . . . . . . . . . . . . . . . . . . . . . . . . 207
6.1.3 Minimi di v.a. esponenziali. . . . . . . . . . . . . . . . . . . . . 209
4
6.2 La distribuzione Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . 214
6.3 Il Processo di Poisson: un'introduzione . . . . . . . . . . . . . . . . . . 218
6.3.1 Prima denizione del processo di Poisson . . . . . . . . . . . . . 219
6.3.2 Il Processo di Bernoulli . . . . . . . . . . . . . . . . . . . . . . 220
6.3.3 Denizione 2 di Processo di Poisson . . . . . . . . . . . . . . . . 222
6.3.4 Denizione alternativa del processo di Poisson. . . . . . . . . . . 225
6.3.5 Distribuzione del tempo dell' n-esimo evento . . . . . . . . . . . 228
6.4 Altre nozioni sul processo di Poisson . . . . . . . . . . . . . . . . . . . 229
6.4.1 Sovrapposizione di processi di Poisson . . . . . . . . . . . . . . . 230
6.4.2 Thinning di un processo di Poisson . . . . . . . . . . . . . . . 233
6.5 Cenno al caso non omogeneo . . . . . . . . . . . . . . . . . . . . . . . 235
6.6 Alcuni aspetti inferenziali∗ . . . . . . . . . . . . . . . . . . . . . . . . . 236
6.7 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
7 Martingale 241
7.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
7.2 Tempi di arresto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
7.3 Alcune disuguaglianze . . . . . . . . . . . . . . . . . . . . . . . . . . . 249
7.4 Applicazione al problema della rovina del giocatore . . . . . . . . . . . . 252
8 Moto browniano 255
8.1 Una prima denizione costruttiva . . . . . . . . . . . . . . . . . . . . . 256
8.2 Distribuzioni associate al moto browniano . . . . . . . . . . . . . . . . . 259
8.2.1 Il ponte browniano . . . . . . . . . . . . . . . . . . . . . . . . . 263
8.2.2 Altri risultati . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266
8.3 Alcune varianti del moto browniano . . . . . . . . . . . . . . . . . . . . 272
8.3.1 Moto browniano con drift o deriva . . . . . . . . . . . . . . . . 272
8.3.2 Moto browniano geometrico . . . . . . . . . . . . . . . . . . . . 272
8.4 Alcuni risultati sul moto browniano . . . . . . . . . . . . . . . . . . . . 274
A Alcune nozioni di algebra lineare 277
5
B Nozioni di calcolo combinatorio 281
B.1 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289
C Le principali distribuzioni di probabilità 291
C.1 Distribuzioni discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
C.2 Distribuzioni assolutamente continue . . . . . . . . . . . . . . . . . . . 296
C.3 Distribuzioni multivariate . . . . . . . . . . . . . . . . . . . . . . . . . 301
6
CAPITOLO 1
Introduzione
1.1 Richiami di Calcolo delle Probabilità
Un esperimento il cui esito non è noto, ma che può essere analizzato nel suo complesso,
per esempio mediante l'insieme dei possibili esiti e magari delle frequenze con cui tali
esiti si possono presentare, è detto aleatorio. Tali esperimenti sono molto frequenti nelle
scienze e nelle scelte di vita quotidiana. Si pensi al Tizio che deve scegliere se recarsi
alla fermata del Bus A oppure del Bus B per andare in ucio, al numero di clienti che
entrano in un negozio in un certo intervallo di tempo, al tipo di ferita riportata dal
prossimo ricoverato in un pronto soccorso, al prezzo di un titolo nella borsa di Milano tra
tre settimane, e così via. Questi sono solo alcuni esempi di situazioni in cui l'esito della
prova non è noto a priori. Ogni volta che ci troviamo a descrivere un problema di questo
tipo, occorre innanzitutto procedere, almeno implicitamente, alla
costruzione di un modello matematico in grado di elencare e descrivere tutti i
possibili esiti ;
7
assegnare una probabilità a ciascuno di questi esiti.
Il calcolo delle probabilità è la disciplina che insegna a formalizzare le due esigen-
ze precedenti in modo astratto e mediante un rigoroso linguaggio matematico. Nel
corso di questo capitolo acquisiremo allora gli elementi essenziali del linguaggio della
probabilità che ci consentiranno di inquadrare in uno schema comune problemi di natura
apparentemente molto diversa.
Iniziamo quindi a denire un oggetto che rappresenti lo spazio entro il quale operiamo
Denizione 1.1. L'insieme di tutti gli esiti possibili di un esperimento aleatorio è detto
spazio campionario ed è denotato con Ω. Gli elementi di Ω sono chiamati eventi
elementari e sono indicati, in genere, con ω .
Di fronte a un esperimento aleatorio, almeno una cosa è certa: si realizzerà uno e
uno solo degli esiti ω ∈Ω. Non potendo tuttavia conoscere in anticipo quale sarà l'esito
dell'esperimento, cerchiamo almeno di conoscere la probabilità con cui dei particolari
risultati (o insiemi di risultati) si possono vericare.
Il calcolo delle probabilità fa grande uso del linguaggio e della teoria degli insiemi.
Chiameremo evento qualunque insieme di eventi elementari. Gli eventi vengono in genere
indicati con le lettere maiuscole dell'alfabeto latino.
Dati due eventi elementari E ed F è possibile ricavare da essi diversi insiemi mediante
le seguenti operazioni tra eventi :
unione (E ∪F). È l'evento che si verica quando si verica almeno uno dei due
eventi, cioè quando si verica E, o quando si verica F oppure ancora quando si
vericano sia E che F ;
intersezione (E ∩F). É l'evento che si verica quando si vericano contem-
poraneamente sia E che F. Alcuni testi indicano l'intersezione tra E ed F con il
simbolo EF .
negazione (Ec). È l'evento che si verica quando non si verica E.In alcuni si
testi si incontra la notazione equivalente E, equivalente a Ec.
8
Valutare probabilisticamente un esperimento signica essere in grado di assegnare una
misura di probabilità, almeno in teoria, a tutti i sottoinsiemi di Ω. Quando la cardinalità di
Ω è nita o numerabile, è suciente considerare il cosiddetto insieme delle parti, P(Ω),
che consiste proprio nell'elencazione di tutti i possibili sottoinsiemi.
Esempio 1.1 [Lancio di una moneta.] Nel caso del lancio di una moneta Ω = T,C e
l'insieme delle parti sarà P(Ω) =∅,T,C,Ω ♦
Esempio 1.2 Lancio di un dado a 4 facce Nel caso del lancio di un dado con 4 facce
numerate si ha Ω = 1,2,3,4 e l'insieme delle parti sarà
P(Ω) = ∅,1,2,3,4,1∪2,1∪3,1∪4,2∪3,2∪4,3∪4,1∪2∪3,1∪2∪4,2∪3∪4,Ω
♦Più in generale, se Ω è composto da k eventi elementari, P(Ω) conterrà 2k parti, ottenute
considerando che ciascun elemento può essere inserito o meno in ciascuna parte, e per
questo si hanno 2 scelte a disposizione per ciascuno dei k elementi.
Osservazione 1.1. Ricordiamo che
due eventi averti intersezione vuota, cioè pari all'evento impossibile (E ∩F = ∅)
sono detti mutuamente esclusivi o incompatibili.
L'evento Ec è anche detto complementare di E.
In generale, a seconda della natura di Ω, non tutti i sottoinsiemi di Ω possono denirsi
eventi. Questo può apparire innaturale, ma dipende da questioni tecniche legate alla
denizione di probabilità come misura in senso analitico. Ad ogni modo, questo tipo di
problemi emerge soprattutto nello studio dei processi di diusione per i quali occorrerà
un più adeguato bagaglio matematico.
I sottoinsiemi di eventi che possiamo considerare a loro volta eventi sono in generale
quelli che soddisfano la seguente denizione.
Denizione 1.2. Sia Ω lo spazio di tutti i possibili risultati di un esperimento. Valutare
in modo probabilistico un esperimento signica, sia in termini tecnici che sostanziali, saper
9
calcolare la probabilità che il risultato dell'esperimento appartenga ad un sottoinsieme B
di Ω, qualunque sia B appartenente ad una famiglia A di sottoinsiemi. Ragioni tecniche
impongono che la famiglia A sia una σ -algebra1, cioè soddis le seguenti proprietà:
/0 ∈A (l'insieme vuoto è in A )
B1, B2, . . . ∈A ⇒⋃
∞i=1 Bi ∈A (A è chiusa rispetto all'unione numerabile)
B ∈A ⇒ Bc = Ω\B ∈A (A è chiusa rispetto alla complementazione).
Come già detto, non ci soermeremo sulle motivazioni tecniche che rendono necessario
l'utilizzo di una σ -algebra A ; ci limitiamo a ricordare che nel caso in cui lo spazio
campionario Ω sia nito o numerabile, la famiglia di insiemi A contiene tutti i sottoinsiemi
di Ω, mentre nel caso in cui Ω sia l'insieme dei numeri reali2 A contiene tutti gli intervalli,
chiusi e aperti e le loro unioni e intersezioni. Quando l'insieme dei risultati possibili
dell'esperimento è un sottoinsieme di Rd per qualche intero d, la σ -algebra naturale da
utilizzare è quella di Borel, in genere indicata come B(Rd); essa è la più piccola σ -algebra
che contiene tutti gli insiemi aperti di Rd; questo garantisce che qualunque sottoinsieme
ragionevole di Rd appartenga a B(Rd).
L'esito dell'esperimento che si verica eettivamente è chiamato risultato o realizza-
zione dell'esperimento. La probabilità con cui un certo evento si verica è rappresentata
formalmente mediante una funzione che assegna a quell'evento un numero compreso tra
0 e 1. La seguente denizione introduce in modo assiomatico la misura di probabilità ed
è dovuta a A. Kolmogorov (1933).
1Ricordiamo che una σ−algebra denita su un insieme Ω è una famiglia di sottoinsiemi di Ω che ha
delle proprietà di stabilità rispetto ad alcune operazioni insiemistiche, in particolare rispetto all'operazione
di unione numerabile e di passaggio al complementare. La σ−algebra è un caso particolare di algebra
degli insiemi e viene spesso è utilizzata analisi matematica per via delle numerose proprietà che possiede
rispetto alle operazioni di passaggio al limite.2si pensi ad esempio all'esperimento consistente nella rilevazione del tempo di attesa di un cliente a
una la, in cui l'esito può essere un qualunque numero t > 0.
10
Denizione 1.3. Una misura di probabilità P è una funzione d'insieme che associa, ad
ogni elemento di A , un valore reale compreso nell'intervallo [0,1]. In altri termini
P : A → [0,1];
La funzione P soddisfa le seguenti proprietà assiomatiche:
0≤ P(E)≤ 1, ∀E ∈A ;
P(Ω) = 1;
A1, A2, . . .∈A , mutuamente disgiunti,⇒P(⋃
∞i=1 Ai)=∑
∞i=1P(Ai), e tale proprietà
vale anche per qualunque sottoinsieme nito degli Ai.
La denizione (1.3) è stata proposta da Kolmogorov nell'ambito del suo tentativo di
sistematizzazione della teoria della probabilità. Essa fornisce un quadro comune a prece-
denti denizioni, in particolare quella classica e quella frequentista che ora discuteremo
brevemente, cercando di sottolineare i motivi della loro inadeguatezza generale. Esiste
poi una terza possibile denizione della probabilità, basata su un'impostazione soggettiva.
Ad essa dedicheremo un paragrafo a parte.
Prime conseguenze degli assiomi
Dagli assiomi discendono semplici ma utili risultati.
Se nel terzo assioma ci fermiamo a due eventi e consideriamo A1 =A e A2 =B risulterà
A∩B =∅⇒ P(A∪B) = P(A)+P(B)
e il risultato vale per qualunque numero nito di addendi mutuamente incompatibili.
Teorema 1.1. Per ogni evento E ∈A si ha
P(Ec) = 1−P(E)
Dimostrazione 1.1. Qualunque insieme E soddisfa la relazione Ω = E ∪Ec e, per il
secondo e terzo assioma,
1 = P(Ω) = P(E)+P(Ec),
da cui P(Ec) = 1−P(E).
11
Teorema 1.2. (Legge delle probabilità totali.) Per ogni coppia di eventi E ed F si ha
P(E ∪F) = P(E)+P(F)−P(E ∩F).
Dimostrazione 1.2. L'evento E∪F può scriversi come l'unione di due insiemi disgiunti
nel seguente modo
E ∪F = E ∪ (F ∩Ec),
e quindi
P(E ∪F) = P(E)+P(F ∩Ec). (1.1)
Inoltre, qualunque insieme F può sempre scriversi come l'unione della sua intersezione
con un altro insieme E e l'intersezione con il complemento di E, cioè Ec, cioè
F = (F ∩E)∪ (F ∩Ec).
Dunque P(F) = P(F ∩E)+P(F ∩Ec), da cui P(F ∩Ec) = P(F)−P(E ∩F). Inserendo
l'ultima relazione nella (1.1) si ottiene la tesi.
La denizione classica
La prima denizione che si diede alla probabilità risale al tempo in cui Pascal gettava
le prime basi operative della disciplina. Secondo tale impostazione, la probabilità di un
evento E è data dal rapporto tra i casi favorevoli all'evento E e il numero totale di casi
possibili, purché tutti i casi possibili risultino ugualmente probabili.
Se da un lato tale denizione è più che ragionevole dal punto di vista operativo,
appare chiaro che non può essere considerata una vera e propria denizione in quanto
utilizza la parola probabilità (nella condizione di equiprobabilità dei casi possibili)
nel momento in cui tenta di denire cosa essa sia: si verica in pratica quello che
in Logica viene chiamato una tautologia.
non fornisce lumi su come denire la probabilità nel caso di casi possibili non
ugualmente probabili.
12
Queste limitazioni relegano la denizione classica a qualcosa di poco più di una curiosità,
almeno da un punto di vista teorico, sebbene essa fornisca un metodo comodo di calcolo,
nei limiti della sua applicabilità.
Esempio 1.3 Enumerazione delle possibilità Dato un mazzo di carte da Poker con 52
carte divise in quattro semi (C,Q,P,F), con 13 carte per ogni seme (dall'Asso al 10, ol-
tre a J,Q,K), qual è la probabilità di avere in mano tris d'assi servito? e un full servito? ♦
La denizione frequentista
Nell'approccio frequentista, già presente nei primi lavori di Pascal e Fermat, e successi-
vamente formalizzato da Von Mises, si cerca di cogliere delle intuizioni piuttosto comuni,
secondo le quali la probabilità di un evento deve essere in qualche modo legato alla fre-
quenza relativa con cui esso si verica in una successione sucientemente lunga di prove.
Il legame tra frequenza e probabilità passa per quella che viene denita Legge empirica
del caso secondo cui, in una successione di prove eettuate tutte nelle stesse condizioni,
la frequenza con cui si verica un evento si avvicina alla probabilità dell'evento stesso
e il livello di approssimazione migliora all'aumentare del numero delle prove. La legge
empirica del caso non è una denizione matematica e non può esserlo per i diversi gradi
di ambiguità che contiene.
La denizione di probabilità frequentista è legata alla precedente legge: la probabilità
di un evento E è il limite a cui tende la frequenza relativa di volte in cui l'evento si
verica, al tendere del numero di prove all'innito.
Anche questa denizione, seppure più generale rispetto a quella classica, non lo è del
tutto, in quanto richiede che l'evento considerato sia in qualche modo ripetibile. Non
è possibile, ad esempio, valutare le probabilità di un evento come La prossima partita fra
Barcelona e Real Madrid nirà in pareggio, in quanto le condizioni in cui tale partita si
svolgerà saranno certamente nuove rispetto a qualunque altra partita giocata in passato.
Concludiamo questo paragrafo enunciando una versione più generale della legge delle
probabilità totali, relativa ad un numero nito qualunque di eventi.
13
teorema delle probabilità totali. Dati gli eventi E1,E2, . . .Em, risulta
P(E1∪E2∪ . . .∪En) =n
∑i=1
P(Ei)− ∑i1<i2
P(Ei1 ∩Ei2)+ . . .
+ (−1)r+1∑
i1<...<in
P(Ei1 ∩Ei2 ∩ . . .∩Ein)+ . . .
+ (−1)n+1P(E1∩E2∩ . . .∩En) (1.2)
Non dimostreremo questo teorema ma ci limitiamo a considerare in maggior dettaglio
cosa avviene per tre eventi. In tal caso la (1.2) diventa
Pr(A∪B∪C)=Pr(A)+Pr(B)+Pr(C)−Pr(A∩B)−Pr(A∩C)−Pr(B∩C)+Pr(A∩B∩C) .
La probabilità dell'unione di tre eventi qualsiasi si ottiene quindi sommando le probabilità
dei tre eventi, sottraendo quelle delle intersezioni a due a due e poi riaggiungendo quella
dell'intersezione dei tre eventi. La formula (1.2), semplicemente, generalizza tale formula
al caso generale.
1.2 Probabilità condizionata e indipendenza stoca-
stica
La valutazione probabilistica di un evento va sempre intesa come subordinata ad uno
specico set d'informazioni che abbiamo a disposizione. Chiariamo meglio la questione
introducendo il concetto di evento condizionato. E|H è una qualsiasi aermazione rispet-
to alla quale siamo in uno stato di incertezza, ma che può essere vera o falsa nell'ipotesi
che H sia vera. Nell'ipotesi che H sia falsa l'evento E|H perde di signicato. I casi
possibili possono essere schematizzati quindi con:
E|H →
Vero: se, essendo vero H, è vero E
Falso: se, essendo vero H, è falso E
Indeterminato: se H è falso
In termini di scommessa il terzo caso corrisponde all'annullamento della scommessa. Per
esempio, lanciando i dadi in giochi di società, si usa talvolta la condizione se il dado
cade dal tavolo l'esito non è valido e il dado va rilanciato.
14
Supponiamo dunque che H sia un evento per il quale P(H) > 0. La probabilità
P(E|H) va calcolata tenendo conto che il fatto che sia noto che si è vericato H riduce
a questo evento il nostro spazio campionario. Inoltre anché anche E sia vero, debbono
dunque vericarsi insieme i due eventi, cioè E ∩H. Ne segue che
P(E|H) =P(E ∩H)
P(H), (1.3)
che può essere espressa anche nel modo alternativo
P(E ∩H) = P(E|H)P(H) (1.4)
valida anche nel caso in cui P(H) = 0. Nel primo membro dell'ultima espressione gli
eventi E ed H giocano un ruolo simmetrico cosicché è vera anche la relazione
P(E ∩H) = P(H|E)P(E).
Se un cambiamento a livello informativo (la conoscenza del vericarsi di H) modica
la credibilità dell'evento in considerazione, cioè se l'ipotesi che un certo evento H sia vero
modica la probabilità di un altro evento E, diciamo che i due eventi sono correlati. In
particolare:
se P(E|H)> P(E) diciamo che E e H sono correlati positivamente;
se P(E|H)< P(E) diciamo che E e H sono correlati negativamente;
Se P(E|H) = P(E) i due eventi sono indipendenti o più propriamente indipendenti in
probabilità, o stocasticamente indipendenti. In questo caso il teorema della probabilità
composta diventa
P(E ∩H) = P(E) ·P(H).
Questa relazione è un modo alternativo di denire l'indipendenza stocastica.
La denizione di probabilità condizionata può essere estesa al caso di n eventi, ma
la condizione di indipendenza, in questo caso, è più articolata. Ad esempio, nel caso di
15
tre eventi E, F e G, si dice che essi sono indipendenti qualora vengano soddisfatte le
seguenti relazioni
P(E ∩F ∩G) = P(E)P(F)P(G)
e
P(E ∩F) = P(E)P(F), P(E ∩G) = P(E)P(G), P(F ∩G) = P(F)P(G).
In altri termini, k eventi E1,E2, . . .Ek sono tra loro mutuamente indipendenti se, comunque
se ne scelgano un numero h≤ k, diciamo Ei1 ,Ei2, . . .Eih , essi soddisfano la relazione
P(Ei1 ∩Ei2 ∩·· ·∩Eih) = P(Ei1)P(Ei2) · · ·P(Eih).
Consideriamo ora un esempio in cui l'indipendenza a coppie tra gli eventi non è suciente
a garantire l'indipendenza di tre eventi.
Esempio 1.4 [Dado a quattro facce]. Consideriamo un dado regolare - cioè simmetrico
- con quattro facce numerate 1,2,3 e 4. Deniamo i seguenti eventi
A2 = 1,2
A3 = 1,3
A4 = 1,4
È evidente come
Pr(Ai) = 1/4, ∀i = 1,2,3
e, inoltre,
Pr(Ai∩A j
)= 1/2 ∀i, j = 1,2,3, i 6= j.
Dunque per ogni coppia di eventi Ai,A j risulta
Pr(Ai∩A j
)= Pr(Ai)Pr
(A j).
Tuttavia
Pr(A1∩A2∩A3) = Pr(1) = 146= Pr(A1)Pr(A2)Pr(A3) =
18
16
♦Nel prossimo esempio si considera il caso in cui tre eventi soddisfano la condizione di
indipendenza quando considerati insieme ma non se considerati a coppie.
Esempio 1.5 [Due dadi a sei facce]. Si lancino due dadi regolari a sei facce. Per
ragioni di simmetria consideriamo i trentasei possibili risultati tutti ugualmente probabili.
Deniamo i seguenti eventi
A=il primo dado dà 1, 2 oppure 3
B=il primo dado dà 3, 4 oppure 5
C=la somma dei due dadi è pari a 9
Semplici calcoli mostrano come Pr(A) = Pr(B) = 1/2 mentre gli unici eventi elementari
che corrispondono a C sono (3,6),(4,5),(5,4),(6,3) Dunque Pr(C) = 1/4. Inoltre
l'evento A∩B∩C è vero solo se si verica l'evento (3,6) e dunque Pr(A∩B∩) = 1/36
che corrisponde al prodotto Pr(A)Pr(B)Pr(C). Tuttavia l'evento A∩B corrisponde alla
locuzione esce 3 al primo lancio . Dunque
Pr(A∩B) = 1/6 6= Pr(A)Pr(B) = 1/4.
♦
Riassumendo, le varie possibilità che fornisce il calcolo della probabilità nel caso di
unione e intersezione di due eventi sono:
Eventi A e B
incompatibili(A∩B =∅)
P(A∪B) = P(A)+P(B)P(A∩B) = 0
compatibili(A∩B 6=∅)
P(A∪B) = P(A)+P(B)−P(A∩B)
P(A∩B) =
P(A) ·P(B|A) = P(B) ·P(A|B)P(A) ·P(B) → indipendenti
17
1.3 Il teorema di Bayes.
È noto che, dati due eventi qualsiasi F e E, la probabilità dell'intersezione F ∩E si può
scrivere
P(F ∩E) = P(F |E)P(E), (1.5)
oppure
P(F ∩E) = P(E|F)P(F). (1.6)
Uguagliando la (1.5) con la (1.6) ed esplicitando rispetto a P(F | E) si può scrivere,
quando P(E)> 0,
P(F | E) = P(F)P(E | F)
P(E), (1.7)
La formula (1.7) rappresenta la forma più semplice del cosiddetto teorema di Bayes,
dal nome di colui che, apparentemente per primo [Bayes, 1763], utilizzò una versione
leggermente più complessa dell'espressione stessa: essa insegna che la probabilità di un
evento F non è una caratteristica intrinseca dell'evento, ma va calcolata sulla base delle
informazioni a disposizione: il vericarsi di E, ad esempio, modica la probabilità di F , e
la trasforma in P(F |E), secondo la (1.7).
Esempio 1.6
La mia collezione di CD è costituita da un 70% di dischi tradizionali e da un 30% di
dischi contenenti le MP3. Tra i dischi tradizionali il 30% contiene musica rock mentre
il restante 70% contiene brani di musica classica. Tra i dischi contenenti les MP3, il
10% contiene musica classica e il 90% musica rock. Scegliamo a caso un disco e sia
A l'evento il disco estratto è di tipo tradizionale, mentre R rappresenta l'evento il disco estratto contiene musica rock . Ovviamente si avrà Pr(A) = 0.7; ma se dopo
alcuni secondi mi rendo conto che si tratta di un disco rock, la probabilità che si tratti
di un disco tradizionale diventa
Pr(A | R) =Pr(A)Pr(R | A)
Pr(R)=
Pr(A)Pr(R | A)Pr(A)
Pr(R | A
)+Pr(A)Pr(R | A)
=0.7×0.3
0.7×0.3+0.3×0.9=
2148
.
18
♦Esempio 1.7
Da un mazzo di 52 carte se ne estrae una a caso senza osservarla; se ne estrae poi una
seconda che risulta essere un Asso. Qual è la probabilità che la prima carta estratta fosse
un Re?
Soluzione. In questo caso identichiamo F con l'evento La prima carta è un Re e
con E l'evento La seconda carta è un Asso. Poiché P(F) = 4/52, P(E) = 4/52 (non
conoscendo l'esito della prima estrazione, tutte le carte hanno la stessa probabilità di
comparire come seconda carta) e P(E|F) = 4/51, si ha in conclusione
P(F | E) = 452
451
/4
52=
451
.
Potrebbe risultare contro intuitivo il fatto che P(E) = 4/52 o, più in generale, che le
probabilità relative alla seconda estrazione risultino uguali a quelle relative alla prima; ma
quello che conta non è tanto il susseguirsi temporale degli eventi quanto l'informazione
che si ha su di essi: se non conosciamo l'esito della prima estrazione al momento di
calcolare la probabilità di eventi relativi alla seconda estrazione, è come se la prima se
non si fosse mai vericata. Dal punto di vista matematico si può arrivare facilmente al
risultato osservando che, chiamando A l'evento La prima carta è un Asso
Pr(E) = Pr(E ∩A)+Pr(E ∩Ac) = Pr(A) Pr(E | A)+Pr(Ac) Pr(E | Ac)
=4
523
51+
4852
451
=4
52
♦Esempio 1.8
Sugli aerei esiste una spia luminosa che si accende in fase di atterraggio quando il carrello
non fuoriesce regolarmente. Può succedere però che la spia si illumini anche se il carrello
non ha avuto alcun problema. Sia A l'evento Carrello in ordine e sia B l'evento Spia
accesa. È noto, da indagini di laboratorio, che
Pr(B | A) = 0.005, Pr(B | Ac) = 0.999;
19
in altri termini la spia si accende erroneamente solo cinque volte su 1000 mentre non si
accende quando dovrebbe soltanto una volta su 1000. Inne le statistiche di bordo ripor-
tano che la frequenza relativa di volte in cui il carrello non ha funzionato correttamente
è pari al 3%. Calcolare la probabilità che, in caso di spia accesa, si tratti di un falso
allarme.
Soluzione: Dalle informazioni di bordo sappiamo che P(A) = .97; si tratta di calcolare
P(A | B):
P(A | B) = P(A)P(B | A)P(A)P(B | A)+P(Ac)P(B | Ac)
=0.97×0.005
0.97×0.005+0.03×0.999= 0.139.
♦
Un modo ecace di interpretare la formula di Bayes è quello di considerare l'evento E
come un insieme di sintomi (eetti) e l'evento F come una possibile malattia (causa)
associata a tali sintomi.
Esempio 1.9 [ Possibili cause di un sintomo ]
Tizio si reca dal medico perché ha notato alcuni strani puntini rossi sulla sua cute (E=in-
sorgenza di puntini rossi). Tizio non sa a quali cause far risalire tali sintomi. Il medico
sostiene che le possibili cause sono tre: un banale fungo della pelle (F1), varicella (F2), una
grave malattia (F3). Per semplicità assumiamo che una e una sola delle tre cause possa
aver eettivamente agito. Il medico sa anche quanto è verosimile osservare E quando
si è malati di F1, F2, oppure F3. Infatti studi precedenti indicano che P(E | F1) = 0.5,
P(E | F2) = 0.7, mentre P(E | F3) = 0.99. In pratica, in presenza del fungo, si ha una
probabilità su due di osservare i puntini rossi, mentre, nel caso della grave malattia (F3)
l'insorgenza dei puntini è pressoché certa. E' il caso che Tizio si preoccupi? ♦Soluzione. Prima di iniziare a preoccuparsi, è bene che Tizio calcoli, secondo la formula
di Bayes, le probabilità a posteriori delle tre possibili malattie. Per fare questo però
occorrono le probabilità a priori che Tizio, non essendo un esperto del settore, non
conosce: il medico, che assumiamo esperto, sostiene che, nella città di Tizio l'insorgenza
di F1, soprattutto in quella stagione, è molto comune mentre le altre due malattie hanno
20
una scarsa diusione: egli quantica tali valutazioni nelle seguenti probabilità :
P(F1) = 0.7 P(F2) = 0.2 P(F3) = 0.1
Va notato che la somma delle tre probabilità sopra assegnate è 1: infatti stiamo assu-
mendo che una e una sola causa abbia veramente agito. Non vi è invece alcun motivo
per cui le tre probabilità condizionate assegnate precedentemente (le P(E|Fi), i = 1,2,3)
sommino a 1. Alla luce di questi dati la probabilità che Tizio sia aetto da F3 è
P(F3|E) =P(F3)P(E|F3)
P(E)=
0.1×0.99P(E)
=0.099P(E)
. (1.8)
Allo stesso modo
P(F2|E) =P(F2)P(E|F2)
P(E)=
0.7×0.2P(E)
=0.14P(E)
, (1.9)
P(F1|E) =P(F1)P(E|F1)
P(E)=
0.5×0.7P(E)
=0.35P(E)
. (1.10)
Pur senza calcolare P(E), siamo in grado di tranquillizzare Tizio. Infatti,
P(F1|E)P(F3|E)
=0.35
0.099= 3.53
eP(F1|E)P(F2|E)
=0.350.14
= 2.5.
In pratica la presenza del fungo è 3 volte e mezzo più probabile della malattia F3 e 2 volte
e mezzo più probabile della varicella. Se poi vogliamo calcolare le eettive probabilità a
posteriori occorre calcolare P(E). Questo si può fare in due modi, ovviamente equivalenti.
(a) Metodo formale: perché E si verichi, deve vericarsi uno tra i tre eventi Fi; quindi
E = (E ∩F1)∪ (E ∩F2)∪ (E ∩F3);
essendo poi le cause incompatibili,
P(E) = P(E ∩F1)+P(E ∩F2)+P(E ∩F3) (1.11)
= P(F1)P(E|F1)+P(F2)P(E|F2)+P(F3)P(E|F3)
= 0.589
21
(b) Metodo più semplice: dalle formule (1.8),(1.9) e (1.10) si evince che P(E) non
è altro che un fattore di normalizzazione delle tre quantità suddette, necessario
anché la loro somma sia 1. Basta quindi sommare le tre quantità, uguagliare il
risultato a 1 ed esplicitare rispetto a P(E).
Per concludere, viene fornita una versione più formale del teorema di Bayes.
Teorema 1.3 (Teorema di Bayes). . Sia E un evento contenuto in F1 ∪F2 ∪ ·· · ∪Fk,
dove gli Fj, j = 1, · · · ,k sono eventi a due a due incompatibili (il vericarsi di uno di essi
esclude la possibilità che se ne possa vericare un altro). Allora, per ognuno dei suddetti
Fj vale la seguente formula
P(Fj|E) =P(Fj)P(E|Fj)
∑ki=1P(Fi)P(E|Fi)
. (1.12)
Dimostrazione 1.3. Per la legge delle probabilità composte si ha che
P(Fj|E) =P(Fj∩E)P(E)
.
Poiché l'evento E è contenuto nell'unione degli Fi, allora risulta
E = E ∩ (k⋃
i=1
Fi) =k⋃
i=1
(E ∩Fi)
dove gli elementi dell'ultima unione scritta sono eventi mutuamente incompatibili. Allora
P(E) =k
∑i=1
P(E ∩Fi). (1.13)
Dunque,
P(Fj|E) =P(Fj∩E)
∑ki=1P(E ∩Fi)
,
e applicando a ciascuna delle intersezioni al secondo membro la legge delle probabilità
composte si ottiene la (1.12).
22
La dimostrazione del teorema è molto semplice nel caso in cui il numero di eventi
incompatibili F1, · · · ,Fk risulti nito. Qualora essi rappresentino un'innità numerabile,
occorre un momento di zelo, e specicare che, nell'impostazione comune del calcolo delle
probabilità, quella sistematizzata da Kolmogorov nel 1933, il teorema continua ad esse-
re ugualmente valido; al contrario, nell'impostazione di de Finetti [de Finetti, 1937], la
(1.11) non è più garantita e occorre assumere tale uguaglianza o condizioni che la im-
plichino. Nel seguito, salvo avviso contrario, ci muoveremo nell'ambito dell'impostazione
di Kolmogorov. Un'ultima osservazione merita la formula (1.13), che prende il nome di
formula di disintegrazione della probabilità di un evento.
1.3.1 Probabilità a priori e verosimiglianze
Nella formula (1.12) il membro di sinistra prende il nome di probabilità nale (o a po-
steriori) dell'evento Fj: il termine nale sta a signicare dato che si è vericato l'evento
E. Come già osservato, il denominatore del membro di destra della (1.12) è un semplice
fattore di normalizzazione; nel numeratore, invece, compaiono due quantità : la P(Fj) è
la probabilità a priori dell'evento Fj (nell'esempio medico, rappresenta la probabilità che
qualcuno, in un dato contesto geograco, temporale, sanitario, sia aetto dalla malattia
Fj indipendentemente dall'aver riscontrato o meno i sintomi E); la P(E | Fj) rappresenta
invece la verosimiglianza di Fj, cioè la probabilità che si manifestino i sintomi E quando
si è aetti dalla malattia Fj. La formula (1.12) fornisce così un modo sintetico di va-
lutare il grado di incertezza che abbiamo sul vericarsi di un evento, basandoci sia sulle
informazioni a priori che abbiamo riguardo l'evento stesso, sia su ulteriori conoscenze
sopraggiunte, magari mediante un apposito test, come nell'esempio precedente.
Volendo confrontare le probabilità a posteriori di due tra le k possibili cause, ad
esempio Fh e Fj si haP(Fh|E)P(Fj|E)
=P(Fh)
P(Fj)× P(E|Fh)
P(E|Fj).
A conferma di quanto osservato in precedenza, si vede che il rapporto delle probabilità
a posteriori di due eventi è pari al prodotto dei due rapporti: P(Fh)/P(Fj) è il rapporto
a priori mentre il rapporto delle verosimiglianze P(E|Fh)/P(E|Fj) viene spesso indicato
23
con B e prende il nome di fattore di Bayes: esso rappresenta un indicatore di evidenza
relativa per una possibile ipotesi Fh rispetto ad un'altra ipotesi Fj, basato esclusivamente
sui fatti osservati (l'evento E) e non su valutazioni soggettive sul vericarsi degli eventi
Fj, j = 1, · · · ,k. Un valore di B pari a 1 corrisponde al caso di eguale evidenza per le due
ipotesi a confronto.
1.4 L'impostazione soggettiva della probabilità
È bene chiarire subito un aspetto essenziale: la probabilità non è una caratteristica in-
trinseca degli eventi per i quali viene calcolata bensì può dipendere dalla percezione che
l'individuo ha degli eventi stessi. Quando si lancia una moneta presa a caso da un salva-
danaio, siamo tutti pronti a sostenere che la probabilità che la moneta dia testa (T) sia
pari a 0.5: in realtà, a voler essere pignoli, avremmo dovuto vericare che la moneta fosse
regolare (che, ad esempio, non fosse una moneta con due teste!) e che non presentasse
vistose alterazioni.
Allo stesso modo ci appare naturale, estraendo a caso una pallina da un'urna che ne
contiene 10 rosse (R) e cinque blu (B), che la probabilità che la pallina estratta sia B
sia posta pari a 1/3. Ma se chiediamo ad un gruppo di persone di valutare la probabilità
che la squadra di calcio A superi la squadra B nella prossima partita di campionato, è
verosimile aspettarci tante dierenti risposte e nessuno trova da ridire sul fatto che un
tifoso della squadra A reputi più probabile l'evento vittoria della squadra A rispetto,
ad esempio, ad un tifoso della squadra B.
E' giusticabile tutto ciò ? Esistono casi in cui la probabilità è soggettiva (variabile
da individuo a individuo) ed altri in cui è invece uguale per tutti? Certamente no.
La probabilità che un individuo associa ad un evento è sempre soggettiva: essa rap-
presenta il grado di ducia che l'individuo pone nel vericarsi dell'evento. Essa si colloca
dunque, non già all'interno dell'evento bensì tra l'individuo e il mondo esterno: è dall'in-
terazione che scaturisce tra l'individuo e l'evento, dall'interesse che per l'individuo suscita
l'evento che nasce la valutazione della probabilità (si veda Cifarelli & Muliere [1989]).
24
Risulta allora del tutto normale che individui dierenti, di fronte al lancio di una mo-
neta, in assenza di particolari informazioni sulla moneta stessa, concordino nel sostenere
che, non foss'altro per ragioni di simmetria, la probabilità che la moneta dia T è uguale
alla probabilità che la moneta dia C e quindi entrambe valgano 0.5. Ma la partita di
calcio è un qualcosa di ben più complesso e ciascun individuo, con le sue informazioni
e le sue distorsioni (tifo, pregiudizi, superstizioni, etc..) nirà con l'associare all'evento
vince la squadra A una probabilità dierente dagli altri.
Una prima conseguenza della soggettività della probabilità è che non esiste una pro-
babilità corretta, se non forse in alcuni casi speciali. Anche se, come abbiamo visto, un
gran numero di persone concorda nell'assegnare probabilità 0.5 all'evento la moneta dà
T, non esiste alcun meccanismo sico per vericare tale valutazione e non servirebbero
nemmeno un gran numero di prove ripetute per eliminare il dubbio che la probabilità di
T sia 0.5001 e non 0.5.
Il fatto che non esista una probabilità corretta per un dato evento, non ci autoriz-
za però ad associare agli eventi probabilità scelte a caso: pur nella soggettività delle
valutazioni, le probabilità debbono soddisfare alcune condizioni di coerenza.
Negli anni '20 e '30, B. de Finetti, con una serie di scritti (si vedano, ad esem-
pio de Finetti 1937,1981), gettò le basi per la costruzione della teoria soggettiva della
probabilità : a tal ne egli utilizzo lo schema teorico, e il linguaggio, delle scommesse.
Nel prossimo paragrafo verrà illustrata tale impostazione arrivando così alla denizione
soggettiva di probabilità. Inoltre, attraverso la condizione di coerenza, verranno riotte-
nuti quei postulati che altre teorie della probabilità introducono in modo esogeno. La
profonda inuenza che la gura di Bruno de Finetti tuttora esercita nella probabilità e
nella statistica possono essere apprezzati appieno mediante la lettura dei suoi due volumi,
[de Finetti, 1970], apparsi poi in lingua inglese in de Finetti (1974, 1975). e ristampati
in Italia in copia anastatica da Giuré nel 2005.
1.4.1 Denizione e condizione di coerenza
Prima di addentrarci nel linguaggio delle scommesse, è bene chiarire che cosa si intende
per evento nell'ottica soggettiva.
25
Denizione 1.1. Un evento è un ente logico che può assumere solo due valori: vero (V)
o falso (F). Inoltre la situazione sperimentale deve essere tale per cui, una volta eettuata
la prova, si è in grado di vericare se l'evento si sia manifestato come V oppure come F.
Ad esempio, la proposizione La squadra A vincerà il campionato nel 2010 è un
evento, che potrà essere dichiarato vero o falso nel mese di giugno del 2010. Al contrario,
la proposizione La tal moneta dà Testa con probabilità 0.5 non rappresenta un evento
perché non siamo in grado di vericarne la verità o meno: è un evento invece il seguente:
Nei prossimi dieci lanci, la tal moneta fornirà 3 T e 7 C. Possiamo ora dare la denizione
di probabilità [Cifarelli & Muliere, 1989]:
Denizione 1.2. La probabilità di un evento E, per un dato individuo, in un certo
momento della sua vita, è il prezzo P(E) = p che egli ritiene giusto pagare (o ricevere da
uno scommettitore) per partecipare ad una scommessa in cui vincerà (o pagherà ) 0 se
E non si verica oppure 1, qualora E si verichi.
È importante sottolineare che l'individuo deve produrre lo stesso valore di p sia nelle
vesti di scommettitore che nel ruolo del Banco. Se ad esempio l'evento su cui scommet-
tiamo è A = vince la squadra A e Tizio ritiene che p = P(A) = 0.4 allora Tizio deve
essere disposto a
pagare 0.4 per ricevere 1 in caso di vittoria di A (e 0 altrimenti)
oppure
pagare 0.6 per ricevere 1 in caso di mancata vittoria di A (e 0 altrimenti)
C'è da notare che in questo modo la valutazione della probabilità non dipende dall'entità
della posta in palio in quanto tutte le considerazioni n qui esposte funzionano ugualmente
se le poste vengono moltiplicate per una somma S.
Abbiamo già detto che la probabilità è soggettiva ma deve rispettare una condizione
di coerenza.
26
Denizione 1.3. . Una valutazione di probabilità sugli n eventi E1,E2, · · · ,En si dice
coerente se nessuna combinazione di scommesse sugli eventi consente una vincita certa
(indipendentemente dagli eventi Ei, i = 1, · · · ,n, che si vericheranno eettivamente).
Esempio 1.10
Consideriamo il caso di una corsa a cui partecipano n cavalli, e siano p1, p2, · · · , pn le
probabilità di vittoria assegnate agli n cavalli. Consideriamo il caso in cui
p1 + p2 + · · ·+ pn =C < 1;
Allora è suciente scommettere una posta S su ogni cavallo partecipante alla gara per
garantirsi una vincita certa. Infatti la quota pagata per partecipare alle scommesse sarà
p1S+ p2S+ · · ·+ pnS =CS < S
a fronte di una vincita certa pari a S (un cavallo vincerà certamente). ♦Dal precedente esempio, dunque emerge in modo chiaro che, sebbene nella denizione
di probabilità non sia espressamente richiesto, la somma delle probabilità che i singoli
cavalli vincano la corsa non può essere che 1. Inoltre, sebbene nella denizione soggettiva
questo non sia espressamente richiesto, la probabilità di un evento deve essere un numero
compreso tra 0 e 1. Tale vincolo emerge naturalmente, infatti, se vogliamo che la nostra
probabilità sia coerente. Infatti
Teorema 1.4. Condizione necessaria e suciente anché P(E) sia coerente è che
0≤ P(E)≤ 1
In particolare, se P(E) = 0, l'evento è impossibile, se P(E) = 1, l'evento si dice certo.
Dimostrazione 1.4. Sia p = P(E) e assumiamo di scommettere una posta S sul
vericarsi di E. Quando E si verica il guadagno ottenuto dalla scommessa è W (E) =
S− pS = S(1− p). Quando E non si verica si ha invece W (E) = −pS. Se prendiamo
p < 0, allora basta scommettere una quantità S positiva per garantirci una vincita sicura.
27
Se invece prendiamo p > 1, sarà suciente prendere una posta S negativa (ovvero,
invertire i termini della scommessa) per garantirci una vincita certa.
Ne segue che 0≤ P(E)≤ 1. Inoltre, se l'evento E è certo si avrà certamente W (E) =
(1− p)S e, per non avere vincite certe, deve per forza essere W (E) = 0, da cui p = 1;
allo stesso modo si verica che p deve essere 0 nel caso di eventi impossibili.
È possibile derivare, attraverso la condizione di coerenza tutte le più familiari regole
del calcolo delle probabilità, come ad esempio il teorema delle probabilità totali.
Meritano un discorso a parte le probabilità condizionate che, nell'impostazione sog-
gettiva, sono considerate vere e proprie probabilità ma riferite ad eventi subordinati (del
tipo E1 | E2): in termini di scommesse la probabilità condizionata P(· | ·) si denisce
esattamente come nel caso precedente quando E2 si verica, mentre non si procede alla
scommessa -non se ne valuta la probabilità - se, al contrario, E2 non si verica.
Esempio 1.11
In una sala scommesse si accettano scommesse sull'esito dell'incontro di calcio tra la
squadra A e la squadra B. Gli esperti sostengono che il giocatore Pallino è molto im-
portante per la squadra A, le cui probabilità di vittoria sono molto diverse con Pallino in
campo o meno. Siano E1 l'evento Vince la squadra A e E2 l'evento Pallino gioca.Uno scommettitore può decidere di pagare un prezzo p per partecipare ad una scommessa
relativa all'evento E1 | E2. In questo caso gli esiti possibili della scommessa sono:
Gioca Pallino e la squadra A vince: Tizio incassa 1;
Gioca Pallino e la squadra A perde: Tizio incassa 0;
Non gioca Pallino: la scommessa è annullata e a Tizio viene restituita la posta p
♦
Dalla precedente denizione di probabilità condizionata è possibile far discendere in
modo diretto, attraverso la condizione di coerenza, la legge delle probabilità composte
così come il Teorema di Bayes.
28
1.5 Variabili casuali
Spesso, di un dato esperimento, ci interessano soltanto uno o più specici aspetti numeri-
ci. Ad esempio, quando si estrae un campione casuale di 10 soggetti da una popolazione
di studenti, su questi vengono poi rilevate alcune grandezze numeriche importanti per
l'indagine in questione (come il peso, l'altezza o il numero di esami già sostenuti) mentre
ne vengono trascurate tantissime altre. Allo stesso modo, quando si lancia un dado, il
più delle volte ci interessa sapere quale numero da 1 a 6 mostrerà sulla faccia superiore,
meno frequentemente saremo interessati al tempo che il dado ha impiegato per arrestarsi!
Questo signica che, ad ogni possibile realizzazione ω ∈ Ω, è possibile associare un va-
lore X(ω) che rappresenta il valore numerico associato a quella particolare realizzazione.
Prima di denire in modo formale il concetto di variabile aleatoria, è necessario introdurre
il concetto di σ -algebra di Borel.
Denizione 1.4. Si chiama σ -algebra di Borel e si indica col simbolo B(R) la più
piccola σ -algebra ottenibile a partire da tutti gli intervalli aperti della retta reale mediante
le operazioni di unione, intersezione e negazione.
Denizione 1.5. Dato uno spazio Ω, dotato di una σ -algebra A , si chiama variabile
aleatoria una funzione X : Ω→ R tale che, ∀B ∈B(R),
P(X ∈ B) = P(ω : X−1(ω) ∈ B). (1.14)
La formula (1.14) stabilisce una condizione di misurabilità della funzione X e aerma
che è possibile calcolare la probabilità di un evento B solo quando l'immagine inversa di
B appartiene alla σ -algebra A . La σ -algebra B(R) gioca dunque il ruolo di immagine
della σ -algebra di partenza mediante la funzione X(ω)
Tra le variabili aleatorie (v.a.), grande importanza rivestono due famiglie:
v.a. discrete;
v.a. assolutamente continue.
29
Denizione 1.4. Una variabile casuale X, si dice discreta se può assumere un numero
nito o al più numerabile di valori reali x1,x2, . . . ; in tal caso esiste una funzione PX
denita da
PX(x) = Pr(()X = x),
detta funzione di massa di probabilità o densità discreta, tale che
1. 0≤ P(X = xi)≤ 1;
2. ∑∞i=1P(X = xi) = 1.
L'insieme dei valori assunti dalla X può dunque avere cardinalità nita o numerabile; in
entrambi i casi esso prende il nome di spettro e verrà indicato con il simbolo S. In questo
caso si denisce la distribuzione di probabilità della v.a. X elencando i valori assumibili
dalla X e le probabilità con cui questi valori vengono assunti. Ad esempio, nel caso di
una variabile che assume k diversi valori, x1,x2, . . . ,xk), scriveremo
valori di X x1 x2 x3 · · · x j · · · xk
P(X = xi) p1 p2 p3 · · · p j · · · pk
Un esempio di variabile casuale discreta semplice ma molto importante è la variabile
casuale indicatrice che assume valore 1 quando un certo evento, diciamo E, si verica e
0 quando non si verica
IE(ω) =
1 se ω ∈ E
0 se ω 6∈ E.
Esempio 1.12 [Distribuzione binomiale.] Si lancia tre volte una moneta che dà testa
(T) con probabilità p, e croce (C) con probabilità q = 1− p. I tre lanci possono essere
considerati indipendenti e siamo interessati allo studio della v.a. X = numero di T nei
tre lanci .
30
Al generico lancio i-esimo associamo la v.a. Yi che può assumere i due valori 0 e 1
abbinati rispettivamente agli eventi C e T . Ne consegue che
X = Y1 +Y2 +Y3;
inoltre è presto visto (mediante elencazione di tutti i 23 = 8 possibili risultati) che la X
può assumere solo i valori interi da 0 a 3 compresi. Inoltre, per l'indipendenza dei lanci
e per semplici ragionamenti di carattere combinatorio si ha che, per j = 0,1,2,3,
P(X = j) =(
3j
)p jq3− j.
La formula appena scritta è un caso particolare della legge binomiale che stabilisce, in
presenza di un generico numero n di prove indipendenti e dicotomiche e tali che la pro-
babilità di successo in ciascuna prova è costante e vale p, le probabilità di osservare k
successi ed n− k insuccessi. ♦
Una variabile casuale X si dice assolutamente continua se può assumere tutti i valori
reali contenuti in un intervallo [a,b], i cui estremi possono anche essere inniti.
Contrariamente a quanto avviene per le variabili casuali discrete, nel caso di una
variabile casuale continua, un evento con probabilità zero non è irrealizzabile. Questo
accade perché l'assegnazione della probabilità su un supporto di numeri reali deve avvenire
secondo un criterio diverso da quello utilizzato per le variabili discrete. Consideriamo ad
esempio il caso di una v.a. che può assumere tutti i valori reali nell'intervallo [0,1], e
supponiamo di assegnare, ad ogni valore reale dell'intervallo, una probabilità positiva, per
quanto piccola, pari ad ε . È chiaro che l'ammontare complessivo di probabilità assegnato
all'insieme [0,1] risulterebbe ben superiore a 1. Questo ci obbliga, in generale, ad asse-
gnare probabilità zero a tutti i singoli valori dell'intervallo e procedere all'assegnazione
della probabilità agli intorni dei singoli punti.
Denizione 1.5. Una variabile casuale reale X, si dice assolutamente continua se
esiste una funzione fX , detta funzione di densità di probabilità, che gode delle
seguenti proprietà :
31
f (x)≥ 0, ∀x ∈ R;
∫R f (x)dx = 1.
per ogni insieme B ∈B(R),
P(X ∈ B) =∫
Bf (x)dx.
e, tale che,
Esempio 1.13 [Distribuzione uniforme.] In una versione super tecnologica della ruota
della fortuna, supponiamo di azionare una lancetta che può fermarsi in un qualunque
punto di una circonferenza di lunghezza 2πr, dove r è il raggio della circonferenza;
assumiamo inoltre che, per ragioni di simmetria, nessun punto possa considerarsi più
probabile di un altro. In altri termini, tutti i valori da 0 a 2πr hanno la stessa densità
di probabilità. In altri termini, a sub-intervalli di eguale ampiezza di [0,2πr) occorre
assegnare la stessa probabilità, e questo implica che la funzione di densità f debba essere
costante, ovvero
f (x) =1
2πr, 0≤ x≤ 2πr.
♦
Esempio 1.14 [Distribuzione esponenziale.] Si dice che la v.a. X ha distribuzione
esponenziale di parametro λ - in breve X ∼ Exp(λ ) - se la sua funzione di densità è
f (x) = λ exp(−λx) , 0≤ x <+∞. (1.15)
La v.a. esponenziale è spesso utilizzata come modello per valutare i tempi aleatori di
attesa (del prossimo autobus, del prossimo sportello libero in banca, etc.); dalla denizione
di v.a. discende immediatamente che, se volessimo calcolare la probabilità che X sia
superiore ad un certo livello K dovremmo calcolare
P(X > K) =∫
∞
Kλ exp(−λx)dx = · · ·= exp(−λK) .
32
♦
Esistono poi v.a. che non sono classicabili né come discrete né come assolutamente
continue. Esempi di questo tipo sono forniti da esperimenti che, con una certa probabilità
p forniscono un valore specico, e con probabilità complementare generano un valore
casuale appartenente ad un intervallo specico. Una situazione concreta di questo tipo è
il nostro tempo di attesa aleatorio al semaforo: se arriviamo con il verde il nostro tempo
di attesa è zero, mentre se arriviamo con il rosso attenderemo un tempo aleatorio che
dipende da quando il segnale di rosso è iniziato (vedi Esercizi).
Abbiamo introdotto la probabilità come una funzione d'insieme: questa sua caratte-
ristica matematica la rende spesso poco operativa e poco adatta ad elaborazioni di calcolo.
Per questo motivo è utile introdurre una nuova funzione, stavolta di punto, ovvero denita
per ogni valore della retta reale in grado di fornirci ugualmente le informazioni relative
alla probabilità con cui una certa v.a. X assume valori nei vari insiemi B ∈B(R).
Denizione 1.6. Data la variabile casuale X, si dice funzione di ripartizione associata
alla distribuzione della variabile X la funzione FX : R→ [0,1] denita da
FX(b) = P(X ≤ b), b ∈ R.
La funzione di ripartizione FX(·) è dotata delle seguenti proprietà
1. FX(·) è non decrescente, cioè b1 < b2, ⇒ FX(b1)≤ FX(b2);
2. limb→−∞ FX(b) = 0; limb→+∞ FX(b) = 1;
3. FX è continua a destra, cioè limh→0 FX(b+h) = FX(b).
La funzione di ripartizione fornisce la probabilità che la variabile aleatoria X assuma
valori non superiori a un certo valore b.
Osservazione 1.2. Sebbene la funzione di ripartizione fornisca direttamente la probabi-
lità dei soli intervalli aperti a sinistra, attraverso semplici operazioni è possibile risalire alla
33
probabilità di qualunque insieme boreliano. Pur senza dimostrare il suddetto risultato,
forniamo alcuni ovvi esempi:
P(a < X ≤ b) = F(b)−F(a).
P(X > a) = 1−P(X ≤ a) = 1−F(a).
Risulta poi ovvio che, per variabili aleatorie assolutamente continue, P(X < a) = P(X ≤a), per ogni valore di a∈R. Questo non avviene in generale per le variabili discrete come
vedremo tra breve mediante alcuni esempi.
Esempio 1.15 [Distribuzione binomiale] Riprendiamo in esame la v.a. Bin(3, p) dell'E-
sempio 1.12, e calcoliamone la funzione di ripartizione, ponendo per semplicità p = 0.4.
Poiché X può assumere solo i valori nello spettro S = 0,1,2,3, è ovvio che
F(x) = P(X ≤ x) = 0, ∀x < 0.
Inoltre, per ogni 0 ≤ x < 1, avremo P(X ≤ x) = P(X = 0) = 0.63 = 0.216. Allo stesso
modo, per ogni 1 ≤ x < 2 si ha F(x) = P(X ≤ x) = P(X = 0)+P(X = 1) = 0.63 + 3×0.620.4 = 0.216+0.432 = 0.648, e per ogni 2≤ x < 3,
F(x) = P(X ≤ x) = P(X = 0)+P(X = 1)+P(X = 2)
= 0.63 +3×0.620.4+30.6×0.42 = 0.936.
Si avrà inne F(x) = 1, per ogni x≥ 3. Avremo dunque
F(x) =
0 x < 0
0.216 0≤ x < 1
0.648 1≤ x < 2
0.936 2≤ x < 3
1 3≤ x
.
Da notare la discontinuità della funzione di ripartizione in corrispondenza dei punti dello
spettro S.
34
−4 −2 0 2 40.0
0.20.4
0.60.8
1.0
Funzione di ripartizione per una v.a. Bin(3,0.4)
x
♦Gracamente la funzione di ripartizione di una variabile aleatoria discreta si presenta come
una funzione a gradini. I salti avvengono in corrispondenza dei valori che la v.a. può
assumere e l'altezza del gradino in x j è data proprio da p j = P(X = x j), j = 1, . . . ,k.. Più
in generale se una v.a. X è discreta ed assume i valori (x1,x2, . . . ,xk), con probabilità
rispettive (p1, p2, . . . , pk), la funzione di ripartizione calcolata nel generico punto x è data
dalla formula
F(x) = ∑x j:x j≤x
P(X = x j) = ∑x j:x j≤x
p j. (1.16)
Esempio 1.16 [Distribuzione Uniforme] Sia X una v.a. aleatoria con distribuzione uni-
forme nell'intervallo (a,b). In seguito useremo l'abbreviazione X ∼ Unif(a,b). Questo
implica che la funzione di densità di X è
f (x) =
1b−a a < x < b
0 altrimenti.
Per calcolare la funzione di ripartizione occorre notare preliminarmente che, essendo la
probabilità concentrata nell'intervallo (a,b), si avrà F(x) = 0, per ogni x≤ a, e F(x) = 1,
per ogni x > b. Inoltre per ogni a < x≤ b, avremo
F(x) =∫ x
af (t)dt =
∫ x
a
1b−a
dt =x−ab−a
.
35
In conclusione,
F(x) =
0 x≤ ax−ab−a a < x≤ b
1 x > b.
♦Da notare che in questo esempio, come in tutti i casi di v.a. assolutamente continue,
la funzione di ripartizione non ha salti, cioè è continua su tutti i punti del supporto. In
altri termini, se X è assolutamente continua, F(x+) = F(x), per ogni x reale. poiché,
per ogni x, si ha P(X = x) = 0. Questo implica che, per v.a. assolutamente continue,
P(a≤ X ≤ b) = P(a < X ≤ b) = P(a≤ X < b) = P(a < X < b).
Sempre nel caso di variabili assolutamente continue, la funzione di densità f e la funzione
di ripartizione F di una v.a. aleatoria sono legati dalla ovvia relazione
P(a≤ X ≤ b) = F(b)−F(a) =∫ b
af (x)dx
che per a→−∞ diventa
P(X ≤ b) = F(b) =∫ b
−∞
f (x)dx.
Derivando, ove possibile, i due membri della precedente relazione si ottiene
∂F(b)∂b
= f (b)db,
cioè la densità non è altro che la derivata della funzione di ripartizione, nei punti in cui
essa ammette derivata.
Esempio 1.17 [Distribuzione esponenziale ] Sia X ∼ Exp(λ ), con funzione di densità
data dalla (1.15). Per calcolare la funzione di ripartizione occorre determinare, per ogni
valore b ∈ R, la quantità FX(b) = Pr(X ≤ b). Poiché la densità di X è positiva solo per
36
x > 0, è ovvio che FX(b) = 0, per ogni valore di b negativo o nullo. Per b > 0, invece,
FX(b) = Pr(X ≤ b) =∫
∞
bfX(x)dx
=∫ b
0λ exp(−λx)dx
= 1− exp(−λb) .
♦
1.6 Vettori aleatori
La denizione di v.a. si estende in modo immediato al caso multidimensionale.
Denizione 1.6. Dato uno spazio Ω, dotato di una σ -algebra A , si chiama vettore
aleatorio X = (X1, . . . ,Xd) una funzione X : Ω→ Rd tale che, ∀B ∈B(Rd),
P(X ∈ B) = P(ω : X(ω) ∈ B) = P(X−1(B)). (1.17)
Anche in questo caso diremo che il vettore X è misurabile rispetto alla σ -algebra di
riferimento.
La distribuzione del vettore aleatorio X è anche in questo caso ottenuta mediante
l'immagine inversa dalla del vettore aleatorio sulla σ -algebra dello spazio di partenza,
cioè
Pr(X ∈ B) = P(X−1(B)).
Se le componenti (X1, . . . ,Xd) del vettore X sono discrete, la distribuzione di probabilità
del vettore X è data dalla funzione di probabilità
p(x1,x2, . . . ,xd) = P(X1 = x1,X2 = x2, . . . ,Xd = xd),
dove ogni valore x j varia nello spettro S j della corrispondente v.a. X j. La formula sopra
scritta viene in genere denita distribuzione congiunta del vettore X.
37
Analogamente diremo che la distribuzione di X è assolutamente continua se
P(X ∈ B) =∫
BfX(x)dx
per qualche funzione non negativa f : Rd→R+ che prende il nome di densità del vettore
X. Nella precedente formula abbiamo usato l'abbreviazione dx al posto della più corretta
dx1dx2 . . .dxn.
Esempio 1.18 [ Estrazione senza ripetizione e legge ipergeometrica [Dall'Aglio, 2000]] Si
abbia un mazzo di carte da poker come nell'Esempio 1.3, e si estraggano senza ripetizione
5 carte dal mazzo: si indichi con X il numero di K estratti, e con Y il numero di Q estratte.
Vogliamo determinare la legge congiunta del vettore aleatorio (X ,Y ) Basta un semplice
ragionamento per convincersi che, dato lo stesso numero di K e Q nel mazzo, le due v.a.
hanno, prese singolarmente, la stessa distribuzione, con spettro SX = SY = 0,1,2,3,4.Inoltre, per r = 0,1,2,3,4,
P(X = r) = P(Y = r) =
(4r
)( 485−r
)(525
) .
Per calcolare la distribuzione congiunta di (X ,Y ) occorre riettere sul fatto che, date le
5 carte, le due v.a. X e Y debbono sommare ad un numero minore o uguale a 5. Allora,
per ogni coppia (r,s) tale che 0≤ r+ s≤ 5, si ha
P(X = r,Y = s) =
(4r
)(4s
)( 445−r−s
)(525
) . (1.18)
La distribuzione di X (e Y ) prende il nome di distribuzione ipergeometrica, molto frequente
in situazioni che coinvolgono esperimenti con estrazioni senza ripetizione. Applicando la
formula (1.18) si ottiene la tabella seguente che rappresenta la distribuzione congiunta
del vettore aleatorio (X ,Y ). La riga e la colonna contrassegnate dal totale rappresentano
invece, come vedremo tra breve, le distribuzioni marginali delle v.a. X e Y rispettivamente.
38
Y X 0 1 2 3 4 Tot.
0 0.418 0.209 0.031 0.001 ≈ 0 0.659
1 0.209 0.082 0.009 0.0002 ≈ 0 0.299
2 0.031 0.009 0.0006 ≈ 0 0 0.040.
3 0.001 0.0002 ≈ 0 0 0 0.002
4 ≈ 0 ≈ 0 0 0 0 ≈ 0
Tot. 0.659 0.299 0.040 0.002 ≈ 0 1
♦
Esempio 1.19 [ ] Si consideri un bersaglio circolare di raggio pari a R e assumiamo di
lanciare a caso una freccia verso il bersaglio. La v.a. X che denota il punto di arrivo della
freccia avrà dunque una distribuzione uniforme sulla supercie del cerchio. In formula,
se assumiamo che il centro della circonferenza coincida con l'origine del piano (x1,x2), la
densità di X = (X1,X2) è
fX(x1,x2) =
1πR2 x2
1 + x22 ≤ R2
0 altrove
Per calcolare, ad esempio, la probabilità che la freccia colpirà un punto che non disti più
di k dal centro, basterà considerare il rapporto tra l'area del cerchio di raggio k e quella
del cerchio di raggio R, cioè k2/R2. ♦
Densità marginali e condizionate
Supponiamo che il vettore aleatorio d-dimensionale X abbia densità fX(·). Siano inoltre
Y = (X1, . . . ,Xk) e Z = (Xk+1, . . . ,Xd) per qualche 1 ≤ k ≤ d− 1, due sub-vettori di Xcosicché X = (Y,Z), e poniamo fY,Z(y,z) = fX(x). Volendo calcolare la distribuzione
39
del vettore Y, avremo
P(Y ∈ B) = P((Y,Z) ∈ B×Rd−k)
=∫
B×Rd−kfY,Z(y,z)dydz
=∫
B
[∫Rd−k
fY,Z(y,z)dz]
dy
=∫
BfY(y)dy,
dove si è posto
fY(y) =∫Rd−k
fY,Z(y,z)dz.
Abbiamo così ottenuto la distribuzione marginale di Y che, essendo espressa mediante
un integrale, risulta anch'essa assolutamente continua con densità fY(y).
La densità del vettore Z condizionata all'evento Y = y, si esprime attraverso la
seguente formula:
fZ|Y(z|y) =fY,Z(y,z)
fY(y), (1.19)
denibile per ogni valore y tale che fY(y) 6= 0. La fZ|Y(z|y) è una densità in z, dettaappunto densità condizionata di Z dato Y = y.
La giusticazione di questa formula richiede un procedimento al limite in quanto si sta
condizionando ad un evento di probabilità nulla. Per giusticare quanto scritto, almeno
a livello intuitivo, limitiamoci al caso in cui sia X e Y sono v.a. reali e ricordiamo che la
densità di una v.a. Y calcolata in un punto y, soddisfa, per denizione, la relazione
fY (y)dy≈ Pr(y < Y < y+dy) .
Analogamente
fX |Y (x | Y = y)dx =fX ,Y (x,y)dxdy
fY (y)dy
≈ Pr(x < X < x+dx∩ y < Y < y+dy)Pr(y < Y < y+dy)
= Pr(x < X < x+dx | y < Y < y+dy)
40
Indipendenza
Tra le varie possibili relazioni tra le componenti di un vettore aleatorio, notevole im-
portanza riveste la relazione di indipendenza. Limitiamoci per semplicità al caso di due
v.a. reali: l'estensione al caso vettoriale è immediata. Diremo che le v.a. X e Y sono
indipendenti, e lo indicheremo con il simbolo
X ⊥⊥ Y
se, per ogni coppia di insiemi A, B ∈B(R) risulta:
Pr(X ∈ A,Y ∈ B) = Pr((X ,Y ) ∈ A×B) = Pr(X ∈ A)Pr(Y ∈ B) .
Nel caso in cui il vettore aleatorio (X,Y) è assolutamente continuo con densità fX,Y(x,y),e di conseguenza, le densità marginali sono fornite dalle
fX(x) =∫Y
fX,Y(x,y)dy
fY(y) =∫X
fX,Y(x,y)dx,
allora le seguenti aermazioni sono equivalenti:
X⊥⊥ Y⇐⇒ fX,Y(x,y) = fX(x) fY(y)
⇐⇒ fX|Y(x|y) = fX(x)
⇐⇒ fY|X(y|x) = fY(y).
1.7 Relazioni tra variabili aleatorie
In questo paragrafo consideriamo un problema molto frequente nelle applicazioni. A
partire dalla conoscenza della distribuzione di un vettore aleatorio X, k-dimensionale, si
vuole determinare la distribuzione di una funzione Y = g(X) del vettore aleatorio X, con
Y h-dimensionale e h≤ k. Una trattazione formale del problema, per quanto utile a livello
teorico, non porta molto lontano. Siano infatti FX e FY le funzioni di ripartizione di X e
41
Y. Avremo che, in generale, si potrà scrivere, per ogni y ∈ Rh,
FY(y) = P(Y ≤ y) = P(g(X)≤ y)
=
∫
x:g(x)≤y fX(x)dx se X è ass. continua
∑x:g(x)≤yP(X = x) se X è discreta.
La risoluzione del suddetto integrale (o somma), non è in generale aatto agevole e
deve essere arontata, volta per volta, con gli adeguati strumenti di calcolo, analitico o
numerico.
È più opportuno allora, illustrare una serie di situazioni maggiormente frequenti, nelle
quali è possibile ottenere la distribuzione di g(X).
1.7.1 Il caso di X e Y entrambe v.a. reali
Sia X una v.a. reale e sia g(·) una funzione reale a valori reali. Per ora assumiamo
che la g(x) risulti anche monotona non decrescente; l'estensione al caso generale non è
complessa. In questo caso si può scrivere
FY (y) = P(Y ≤ y) = P(g(X)≤ y) = P(X ≤ g−1(y)) = FX(g−1(y)). (1.20)
I passaggi precedenti, per quanto ovvi, suggeriscono la via maestra per risolvere il
problema: si è infatti passati da un problema relativo alla distribuzione della v.a. Y ad
uno sulla distribuzione della v.a. X che invece conosciamo. Se, inoltre, la v.a. X è
assolutamente continua e la trasformazione g(·) è continua e dierenziabile, allora anche
la v.a. Y è assolutamente continua e avremo
fY (y) =ddy
FY (y) =ddy
FX(g−1(y))
= fX(g−1(y))| ddy
g−1(y)|
L'assunzione che g sia una trasformazione monotona crescente è solo di comodo. Un
risultato del tutto analogo vale nel caso di g decrescente: basta fare attenzione al verso
delle disuguaglianze nella (1.20). Conviene dunque riformulare il risultato nel seguente
42
Teorema 1.5. Se X è una v.a. reale assolutamente continua con densità fX(x), x ∈ Re g(·) è una funzione reale invertibile, allora la densità della v.a. Y = g(X) è data da
fY (y) = fX(g−1(y))| ddy
g−1(y)|. (1.21)
e il supporto di Y si ottiene applicando la funzione g al supporto di X , cioè SY = g(SX).
Esempio 1.20 [ La v.a. log-normale] Sia X ∼ N(0,1). Si vuole calcolare la legge di
Y = exp(X). La funzione esponenziale è monotona e g−1(y) = logy ha derivata 1/y.
Inoltre il supporto di Y è dato dalla semiretta positiva. Dunque la densità di Y è
fY (y) =1
y√
2πexp(−1
2log2 y
), y > 0 (1.22)
La densità (1.22) prende il nome di Log-Normale, molto utilizzata nelle applicazioni -
nanziarie. ♦
Esempio 1.21 [ Discretizzazione di una v.a. esponenziale] Sia X ∼exp(λ ), e deniamo
la v.a.
Y = ceil(X)
dove il simbolo ceil indica, dall'inglese ceiling, il più piccolo valore intero maggiore o
uguale a X .
Avremo allora che Y ∼Geo(p), con p = e−λ . ♦Nell'ultimo esempio, poiché la v.a. Y è discreta, non è stata utilizzata la formula (1.21).
1.7.2 Il caso di Y reale e X multidimensionale
A volte l'esperimento consiste nell'osservare un vettore aleatorio ma l'oggetto di interesse
è una funzione reale del risultato. In questo caso, sebbene la teoria enunciata all'inizio di
questa sezione sia pienamente applicabile, in pratica occorre arontare il problema caso
per caso. Vedremo ora degli esempi notevoli.
Esempio 1.22 [Somma di due v.a. indipendenti] Siano X e Y due v.a. indipendenti
43
con funzione di ripartizione FX e FY . Si vuole determinare la distribuzione della v.a.
Z = X +Y . In questo caso
FZ(z) = P(X +Y ≤ z) =∫(x,y):x+y≤z
dFX(x)dFY (y)
=∫ +∞
−∞
∫ z−x
−∞
dFY (y)dFX(x) =∫ +∞
−∞
FY (z− x)dFX(x). (1.23)
L'ultima formula scritta prende il nome di convoluzione delle due distribuzioni. Da
notare che, nel caso in cui la v.a. Y è assolutamente continua, lo sarà anche la Z,
indipendentemente dalla natura di X e la densità è
fZ(z) =ddz
FZ(z) =∫ +∞
−∞
fY (z− x)dFX(x).
Se poi anche la v.a. X è assolutamente continua l'ultima formula si può scrivere come
fZ(z) =∫ +∞
−∞
fY (z− x) fX(x)dx.
Risolviamo come esercizio il caso in cui X e Y siano indipendenti e somiglianti con distri-
buzione di tipo N(0,1). ♦
Esempio 1.23 [Distribuzione di una v.a. di Poisson condizionata alla somma di due
v.a di Poisson indipendenti.] Siano X e Y indipendenti, con legge di Poisson di tasso,
rispettivamente pari a λX e λY . Determinare la distribuzione della v.a. X |(X +Y = k).
Si dimostra facilmente che la legge è di tipo Binomiale con parametri k e λX/(λX +λY ). ♦
Trasformazioni multidimensionali
Le regole generali per determinare la distribuzione di funzioni di variabili aleatorie restano
invariate nel caso multidimensionale.
Nel caso di trasformazioni di v.a. assolutamente continue, esiste una formula elegante
e facilmente applicabile. Consideriamo il vettore aleatorio X con densità fX e supponiamo
che esista un insieme aperto S ⊆ Rd tale che Pr(X ∈ S) = 1. Venga denita poi su S la
funzione g : Rd → Rd invertibile e continuamente dierenziabile, con determinante dello
44
Jacobiano strettamente diverso da zero per ogni punto di S. Allora il vettore aleatorio
Y = g(X) ha a sua volta una densità assolutamente continua con densità fY data da
fY(y) = fX(g−1(y))∣∣∣∣∂g−1(y)
∂y
∣∣∣∣1g(S)(y), (1.24)
dove∣∣∂g−1(y)/∂y
∣∣ rappresenta il modulo del determinante dello Jacobiano della trasfor-
mazione inversa x = g−1(y):
det
∂x1∂y1
. . . ∂x1∂yd
......
∂xd∂y1
. . . ∂xd∂yd
,
e g(S) è l'immagine y = g(x) : x ∈ S di S mediante g.
Esempio 1.24 [ Due normali indipendenti] Siano X e Y due v.a. indipendenti e so-
miglianti con distribuzione N(0,1). Vogliamo determinare la legge del vettore (W,Z) in
cui
W = X−Y e Z = X +Y ;
♦
Esempio 1.25 [Somma e rapporto di v.a. di tipo Gamma.] Siano X e Y v.a. indipendenti;
sia X ∼Ga(α1,1/β ) e Y ∼Ga(α2,1/β ). Vogliamo determinare la densità congiunta delle
v.a. (U,V ), dove
U = X +Y, V = X/Y.
L'applicazione (x,y)→ (u,v) è denita su tutto il quadrante positivo tranne che sull'asse
delle x. Tuttavia Pr(Y = 0) = 0 e possiamo applicare il risultato precedente. La funzione
inversa è data da
x =uv
1+ v, y =
u1+ v
.
Inoltre anche le variabili U e V sono strettamente positive perché lo sono x e y. Il modulo
del determinante dello Jacobiano vale∣∣∣∣∣v/(1+ v) u/(1+ v)2
1/(1+ v) −u/(1+ v)2
∣∣∣∣∣= u(1+ v)2
45
Ne segue che, per u,v,> 0
fU,V = fX
(uv
1+ v
)fY
(u
1+ v
)u
(1+ v)2
=1
Γ(α1)Γ(α2)β α1+α2exp(− uv
β (1+ v)+
u(β (1+ v)
)× (
uv1+ v
)α1−1(u
1+ v)α2−1 u
(1+ v)2
=1
Γ(α1)Γ(α2)β α1+α2exp(− u
β
)uα1+α2−1× (
v1+ v
)α1−1(1
1+ v)α2+1
=1
Γ(α1 +α2)β α1+α2exp(− u
β
)uα1+α2−1× Γ(α1 +α2)
Γ(α1)Γ(α2)(
v1+ v
)α1−1(1
1+ v)α2+1
= fU (u)× fV (v)
Abbiamo così dimostrato che U e V sono indipendenti. Inoltre
U ∼ Ga(α1 +α2,1/β ):
la legge di V è simile ad una F di Fisher. In particolare, utilizzando ancora la regola
di trasformazione di v.a., si può dimostrare che
V1+V
∼ Beta(α1,α2);
da notare che la distribuzione di V non dipende da β . ♦
1.8 Esempi
Esempio 1.26 [Rapporto di due Normali ]
Siano X e Y due v.a. indipendenti e somiglianti con legge normale standard,
X ,Y iid∼ N(0,1)
Si vuole determinare la legge di Z = X/Y . Possiamo ottenere la legge di Z come legge
marginale del vettore aleatorio (Y,Z), dopo aver operato la trasformazione da (X ,Y ) a
(Z,Y ) Per la formula (1.24),
fZ,Y (z,y) = fX ,Y (x(y,z),y))∣∣J∣∣,
46
dove J = ∂ (x,y)∂ (z,y) . In questo caso |J| vale |y|
Dunque,
fZ,Y (z,y) =1
2π|y|exp
(−1
2y2(1+ z2)
),
e quindi
fZ(z) =1
2π
∫∞
−∞
|y|exp(−1
2y2(1+ z2)
)dy
=1π
∫∞
0y exp
(−1
2y2(1+ z2)
)dy
=1
π(1+ z2), z ∈ R.
La densità di Z è quella di una v.a. aleatoria di Cauchy, che rincontereremo ancora.
La sua caratteristica principale è nello spessore delle code, di natura polinomiale anziché
esponenziale come nel caso della legge normale o esponenziale.
♦Esempio 1.27 [Somma di uniformi ] Siano X ,Y iid∼ Unif(0,1) e si voglia calcolare la legge
della v.a. somma Z = X +Y . Vista l'indipendenza delle due v.a., è conveniente utilizzare
la formula di convoluzione,
fZ(z) =∫
fX(x) fY (z− x)dx
ricordando che
fX(t) = fY (t) =
1 t ∈ (0,1)
0 altrimenti
Per z /∈ (0,2) la densità di Z è ovviamente nulla.
L'argomento delle due densità è compreso in (0,1) se e solo se 0 < x < 1 e z−1 < x < z;
Per 0 < z≤ 1, dunque il prodotto fX(x) fY (z− x) vale 1 se e solo se 0 < x < z, cosicché,
per 0 < z < 1,
fZ(z) =∫ z
0dx = z.
47
Per 1 < z≤ 2, invece il prodotto fX(x) fY (z−x) vale 1 se e solo se z−1 < x < 1, cosicché,
per 1 < z≤ 2,
fZ(z) =∫ 1
z−1dx = 2− z.
Avremo dunque
fZ(z) =
z 0 < z≤ 1
2− z 1 < z≤ 2
0 altrove
.
♦
Esempio 1.28 [Minimo e massimo di n v.a. ] Siano X1,X2, . . . ,Xn indipendenti e
somiglianti con funzione di ripartizione FX . Vogliamo calcolare la legge di
Z = maxi=1,...,n
Xi e W = mini=1,...,n
Xi
Iniziamo da Z e notiamo che i due eventi
(Z ≤ z) e (X1 ≤ z∩X2 ≤ z∩·· ·∩Xn ≤ z)
coincidono, e quindi, per l'indipendenza e la somiglianza delle Xi,
FZ(z) = P(Z ≤ z) = P(X1 ≤ z∩X2 ≤ z∩·· ·∩Xn ≤ z)
=n
∏i=1
P(Xi ≤ z) = [P(X1 ≤ z)]n = FX(z)n
Se poi si aggiunge l'ipotesi che le Xi sono assolutamente continue con densità fX allora
anche la v.a. Z è assolutamente continua con densità
fZ(z) =∂
∂ zFX(z)n = nFX(z)n−1 fX(z) (1.25)
Per quanto riguarda la v.a. W , occorre notare, in via preliminare, che
FW (w) = P(W ≤ w) = 1−P(W > w).
48
Inoltre i due eventi
(W > w) e (X1 > w∩X2 > w∩·· ·∩Xn > w)
coincidono e
FW (w) = 1−P(W > w) = 1−P(X1 > w∩X2 > w∩·· ·∩Xn > w)
= 1−n
∏i=1
P(Xi > w) = 1− [1−P(X1 > w)]n
= 1− (1−FX(w))n
Anche nel caso di W , se le Xi sono assolutamente continue con densità fX , la v.a W è
assolutamente continua con densità
fW (w) = n(1−FX(w))n−1 fX(w) (1.26)
♦
Esempio 1.29 [Il quadrato di una legge normale ] Sia X ∼N(0,1); vogliamo determinare
la legge di probabilità della v.a. Y = X2. Poiché Y è non negativa con probabilità 1,
FY (y) = 0, per ogni y≤ 0. Per y > 0, invece,
FY (y) = P(Y ≤ y) = P(X2 ≤ y) = P(−√y≤ X ≤√y)
= 1−2FX(−√
y) = 2FX(√
y)−1
La densità corrispondente è
fY (y) = 2 fX(√
y)1
2√
y=
1√2πy
exp(−y
2
)La densità di Y prende il nome di χ2 con 1 grado di libertà. Essa rappresenta un caso
particolare della famiglia χ2, che a sua volta è un caso particolare della famiglia Gamma.
♦
49
1.9 Esercizi
1.9.1. Ogni giorno Mario tenta di comprare il quotidiano. Egli prova di mattina (M) con
probabilità 1/3, di sera (S) con probabilità 1/2 oppure si dimentica del tutto (D) con
probabilità 1/6. La probabilità di trovare eettivamente il giornale (G) è pari a 0.9 se va
di mattina, 0.2 se va di sera e, ovviamente 0 se non va aatto. Una sera torna a casa
e la moglie vede che Mario ha eettivamente comprato il giornale. Qual è la probabilità
che lo abbia comprato di mattina?
[Risposta: 34 ]
1.9.2. Una certa specie di criceti può nascere con il manto nero o marrone a seconda
dell'associazione tra due geni ognuno dei quali può assumere il valore A oppure B. Se i
due geni sono simili (AA oppure BB) il criceto è omozigote, altrimenti è detto eterozigote.
Se il criceto è di tipo AA allora sarà certamente marrone. Il glio di una coppia di criceti
porta con sé i due geni, uno da ogni genitore: se il genitore è eterozigote il gene ereditato
è A o B con la stessa probabilità ; se il parente è omozigote, con probabilità pari a 1,
trasmette il suo unico gene. Supponiamo che un criceto nero sia nato da una coppia di
due eterozigoti.
(a) Qual è la probabilità che questo criceto sia omozigote?
Supponiamo ora che tale criceto sia poi accoppiato ad una cricetina marrone e che tale
accoppiamento produca 7 gli, tutti neri
(b) Usa il teorema di Bayes per determinare la nuova probabilità che lo stesso criceto
risulti omozigote.
[Risposte: (a) 13 ; (b) ≈ 1]
1.9.3. Ogni mattina il lattaio ci lascia sulla porta di casa una bottiglia di latte. Egli
riceve forniture in eguale misura dalle centrali di Roma e Latina ed ogni mattina sceglie
a caso la bottiglia che ci lascia. Il latte di Roma raggiunge l'ebollizione in un tempo
in minuti che può considerarsi una v.a. N(2,3) mentre quello di Latina ha un tempo
50
di ebollizione pari ad una v.a. N(2.5,4). Una certa mattina cronometriamo il tempo
necessario all'ebollizione del latte appena ricevuto e registriamo 2 minuti e 18 secondi.
Qual è la probabilità che si tratti di latte di Roma?
1.9.4. Siano S e T due variabili aleatorie indipendenti con distribuzione esponenziale.
Siano inoltre
E(S) = α E(T ) = β .
1. Determinare la distribuzione di Y = min(S,T ).
2. Calcolare la probabilità dell'evento S < T
1.9.5. Sulla legge di Weibull. Per α > 0 e λ > 0 consideriamo la funzione
f (t) =
λαtα−1e−λ tα
t > 0
0 t ≤ 0
Dimostrare che f (t) è una densità. Sia inoltre T una variabile aleatoria con densità data
da f . e supponete λ = 1. Calcolare
Pr(T > t + s|T > s) . (1.27)
Per quali valori di α la (1) è funzione crescente di s? Quale distribuzione si ottiene per
α = 1 ?
1.9.6. Il numero X di visite ad una pagina web in un intervallo di tempo pressato segue,
una distribuzione di Poisson con parametro θ . A sua volta θ è considerato aleatorio e
segue una legge esponenziale di parametro λ . Dimostrare che la legge marginale di X è
di tipo geometrico: specicare il valore del parametro. Sapendo che si sono avuti k = 5
accessi, cosa si può dire sulla legge di θ condizionata appunto al fatto che X = 5?
1.9.7. Una moneta dà testa con probabilità pari a p. Viene eettuato un numero di
lanci (indipendenti tra loro) pari a N dove N ∼ Po(λ ) cioè N ha legge di Poisson con
parametro λ . Indichiamo con X e Y le variabili aleatorie che indicano il numero di Teste
e il numero di Croci negli N lanci. Determinare la distribuzione di X e di Y .
51
1.9.8. Tutte le compagnie aeree sanno che ogni passeggero che compra un biglietto
ha una probabilità pari a 110 di non presentarsi poi alla partenza. Sulla base di questa
considerazione, la compagnia Airgreen vende sempre 10 biglietti per il suo aereo a nove
posti, mentre la compagnia Bluwings vende sempre 20 biglietti per il suo areo a 19
posti. Calcolare, per entrambe le compagnie, la probabilità di overbooking, cioè di avere
all'imbarco più passeggeri dei posti disponibili.
1.9.9. Nella tua tasca ci sono N monete, dove N ∼ Po(λ ) cioè N ha legge di Poisson con
parametro λ . Vengono estratte tutte, ed ognuna è lanciata indipendemente dalle altre:
tutte hanno probabilità di dare testa con probabilità p. Dimostrare che la v.a. X denita
come il numero di monete che dà testa, ha ancora distribuzione di Poisson e stabilire con
quale parametro.
1.9.10. Siano X e Y indipendenti con distribuzione di Poisson di parametri, rispettiva-
mente, λ e µ . Dimostrare che X +Y ha distribuzione di Poisson con parametro λ +µ .
Dimostrare inoltre che la distribuzione di X |X +Y = k è di tipo binomiale, e stabilire con
quali parametri.
1.9.11. Siano X e Y indipendenti con distribuzione di Bernoulli di parametro p = 0.5.
Dimostrare che le variabili W =X +Y e Z = |X−Y | sono incorrelate ma non indipendenti.
1.9.12. Siano X e Y indipendenti con distribuzione normale standardizzata, X ,Y ∼N(0,1) e indipendenti tra loro. Determinare la legge di Z = X −Y . Dimostrare che
le v.a. Z = X−Y e W = X +Y sono indipendenti.
52
CAPITOLO 2
Il valore atteso di una variabile aleatoria
2.1 Introduzione
In questo capitolo studieremo il concetto di media o valore atteso di una v.a. Si supponga
di partecipare ad una lotteria che elargisce n premi, di valore pari a 1,2, . . . ,n con proba-
bilità rispettive p1, p2, . . . , pn. Qual è il prezzo equo per partecipare a questa lotteria? In
altri termini, qual è l'equivalente certo della vincita aleatoria fornita dalla scommessa?
Se tale lotteria si svolgesse un numero K molto grande di volte, i premi risultanti sareb-
bero, il premio 1, con frequenza k1, il premio 2, con frequenza k2, e così via, no a al
premio n, con frequenza kn. La somma complessiva delle vincite sarebbe allora pari a
∑ jk j e la vincita per singola scommessa sarebbe pari a K−1∑ jk j. Per K molto grande,
con buona approssimazione, si avrebbe k j/K ≈ p j, j = 1, . . . ,n, da cui il valore medio
della lotteria può essere posto pari a
n
∑j=1
jp j.
53
In altri termini, si immagini di osservare migliaia di replicazioni indipendenti di valori
generati da una variabile aleatoria X : se poi si calcola il valore medio di questi valori,
quello che si ottiene sarà una buona approssimazione del valore atteso di X , che può
dunque essere denito, in modo statistico come il valore a cui tende la precedente media
empirica quando il numero di realizzazioni casuali tende all'innito. Più avanti daremo
una versione più formale del concetto di media di una v.a. Inoltre, vedremo come
Calcolare il valore atteso di v.a. continue e discrete.
Calcolare il valore atteso condizionato, cioè il valore atteso di una v.a. X , condizio-
natamente all'informazione che un'altra v.a. Y ha assunto il generico valore Y = y.
In generale, se le v.a. X e Y non sono indipendenti il valore atteso condizionato di
X risulterà dierente da quello non condizionato.
Compiremo poi un percorso analogo per la varianza di una v.a., denita come il valore
atteso degli scarti quadratici di una v.a. X rispetto alla sua media e concluderemo con
alcuni esempi ed alcune applicazioni notevoli del concetto di media.
2.2 Denizioni e proprietà
Sia X un vettore aleatorio d-dimensionale con funzione di densità f . Sia inoltre φ : Rd→R, una funzione a valori reali di X; allora il valore atteso o media della variabile aleatoria
φ(X) è
IE(φ(X)) =∫Rd
φ(x) f (x)dx,
purché esista nito l'integrale ∫Rd|φ(x)| fX(x)dx < ∞.
La media, o valore atteso di una v.a. X si esprime con il simbolo IE(X), a volte con
µX . Nel caso in cui X è una v.a. continua, con densità fX(x), il valore atteso è dato
dall'espressione
IE(X) =∫ +∞
−∞
x fX(x)dx,
54
a patto che tale integrale sia denito. Nel caso in cui la v.a. X è invece discreta, la
denizione di valore atteso non cambia concettualmente ma tiene conto del fatto che la
v.a. X assume, al più, soltanto una innità numerabile di valori e il precedente integrale
viene sostituito da una somma. Sia allora X una v.a. discreta con distribuzione di
probabilità denita su un insieme di valori S e tale che Pr(X = x) = pX(x),x ∈ S; allora
il valore atteso di X è pari a
IE(X) = ∑x∈S
xpX(x).
A volte è necessario calcolare il valore atteso di una funzione della v.a. X . Ad esem-
pio, quando eettuiamo una scommessa o un investimento, il risultato dell'evento su cui
la scommessa è stata puntata, sarà un risultato aleatorio X , ma quello a cui siamo più
interessati è il premio g(X) associato al risultato X .
Sia dunque g(X) una funzione di X , v.a. continua. Il valore atteso di g(X), quando
esiste, può essere scritto come
IE(g(X)) =∫ +∞
−∞
g(x) fX(x)dx.
Analoga formula vale nel caso discreto. Se X è una v.a. discreta con supporto S, e g(X)
è una generica funzione, il valore atteso di g(X), quando esiste, è denito come
IE(g(X)) = ∑x∈S
g(x)pX(x).
Le precedenti formule non sono esattamente le denizioni di valore atteso di g(X) ma
una diretta conseguenza della denizione.
A volte è necessario calcolare il valore atteso di una funzione di più variabili, del tipo
g(X ,Y ). In questo caso le precedenti denzioni vanno adattate in modo elementare. Sia
(X ;Y ) una v.a. doppia continua con densità fX ,Y (x,y), (x,y) ∈ R2, e sia g(x,y) una
funzione reale. Allora il valore atteso di g(X ,Y ) è denito, quando esiste dall'espressione
IE(g(X ,Y )) =∫ +∞
−∞
∫ +∞
−∞
g(x,y) fX ,Y (x,y)dxdy.
55
In particolare, possiamo considerare la funzione prodotto g(x,y) = xy e scrivere che il
valore atteso del prodotto di due v.a. X e Y è pari a
IE(XY ) =∫ +∞
−∞
∫ +∞
−∞
xy fX ,Y (x,y)dxdy. (2.1)
Formule analoghe valgono naturalmente per v.a. discrete. Laddove la formula (2.1) è del
tutto generale, va notato che, nel caso in cui le v.a. X e Y siano indipendenti la densità
congiunta fX ,Y (x,y) risulterebbe pari al prodotto delle densità marginali. In questo caso,
si avrebbe
IE(XY ) =∫ +∞
−∞
∫ +∞
−∞
xy fX(x) fY (y)dxdy
=∫ +∞
−∞
x fX(x)dx∫ +∞
−∞
y fY (y)dy
= IE(X) IE(Y ) .
Dunque la media del prodotto di due v.a. indipendenti è pari al prodotto delle medie
delle due variabili; naturalmente il risultato è vero anche per funzioni di v.a. indipendenti
cosicché, se X e Y sono indipendenti, g è funzione di X e h è funzione di Y , allora
IE(g(X)h(y)) = IE(g(X)) IE(h(y)) .
Occorre sottolineare che l'implicazione inversa, non è in generale vera: è infatti possibile
che IE(XY ) = IE(X) IE(Y ) anche in casi in cui X e Y sono dipendenti.
Il calcolo del valore atteso del prodotto di due v.a. sarà importante quando tratteremo
i concetti di covarianza e correlazione.
2.2.1 Alcune proprietà
Elenchiamo qui di seguito alcune proprietà basilari del valore atteso.
1) Siano g e h due funzioni, e siano a e b due costanti reali. Allora, qualunque sia la
v.a. X , discreta o continua, si ha
IE(ag(X)+bh(X)) = a IE(g(X))+b IE(h(X)) .
56
In particolare, si avrà
IE(aX +b) = a IE(X)+b.
2) Per ogni n-pla di v.a. X1, . . . ,Xn,
IE(a1X1 + · · ·+anXn) = a1 IE(X1)+ · · ·+an IE(Xn) .
3) La probabilità è un valore atteso
Sia A un evento qualsiasi; è possibile scrivere Pr(A) come il valore atteso di una specica
v.a. nel modo seguente. Deniamo la funzione indicatrice d'insieme:
IA(ω) =
1 ω ∈ A A si verica
0 ω /∈ A A non si verica.
Allora IA è una v.a. ben denita, di tipo Bernoulliano, che assume il valore 1 con
probabilità Pr(A); il valore atteso è
IE(IA) = 0×Pr(IA = 0)+1×Pr(IA = 1) = Pr(IA = 1) = Pr(A) .
Dunque, per ogni evento A, è possibile scrivere
Pr(A) = IE(IA) . (2.2)
2.3 Varianza, covarianza, correlazione
La varianza
La varianza di una v.a. X viene utilizzata come una misura della dispersione di X intorno
alla propria media. Maggiore è il valore della varianza, maggiore è la dispersione. Nel
linguaggio nanziario spesso la varianza viene chiamata volatilità. Sia allora X una v.a.
qualsiasi. La varianza di X , se esiste, è denita dalla formula
Var(X) = IE(X2)− [IE(X)]2 .
Spesso la varianza viene indicata con il simbolo σ2X . Essa rappresenta la deviazione media
quadratica della v.a. X dalla propria media IE(X) Maggiore è la varianza di X , maggiore
57
è la probabilità di osservare realizzazioni di X lontane dal valore atteso. La varianza è
espressa in una unità di misura diversa dalla X , in quanto rappresenta una sintesi di valori
quadratici della X stessa. Per ovviare a tale inconveniente spesso si utilizza la deviazione
standard di X , denotata da σX che altro non è che la radice quadrate positiva di Var(X) .
Per il calcolo eettivo della varianza è possibile utilizzare il seguente risultato
Teorema 2.1.
Var(X) = IE(X2)− (IE(X))2 .
Dimostrazione 2.1.
Var(X) = IE((X− IE(X))2)= IE
(X2−2X IE(X)+(IE(X))2
)= IE
(X2)−2IE(X) IE(X)+(IE(X))2
= IE(X2)− (IE(X))2 .
Esempio 2.1 Calcoliamo il valore atteso e la varianza di una v.a. X ∼ N(0,1)
IE(X) =∫ +∞
−∞
x1√2π
exp(−1
2x2)
dx = 0,
poiché si tratta dell'integrale di una funzione dispari, su un insieme simmetrico rispetto
all'origine. Inoltre
Var(X) = IE(X2)− (IE(X))2 = IE
(X2)
=∫ +∞
−∞
x2 1√2π
exp(−1
2x2)
dx
= integrando per parti
=1√2π
∫ +∞
−∞
xd(−exp
(−1
2x2))
=1√2π
([−xexp
(−1
2x2)]+∞
−∞
+∫ +∞
−∞
exp(−1
2x2)
dx
)=
1√2π
(0+√
2π
)= 1.
58
♦
Esempio 2.2 Calcoliamo il valore atteso e la varianza di una v.a. X ∼ Ga(α,β ) con
densità
fX(x;α,β ) =β α
Γ(α)exp(−βx)xα−1, x,α,β > 0. (2.3)
Poiché la (2.3) è una densità, per ogni α e β positivi vale∫∞
0exp(−βx)xα−1dx =
Γ(α)
β α.
Dunque, per ogni k intero positivo,
IE(
Xk)
=∫
∞
0
β α
Γ(α)exp(−βx)xk+α−1dx
=β α
Γ(α)
Γ(α + k)β α+k
=Γ(α + k)Γ(α)β k .
Usando l'ultima formula con k = 1 e 2, si ottiene
IE(X) =Γ(α +1)Γ(α)β
=α
β
e
IE(X2)= Γ(α +2)
Γ(α)β 2 =(α +1)α
β 2 ,
da cui
Var(X) = IE(X2)− (IE(X))2 =
(α +1)αβ 2 − α2
β 2 =α
β 2
♦Esempio 2.3 Calcoliamo il valore atteso e la varianza della v.a. X relativa al risul-
tato del lancio di un dado regolare. Poiché un dado regolare può assumere i sei valori
1,2,3,4,5,6 con probabilità paeri a 1/6, si avrà
IE(X) =1+2+3+4+5+6
6= 3.5
59
e
IE(X2)= 1+4+9+16+25+36
6= 15.16,
da cui
Var(X) = IE(X2)− (IE(X))2 = 15.16−12.25 = 2.91.
♦
La Covarianza
La covarianza è una misura dell'associazione o dipendenza tra due variabili aleatorie X e
Y . Laddove la varianza assume soltanto valori non negativi, la covarianza può assumere
qualsiasi valore reale.
Denizione 2.1. Siano X e Y due qualsiasi variabili aleatorie. La covarianza tra X e Y
si indica col simbolo Cov(X ,Y ) ed è data dalla formula
Cov(X ,Y ) = IE((X− IE(X))(Y − IE(Y ))) = IE(XY )− IE(X) IE(Y ) . (2.4)
La covarianza assume valori positivi se grandi valori della X tendono a vericarsi in
concomitanza di grandi valori della Y e lo stesso accade per piccoli valori. Ad esempio, se
X è l'altezza in un collettivo di persone e Y è il peso nello stesso collettivo, ci aspettiamo
una covarianza positiva tra le due variabili.
La covarianza assume valori negativi se grandi valori della X tendono a vericarsi in
concomitanza di piccoli valori della Y mentre piccolo valori della X tendono ad accom-
pagnarsi a grandi valori della Y . Nell'esempio precedente, relativo ad una collettivo di
individui, se X rappresenta ora l'età di una persona scelta a caso mentre Y è la frequenza
cardiaca, ci aspettiamo una covarianza negativa tra X e Y .
Quando X e Y sono indipendenti, non esiste nessun legame tra i valori che assume la
X e quelli che assume la Y e la covarianza vale zero. Questo risultato è desumibile dalla
denizione stessa. infatti abbiamo già visto come, per variabili indipendenti, la media del
prodotto è pari al prodotto delle medie cosicché la (2.4) deve valere zero. Tuttavia il fatto
che la covarianza sia zero, a sua volta NON implica che le variabili siano indipendenti ma
60
solo incorrelate. Si può anche dire che la covarianza misura soltanto una dipendenza
tra le variabili di tipo lineare, e non controlla altri tipi di dipendenza come il prossimo
esempio mostra.
Esempio 2.4 Sia X ∼ N(0,1) e Y = X2. Naturalmente le due variabili sono fortemente
dipendenti (la conoscenza di X implica la conoscenza di Y ) ma
Cov(X ,Y ) = Cov(X ,X2)= IE
(X X2)− IE(X) IE
(X2)= IE
(X3)= 0,
per la simmetria della densità normale standard. ♦
La correlazione
La covarianza dipende dall'unità di misura con cui vengono misurate le variabili: con-
sideriamo ad esempio il calcolo della covarianza tra le variabili aleatorie reali a+ bX e
c+dY :
Cov(a+bX ,c+dY ) = IE([b(X− IE(X))][d(Y − IE(Y ))]) = bd Cov(X ,Y ) .
Questo signica, ad esempio, che la covarianza tra i rendimenti di due titoli presenti in un
mercato nanziario dipende dall'unità monetaria con cui è calcolata. Per evitare questo
problema si suole standardizzare la covarianza per ottenere il coeciente di correlazione
tra due variabili X e Y , denito come
ρ(X ,Y ) =Cov(X ,Y )√
Var(X)Var(Y ). (2.5)
Si verica facilmente che il coeciente di correlazione di a+bY1 e c+dY2 è identico, a
meno del segno, a ρ(Y1,Y2). Più precisamente
ρ(a+bY1,c+dY2) = sgn(bd)d | ρ(Y1,Y2),
dove
sgn(y) =
1 y > 0
−1 y < 0
61
Inoltre, si può dimostrare che, qualunque siano le v.a. Y1 e Y2, deve risultare
| Cov(Y1,Y2) |≤√
Var(Y1)Var(Y2),
cosicché è sempre vero che
−1≤ ρ(Y1,Y2)≤ 1. (2.6)
Duinque, il coeciente di correlazione tra X e Y è una misura standardizzata della
associazione lineare tra X e Y . Esso varia tra un minimo di −1 e un massimo di 1.
Il coeciente di correlazione vale ±1 se e solo se esiste una perfetta relazione lineare,
diretta o inversa, tra X e Y ; in altri termini
| ρ(X ,Y ) |= 1⇒ Y = aX +b per qualche costante reale a e b .
La correlazione è pari a zero se X e Y sono indipendenti, tuttavia una correlazione pari a
zero NON implica che X e Y siano indipendenti; basta ricordare l'esempio (2.4)
2.4 I momenti di una variabile aleatoria
In molti casi si è interessati non allo studio della variabile casuale in sé, ma a dei particolari
valori, detti momenti, che sintetizzano le informazioni contenute in essa e ai quali si può
dare un'interpretazione utile
I momenti di una v.a. sono deniti come i valori attesi di particolari funzioni della
v.a. X . In dettaglio
Denizione 2.1. Sia X una variabile casuale e sia g(X) = (X−c)r, con r intero positivo.
Si dice momento di ordine r rispetto a c il valore
E[g(X)] = E[(X− c)r] =
∑
ni=1(xi− c)rP(xi) per variabili casuali discrete∫+∞
−∞(xi− c)r f (x)dx per variabili casuali continue
dove c è una costante qualunque.
Tra le diverse combinazioni possibili dei valori di r e c quelle più signicative sono:
62
1. c = 0 : in questo caso g(X) = X r e i momenti sono chiamati momenti dall'origine
o momenti semplici e sono indicati con la notazione µ ′r. Tra i momenti dall'origine
il più importante è senz'altro quello relativo a r = 1, il valore atteso.
2. c= µ ′1, in modo tale che g(X) = (X−µ ′1)r. In questo caso i momenti sono chiamati
momenti centrali o momenti dalla media e sono indicati con la notazione µr. Tra
i momenti centrali il più importante è quello che si ha quando r = 2, la varianza.
3. c = µ ′1σ
e g(X) =(X−c
σ
)r. In questo caso i momenti sono chiamati momenti stan-
dardizzati e sono indicati con la notazione µr. Tra i momenti standardizzati quelli
più importanti sono associati ai valori r = 3, l'indice di asimmetria, e r = 4, l'indice
di curtosi.
Proprietà della varianza
1. Trasformazioni lineari. Sia g una funzione reale e siano a e b delle costanti. Data una
v.a. X , sia Y = ag(X)+b: vale la relazione
Var(Y ) = a2 Var(g(X)) .
In particolare, Var(aX +b) = a2 Var(X).
2. Siano X e Y due v.a. qualunque. Allora
Var(X±Y ) = Var(X)+Var(Y )±2Cov(X ,Y )
In particolare, se X e Y sono incorrelate, allora
Var(X±Y ) = Var(X)+Var(Y ) .
Asimmetria e curtosi
L'indice di asimmetria è denito come
E[(X−µ)3]
σ3 (2.7)
e misura il grado di asimmetria della distribuzione rispetto alla media; l'indice di asim-
metria può essere positivo, negativo o anche indenito.
63
asimmetria positiva: la coda del lato destro della distribuzione è più lunga della
coda del lato sinistro; in questo caso si ha
moda<mediana<media
asimmetria negativa: la coda del lato sinistro della distribuzione è più lunga della
coda del lato destro; in questo caso si ha
media<mediana<moda
Nel caso di distribuzione simmetrica la previsione degli scarti (con segno) è nulla e l'indice
è pari a zero.
Ricordiamo inoltre l'indice di curtosi, denito come
K =E[(X−µ)4]
σ4 (2.8)
che fornisce una misura dello spessore delle code della distribuzione. Si può dimostrare
che una legge normale, indipendentemente, dai valori di media e varianza, ha curtosi pari
a 3. Valori inferiori a 3 indicano code più sottili di quelle di una distribuzione gaussiana,
mentre valori maggiori suggeriscono code pesanti e un appiattimento della densità in un
intorno dei valori centrali. Per il ruolo che la legge normale svolge ancora in probabilità
e statistica, molti testi deniscono l'indice di curtosi ponendo pari a zero quello di una
legge normale; si ottiene così il cosiddetto indice di Pearson
γ2 = K−3.
2.5 Media e varianza condizionate
Supponiamo per il momento che X e Y siano due variabili aleatorie scalari e discrete, con
distribuzione congiunta qualsiasi, denita su
S = (x,y) : x ∈ SX ,y ∈ SY
64
Vogliamo studiare la distribuzione della v.a. X quando è noto che Y = y. Si tratta di
calcolare, per ogni x ∈ SX , la quantità
Pr(X = x | Y = y) =Pr(X = x∩Y = y)
Pr(Y = y), x ∈ SX
La formula appena scritta descrive una nuova distribuzione di probabilità, che rappresenta
la legge di probabilità di X , condizionata all'evento Y = y.
Di conseguenza è ovvio, e facile da vericare, che risulti
∑x∈SX
Pr(X = x | Y = y) = 1,
per ogni valore di y ∈ SY . È poi possibile calcolare media e varianza della distribuzione
condizionata. In particolare la media condizionata, indicata con il simbolo IE(X | Y = y),
rappresenta il valore atteso della variabile X quando sappiamo che Y = y.
Denizione 2.2. Date due variabili aleatorie discrete X e Y , si chiama media o valore
atteso di X condizionato all'evento Y = y la quantità
IE(X | Y = y) = ∑x∈SX
xPr(X = x∩Y = y)
Pr(Y = y).
Mentre il valore atteso di una v.a. X è. quando esiste, un ben determinato numero
reale, la media condizionata dipende ovviamente dal valore y della v.a. Y rispetto al quale
si opera il condizionamento. È dunque possibile considerare la media condizionata come
una funzione di y al variare dello stesso; è cioè possibile trattare la media condizionata
come una funzione di variabile aleatoria: in pratica la quantità
h(Y ) = IE(X | Y )
rappresenta essa stessa una variabile aleatoria. Ovviamente, l'aleatorietà è ereditata dalla
Y e non dalla X .
Esempio 2.5 Nella mia tasca destra ci sono 2 monete del valore di 1 euro e 3 da 2
euro. Nella mia tasca sinistra ci sono invece 4 monete da un euro e solo 1 da 2 euro.
65
Verrà estratta a caso una moneta da una tasca scelta mediante il risultato del lancio di
un dado regolare: se esce un numero da 1 a 4 si gioca con la tasca destra; se escono 5
o 6 si gioca con la tasca sinistra. Sia Y la variabile aleatoria che indica la tasca con cui
si gioca, 0 (Dx) 2/3
1 (Sx) 1/3
Sia X il valore della moneta estratta: avremo allora che, per Y = 0,
Pr(X = x | Y = 0) =
2/5 x = 1
3/5 x = 2
.
Se invece Y = 1,
Pr(X = x | Y = 1) =
4/5 x = 1
1/5 x = 2
.
Ne consegue che le due medie condizionate valgono
IE(X | Y = 0) = 1×2/5+2×3/5 = 8/5 = 1.6
e
IE(X | Y = 1) = 1×4/5+2×1/5 = 6/5 = 1.2.
Dunque la quantità h(Y ) = IE(X | Y ) è una variabile aleatoria che assume i valori
h(Y )
1.6 Y = 0
1.2 Y = 1.
Dobbiamo inoltre valutare con quali probabilità h(Y ) assumerà di due valori; ma h(Y ) =
1.6⇔ Y = 0 e
Pr(Y = 0) = 2/3 e Pr(Y = 1) = 1/3.
66
Dunque avremo
h(Y ) = IE(X | Y ) =
1.6 2/3
1.2 1/3.
La nuova v.a. h(Y ) ha tutte le caratteristiche di una v.a.: ad esempio possiamo calcolarne
il valore medio
IE(h(Y )) = 1.6×2/3+1.2×1/3 = 1.467
Ritorneremo più avanti sul calcolo della media di una v.a. denita come media condizio-
nata e dimostreremo che il numero appena calcolato non è altro che il valore atteso, non
condizionato, della v.a. X . ♦
La varianza condizionata
La varianza condizionata si denisce in modo del tutto simile. Chiameremo Var(X | Y = y)
la varianza della legge di probabilità di X quando è noto che Y = y. Anche Var(X | Y ) èuna variabile aleatoria
Denizione 2.3. Siano X e Y due variabili aleatorie discrete. La varianza condizionata
di X quando Y = y è data da
Var(X | Y = y) = IE(X2 | Y = y
)− (IE(X | Y = y))2 .
Le denizioni di media e varianza condizionata si estendono facilmente al caso di
v.a. assolutamente continue, non appena si tenga conto della denizione di densità
condizionata (1.19). È allora immediato denire il valore atteso condizionato come
IE(X | y) =∫R
x fX |Y (x | Y = y)dx.
Le leggi della media iterata e della scomposizione della varianza
Teorema 2.2. [della media iterata] Se tutti valori attesi considerati sono niti, allora
per ogni coppia di v.a. X e Y avremo che
IE(X) = IE(IE(X | Y )) . (2.9)
67
Dimostrazione 2.2. Per semplicità , diamo qui la dimostrazione relativa al caso
discreto; l'estensione al caso continuo è semplice e lasciata per esercizio.
IE(X) = ∑x∈SX
xPr(X = x) = ∑x∈SX
x ∑y∈SY
Pr(X = x∩Y = y)
= ∑x∈SX
x ∑y∈SY
Pr(X = x | Y = y)Pr(Y = y)
= ∑y∈SY
[∑
x∈SX
xPr(X = x | Y = y)
]Pr(Y = y)
= ∑y∈SY
IE(X | Y = y)Pr(Y = y) = IE(IE(X | Y ))
In altri termini il valore atteso della v.a. X può essere calcolato come il valore atteso
della distribuzione delle medie condizionate di X | Y al variare di Y .
Esempio 2.6 (continua) Nell'esempio precedente avremo
IE(X) = IE(X | Y = 0)×Pr(Y = 0)+ IE(X | Y = 1)×Pr(Y = 1)
= 1.6×2/3+1.2×1/3 = 1.467.
♦Va subito precisato che il teorema precedente si estende in modo naturale se sostituiamo
a X una sua funzione reale g(X) cioè vale la relazione
IE(g(X)) = IE(IE(g(X) | Y )) .
Teorema 2.3. [della scomposizione della varianza] Se tutti valori attesi considerati sono
niti, allora per ogni coppia di v.a. X e Y avremo che
Var(X) = IE(Var(X | Y ))+Var(IE(x | Y ))
Dimostrazione 2.3. Per maggiore chiarezza, utilizzeremo i simboli IEY e VarY per
68
indicare quando il valore atteso o la varianza sono calcolati rispetto alla legge di Y .
Var(X) = IE(X2)− (IE(X))2
= IEY(IE(X2 | Y
))± IEY
[(IE(X | Y ))2
]− (IE(X))2
= IEY
(IE(X2 | Y
)− (IE(X | Y ))2
)+ IEY
[(IE(X | Y ))2
]− [IEY (IE(X | Y ))]2
= IEY [Var(X | Y )]+VarY [IE(X | Y )] .
Esempio 2.7 [Media e varianza di una v.a. t di Student].
È noto che, se (X ;Y ) è un vettore aleatorio con distribuzione congiunta del tipo
X |Y = y∼ N(µ,σ2/y
); Y ∼ Gamma
(ν
2,ν
2
),
allora la legge marginale di X è di tipo St(ν ,µ,σ). Questo suggerisce un modo alternativo
di calcolo per i momenti di X . Infatti
IE(X) = IE(IE(X |Y )) = IE(µ|) = µ;
da notare che tale risultato vale solo nel caso in cui ν > 1, altrimenti IE(X) non esiste e
il teorema della media iterata non si applica. Inoltre
Var(X) = Var(IE(X |Y ))+ IE(Var(X |Y )) = Var(µ)+σ2 IE(1/Y ) = σ
2 IE(1/Y )
Usando l'espressione (C.6) si vede che, per ν > 2,
IE(1/Y ) =∫
∞
0
1Γ(ν/2)
(ν
2
)ν/2 1y
yν/2−1e−yν/2dy =Γ(ν/2−1)
Γ(ν/2)
(ν
2
)ν/2−ν/2+1=
ν
ν−2
Ne segue che
Var(X) = σ2 ν
ν−2.
♦
2.6 Applicazioni notevoli del concetto di condizio-
namento
In questa sezione utilizzeremo i concetti di probabilità, media e varianza condizionate per
risolvere problemi di dierente natura, allo scopo di illustrare la potenzialità del metodo
69
Somme di un numero aleatorio di variabili aleatorie
Iniziamo a parlare del problema del calcolo dei momenti della somma di un numero alea-
torio di variabili aleatorie. Questo problema sorge molto spesso nella teoria dei processi
stocastici. Consideriamo ad esempio il caso in cui N rappresenti il numero aleatorio di
richieste di rimborso che giungeranno ad una agenzia di assicurazioni nel prossimo mese.
Ad ognuna delle N richieste è associata una somma in denaro (l'entità della richiesta) che
denotiamo con X1,X2, . . . ,XN . Le variabili Xi sono tutte indipendenti dal valore di N, cioè
l'entità delle richieste di rimborso non dipende da quante richieste verranno presentate.
Vogliamo calcolare il valore medio della variabile aleatoria
S = X1 +X2 + . . .XN
che rappresenta la somma complessiva di rimborso richiesta alla agenzia. Assumiamo
inoltre che X1,X2, . . . ,iid∼ Gamma(α,β ) e che N ∼ Poi(λ ). La dicoltà aggiuntiva in
problemi come questi è che non si conosce, a priori, il numero di addendi della somma
S in quanto dipende dal numero aleatorio N di richieste. Questo problema si risolve con
una semplice applicazione del teorema (2.2). Infatti
IE(S) = IE(IE(S | N)) =∞
∑n=1
IE(S | N = n)Pr(N = n)
= per l'indipendenza tra le Xi e N
=∞
∑n=1
IE(X1 + . . .Xn)Pr(N = n)
= per la somiglianza delle Xi
=∞
∑n=1
n IE(X1)Pr(N = n)
= IE(X1) IE(N)
Dunque il valore atteso è pari al prodotto tra il valore atteso del numero aleatorio di
addendi, N, e il valore atteso della generica variabile della successione, X1. Il risultato
appena ottenuto è del tutto generale, sotto le ipotesi di identica distribuzione delle Xi e
di indipendenza delle xi da N e va sotto il nome di Equazione di Wald. Nel nostro caso
70
specico il risultato è dato da
IE(S) = IE(X1) IE(N) =β
αλ .
Esempio 2.8 [Media di una v.a. geometrica ] Sia X ∼ Geo(p), con P(X = k) = (1−p)k−1 p, k = 1,2, . . . ; vogliamo calcolare IE(X). Il calcolo diretto porterebbe a
IE(X) =∞
∑j=1
jp(1− p) j−1,
non banale da calcolare. In alternativa, ricordando che X può essere interpretata come il
numero di prove necessarie ad ottenere per la prima volta T nel lancio di una moneta, si
può denire la v.a. W come
W =
1 esce T al primo lancio
0 esce C al primo lancio.
Ovviamente P(W = 1) = p = 1−P(W = 0), e usando il teorema della media iterata
IE(X) = IE(IE(X |W )) = IE(X |W = 0)(1− p)+ IE(X |W = 1) p.
Quando W = 0, il calcolo del valore atteso di X resta invariato, tenendo conto del fatto
che un lancio è stato già eettuato. Al contrario, l'evento W = 1 implica anche X = 1.
Quindi
IE(X) = (1+ IE(X))(1− p)+ p,
e, risolvendo per IE(X), si ottiene IE(X) = 1/p. ♦
L'uso della tecnica di condizionamento può risultare utile anche per il calcolo di pro-
babilità di eventi. Questo risultato non deve sorprendere in quanto abbiamo già visto
come la probabilità di un evento può essere scritta in termini di valore atteso di una
opportuna variabile indicatrice.
Sia A un evento arbitrario; deniamo la variabile indicatrice IA come
IA =
1 A è vero
0 A non è vero.
71
Allora, sappiamo già che Pr(A) = IE(IA) e, per ogni variabile aleatoria Y , è possibile
scrivere
Pr(A | Y = y) = IE(IA | Y = y) .
Utilizzando poi il teorema (2.2), risulta che
Pr(A) = IE(IE(IA | Y )) .
La formula precedente può essere meglio esplicitata nei due casi più importanti ovvero
quando Y è una v.a. discreta oppure continua. Nel primo caso avremo
Pr(A) = ∑y
Pr(A | Y = y)Pr(Y = y) (2.10)
mentre nel secondo
Pr(A) =∫R
Pr(A | Y = y) fY (y)dy. (2.11)
Esempio 2.9 Siano X e Y due v.a. indipendenti con distribuzione esponenziale di
parametro, rispettivamente pari a λ e µ . Calcolare Pr(X < Y ).
Possiamo utilizzare le formula (2.11) e scrivere
Pr(X < Y ) =∫
∞
0Pr(X < Y | Y = y) fY (y)dy =
∫∞
0Pr(X < y | Y = y)µ exp(−µy)dy
= per l'indipendenza tra X e Y
=∫
∞
0Pr(X < y)µ exp(−µy)dy = µ
∫∞
0(1− exp(−λy))exp(−µy)dy
= µ
∫∞
0[exp(−µy)− exp(−(µ +λ )y)]
= 1− µ
µ +λ=
λ
µ +λ.
♦
2.6.1 Alcuni risultati sulle medie
Elenchiamo in questa sezione alcuni risultati notevoli relativi a metodi alternativi per il
calcolo del valore atteso di v.a.
72
Teorema 2.4. Sia X una v.a. non negativa. Allora
IE(X) =∫
∞
0Pr(X > t)dt.
Dimostrazione 2.4. Definiamo la v.a. indicatrice
I(t) =
1 X > t
0 X ≤ t.
Ne segue che IE(I(t)) = Pr(X > t) = 1−FX(t). Allora,∫∞
0(1−FX(t))dt =
∫∞
0IE(I(t))dt
= IE(∫
∞
0I(t)dt
)poiché X ≥ 0
= IE(∫ X
0dt)= IE(X)
Nel caso discreto si può concepire una dimostrazione più “costruttiva”. In questo caso
si ha infatti
IE(X) =∞
∑k=1
k Pr(X = k) =∞
∑k=1
k pk
= 1 p1 +2 p2 +3 p3 +4 p4 + . . .
= (p1 + p2 + p3 + . . .)+(p2 + p3 + p4 . . .)+(p3 + p4 + p5 . . .)+ . . .
= Pr(X ≥ 1)+Pr(X ≥ 2)+Pr(X ≥ 3)+ . . .
=∞
∑n=1
Pr(X ≥ n)
=∞
∑n=0
Pr(X > n) ♦
Un'applicazione elementare del teorema precedente ci permette di ottenere una for-
mula alternativa per il calcolo del momento secondo. Sia ancora X ≥ 0; allora,
Pr(X2 > t
)= Pr
(X >√
t).
73
Dunque,
IE(X2) =
∫∞
0Pr(X2 > t
)dt
=∫
∞
0Pr(X >√
t)
dt(ponendo t = z2)
= 2∫
∞
0zPr(X > z)dz.
2.7 La legge normale multivariata
In questo paragrafo verrà utilizzato - ma solo nelle dimostrazioni - uno strumento, la
funzione generatrice dei momenti, denito e discusso nel prossimo capitolo.
Se Y è un vettore aleatorio p-dimensionale si denisce matrice di varianze e covarianze
del vettore Y la matrice p× p
Σ = Cov(Y,Y) = IE([Y−E(Y)][Y−E(Y)]′
),
dove il simbolo A′ indica la matrice trasposta di A. L'elemento generico σrs è
σrs = Cov(Yr,Ys) = IE([Yr−E(Yr)][Ys−E(Ys)])
La matrice Σ è semi-denita positiva. Infatti, qualunque sia il vettore di costanti a =
(a1, · · · ,ap), risulta
0≤ Var(a′Y)= Cov
(a′Y,a′Y
)= a′Cov(Y,Y)a = a′Σa.
È facile calcolare la covarianza di combinazioni lineari di variabili. Sia Y un vettore
aleatorio p-dimensionale e sia: a ∈ IRq un vettore q-dimensionale e B una matrice p×q.
Allora, la matrice q×q di varianze e covarianze del vettore a+B′Y è
Var(a+B′Y
)= Cov
(a+B′Y,a+B′Y
)= IE
([B′(Y−E(Y))][(Y−E(Y′))B]
)= B′ IE
([Y−E(Y)][Y−E(Y)]′
)B
= B′ΣB.
74
Come abbiamo già notato, la covarianza dipende dall'unità di misura con cui vengono
misurate le variabili. Per evitare questo problema si suole standardizzare la covarianza e
si ottiene il coeciente di correlazione tra due variabili Y1 e Y2 come
ρ(Y1,Y2) =Cov(Y1,Y2)√
Var(Y1)Var(Y2). (2.12)
Si verica facilmente che il coeciente di correlazione di a+ bY1 e c+ dY2 è identico,
a meno del segno, a ρ(Y1,Y2). In termini matriciali, dato un vettore aleatorio Y p-
dimensionale, la matrice di correlazione si scrive come
Ω = Σ− 1
2 ΣΣ− 1
2 ,
dove Σ è una matrice diagonale con le varianze delle componenti di Y sulla diagonale
principale.
A questo punto è possibile denire la distribuzione normale p-dimensionale. Si dice
che il vettore Y = (Y1, · · · ,Yp) ha distribuzione normale con vettore delle medie µ e
matrice di covarianze Σ, e si indica con il simbolo
Y∼ Np(µ,Σ),
quando la densità di Y vale
f (y; µ;Σ) =1
(2π)p/2|Σ|1/2 exp−1
2(y−µ)′Σ−1(y−µ
), (2.13)
dove | Σ |= det(Σ). Assumeremo nel seguito che det(Σ) sia strettamente positivo; questo
garantisce che non esistano combinazioni lineari delle componenti di Y perfettamente
correlate tra loro. Come esemplicazione, consideriamo il caso bidimensionale, p = 2. In
questo caso la matrice di covarianza è
Σ =
(σ2
1 σ12
σ12 σ22
)il cui determinante vale σ2
1 σ22 −σ2
12 = σ21 σ2
2(1−ρ2) mentre la matrice di covarianza
inversa vale
Σ−1 =
1σ2
1 σ22 (1−ρ2)
(σ2
2 −σ12
−σ12 σ21
);
75
adattando la forma quadratica che compare nella (2.13) al caso p = 2 otteniamo la
densità nel caso bidimensionale
f (y1,y2; µ1,µ2,Σ) =1
2πσ1σ2√
1−ρ2exp−1
2Q(y1,y2)
dove
Q(y1,y2) =1
(1−ρ2)
[(y1−µ1
σ1
)2
−2ρ
(y1−µ1
σ1
)(y2−µ2
σ2
)+
(y2−µ2
σ2
)2]
Poiché la densità dipende da y1 e y2 solo attraverso la quantità Q(y1,y2), che rappre-
senta un'ellisse, la distribuzione normale bidimensionale ha curve di livello di tipo ellittico
con equazione Q(y1,y2) = k, per k generico.
Distribuzioni marginali e condizionate
Sia Y∼ Np(µ,Σ) e scriviamo
Y′ = (Y′1,Y′2),
con Y1 q-dimensionale e Y2 (p−q)-dimensionale. Partizionando di conseguenza µ e Σ
avremo
µ =
(µ1
µ2
)Σ =
(Σ11 Σ12
Σ21 Σ22
),
dove Σ11 è una matrice q×q, Σ12 = Σ′21 è una matrice q× (p−q) , e inne Σ22 è una
matrice (p−q)× (p−q). La funzione generatrice di Y si può scrivere allora come
IE(
et′Y)
= IE(
et′1Y1+t′2Y2)
= exp[
t′1µ1 + t′2µ2 +12(t′1Σ11t1 + t′2Σ22t2 +2t′1Σ12t2
)](2.14)
Ponendo t2 = 0 si ottiene così la funzione generatrice del vettore aleatorio Y1 che vale
MY1(t1) = exp[
t′1µ1 +12(t′1Σ11t1
)], (2.15)
che mostra come Y1 ∼ Nq(µ1,Σ11). Abbiamo così dimostrato che le distribuzioni margi-
nali delle componenti di un vettore aleatorio con distribuzione normale multivariata hanno
76
ancora distribuzione normale di dimensione adeguata. Analogamente, ponendo t1 = 0 si
ottiene che Y2 ∼ Np−q(µ2,Σ22). Inoltre, è noto che due vettori aleatori sono indipen-
denti se e solo se la funzione generatrice dei momenti della vettore congiunto (Y1,Y2)
corrisponde al prodotto delle funzioni generatrici di Y1 e Y2. Confrontando le formule
(2.14) e (2.15) si vede allora che Y1 e Y2 sono indipendenti se e solo se Σ12 = 0. Questo
risultato è molto importante: vettori aleatori normali sono a componenti indipendenti se
e solo se la loro covarianza è nulla; il fatto che la covarianza nulla implichi l'indipendenza
è una caratteristica specica dei vettori aleatori normali; in generale questa implicazione
è falsa.
Una delle implicazioni del precedente risultato è il seguente: se osserviamo un cam-
pione di v.a. normali univariate indipendenti
(X1, · · · ,Xn)iid∼ N(µ,σ2),
il vettore X = (X1, · · · ,Xn) può scriversi come
X∼ Nn(µ1n,σ2In),
dove 1n è un vettore n-dimensionale composto da tutti 1, mentre In è la matrice n×n,
con tutti 1 sulla diagonale e tutti zeri altrove.
Si può inoltre dimostrare che la distribuzione condizionata di Y1 |Y2 = y è ancora di
tipo normale. Più precisamente, se det(Σ22)> 0,
Y1 | Y2 = y∼ Nq(µ1 +Σ12Σ
−122 (y−µ2),Σ11−Σ12Σ
−122 Σ21
)(2.16)
La dimostrazione della (2.16) si trova alla ne di questo capitolo. Qui ne approfondiamo
il signicato nel caso in cui p = 2 e q = 1. In questo caso tutte le grandezze nella (2.16)
sono scalari e si evince che
Y1 | Y2 = y∼ N(
µ1 +σ12
σ22(y−µ2),σ
21 −
σ212
σ22
).
In pratica ricordando la formula del coeciente di regressione di Y1 su Y2, β1 = σ12/σ22 ,
si ha che la legge di Y1 condizionata all'evento Y2 = y è ancora di tipo normale con media,
77
funzione del valore di y, pari proprio al valore espresso dalla retta di regressione
µ1−β1µ2 +β1y, (2.17)
e varianza pari a σ21 (1− ρ2), inversamente proporzionale alla correlazione tra le due
variabili. In accordo con l'intuizione, se ρ = 0 (e quindi anche σ12 = 0), la conoscenza di
Y2 non modica la legge di Y1 (le due v.a. sono indipendenti). Se invece ρ =±1, allora
la conoscenza di Y2 implica la conoscenza perfetta di Y1, che avrà varianza nulla e sarà
quindi certamente uguale alla sua media (2.17).
2.8 Alcune dimostrazioni
Le dimostrazioni in questa sezione utilizzano il concetto di funzione generatrice dei mo-
menti, denita nel prossimo capitolo. Si consiglia pertanto la loro lettura dopo aver
studiato il capitolo 3.
2.8.1 Dimostrazione della (3.3)
Per denizione di funzione generatrice di ha
MY(t) = IE(
et′Y)=
1(2π)p/2 | Σ |1/2
∫IRp
exp
t′y− 12(y−µ)′Σ−1(y−µ)
dy.
Riscriviamo la quantità che appare nell'esponente aggiungendo e sottraendo la quantità
t′µ +12
t′Σt.
L'esponente si può allora scrivere come
t′µ +12
t′Σt− 12[(y−µ)′Σ−1(y−µ)+ t′Σt−2t′(y−µ)
]t′µ +
12
t′Σt− 12[(y−µ)′Σ−1(y−µ)+(Σt)′Σ−1(Σt)−2(Σt)′Σ−1(y−µ)
]t′µ +
12
t′Σt− 12[(y−µ−Σt)′Σ−1(y−µ−Σt)
]78
Perciò
MY(t) = exp
t′µ +12
t′Σt
× 1(2π)p/2 | Σ |1/2
∫IRp
exp−1
2[(y−µ−Σt)′Σ−1(y−µ−Σt)
]dy.
L'ultima funzione integranda è una densità normale multivariata e quindi vale 1. Ne
segue la tesi, cioè
MY(t) = exp
t′µ +12
t′Σt.
2.8.2 Dimostrazione della (2.16)
Consideriamo la trasformazione lineare di Y, Z = CY, dove
C =
(Iq −Σ12Σ
−122
0 Ip−q
)
è una matrice a blocchi, il primo dei quali di dimensione q× q. Allora, per il teorema
(3.2), la distribuzione di Z è ancora normale con matrice di covarianza(Σ11−Σ12Σ
−122 Σ21 0
0 Σ22
)
Suddividiamo allora il vettore Z in due componenti Z1 di dimensione q, e Z2 di dimensione
p−q. Poiché la matrice di covarianze di Z è diagonale a blocchi, risulta
Z1 ⊥⊥ Z2.
Inoltre, poiché il blocco inferiore destro della matrice C è la matrice identica, risulta
anche Z2 = Y2. Perciò la distribuzione di Z1 condizionata al valore di Y2 è identica alla
sua legge marginale, e poiché
Z1 = Y1−Σ12Σ−122 Y2, (2.18)
79
si avrà
Z1 | Y2 = y2 ∼ Nq(µ1−Σ12Σ
−122 µ2,Σ11−Σ12Σ
−122 Σ21
).
Dalla (2.18), risulta Y1 = Z1 +Σ12Σ−122 Y2, e perciò la distribuzione di Y1 | Y2 = y2 si
ottiene come una semplice traslazione di Z1 (avrà cioè la stessa matrice di covarianze ed
una media traslata di Σ12Σ−122 y2. Ne segue la tesi, cioè che Y1 | Y2 = y2 è normale con
parametri
IE(Y1 | Y2 = y2) = µ1 +Σ12Σ−122 (y2−µ2)
e
Var(Y1 | Y2 = y2) = Σ11−Σ12Σ−122 Σ21.
2.9 Esercizi
2.9.1. Una variabile aleatoria X di Cauchy standard (C(0,1)) ha densità
fX(x) =1
π(1+ x2)
1. Calcolare la probabilità dell'evento B = (−1 < X < 1).
2. Determinare la legge di probabilità della v.a. Y = 1/X
3. Determinare la legge di probabilità della variabile aleatoria Z = σX +µ , con µ ∈Re σ > 0.
3∗ Se X1 e X2 sono indipendenti e somiglianti con legge di Cauchy C(0,1), determinare
la legge di
X =X1 +X2
2
2.9.2. La densità congiunta delle vv.aa. X e Y è data da
fX ,Y (x,y) = xexp(−x(y+1)) , x > 0,y > 0.
1. Determinare la legge condizionata di Y |X = c
80
2. Determinare la legge condizionata di X |Y = d
3. Determinare la legge di Z = XY
4. Determinare la Cov(X ,Y )
2.9.3. Sia (X ;Y ) una v.a. doppia con funzione di densità
f (x;y) = k exp(−(2x+3y)) , x > 0,y > 0
(a) Determinare il valore della costante k.
(b) Determinare la funzione di ripartizione della v.a. (X ;Y ).
(c) Se Q è il quadrato con vertici i punti (0;0),(0;1),(1;0),(1;1), calcolare P((X ,Y )∈Q).
(d) Determina IE(X).
2.9.4. Siano U e V due variabili aleatorie la cui distribuzione congiunta è uniforme
nell'insieme
A = (u,v) : 0≤ u≤ 1 e 0≤ v≤ 1 .
Sia poi X =UV .
1. Trova la legge congiunta di X e U.
2. Trova la funzione di densità di X, fX(x)
3. Qual è il valore atteso di U?
4. Qual è la probabilità che U >V ?
2.9.5. Il valore di un titolo alla borsa di Milano, ogni giorno alla chiusura, può essere in
rialzo (+) o in ribasso (-) con la stessa probabilità Le chiusure dei vari giorni possono
essere considerate indipendenti. Sia N j la v.a. numero di volte, in j giorni lavorativi,
che il titolo è (+). Calcolare
81
1. Prob(N10 = 7)
2. la probabilità di avere dieci giorni consecutivi di ribassi
3. E(N10)
4. E(N10 | N9 = 7)
5. E(N10 | N12 = 9)
6. la probabilità che il primo rialzo si abbia dopo il quinto giorno
2.9.6. Siano S e T due variabili aleatorie indipendenti con distribuzione esponenziale.
Siano inoltre
E(S) = α E(T ) = β
1. Determinare la distribuzione di Y = min(S,T ).
2. Calcolare la probabilità dell'evento S < T
3. Determinare E(X +Y | Y > 4)
2.9.7. Per varie ragioni, occorre conoscere quanto diusi sono tra la popolazione alcuni
comportameenti devianti, come l'uso di droghe illegali. Se si organizza un sondaggio di
opinione su questi temi si rischia di ricevere molte risposte non sincere. Per ovviare a
questo si utilizza il metodo delle risposte randomizzate, che adesso descriviamo in un
esempio. L'intervistatore fornisce all'intervistato le seguenti istruzioni.
Lanci una moneta regolare e non mi faccia vedere il risultato; se viene T
risponda alla domanda A, se viene C, risponda alla domanda B. In ogni caso
risponda solo con un SI o con un NO. Non mi dica a quale domanda ha
risposto, ma solo che risposta ha dato.
(A) Il tuo numero di telefono termina con un numero pari?
(B) Hai mai fatto uso di cocaina?
82
Questo criterio protegge il rispondente poiché non si sa a quale domanda ha eettiva-
mente risposto. In questo modo la percentuale di risposte non sincere cala notevolmente.
Assumiamo allora che i rispondenti siano sinceri nelle risposte e che essi rispondano in
modo indipendente. Assumiamo inoltre che la percentuale di numeri di telefono pari
nella popolazione sia pari al 50%. Sia invece θ la percentuale di coloro che fanno uso di
cocaina.
1. Qual è la probabilità che una persona scelta a caso risponda SI alla domanda?
2. Se intervistiamo n = 1000 persone, e denotiamo con X il numero di SI, che
distribuzione avrà la v.a. X?
3. Qual è il valore atteso di X
2.9.8. Un'urna contiene 80 dadi di cui 30 sono regolari, mentre gli altri sono stati
manipolati in modo che, per ciascuno di essi, la probabilità di ottenere 1 è pari a 12
mentre gli altri risultati hanno tutti probabilità 1/10. Si estrae a caso un dado e lo si
lancia. Sia X il risultato osservato.
1. Trovare la distribuzione di probabilità di X
2. Un dado viene estratto a caso e lanciato due volte e si ottengono i risultati 2 e 3.
Calcolare la probabilità che sia un dado truccato
2.9.9. Due squadre di calcio devono giocare una nale di un torneo La squadra A segna un
numero di goal che può essere modellato come una variabile aleatoria X ∼Poi(λA = 2.5).
La squadra B segna un numero di goal che può essere modellato come una variabile
aleatoria Y ∼Poi(λB = 2). Le v.a. X e Y sono indipendenti.
1. Qual è la probabilità che vinca la squadra A?
2. Qual è la probabilità di un pareggio?
3. Qual è la probabilità di un over? (Un over si verica se la somma dei goals segnati
dalle due squadre è maggiore di 4)
83
2.9.10. Tre giocatori, A, B e C, lanciano contemporaneamente una moneta. La moneta
di A (B,C) dà testa (T) con probabilità a (b, c), con 0 < a,b,c < 1. Se due delle
tre monete danno lo stesso risultato il giocatore che ha lanciato la terza moneta viene
eliminato; se sono tutte uguali, si rilanciano le monete.
1. Qual è la probabilità che il giocatore eliminato per primo sia A?
2. Quanto vale la probabilità precedente quando a = b = c? si poteva arrivare a tale
risultato senza fare calcoli?
3. Sempre nel caso a = b = c, qual è il numero medio di partite necessarie a nire il
gioco?
2.9.11. In ogni prova una cavia può andare verso destra o verso sinistra. Alla prima prova
va a destra con probabilità 1/2 e a sinistra con probabilità 1/2. Nelle prove successive
la probabilità di andare verso destra dipende solo da quello che è accaduto nella prova
precedente, in particolare:
se alla prova (n− 1)-esima la cavia è andata a destra, alla n-esima prova va di
nuovo a destra con probabilità P(Dn|Dn−1) = 0.6;
se alla prova (n− 1)-esima la cavia è andata a sinistra, alla n-esima prova va a
destra con probabilità P(Dn|Sn−1) = 0.7.
Trovare P(D2), P(Dn) per n generico e limn→∞ P(Dn).
2.9.12. Siano S e T due variabili aleatorie indipendenti con distribuzione esponenziale
di tasso λ , con densità
f (u) = λ exp(−λu) , u > 0.
Determinare la densità delle variabili aleatorie
1.
X =| S−T |
84
2.
Y = S3
3.
Z = min(S3,T
)Calcolare il coeciente di correlazione tra S e T .
2.9.13. Sia (X ;Y ) una v.a. doppia con funzione di densità
f (x;y) =k
(1+ x2)(1+ y2), (x,y) ∈ R2
(a) Determinare il valore della costante k.
(b) Determinare la funzione di ripartizione della v.a. (X ;Y ).
(c) Se Q è il quadrato con vertici i punti (0;0),(0;1),(1;0),(1;1), calcolare P((X ,Y )∈Q).
(d) Determina IE(X).
2.9.14. Siano U e V due variabili aleatorie la cui distribuzione congiunta è uniforme
nell'insieme
A = (u,v) : 0≤ u≤ 1 e 0≤ v≤ 1 .
Sia poi X =UV .
1. Trova la legge congiunta di X e U .
2. Trova la funzione di densità di X , fX(x)
3. Qual è il valore atteso di U?
4. Qual è la probabilità che U >V ?
85
Malati Non Malati
farmaco A 200 300
farmaco B 50 50
2.9.15. Una campione di pazienti viene classicato secondo 1) il sesso, 2) il trattamento
ricevuto, e 3) la risposta che dà al trattamento ricevuto. Il risultato dell'esperimento è il
seguente
MASCHI
FEMMINE
Malati Non Malati
farmaco A 50 100
farmaco B 200 370
(a) qual è la probabilità di essere malato dopo aver ricevuto il farmaco A per un
maschio?
(b) qual è la probabilità di essere malato dopo aver ricevuto il farmaco A per una
femmina?
(c) Considerando i soli maschi, consiglieresti il farmaco A oppure il B?
(d) Considerando le sole femmine, consiglieresti il farmaco A oppure il B?
(e) Considerando l'intera popolazione, quale farmaco consiglieresti?
(f) Hanno senso le tue conclusioni? Prova a commentare i risultati.
2.9.16. Siano X e Y due vv.aa. indipendenti e somiglianti aventi distribuzione esponen-
ziale di parametro λ .
(a) Determinare la distribuzione di probabilità della v.a.
W = X +Y
86
(b) Determinare la distribuzione di probabilità della v.a.
Z =X
X +Y
(c) Determinare il valore atteso di X2
2.9.17. Sia X ∼ N(3,9) Determinare la funzione generatrice dei momenti
della v.a X
della v.a. Y = X−33
Se X1,X2, . . . ,Xn sono i.i.d. con legge N(3,9), determinare la distribuzione di
Vn =X1 +X2 + . . .Xn
n
che cosa si potrebbe rispondere alla precedente domanda se le v.a., invece di essere
i.i.d. N(0,3), fossero i.i.d. U(3,9)?
87
88
CAPITOLO 3
Funzioni generatrici e teoremi di convergenza
3.1 Funzione generatrice dei momenti
Ad ogni distribuzione di probabilità si può associare una trasformazione così denita
MX(u) = IE(euX)
=
∑x∈S esx Pr(X = x) X discreta∫S esx fX(x)dx X ass. continua
. (3.1)
dove u è un parametro scalare. In tal modo si viene a denire una nuova funzione
nella variabile u, il cui supporto è dato da quei valori di u che rendono nito l'integrale
(o somma) precedente. La quantità MX(u) prende il nome di funzione generatrice dei
momenti associata alla distribuzione di X per motivi che vedremo tra breve. Se la (3.1)
non risulta nita per alcun valore di u, diremo che non esiste la funzione generatrice dei
momenti della distribuzione di X .
È possibile dimostrare che, sotto certe condizioni piuttosto generali, esiste una cor-
rispondenza biunivoca tra funzioni generatrici e distribuzioni di probabilità. Questa pro-
89
prietà consente di riconoscere una distribuzione di probabilità dalla sua corrispondente
funzione generatrice e, inoltre, permette, di eettuare i calcoli in modo indierente sia in
termini di leggi di probabilità o funzioni generatrici a seconda della convenienza contin-
gente.
Esempio 3.1 [Distribuzione di Bernoulli ] Sia X ∼ Ber(p),
X =
0 con prob. 1− p
1 con prob. p.
Allora
MX(u) = IE(euX) 1
∑k=0
esk Pr(X = k)
= (1− p)+ peu
♦
Esempio 3.2 [Distribuzione geometrica ] Sia X ∼ Geo(p),
Pr(X = k) = p(1− p)k−1, k = 1,2, . . .
Allora
MX(u) = IE(euX)
=∞
∑k=1
euk Pr(X = k)
=∞
∑k=1
p(1− p)k−1euk
= peu∞
∑k=1
((1− p)eu)k−1
= peu∞
∑s=0
((1− p)eu)s
=peu
1− (1− p)eu ,
90
per ogni u < log(1/(1− p)). ♦
Esempio 3.3 [Distribuzione di Poisson ] Sia X ∼ Poi(λ ),
Pr(X = k) =e−λ
k!λ
k, k = 0,1,2, . . .
Allora
MX(u) = IE(euX)
=∞
∑k=0
euke−λ λ k
k!
= e−λ∞
∑k=0
(λeu)k
k!
= e−λ eλeu
= eλ (eu−1).
♦
Esempio 3.4 [Distribuzione normale ] Sia X ∼ N(µ,σ2),
fX(x) =1
σ√
2πexp(− 1
2σ2 (x−µ)2).
Allora
MX(u) = IE(euX)
=∫R
eux 1σ√
2πexp(− 1
2σ2 (x−µ)2)
dx
=∫R
1σ√
2πexp(− 1
2σ2 (x2−2µx−2σ
2ux+µ2)
)dx
= exp(uµ +u2
σ2/2)∫
R
1σ√
2πexp(− 1
2σ2 (x− (µ +uσ2))2
)dx
= exp(uµ +u2
σ2/2)
91
♦Le funzioni generatrici hanno diverse applicazioni, teoriche ed applicate. In particolare,
esse vengono utilizzate per calcolare, in modo più semplice, i momenti di una distri-
buzione. In base alle loro proprietà, esse permettono di ottenere con una certa semplicità,
la legge della somma di v.a. indipendenti e somiglianti.
3.1.1 Alcune proprietà
Illustreremo qui alcune proprietà della funzione generatrice dei momenti. Quando neces-
sario, utilizzeremo la notazione delle v.a. assolutamente continue dotate di funzione di
densità, ma le proprietà si applicano anche al caso di v.a. discrete.
Innanzitutto è facile vedere che, qualunque sia la v.a. X , vale la relazione
MX(0) = 1,
cioè , qualunque funzione generatrice dei momenti, calcolata in zero, vale 1. Infatti,
MX(0) = IE(euX) |u=0= IE(1) = 1.
Sia X una v.a. con densità fX(x). Calcoliamo la derivata prima di MX(u) rispetto a
u.
M′X(u) =d
duMX(u)
=d
du
∫R
eux fX(x)dx
=∫R
xeux fX(x)dx.
Calcolando la derivata in u = 0, si ottiene
M′X(0) =∫R
x fX(x)dx = IE(X) .
Dunque, il valore atteso di una v.a. X può essere calcolato semplicemente derivando la
MX(u) e calcolando la derivata in u = 0. Il ragionamento può essere esteso alle derivate
successive
M(k)X (0) =
dk
duk MX(u) |s=0=∫R
xk fX(x)dx = IE(
Xk).
92
Questo risultato è molto utile per il calcolo dei momenti di una v.a. dotata di funzione
generatrice dei momenti. Ad esempio, se X ∼ Ber(p), abbiamo visto che MX(u) =
(1− p)+ peu. Quindi
IE(X) = M′X(0) = peu |u=0= p
e
IE(X2)= M′′X(0) = peu |u=0= p;
in generale, si può vedere che, per ogni k intero positivo, IE(Xk)= p.
Trasformazioni lineari. Sia X una v.a. con funzione generatrice dei momenti MX(u).
Allora la v.a. Y = aX +b, con a e b scalari, avrà funzione generatrice dei momenti pari a
MY (u) = IE(euY)
= IE(
eu(aX+b))
= eubMX(au)
Esempio 3.5 [Distribuzione normale. ] Sia X ∼N(µ,σ2) e si voglia determinare la legge
di Y = aX +b. Poiché
MX(u) = euµ+ u2σ22
avremo
MY (u) = eubeauµ+ a2σ2u22 = e(aµ+b)+ a2u2σ2
2
che, per la corrispondenza tra funzioni di ripartizione e funzioni generatrici dei momenti,
signica che Y ∼ N(aµ +b,a2σ2) In particolare, per a = 1/σ e b =−µ/σ , si ottiene la
distribuzione di una v.a. normale standardizzata.
♦
Somma di variabili aleatorie indipendenti. Siano X e Y due v.a. indipendenti
con rispettiva funzione generatrice pari a MX(u) e MY (u). Vogliamo determinare la
93
funzione generatrice della v.a. somma W = X +Y . Avremo allora
MW (u) = IE(
eu(X+Y ))
= IE(euX) IE
(euY) [per l'indipendenza di X e Y ]
= MX(u)MY (u)
Dunque, la funzione generatrice della v.a. somma di due v.a. indipendenti è pari al pro-
dotto delle due funzioni generatrici. Il risultato è facilmente generalizzabile a qualunque
numero di addendi, da cui
Teorema 3.1. Siano X1,X2, . . .Xn v.a. indipendenti con rispettive funzioni generatrici
MXi(u), i = 1, . . . ,n. Allora la funzione generatrice della v.a. Z = X1 +X2 + · · ·+Xn vale
MZ(u) = MX1(u)MX2(u) . . .MXn(u) =n
∏i=1
MXi(u).
Se poi le Xi sono anche somiglianti, avranno funzione generatrice identica per cui
MZ(u) = [MX1(u)]n .
Dimostrazione 3.1. Ovvia, lasciata per esercizio. ♦
Esempio 3.6 [Somma di v.a. indipendenti bernoulliane]
Siano X1,X2, . . . ,Xniid∼ Ber(p) e sia
Y = X1 +X2 + . . .Xn;
Sappiamo già che
MX1(u) = (1− p)+ peu,
e quindi
MY (u) = [(1− p)+ peu]n
=n
∑i=0
(ni
)pi(1− p)n−ieiu
=n
∑i=0
eiu Pr(Y = i) ,
94
con Pr(Y = i) =(n
i
)pi(1− p)n−i. Dunque, la funzione generatrice dei momento della
somma di v.a. bernoulliane indipendenti e somiglianti ha la forma della funzione gene-
ratrice di una funzione di ripartizione associata ad una v.a. Binomiale e quindi - vedi
l'Osservazione più avanti - la somma di n v.a. Bernoulliane indipendenti di parametro p
ha distribuzione binomiale di parametri (n, p). ♦
Esempio 3.7 [Somma di v.a. normali indipendenti]. Sia, per i= 1, . . . ,n, Xi∼N(µi,σ2i ),
mutuamente indipendenti, e sia Y = X1 + · · ·+Xn. Allora
MY (u) =n
∏i=1
exp(
uµi +u2σ2
i2
)= exp
(u
n
∑i=1
µi +n
∑i=1
σ2i
u2
2
),
cioè
Y ∼ N
(n
∑i=1
µi,n
∑i=1
σ2i
)Dunque la somma di v.a. normali indipendenti ha ancora distribuzione normale con media
data dalla somma delle medie e varianza pari alla somma delle varianze. Il risultato può
essere generalizzato anche al caso di v.a. non indipendenti, ma occorrono altre tecniche
di dimostrazione. ♦
Osservazione 3.1. In questo paragrafo abbiamo visto sotto quali condizioni esiste la
funzione generatrice dei momenti associata ad una funzione di ripartizione FX(·). Li-
mitandoci a tali funzioni di ripartizione, quelle per cui esiste la corrispondente MX(·),possiamo dire che tale corrispondenza è biunivoca, cioè ad ogni funzione di ripartizione
è associata una sola funzione generatrice e viceversa.
Questa osservazione ci permette di concludere che, di fronte ad una funzione gene-
ratrice di tipo noto, la funzione di ripartizione associata a quella particolare MX(·), nonpuò essere che quella che le corriponde. È proprio questa osservazione che ci permette
95
di ottenere, come nell'Esempio 3.6, la distribuzione di una v.a. dalla forma della sua
funzione generatrice dei momenti.
La funzione generatrice dei momenti può essere denita anche per vettori aleatori.
Sia X = (X1, · · · ,Xk) un vettore aleatorio k dimensionale e sia t = (t1, · · · , tk) ∈ Rk. Si
denisce funzione generatrice dei momenti del vettore X la funzione MX :Rk→R denita
come
MX(t) = IE(
et′X)=
∑x∈S expt1x1 + · · ·+ tkxkPr(X = x) X discreta∫S expt1x1 + · · ·+ tkxk fX(x)dx X ass. continua
. (3.2)
Esempio 3.8 [La distribuzione trinomiale]
♦
Esempio 3.9 [La normale multivariata]
La funzione generatrice dei momenti del vettore normale Y∼ Np(µ,Σ) vale
MY(t) = IE(
et′Y)= IE
(e(t1Y1+···tpYp)
)= exp
(t′µ +
12
t′Σt)
(3.3)
Per la dimostrazione della (3.3), si veda al termine del Capitolo 2. Una prima conseguenza
della (3.3), che aerma un risultato molto importante, è che le combinazioni lineari di
variabili aleatorie normali hanno ancora distribuzione normale.
Teorema 3.2. Sia Y ∼ Np(µ,Σ) e sia B una matrice k× p. Allora il vettore W = BYha distribuzione normale k-dimensionale. Più precisamente
W∼ Nk(Bµ,BΣB′
). (3.4)
Dimostrazione 3.2. Calcoliamo la funzione generatrice dei momenti di W
MW(t) = MBY(t) = IE(exp(t′BY
))= IE
(exp(B′t)′Y
))= MY(B′t) = exp
(t′Bµ +
12
t′BΣB′t)
96
che è riconoscibile come la funzione generatrice dei momenti associata ad una distribu-
zione normale con parametri espressi dalla (3.4).
♦
3.2 Funzione generatrice delle probabilità
Sia a0,a1,a2, . . . una successione di numeri reali; deniamo, funzione generatrice della
successione la funzione G : R→ R denita da
G(s) =∞
∑n=0
snan.
Tale operazione trasferisce la successione di valori in un altro dominio, precisamente
la retta reale, il supporto in cui varia s. Un tale strumento è utile per lo studio di una
variabila aleatoria X discreta e denita sui numeri interi positivi, dove la successione (nita
o innita) di valori è data dal vettore di probabilità, cioè. per ogni n∈N, Pr(X = n) = an.
In tal caso avremo,
G(s) = IE(sX) . (3.5)
La funzione generatrice delle probabilità ha notevoli proprietà, simili a quelle della funzione
generatrice dei momenti. In fondo, basta porre s = eu per passare da una funzione
all'altra. La prima proprietà è relativa alle convoluzioni, che avrà un impatto nel calcolo
della funzione generatrice della somma di v.a. discrete. Se A = a0,a1,a2, . . . e B =
b0,b1,b2, . . . sono due successioni, deniamo come loro convoluzione la successione
C = c0,c1,c2, . . . dove
cn = a0bn +a1bn−1 +a2bn−2 + · · ·+anb0 =n
∑i=0
aibn−i
97
La funzione generatrice della convoluzione è
GC(s) =∞
∑n=0
cnsn =∞
∑n=0
n
∑i=0
aibn−isn
=∞
∑i=0
∞
∑n=i
aibn−isn
=∞
∑i=0
aisi∞
∑n=i
bn−isn−i
=∞
∑i=0
aisi∞
∑h=0
bhsh
= GA(s)GB(s)
Quando le successioni A e B sono distribuzioni di probabilità e X e Y sono due v.a.
indipendenti denite sugli interi non negativi e tali che Pr(X = n) = an e Pr(Y = n) = bn,
per ogni n, allora i valori della successione di convoluzione C forniscono le probabilità con
cui la v.a. Z = X +Y assume i vari valori interi non negativi, cioè le Pr(X +Y = n) = cn.
In questo caso, la dimostrazione precedente avrebbe potuto essere scritta in modo più
semplice ed elegante come
GX+Y (s) = IE(sX+Y)= IE
(sX) IE
(sY)= GX(s)GY (s),
cioè la funzione generatrice della somma di due v.a. indipendenti è pari al prodotto delle
funzioni generatrici delle singole v.a.
Un'altra importante proprietà è legata al calcolo della media. È facile vericare che,
essendo GX(s) la funzione generatrice della v.a. X , allora
∂
∂ sGX(s) |s=1= IE(X) .
Infatti,
G′X(s) =∂
∂ s
(a0 +a1s+a2s2 + . . .
)= a1 +2a2s+3a3s2 + . . .
cosicché
G′X(1) = a1 +2a2 +3a3 + · · ·=∞
∑k=1
kak = IE(X) .
98
Si può anche vericare che, essendo GX(s) la funzione generatrice della v.a. X , allora la
derivata n-esima di GX(s), calcolata in zero fornisce il valore n!an, cioè
G′X(0) = n!an,
da cui
an =1n!
G′X(0).
In altri termini l'elemento generico della distribuzione di probabilità può essere ottenuto
mediante operazione di derivazione. Questo risultato si lega con l'ultima proprietà della
funzione generatrice delle probabilità degna di nota: la successione è interamente re-
cuperabile dalla conoscenza della sua funzione generatrice. In altri termini la funzione
generatrice determina univocamente la legge di probabilità.
3.3 Disuguaglianze notevoli.
In molte applicazioni pratiche, non si conosce esattamente la legge della v.a. in esame,
ma è suciente ottenere una valutazione approssimata della probabilità di un evento del
tipo X > a per un qualche a reale, oppure del tipo |X −E(X)| > a, per a > 0. Le
disuguaglianze di Markov e Chebyshev possono allora essere utilizzate per ottenere dei
limiti superiori di queste probabilità, espresse in termini di media e varianza della v.a. in
questione.
Esempio 3.10 Sia X ≥ 0 una v.a. relativa all'età di una persona scelta a caso nel
comune di Roma. Supponiamo di sapere che, per tale distribuzione,
IE(X) = 50 anni.
Sulla base di questa sola informazione, qual è percentuale di persone nella popolazione
con età superiore a 75 anni? cioè quanto vale Pr(X > 75)?
Ovviamente, non possiamo rispondere in modo esatto a questa domanda ma la disu-
guaglianza di Markov ci aiuterà a dare una risposta approssimata. ♦
99
Teorema 3.3. Disuguaglianza di Markov.
Sia X una v.a. non negativa. Allora, per ogni a > 0,
Pr(X ≥ a)≤ 1a
IE(X) .
Dimostrazione 3.3. Definiamo la variabile indicatrice
I(a) =
1 X ≥ a
0 X < a;
allora è facile verificare che, in ogni caso, e per ogni a > 0,
aI(a)≤ X .
La suddetta disuguaglianza è allora vera anche in media,
a IE(I(a))≤ IE(X) .
Ma
IE(I(a)) = 1×Pr(X ≥ a)+0×Pr(X < a) = Pr(X ≥ a)
da cui la tesi. ♦
Quando di una v.a. conosciamo soltanto il valor medio IE(X), la disuguaglianza di
Markov è il risultato più preciso che si può ottenere per il comportamento delle code. Per
dimostrare questa aermazione, consideriamo il seguente esempio. Sia X una v.a. che
assume i seguenti valori
X =
aµ1a
0 1− 1a
Allora, in questo caso
IE(X) = aµ× 1a= µ
mentre
Pr(X ≥ aµ) = IE(X)/a = µ,
100
e dunque la v.a. in questione raggiunge il limite superiore descritto dalla disuguaglianza
di Markov, che in questo caso diventa una uguaglianza. Tuttavia, in alcune situazioni,
la disuguaglianza può essere quasi inutile, come dimostra il seguente esempio. Sia X ∼Exp(1); allora
Pr(X ≥ 10) = e−10≈ 4.54×10−5,
mentre la disuguaglianza ci fornisce un upper bound molto più elevato,
Pr(X ≥ 10)≤ IE(X)
10=
110
,
cioè una valutazione molto conservativa.
Disuguaglianza di Chebyshev.
Sia X una v.a. che descrive lo stato di un sistema. Supponiamo inoltre che il sistema sia
sotto controllo se X non si discosta troppo dalla sua media IE(X). In alcune applica-
zioni industriali tale scostamento viene ssato in tre deviazioni standard, cioè 3σX . La
disuguaglianza di Chebyshev fornisce un limite superiore alla quantità
Pr(|X− IE(X) | ≥ 3σX) .
A dierenza di quella di Markov, per utilizzare la disuguglianza di Chebyshev occorre
conoscere anche la deviazione standard della v.a.
Teorema 3.4. Disuguaglianza di Chebyshev.
Sia X una v.a. con media pari a IE(X) e varianza σ2X . Allora, per ogni a > 1,
Pr(|X− IE(X) | ≥ aσX)≤1a2 .
Dimostrazione 3.4. Utilizzeremo la disuguaglianza di Markov. Definiamo la v.a. Y =
(X− IE(X))2 ≥ 0. Ovviamente IE(Y ) = σ2X e, per la disuguaglianza di Markov,
Pr(Y ≥ a2
σ2X)≤ 1
a2 .
Tuttavia Y ≥ a2
σ2X⇐⇒|X− IE(X) | ≥ aσX
101
e dunque
Pr(|X− IE(X) | ≥ aσX)≤1a2 . ♦
Anche la disuguaglianza di Chebyshev è il risultato più preciso che si può ottenere sulla
base della conoscenza delle sole media e varianza. In alcuni esempi, tuttavia, essa fornisce
risultati troppo conservativi. Sia infatti X ∼ N(0,1). allora la disuguaglianza ci dice che
Pr(|X | ≥ 3) = Pr(|X | ≥ 3σX)≤19,
ma in realtà sappiamo che Pr(X > 3)≈ 2×10−3.
Teorema 3.5 (Disuguaglianza di Jensen). Sia φ : R→ R una funzione convessa,
λφ(x)+(1−λ )φ(y)≥ φ(λx+(1−λ )y)
per ogni λ ∈ (0,1) e per ogni coppia di valori (x,y) ∈ R. Assumiamo inoltre che la v.a.
X e φ(X) abbiano valore atteso nito. Allora
φ (E[X ])≤ E[φ(X)].
Dimostrazione 3.5. Sia c = E[X ] e poniamo l(x) = ax+ b una funzione lineare tale
che l(c) = φ(c) e φ(x)≥ l(x). Allora
E[φ(X)]≥ E[aX +b] = aE[X ]+b = l (E[X ]) = φ (E[X ]) ♦
3.4 Convergenza di successioni di v.a.
Consideriamo una successione di v.a.
Xn,n≥ 1 ,
e assumiamo che tutte le v.a. siano denite tutte sullo stesso spazio di probabilità (Ω,P).
È possibile denire diversi criteri secondo i quali la successione Xn ammette, in un certo
senso, un limite.
102
Convergenza quasi certa.
Si dice che la successione Xn converge quasi certamente (q.c.) alla v.a. X e si scrive
Xnq.c.→ X , per n→ ∞,
se
Pr(ω : Xn(ω)→ X(ω)) = 1,
cioè , l'insieme delle possibili traiettorie della successione che convergono ha probabilità
pari a 1.
Convergenza in probabilità.
Si dice che la successione Xn converge in probabilità (i.p.) alla v.a. X e si scrive
Xni.p.→ X , per n→ ∞,
se, ∀ε > 0,
Pr(ω :| Xn(ω)−X(ω) |< ε)→ 1, per n→ ∞.
È possibile dimostrare che la denizione di convergenza quasi certa implica quella in
probabilità ma il viceversa non è necessariamente vero:
Xnq.c.→ X =⇒ Xn
i.p.→ X .
Convergenza in media quadratica.
Si dice che la successione Xn converge in media quadratica (m.q.) alla v.a. X e si
scrive
Xnm.q.→ X , per n→ ∞,
se,
limn→∞
IE(| Xn−X |2
)= 0
Questo tipo di convergenza è basato sul calcolo dei momenti e non della intera distribu-
zione delle v.a. coinvolte. Tuttavia è facile dimostrare che
Xnm.q.→ X =⇒ Xn
i.p.→ X ,
103
cioè la convergenza in media quadratica implica quella in probabilità. La dimostrazione
è basata sull'utilizzo della disuguaglianza di Chebyshev.
Pr(| Xn−X |> ε) = Pr(| Xn−X |2> ε
2)≤
IE(| Xn−X |2
)ε2
Dunque se l'ultima quantità tende a zero (convergenza in m.q.), a maggior ragione vi
convergerà anche la prima (convergenza in probabilità ).
Consideriamo ora un ultimo tipo di convergenza, detto in distribuzione. Questo è
il tipo di convergenza più debole e non è basato sulla natura delle v.a. quanto sulle loro
distribuzioni; non è nemmeno necessario che le v.a. siano denite sullo stesso spazio di
probabilità.
Convergenza in distribuzione.
Si dice che la successione Xn converge in distribuzione (i.d.) alla v.a. X e si scrive
Xni.d.→ X , per n→ ∞,
se, per ogni punto x di continuità della funzione di ripartizione F della v.a. X , vale
limn→∞
FXn(x) = FX(x).
La condizione che la convergenza si verichi solo nei punti di continuità della funzione di
ripartizione limite è necessaria per evitare che la condizione non sia vericata in situazioni
dove la convergenza è naturale.
Esempio 3.11 Sia Xn,n≥ 1 la successione delle variabili aleatorie degeneri tali che,
per ogni n ≥ 1, Xn assume il valore 1/n con probabilità pari a 1. Trattandosi di una
successione deterministica è naturale richiedere che il limite in distribuzione di tale
successione sia la v.a. degenere in 0. la cui funzione di ripartizione è
F0(t) =
0 t < 0
1 t ≥ 0.
104
Tuttavia, per ogni n≥ 1, la funzione di ripartizione associata alla Xn è data da
Fn(t) = Pr(Xn ≤ t) =
0 t < 1n
1 t ≥ 1n
.
E' facile vedere che la succesione dei numeri reali Fn(0),n ≥ 1, composta da tutti 0,
non converge al valore F0(0) = 1. ♦
Si può poi dimostrare che
Xni.p.→ X =⇒ Xn
i.d.→ X ,
cioè la convergenza in probabilità implica la convergenza in distribuzione. Il viceversa è
vero solo nel caso particolare in cui la v.a. limite è degenere cioè assume un solo valore.
Teorema 3.6. Sia Xn,n≥ 1 una successione di v.a.; se
Xni.d.→ X = c,
dove c è una costante allora
Xni.p.→ X = c.
Dimostrazione 3.6. Si veda, ad esempio, Dall’Aglio [2000].
Un teorema di continuità.
Abbiamo già visto che, quando esiste, la funzione generatrice dei momenti caratterizza
univocamente una distribuzione di probabilità footnotein realtà, occorrono altre condi-
zioni di regolarità, che qui assumeremo soddisfatte.. È allora ragionevole pensare che, a
fronte di una convergenza delle funzioni di ripartizione di una successione di v.a., debba
corrispondere una qualche convergenza delle funzioni generatrici dei momenti. Infatti,
vale il seguente teorema
Teorema 3.7. Sia Xn,n≥ 1 una successione di v.a.; assumiamo che, per ogni n≥ 1,
sia denita la funzione generatrice dei momenti associata alla distribuzione della v.a. Xn,
105
diciamo Mn(u). Allora, se X è un'ulteriore v.a. e MX(u) è la funzione generatrice dei
momenti associata alla distribuzione di X ,
Mn(u)→MX(u),
per n→ ∞ e per u ssato, se e solo se
Xni.d.→ X .
Dimostrazione 3.7. Si veda, ad esempio, Dall’Aglio [2000].
L'ultimo risultato sarà particolarmente utile nella dimostrazione dei più importanti
teoremi limite della probabilità, le leggi dei grandi numeri e il teorema del limite centrale,
come vedremo nella prossima sezione.
3.5 Teoremi limite
Teorema 3.8. Legge debole dei grandi numeri. Sia Xn,n≥ 1 una successione di v.a.
indipendenti e somiglianti, tutte con media pari a IE(Xn) = µ < ∞. Sia inoltre
Sn = X1 +X2 + · · ·+Xn.
Allora, per ogni ε > 0, si ha, per n→ ∞,
Pr(| Sn
n−µ |> ε
)→ 0, (3.6)
Dimostrazione 3.8. Le seguenti affermazioni sono equivalenti per quanto già detto nei
paragrafi precedenti
Sn
n−µ
i.p.→ 0⇐⇒ Sn
ni.p.→ µ ⇐⇒ Sn
ni.d.→ µ ⇐⇒MSn/n(u)→Mµ(u),
dove la seconda relazione dipende dal fatto che µ e un limite degenere e la terza relazione
discende dal teorema di continuità della sezione precedente. Sarà allora sufficiente dimo-
strare l’ultima delle suddette relazioni, cioè la convergenza della successione delle funzioni
106
generatrici dei momenti. Dopo aver notato che la funzione generatrice dei momenti di una
v.a. degenere nel valore µ si calcola facilmente, nel modo seguente
Mµ(u) = IE(euX)= exp(uµ),
occorre dimostrare che MSn/n(u)→ exp(uµ). Ma
MSn/n(u) = MX1/n+X2/n+···+Xn/n(u)
=[MX1/n(u)
]n=[MX1
(un
)]n
Sviluppando in serie di Taylor fino al primo ordine la MX1 si ha,
MX1
(un
)= MX1(0)+M′X1
(0)un+o(
1n
)= 1+
uµ
n+o(
1n
),
e quindi
MSn/n(u) =
[1+
uµ
n+o(
1n
)]n
→ euµ . ♦
Teorema 3.9. Legge forte dei grandi numeri. Sotto le stesse condizioni del Teorema
3.8, si può anche dimostrare cheSn
n−µ
q.c.→ 0. (3.7)
Dimostrazione 3.9. Si veda Dall’Aglio [2000]
Teorema 3.10. Teorema del limite centrale. Sia Xn,n≥ 1 una successione di v.a.
indipendenti e somiglianti, tutte con media pari a IE(Xn) = µ < ∞ e varianza pari a
Var(Xn) = σ2 < ∞. Sia inoltre
Sn = X1 +X2 + · · ·+Xn.
Allora, per n→ ∞,
Pr(
Sn−nµ
σ√
n≤ t)→Φ(t), (3.8)
dove Φ(t) è la funzione di ripartizione di una v.a. N(0,1).
107
Dimostrazione 3.10. Sia
Vn =Sn−nµ
σ√
n.
Per il teorema di continuità (vedi §1.6) è sufficiente dimostrare che la funzione generatrice
dei momenti di Vn converga alla funzione generatrice dei momenti di una v.a. N(0,1), cioè
che
MVn(u)→ exp(
u2
2
).
Poiché
Vn =X1−µ
σ√
n+
X2−µ
σ√
n+ · · ·+ Xn−µ
σ√
n
e gli addendi nella somma precedente sono v.a. indipendenti, avremo
MVn(u) =[M(X1−µ)/σ
√n(u)
]n
=
[MX1−µ
(u
σ√
n
)]n
.
Ricordando che IE(X1−µ) = 0 e IE(X1−µ)2 = σ2, avremo
MX1−µ
(u
σ√
n
)=MX1−µ(0)+M′X1−µ(0)
uσ√
n+M′′X1−µ(0)
u2
2σ2n+o(
1n
)= 1+
u2
2n+o(
1n
),
da cui
MVn(u) =
[1+
u2
2n+o(
1n
)]n
→ exp(
u2
2
),
come si voleva mostrare. ♦
Mostriamo ora, attraverso semplici esempi, alcune possibili utilizzazioni dei teoremi
limite.
Esempio 3.12 (Chung & AitSahlia [2003]) La distanza tra la terra e la stella Irex viene
misurata n volte con lo stesso strumento per ottenere un risultato più adabile. Ogni
misurazione è soggetta ad un errore casuale non controllabile. Si giudica ragionevole
108
supporre che, in modo approssimato, l'errore si manifesti, ogni volta, come una v.a.
uniforme U(−1,1). Se consideriamo la media aritmetica delle n misurazioni, qual è la
probabilità che essa dierisca dal vero valore della distanza meno di δ , per δ ∈ (0,1)?
Per rispondere a questa domanda, sia µ il vero valore della distanza e denotiamo con
X1, . . . ,Xn le n v.a. associate alle n misurazioni. Dunque si può assumere che, per ogni
j = 1, . . . ,n,
X j = µ +ξ j,
dove ξ1, . . . ,ξniid∼ U(−1,1). Ne segue che
IE(X j)= µ + IE
(ξ j)= µ, Var
(X j)= IE
(ξ
2j)=
13.
La v.a. Vn = (X1+ . . .Xn)/n, la media campionaria delle n misurazioni ha dunque media
e varianza pari a
IE(Vn) = µ, Var(Vn) =1n2
n3=
13n
.
Ne segue che, peril teorema del limite centrale, per grandi valori di n, la v.a. Zn =√
3n(Vn− µ) ha distribuzione approssimativamente normale standardizzata. Quindi l'e-
vento al quale siamo interessati,
|Vn−µ |< δ ,
ha probabilità
Pr(|Vn−µ |< δ ) = Pr(| Zn |< δ
√3n)
≈ Φ
(δ
√3n
)−Φ
(−√
3nδ
)= 2Φ
(δ√
3n)−1.
Ad esempio, con 36 replicazioni dell'esperimento e δ pari a 0.1, avremo
Pr(|V36−µ |< 0.1)≈ 2Φ(1.04)−1 = 0.702.
Con 100 replicazioni, la probabilità di non eccedere δ salirebbe a 0.92. Queste considera-
zioni sono ovviamente importanti anche per stabilire quale sia la numerosità campionaria
necessaria per ottenere risultati con un grado pressato di adabilità.
109
♦
Esempio 3.13 [Approssimazione della legge binomiale mediante la legge normale] Siano
X1,X2, ·Xniid∼ Be(θ). Sappiamo allora che
IE(X1) = θ , Var(X1) = θ(1−θ).
Per grandi valori di n applicando il teorema del limite centrale si ha
Sn−nθ√nθ(1−θ)
≈ N(0,1),
cioè , ∀x ∈ R,
Pr
(Sn−nθ√nθ(1−θ)
≤ x
)→Φ(x) =
∫ x
−∞
1√2π
exp(−1
2t2)
dt
Ma è anche noto che la somma di n v.a. bernoulliane indipendenti e somiglianti ha
distribuzione binomiale e dunque Sn ∼ Bin(n,θ). Dunque,
Pr(Sn ≤ y) = Pr
(Sn−nθ√nθ(1−θ)
≤ y−nθ√nθ(1−θ)
)≈Φ
(y−nθ√nθ(1−θ)
)
La precedente approssimazione può essere migliorata tenendo conto della correzione di
continuità e avremo così,
Pr(Sn ≤ y)≈Φ
(y−nθ +0.5√
nθ(1−θ)
)
♦
Esempio 3.14 [Il teorema del limite centrale per il calcolo approssimato di probabilità ]
Calcolare probabilità relative alla distribuzione binomiale è semplice ntanto che il valore
di n, il numero delle prove non è troppo grande. Supponiamo di dover eettuare n =
1000 lanci di una moneta che dà testa (T) con probabilità p = 0.4 e vogliamo calcolare
110
la probabilià di ottenere un numero di T compreso tra almeno 350 e non più di 425.
Ovviamente sarà Y ∼ Bin(1000,0.4), da cui
IE(X) = 1000×0.4 = 400, varx = 1000×0.4×0.6 = 240.
Allora adottando la correzione di continuità tipica delle approssimazioni di distribuzioni
discrete avremo,
Pr(350≤ Y ≤ 425) = Pr(350−0.5≤ Y ≤ 425+0.5)
= Pr(
349−400√240
≤ Y −400√240
≤ 425.5−400√240
)= Pr(−3.26≤ Y ≤ 1.646)≈Φ(1.65)−Φ(−3.26)
= 0.9505−0.0006 = 0.9499
Queso risultato non può essere ottenuto con carta e penna usando la formula binomiale.
Da notare che il risultato esatto, calcolato con un qualunque software, fornisce il valore
0.94925.
♦
3.5.1 Il metodo Monte Carlo
3.5.2 La notazione di Landau o(h)
Il simbolo o(h) non si riferisce ad una specica funzione. Esso indica qualsiasi funzione
che tenda a zero con una velocità (o tasso) superiore rispetto alla funzione f (h) = h
quando h→ 0, cioèo(h)
h→ 0 per h→ 0.
Una quantità o(h) gode di alcune proprietà inconsuete come ad esempio il fatto che
o(h)+o(h) = o(h),
così come
o(h)o(h) = o(h); e c ·o(h) = o(h),
111
con c costante.
Esempio 3.15 La funzione f (h) = hk è un o(h) per ogni k > 1 al tendere di h a zero.
Infattihk
h= hk−1→ 0 as h→ 0.
La serie ∑∞k=2 ckhk, in cui |ck|< 1, per ogni k, è ancora o(h) poiché
limh→0
∑∞k=2 ckhk
h= lim
h→0
∞
∑k=2
ckhk−1
=∞
∑k=2
ck limh→0
hk−1 = 0,
dove lo scambio di ordine tra limite e serie è giusticato dal fatto che la serie è maggiorata
da una serie convergente (cioè la quantità 1/(1−h), per h< 1, ponendo tutte le ck = 1. ♦
112
CAPITOLO 4
Introduzione ai processi stocastici
La teoria dei processi stocastici è importante per la descrizione di sistemi complessi che
si evolvono nel tempo e/o nello spazio secondo regole probabilistiche. Formalmente, un
processo stocastico può essere denito come segue:
Denizione 4.1. Si dice processo stocastico una famiglia di variabili aleatorie X =
Xt , t ∈ T denite su uno spazio di probabilità (Ω, A , P).
Intuitivamente, un processo stocastico può essere visto - ma non necessariamente
- come una successione di variabili aleatorie X1, X2, . . . Xn, . . . che si realizzano nel
tempo, ordinate secondo un parametro t ∈ T .
Esempio 4.1 [ Lanci di ua moneta ] Si lancia una moneta indenitamente. Ogni lancio
è indipendente dagli altri e a ciascun lancio viene associata una v.a Bernoulliana di
parametro p,
Xt =
1(T ) p
0(C) 1− p
113
Sia poi, per ogni t = 1,2, . . . ,,
Yt = 2Xt−1,
il guadagno associato all'uscita di T (1 euro) oppure di C (-1 euro). Sia inoltre, per ogni t
St = X1 +X2 + . . .Xt la somma parziale delle prime n scommesse. Il processo Sn,n ∈Ncostituisce il primo esempio di processo stocastico, che rappresenta l'ammontare del
capitale guadagnato mediante le prime n scommesse. Ovviamente, per ogni n ∈ N,risulta Sn = Sn1 +Xn, che chiarisce come la successione delle v.a. Sn non è a componenti
indipendenti. Inoltre poiché Sn−1 dipende solo dalle prime n−1 v.a. Xi, essa non dipende
da Xn. Il processo Sn,n ∈N si dirà allora ad incrementi indipendenti. La classe dei
processi ad incrementi indipendenti è molto importante sia da un punto di vista teorico che
applicato. Molte applicazioni dei processi stocastici in ambito nanziario ed economico,
come ad esempio l'analisi classica delle serie temporali si basano proprio sull'ipotesi di
incrementi indipendenti.
Rimanendo al nostro esempio, lo studio del processo Sn,n ∈ N ha molti aspetti
interessanti che, nelle varie applicazioni, ha senso considerare. Noi saremo interessati, in
particolare ai seguenti problemi
(1) Qual è la probabilità che il processo Sn, partendo da zero, raggiunga la soglia
positiva a prima di raggiungere la soglia negativa −b
(2) Qual è la distribuzione del tempo aleatorio necessario per raggiungere un certo
valore c ∈ R?
(3) È possibile valutare, almeno in modo approssimato, la legge di probabilità di Sn,
per n molto grande? In altre parole, è possibile stabilire se la successione delle Sn
converge in distribuzione a qualche v.a. limite?
♦
DA RISCRIVERE
114
nel modo seguente: innanzitutto i dati oggetto di studio sono ricavati attraverso un
processo di misurazione che può essere falsato da disturbi di varia natura; sfortunata-
mente, è molto dicile fornire una descrizione accurata di tali disturbi perché possono
derivare dalle cause più disparate. Pertanto, maggiori sono le informazioni sul tipo di dati
che stiamo studiando, maggiori sono le possibilità di riuscire a capire le proprietà della
particolare serie osservata. Un modo per arontare questo problema è proprio quello di
trattare i dati come una particolare realizzazione di un processo stocastico (se abbiamo
due serie di dati le trattiamo semplicemente come due diverse realizzazioni di uno stesso
processo), ossia di assumere che il processo abbia delle particolari proprietà e che la serie
non sia altro che un esempio dei suoi possibili andamenti.
Anche nel caso in cui le caratteristiche della serie di dati siano note, potrebbe essere
comunque preferibile trattarla come la realizzazione di un processo descritto da poche ca-
ratteristiche; dal punto di vista pratico, infatti, per descrivere un processo basta limitarsi
a un piccolo insieme di parametri, mentre per studiare una serie occorre una quantità di
variabili deterministiche generalmente molto più grande. Questo tipo di approssimazione,
chiaramente, dà risultati non ottimali, ma risulta senz'altro migliore dello studio di tutti
i parametri di un dataset limitato (cosa che spesso risulta irrealizzabile). Esempio 4.2
Sono esempi di stati di processi stocastici il numero di email nella posta in arrivo in un
dato istante t, il saldo di conto corrente in un dato momento t, il numero di teste che
escono in t lanci della stessa moneta.
♦legame tra le Xt . Generalmente lo si deduce da problemi di carattere pratico. Ana-
liticamente, esso risulta dalla formalizzazione delle ipotesi fatte per analizzare il processo
e per fare previsioni sul fenomeno reale. Vedremo che i legami tra le Xt sono riconducibili
a legami tra le loro distribuzioni di probabilità e che questi a loro volta determinano la
famiglia di appartenenza del processo stocastico.
115
4.1 Un po' di linguaggio.
In questo paragrafo verranno deniti alcune nozioni generali, comuni a tutti i processi
che incontreremo. Sia Xtt ∈ T la collezione di v.a. che forma il processo stocastico.
Chiameremo T l'insieme dei tempi in cui il processo viene osservato. T può essere un
insieme discreto come l'insieme N dei numeri naturali oppure un sottoinsieme della retta
reale R, in genere la semiretta positiva o l'intera retta reale. Nei due casi il processo si
dirà a parametro discreto oppure continuo.
Si denisce invece spazio degli stati S l'insieme dei valori che le variabili aleatorie
costituenti il processo possono assumere. È possibile che ciascuna v.a. Xt abbia un pro-
prio spazio degli stati St . In tal caso deniremo Anche lo spazio degli stati può essere
discreto o continuo a seconda della natura delle v.a. che costituiscono il processo. Si
chiama distribuzione congiunta nito dimensionale del processo Xt , t ∈ T la distribuzio-ne multivariata di un sottoinsieme nito di v.a. del processo Xt1,Xt2, . . . ,Xtk . Conoscere il
comportamento probabilistico del processo stocastico equivale a conoscere tutte le distri-
buzioni k-dimensionali per qualunque valore di K intero e per qualunque k-pla di variabili
aleatorie. In generale, questo è raramente possibile senza assumere alcune ipotesi sem-
plicatrici, come un particolare tipo di dipendenza, ad esempio quella di tipo markoviana
che discuteremo in seguito. Quando non è possibile assumere ipotesi semplicatrici, lo
studio del processo si limita all'analisi di particolari grandezze associate alle v.a. che
costituiscono il processo. Si potrà denire ad esempio la funzione deterministica
m(t) = IE(Xt) , t ∈ T
che rappresenta il livello medio del processo al variare del tempo. Può essere inoltre utile
denire, per ogni coppia di tempi (t,s) la funzione di covarianza
C(s, t) = Cov(Xs,Xt) ,
che descrive il grado di dipendenza delle coppie di v.a. costituenti il processo. Un caso
molto importante, che non discuteremo in dettaglio, è quello dei processi debolmente
stazionari, cioè processi in cui la funzione m(t) è costante mentre C(s, t) = γ(|s− t|
116
dove la covarianza dipende solo dal lag temporale di osservazione delle due v.a.; si vede
facilmente che le v.a. che costituiscono un processo debolmente stazionario hanno tutte
la stessa varianza, pari a γ(0).
Ricordando inoltre che le v.a. sono denite come funzioni misurabili da Ω in R,possiamo interpretare un processo come la collezione
Xt(ω),ω ∈Ω, t ∈ T .
Al variare di t ∈ T , per ω ssato si ottiene una traiettoria del processo stocastico. Al
variare di ω ∈Ω, per t ssato si ha, ovviamente, la v.a. che descrive il processo al tempo
t.
Nei prossimi paragra introdurremo il primo e più elementare esempio di processo
stocastico, già introdotto all'inizio del capitolo, ovvero un processo di tipo bernoulliano,
comunemente noto come passeggiata aleatoria. La sua trattazione ci aiuterà ad acquisire
un linguaggio e un modo di arontare i problemi che risulterà utile nei capitoli successivi
in cui aronteremo processi aleaori più generali.
4.2 La passeggiata aleatoria
S come l'unione numerabile degli St , S =∪t∈T St . La più elementare passeggiata aleatoria
è quella in cui si descrive il moto di una particella che si muove ad intervalli unitari,
avanti o indietro di un passo con movimenti mutuamente indipendenti. Cerchiamo di
formalizzare meglio questo processo. Per ogni istante n = 1,2,3, . . . , deniamo una
variabile aleatoria dicotomica che assume il valore 1 con probabilità p e il valore −1 con
probabilità q = 1− p. In formula, per ogni n = 1,2,3, . . .
Xn =
+1 p
−1 q.
Assumiamo inoltre che le Xn siano indipendenti tra loro. In pratica si assume che, ad ogni
istante, la particella si sposti di un passo, avanti o indietro, con probabilità rispettivamente
pari a p e q = 1− p. Inoltre, il movimento ad ogni istante non dipende dalle mosse
117
precedenti e future.
Esempio 4.3 Il caso bidimensionale Per avere una rappresentazione concreta di questo
tipo di processi, nel caso bidimensionale, si può pensare ad una passeggiata di un ubriaco
per un quartiere reticolare come Manhattan a New York, o Testaccio a Roma. Ad ogni
incrocio, egli sceglie quale delle quattro possibilili direzioni prendere in base a probabilità
pressate. Sia allora S(n) = (S(n)1 ,S(n)2 ) la posizione in R2 al tempo n, con
S(n)j = X (1)j +X (n)
j + · · ·+X (n)j .
Una possibile regola di cammino della passeggiata potrebbe essere ad esempio la seguente
P(S(n) = (x,y)|S(n−1) = (w,z)) =
1/4 x = w+1,y = z+1
1/4 x = w−1,y = z+1
1/4 x = w+1,y = z−1
1/4 x = w−1,y = z−1
.
♦
A partire dalle v.a. sopra denite, per ogni n, si può allora costruire la v.a.
Sn = X1 +X2 + · · ·+Xn−1 +Xn
che rappresenta la posizione o il livello raggiunto dopo n passi. Ovviamente, la Sn soddisfa
la relazione:
Sn = X1 +X2 + · · ·+Xn−1 +Xn = Sn−1 +Xn, n = 1,2,3, . . . .
L'ultima espressione rappresenta la passeggiata aleatoria come un caso particolare di
catena di Markov omogenea nel tempo, di cui torneremo ad occuparci nel prossimo
capitolo.
Cercheremo ora di discutere ed illustrare le caratteristiche matematiche di questo
modello che, oltre ad avere una importanza per sé, rappresenta anche l'elemento base
per costruire e studiare modelli più complessi.
118
Lo studio di un processo aleatorio può essere eettuato concentarndoci sulla natura
delle relazioni che intercorrono tra le variabili aleatorie che lo compongono oppure, in
modo complemetare, studiando le traiettorie disegnate dal processo, cioè studiando le
realizzazioni che l'intera successione di v.a. può potenzialmente manifestare. Questo
secondo approccio, nel caso particolare della passeggiata aleatoria, ci consentirà, ad
esempio, di dare una risposta a domande del tipo:
1. Qual è la probabilità che la particella, partendo da un dato stato a, raggiunga prima
o poi un certo livello o una certa posizione c?
2. Qualora ci riesca, quanto tempo impiegherà ?
3. Il raggiungimento del livello c avverrà prima o dopo aver raggiunto un altro livello,
diciamo −b?
4. Quanto spesso la particella passa per un dato livello, ad esempio lo zero?
La risposta a queste domande può essere cercata rappresentando il processo aleatorio,
cioè la successione delle Sn, in modo colorito, come l'ammontare della fortuna di un
giocatore al casinò che, ad ogni puntata, perde o vince una quantità ssata di denaro.
4.3 Il problema della rovina del giocatore
Consideriamo la seguente situazione: Pietro e Paolo sono due giocatori di carte che
hanno a disposizione, rispettivamente, a euro e b euro. Ad ogni istante n = 1,2,3, . . .
giocano una partita: chi vince toglie un euro all'altro giocatore. Ogni partita ha esito
indipendente dalle altre: inoltre, in ogni partita, Pietro vince con probabilità p e Paolo
vince con probabilità q = 1− p.
Sia Sn il patrimonio di Pietro dopo n partite; la terza domanda che ci siamo posti può
essere allora riformulata nel modo seguente: partendo da S0 = a (l'ammontare iniziale di
Pietro), qual è la probabilità che Pietro tolga tutti i soldi a Paolo? In altre termini, qual
è la probabilità che la successione Sn tocchi il livello c = a+b prima di toccare lo zero,
cioè prima che Pietro perda tutto il capitale iniziale?
119
Per questa sua classica rappresentazione, il problema è denito come quello della
rovina del giocatore. Risponderemo alla domanda con un approccio che comporta calcoli
lunghi ma semplici, basati sulla risoluzione di un sistema di equazioni alle dierenze nite
che verrà risolto in modo ricorsivo.
Nel linguaggio formale della teoria dei processi aleatori, una situazione di questo
genere viene denita una passeggiata aleatoria con due barriere assorbenti, per indicare
il fatto che, quando il processo tocca uno dei livelli 0 oppure c il processo non ne esce
più. Riprenderemo questo concetto più diusamente nell'ambito delle catene di Markov.
4.3.1 Probabilità di vittoria dei due giocatori.
Sia allora A l'evento Sn raggiunge lo stato 0 prima dello stato c. Per ogni j = 1,2, . . . ,c−1 deniamo la quantità
u j = P(A | S0 = j),
la probabilità di rovina di Pietro qualora parta con j euro. Per come abbiamo impostato
il problema, sarebbe suciente calcolare il valore di ua, ma la soluzione che esporremo,
basata sulla risoluzione del sistema, ci fornirà il risultato per ogni capitale iniziale j di
partenza.
Innanzitutto esprimiamo la quantità u j tenendo conto di quanto può succedere nella
prima partita; questa tecnica è molto utilizzata nello studio dei processi di Markov e
prende il nome di condizionamento al primo passo.
u j = P(A∩X1 = 1|S0 = j)+P(A∩X1 =−1|S0 = j),
u j = P(A | X1 = 1∩S0 = j)P(X1 = 1)
+ P(A | X1 =−1∩S0 = j)P(X1 =−1)
= P(A | S1 = j+1)p+P(A | S1 = j−1)q,
dove l'ultima uguaglianza deriva da una proprietà del processo che chiameremo marko-
vianità nel prossimo capitolo: qui ci limitiamo a notare che l'informazione relativa al
risultato del primo passo (la v.a. X1) ci da informazioni sullo stato del processo delle Sn
120
al tempo t = 1 e rende inutile, in quanto superata, l'informazione relativa al tempo t = 0.
Inoltre
P(A | S1 = j−1= P(A | S0 = j−1) = u j−1
e una relazione analoga vale condizionando all'evento X1 = 1; questo suggerisce la
relazione ricorrente, valida per j = 1,2, . . . ,n−1,
u j = pu j+1 +qu j−1.
Per costruzione del problema, possiamo anche ssare le condizioni al contorno,
u0 = 1; uc = 0; p+q = 1.
Infatti, partendo dallo stato 0, la rovina è un evento certo, mentre se n dall'inizio si
possiedono tutti gli euro, la rovina è un evento impossibile.
Avremo dunque, essendo p+q = 1,
u j = (p+q)u j = pu j+1 +qu j−1
da cui
q(u j−1−u j
)= p
(u j−u j+1
).
Ponendo inoltre
r =qp, d j = u j−u j+1, per j = 0,1, . . .c−1,
si ha che, per ogni j,
d j = rd j−1 = r2d j−2 = r3d j−3 = · · ·= r jd0.
Assumiamo per il momento che r 6= 1; il caso r = 1, in cui i due giocatori hanno la stessa
probabilità di vincere ogni singola partita, verrà arontato più avanti. Poiché u0−uc = 1,
avremo
1 = u0−uc = u0−u1 +u1−u2 + · · ·+uc−1−uc
=c−1
∑j=0
(u j−u j+1) =c−1
∑j=0
d j =c−1
∑j=0
r jd0 = d01− rc
1− r
121
da cui
d0 =1− r1− rc ,
Ma d0 = 1−u1, e quindi
u1 = 1− 1− r1− rc =
r− rc
1− rc .
Con la stessa tecnica è possibile esprimere la generica u j:
u j = u j−uc = u j−u j+1 +u j+1 + · · ·+uc−1−uc
=c−1
∑k= j
(uk−uk+1) =c−1
∑k= j
dk =c−1
∑k= j
rkd0
= d0
[c−1
∑k=0
rk−j−1
∑k=0
rk
].
Allora
u j = d0
[1− rc
1− r− 1− r j
1− r
]=
r j− rc
1− rd0 (4.1)
=r j− rc
1− r1− r1− rc =
r j− rc
1− rc (4.2)
Dunque, per j = 1, . . . ,c−1, la probabilità di rovina di Pietro, con capitale iniziale pari
a j euro è
u j =r j− rc
1− rc . (4.3)
Se invece r = 1, cioè p = q, ritorniamo alla relazione
1 = u0−uc = u0−u1 +u1−u2 + . . .uc−1 +uc−1−uc =c−1
∑j=0
r jd0 = cd0 =⇒ d0 =1c.
Allo stesso modo
u j = u j−uc = (c− j)d0 =c− j
c.
In particolare si avrà quindi che la probabilità di rovina per un giocatore che inizia con a
euro, mentre il suo avversario parte con b euro è pari a
ua =
(ra− ra+b)/(1− ra+b) r 6= 1
(c−a)/c = b/(a+b) r = 1. (4.4)
122
Per calcolare la probabilità di rovina di Paolo, il giocatore che parte con b euro, non è
necessario riscrivere tutti i passaggi precedenti: sarà suciente scambiare tra loro, nelle
formule nali appena sopra, i valori di p e q (e quindi r diventerà 1/r) e i valori di a e b
(oppure j e c− j). Se v j denota allora la probabilità di rovina per Paolo quando parte
con j euro avremo che
v j =
(r−(c− j)− r−c)/(1− r−c) = (1− r j)/(1− rc) r 6= 1
j/c r = 1.
Si può dunque vericare che, per ogni j = 0,1, . . . ,c, vale la relazione
u j + v j = 1,
qualunque sia r: dunque il gioco ha sempre una ne. In altri termini possiamo enunciare
la seguente proposizione
Proposizione 4.1. Se la particella parte da un livello j compreso tra 0 e c, prima o poi
toccherà uno dei due livelli limite.
4.3.2 Durata media del gioco.
Avendo stabilito che il gioco ha una durata nita (cioè termina con probabilità 1), voglia-
mo adesso calcolare la durata media del gioco; in altre parole, quante partite occorrono,
in media, anché uno dei due giocatori sia rovinato? Risolveremo il problema in modo
simile, condizionando al risultato della prima prova.
Sia Tj la variabile aleatoria denita come Primo istante in cui la particella tocca i livelli
0 oppure c, partendo da j, per j = 1, . . . ,c−1. Sia inoltre E j = IE(Tj). Vediamo quali
relazioni soddisfano le E j.
E j = IE(Tj)= p
(E j+1 +1
)+q(E j−1 +1
)= pE j+1 +qE j−1 +1.
Notare che, in questo caso, condizionando al risultato della prima partita dobbiamo
aggiungere 1 al secondo membro in quanto una partita è stata già giocata! Nel corso
di questi calcoli stiamo poi tacitamente assumendo che il tempo medio sia nito, cioè
123
che Pr(Tj < ∞
)= 1; questo andrebbe dimostrato in modo rigoroso ma lo daremo per
assunto. Inoltre, le condizoni al contorno sono ora
E0 = Ec = 0.
Per semplicità studieremo solo il caso in cui p = q.
Sia f j = E j−E j+1, per j = 0,1, . . . ,c−1. Allora, in base alla relazione precedente,
E j = pE j +qE j = pE j+1 +qE j−1 +1,
che diventa
p(E j−E j+1) = q(E j−1−E j)+1
cioè , essendo p = q = 1/2,
f j = f j−1 +2 = f j−2 +4 = f j−3 +6 = · · ·= f0 +2 j
Perciò
0 = E0−Ec =c−1
∑j=0
(E j−E j+1) =c−1
∑j=0
f j =c−1
∑j=0
( f0 +2 j) = c f0 +2c(c−1)/2
E0−Ec = c( f0 + c−1) =⇒ f0 = 1− c.
Inoltre, per ogni j = 1, . . . ,c−1, si può scrivere
E j =c−1
∑k= j
(E j−E j+1) =c−1
∑k= j
fk =c−1
∑k= j
( f0 +2k)
= (c− j) f0 +2c−1
∑k=0
k−2j−1
∑k=0
k = (c− j) f0 +2c(c−1)/2−2 j( j−1)/2
= (c− j)(1− c)+ c(c−1)− j( j−1) = (c− j)(1− c)− c(1− c)− j( j−1)
= − j(1− c)− j( j−1) = j(c−1− j+1) = j(c− j)
Dunque
E j = IE(Tj)= j(c− j)
oppure, tornando all'esempio dei due giocatori con un patrimonio iniziale di a e b, IE(Ta)=
ab. Notiamo inne che, come ci si poteva attendere, essendo p = q,
E j = Ec− j.
124
4.3.3 Giocare contro il banco
Consideriamo adesso la situazione in cui uno dei due giocatori ha un capitale limitato,
diciamo a euro mentre l'avversario dispone di un capitale illimitato. Questo avviene, in
pratica, quando andiamo a giocare in un casinò, dove il nostro avversario è il banco,
innitamente ricco. Per studiare questo caso è suciente adattare le formule precedente-
mente ottenute al caso in cui la quantità b tenda a innito. Consideriamo allora il limite
di ua (formula 4.4) cioè la probabilità di rovina per il giocatore, al tendere di b a +∞.
Ovviamente, essendo a+b = c, per a ssato, dire che b→ ∞ equivale ad assumere che
c→ ∞; perciò
limc→∞
ua =
1 r ≥ 1 cioè q≥ p
ra r < 1 cioè q < p.
Dunque, giocando contro un avversario innitamente ricco, la rovina è certa se il gioco
è equo (p = q), o peggio ancora, quando il nostro avversario è favorito in ogni singola
partita; questa, del resto, è la situazione usuale nelle sale da gioco. Di contro, quando
p > q, cioè il giocatore in questione è più abile del suo avversario, esiste una piccola
probabilità, pari a 1− ra, di non nire rovinati; tale probabilità è. ovviamente, funzione
crescente di a.
Vediamo come interpretare, dal punto di vista del giocatore, i risultati appena ottenuti,
nel caso di gioco equo (p = q),:
1. il giocatore A o è quasi certo di vincere una quantità di denaro enorme, a patto
che sia in grado di sopportare qualunque livello di perdite.
2. Nel caso nito, quando A parte con a euro e B parte con b euro, con a e b interi
positivi qualunque, le probabilità di rovina sono inversamente proporzionali ai loro
averi
ua =b
a+b, ub =
aa+b
3. Quando c = a+b→ ∞ il valore di E j tende anch'esso a +∞: Dunque, per c→ ∞,
il tempo medio di durata del gioco è innito. In pratica, anche se uno dei due
125
giocatori parte con un solo euro, la durata media prevista del gioco è innita.
Notare però che questo è un risultato vero in media; il più delle volte si perde
molto velocemente, mentre in pochi casi, il gioco durerà a lungo.
4.3.4 Visite e ritorni nei singoli stati
Nel caso in cui p < q, la legge dei grandi numeri ci permette di arrivare a conclusioni più
forti. Se X1, . . . ,Xn, . . . rappresentano le vincite del giocatore A nelle varie partite, poiché
esse sono v.a. indipendenti e somiglianti, tutte con media pari a IE(Xi) = p−q, allora la
successione delle somme parziali Sn,n≥ 0 è tale che
Sn
nq.c→ IE(X1) = p−q < 0.
Dunque, in assenza di barriere, quasi certamente, Sn tenderà ad assumere valori inni-
tamente piccoli, toccando via via tutti i punti al di sotto di a e quindi anche lo zero!
Dunque Sn diverge quasi certamente a −∞ e quasi certamente lo stato 0 verrà tocca-
to. Occupiamoci adesso, ad un livello molto intuitivo e poco formale di un problema
più generale: il calcolo della probabilità con cui una passeggiata aleatoria senza barriere
(si pensi a due giocatori in grado di sopportare perdite illimitate) ritorna allo stato di
partenza. Deniamo allora l'evento
H = Sn = 0, per qualche n≥ 1.
Sia inoltre
g(a) = P(H|S0 = a),
la probabilità di toccare lo stato 0 partendo da S0 = a. Ovviamente, per a 6= 0, g(a)
rappresenta la probablità che la passeggiata prima o poi tocchi lo stato 0, mentre per
a = 0 essa rappresenta la probabilità di ritornare nello stato 0. Intanto possiamo scrivere
g(1) = p×g(2)+q×1 = p×g(2)+q.
Inoltre vale la relazione
g(2) = g(1)2. (4.5)
126
La (4.5) dipende dalla natura della passeggiata aleatoria, il cui comportamento futuro
dipende solo dalla posizione presente ma non di come si sia arrivati a tale livello. In
breve, per andare dallo stato 2 allo stato 0, la passeggiata deve prima arrivare allo stato
1 e poi da 1 deve arrivare in 0. È altrettanto evidente che la probabilità di andare da 2
a 1 e quella di andare da 1 a 0 sono uguali. Inoltre, anche se solo a livello intuitivo, è
chiaro che, una volta arrivata allo stato 1, la successione Sn dimentica quanto avvenuto
e la sua evoluzione futura non è inuenzata dal modo in cui è arrivata allo stato 1. In
altri termini, utilizzando l'indipendenza tra passato e futuro, si può scrivere
g(2) = P(H|S0 = 2) = P(toccare lo stato 1|S0 = 2)P(H|si è toccato lo stato 1,S0 = 2)
= P(toccare lo stato 1|S0 = 2)P(H|S0 = 1)
= P(toccare lo stato 0|S0 = 1)P(toccare lo stato 0|S0 = 1) = g(1)×g(1)
= g(1)2
Quindi
g(1) = pg(1)2 +q,cioè (pg(1)−q)(g(1)−1) = 0,
con soluzioni g(1) = q/p oppure 1. Se q ≥ p, l'unica soluzione possibile è dunque
g(1) = 1, cioè la probabilità di visitare 0 partendo da 1 è pari a uno. Se invece q < p,
possiamo notare come, essendo le v.a. Xn indipendenti e somiglianti con media pari a
IEXn = p− q, per la legge dei grandi numeri, Sn/n converge quasi certamente a p− q
e dunque Sn assumerà qualunque valore positivo grande a piacere. C'è dunque una
probabilità positiva che la passeggiata non torni a zero e quindi, in questo caso, la
soluzione è g(1) = q/p.
4.3.5 Numero atteso di ritorni allo stato iniziale
Abbiamo già argomentato come, a livello intuitivo, convenga pensare ad una passeggiata
aleatoria come ad un processo che, ogni qual volta ritorna nello stato iniziale, si rigeneri
completamente dal punto di vista probabilistico e il suo comportamento diventa, in di-
stribuzione, identico a quello che aveva al tempo t = 0. Questo signica che, se r è la
probabilità di ritorno nello stato di partenza, quando r 6= 0, il numero di ritorni nello stato
127
zero segue una distribuzione geometrica di parametro r. Che cosa accade poi quando la
passeggiata parte dallo stato 0? Enunciamo qui un risultato che verrà dimostrato alla
ne di questo capitolo.
Teorema 4.1. Sia Sn,n≥ 0 una passeggiata aleatoria con S0 = 0. Se la passeggiata
è asimmetrica, p 6= q, lo stato 0verrà visitato, con probabilità 1, un numero nito di
volte. Nel lungo periodo, la passeggiata tenderà a divergere a +∞ o −∞.
Nel caso simmetrico (p = q), la probabilità di ritorno allo stato 0 è 1, e questo
implica che la passeggiata Sn tornerà a visitare lo stato 0 un numero innito di volte.
Più precisamente si può aermare che
P(nessun ritorno in 0|S0 = 0) = |p−q|;
questo risultato si può interpretare dicendo che il ritorno a zero è un evento certo nel
caso simmetrico ma diventa sempre meno probabile al divergere dei valori p e q.
Dimostrazione 4.1. Omessa.
4.3.6 Passeggiata aleatoria e teorema del limite centrale
Consideriamo ancora la passeggiata aleatoria semplice Sn, n≥ 0 in cui Sn = Sn−1 +Xn
e le Xn sono v.a. indipendenti e somiglianti tali che
P(Xn = 1) = p = 1−P(Xn =−1), ∀n.
Semplici calcoli ci conducono ad ottenere che IE(Xn) = p− q = 2p− 1, per ogni n, e
dunque IE(Sn) = n(2p−1). Inoltre
Var(Xn) = IE(X2
n)− (IE(Xn))
2 = 1− (p−q)2
= 1− (2p−1)2 = 4p(1− p),
e Var(Sn) = 4np(1− p). Per grandi valori di n, utilizzando il teorema del limite centrale
si può dunque aermare che, approssimativamente,
Sn−n(2p−1)2√
np(1− p)∼ N(0,1),
128
o, in altri termini
Sn ∼ N (n(2p−1),4np(1− p)) .
Questo suggerisce che, nel caso di passeggiata asimmetrica, la passeggiata tende ad assu-
mere, mediamente, valori molto lontani dallo zero. In particolare, se p > q, la catena avrà
una media che cresce linearmente con n, mentre nel caso opposto, p < q, la catena tende
ad assumere valori negativi sempre più grandi. Ad esempio, con probabilità all'incirca del
95%, la passeggiata si troverà , dopo 2500 passi, nell'intervallo(2500(2p−1)−200
√p(1− p);2500(2p−1)+200
√p(1− p)
)Se si prende, ad esempio p = 0.6, avremo che
√p(1− p) =
√.24 ≈ 0.5 e l'intervallo
diventa (400,600). In altri termini, con pratica certezza, dopo un tempo sucientemente
grande, una passeggiata asimmetrica che parta da zero, abbandonerà tale stato senza più
ritornarvi.
Diverso è il discorso nel caso p = q in tal caso IE(Sn) = 0, ∀n e l'intervallo prima
calcolato diverrà, approssimativamente pari a (−2√
n;2√
n). In altri termini, una pas-
seggiata simmetrica si può trovare, dopo un grande numero di passi, in luoghi molto
diversi, molto vicini o molto lontani da zero. Più in la utilizzeremo la teoria e le tecniche
delle catene di Markov per dimostrare in modo formale che, mentre nel caso asimmetrico
lo zero (e tutti gli altri stati) sono transitori, cioè la passeggiata li abbandona denitiva-
mente con probabilità 1, nel caso simmetrico lo stato zero (come tutti gli altri) può essere
visitato anche dopo un lungo periodo di tempo. In particolare vedremo che lo stato zero,
nel caso simmetrico, verrà visitato innite volte ma che il tempo medio di ritorno tra una
visita e l'altra sarà anch'esso innito.
Le cose cambiano se ci riferiamo al processo delle medie parziali Vn = Sn/n, per ogni
n. In questo caso, poiché
IE(Vn) = 2p−1, e Var(Vn) = 4p(1− p)
n,
avremo che, per n grande,
Vn ∼ N(
2p−1;4p(1− p)
n
)129
e un intervallo di condenza al 95% per Vn sarà allora, approssimativamente,(2p−1−4
√p(1− p)
n;2p−1−4
√p(1− p)
n
).
In questo caso l'ampiezza dell'intervallo diminuisce all'aumentare dei passi, contraria-
mente a quanto visto per il processo delle Sn. In particolare, essendo p(1− p) ≤ 1/4
∀p ∈ [0,1], avremo che, qualunque sia il valore di p, per n grande,
P(|Vn− IE(Vn) |< 2/
√n))≈ 0.95.
Esempio 4.4 Un giocatore va al casinò con 100 euro per giocare alla roulette; egli decide
di giocare sempre sul rosso e sempre un solo euro per partita. Sappiamo che, giocando
sul rosso, si vince con probabilità p = 18/37. Inoltre, il giocatore decide di lasciare la
sala non appena il suo capitale arriva a 101 euro oppure a zero.
1. Qual è la probabilità di rovina del giocatore?
2. Quanto vale la il suo guadagno atteso?
3. Ripetere i calcoli dei precedenti due punti, partendo però da un capitale iniziale di
10 e 1000 euro; discutere le dierenze fra i tre casi.
Risposta.
1. 0.0528
2. −94.66152
♦
4.4 Catene di Markov
In questa e nelle prossime sezioni ci concentreremo su una particolare classe di processi,
costituiti da una successione di v.a. legate da una specica regola di dipendenza, che
illustreremo tra breve. Consideriamo allora una successione di v.a. reali X0,X1, . . . ,Xn, . . . ,
indicata brevemente con Xn,n≥ 0, dove ogni Xn ha come supporto l'insieme S.
130
Denizione 4.1. [Proprietà di Markov] Un processo stocastico Xn,n≥ 0, in cui ogni
Xn è denita su un insieme nito o numerabile S soddisfa la proprietà di Markov
quando:
P(Xn+k = j|(Xn = in∩Xn−1 = in−1∩ . . .∩X0 = i0)) = P(Xn+k = j|Xn = in) (4.6)
per ogni n e k, e per ogni scelta degli stati j, i0, . . . , in ∈ S.
Intuitivamente, la proprietà di Markov stabilisce che l'evoluzione del processo è tale
per cui, lo stato futuro Xn+k del processo dipenderà solamente dal valore corrente
Xn e non dai valori passati X0, X1, . . . ,Xn−1. In termini statistici, questo implica che la
previsione dello stato futuro del processo deve essere basata esclusivamente sullo stato
attuale del processo e non su come il processo è arrivato a quel livello. Questo avviene
perché il processo è soggetto a una forma di perdita di memoria, che rende il passato e il
futuro indipendenti, condizionatamente al valore presente. Forniamo ora una denizione
formale di catena di Markov, cioè un processo di Markov a tempo discreto, e spazio degli
stati S discreto.
Denizione 4.2. Un processo stocastico discreto Xn,n≥ 0, avente un supporto S con
cardinalità numerabile, si dice catena di Markov se soddisfa la proprietà di Markov,
cioè per ogni n≥ 0 e per ogni n-pla di stati i0, . . . in ∈ S,
P(Xn+k = j|Xn = in,Xn−1 = in−1, . . . ,X0 = i0) = P(Xn+k = j|Xn = in) = p(k)i j (n) (4.7)
Se la cardinalità di S è nita, si parlerà di catena di Markov nita. Per k = 1 la
relazione (4.7) ci dice che le probabilità di transizione in un passo dipendono in generale
dal tempo in cui si calcolano. Se, al contrario, si può assumere che
p(1)i j (n) = p(1)i j , (4.8)
cioè le probabilità di transizione non dipendono dal tempo, parleremo di catena di Markov
omogenea nel tempo; per brevità scriveremo pi j in luogo di p(1)i j . È facile dimostare
che se una catena è omogenea nel tempo, allora, per ogni k > 1, anche le p(k)i j (n) non
dipendono da n.
131
Se una catena di Markov omogenea ha un numero nito di stati, le probabilità di
transizione in un passo possono essere rappresentate attraverso una matrice quadrata. Più
in generale, l'intera teoria matematica delle catene di Markov nite può essere considerata
come una semplice applicazione dei metodi di algebra lineare. L'esistenza di catene di
Markov con numero degli stati innito numerabile, tuttavia, suggerisce di adottare un
approccio più probabilistico alla teoria delle catene di Markov, e questa seconda starada
verrà percorsa nel seguito.
Denizione 4.3. Sia Xn, n ≥ 0 una catena di Markov a stati niti. Si dice matrice
di transizione la matrice: P con elemento generico
Pi j = P(Xn = j|Xn−1 = i) ∈ [0,1], i, j ∈ S.
Se il numero degli stati è nito, cioè card(S) = s <+∞, P è una matrice quadrata di
ordine s, i cui elementi sono non negativi e le cui righe sommano a 1. La riga di i-esima,
infatti, rappresenta la distribuzione di probabilità dei valori Xn+1, sotto la condizione che
Xn = i. La matrice di transizione deve soddisfare le seguenti proprietà
Pi j ≥ 0 i, j ∈ S
∑j∈S
Pi j = 1, i, j ∈ S.
La seconda condizione stabilisce invece che ad ogni istante n, deve necessariamente veri-
carsi una transizione (per convenzione si dice che la transizione si verica anche se la
catena resta nello stesso stato).
Esempio 4.5 [Il clima dicotomico] Supponiamo che le condizioni meteorologiche di
una certa città possano essere semplicate nei due soli stati pioggia (P) e sole (S).
Supponiamo inoltre che le condizioni meteorologiche di ogni giornata dipendano solo da
quelle del giorno precedente. Più precisamente,
P(Xn+1 = P|Xn = S) = p P(Xn+1 = S|Xn = S) = 1− p
P(Xn+1 = P|Xn = P) = q P(Xn+1 = S|Xn = P) = 1−q.
132
Il processo che descrive le condizioni meteorologiche giornaliere della città è allora una
catena di Markov con matrice di transizione P data da:
P =
(q 1−q
p 1− p
).
Riprenderemo più volte questo esempio nel seguito. ♦Esempio 4.6 [Passeggiata aleatoria] Esempio di matrice a innite righe ♦
4.5 Probabilità di transizione in n passi
In questa sezione discuteremo di come calcolare sulla base della conoscenza della matrice
di transizione e della posizione iniziale della catena, le probabilità di muoversi da uno
stato all'altro in un qualunque numero di passi e le probabilità di trovarsi nel generico
stato j ∈ S al tempo n, indipendentemente dallo stato di partenza.
4.5.1 Equazioni di Chapman-Kolmogorov
Nello studio di una catena di Markov è spesso importante conoscere con quali probabilità
si possa passare da uno stato all'altro in un certo lasso di tempo ssato: è dunque
necessario conoscere le probabilità di transizione in un numero qualunque di passi,
P(k)i j = P(Xk = j|X0 = i) k =,2,3, . . . . (4.9)
La probabilità di transizione in k passi dallo stato i allo stato j è relativa all'evento che
si verica quando Xk = j sapendo che X0 = i, indipendentemente dal fatto che lo stato
j possa essere stato già visitato precedentemente dalla catena: il passaggio da i a j in k
passi può avvenire attraverso vari percorsi intermedi.
Ponendo ovviamente P(1)i j = P(X1 = j|X0 = i) = Pi j, e
P(0)i j = P(X0 = j|X0 = i) =
1 se i = j
0 se i 6= j,
133
possiamo decomporre la probabilità di interesse come somma di eventi vincolati ai possibili
stati visitati in un certo tempo intermedio.
Teorema 4.2 (Equazioni di Chapman-Kolmogorov). Sia Xn, n ≥ 0 una catena di
Markov. Per ogni interi n e m e per ogni coppia di stati risulta:
P(n+m)i j = ∑
r∈SP(n)
ir P(m)r j (4.10)
Dimostrazione 4.2.
P(n+m)i j = P(Xn+m = j|X0 = i) =
= P
(Xn+m = j∩
(⋃r∈S
Xn = r|X0 = i
))=
= ∑r∈S
P(Xn+m = j∩Xn = r|X0 = i) = (per il teorema delle probabilità totali)
= ∑r∈S
P(Xn+m = j|Xn = r∩X0 = i)P(Xn = r|X0 = i) =
= ∑r∈S
P(Xn+m = j|Xn = r)P(Xn = r|X0 = i) = (per la proprietà di Markov)
= ∑r∈S
P(m)r j P(n)
ir = ∑r∈S
P(m)ir P(m)
r j .
Si noti che l'ultima espressione non è altro che il prodotto di righe per colonne della
matrice di transizione con probabilità a n passi per la matrice di transizione con probabilità
a m passi; di conseguenza, le varie P(n+m)i j non sono altro che gli elementi di posto (i, j)
della matrice di transizione P(n+m). Avremo dunque
P(n+m) = P(n)P(m) ∀n,m≥ 1.
Esprimere le equazioni di Chapman-Kolmogorov in forma matriciale permette inoltre di
dimostrare che in una catena di Markov a stati niti la matrice di transizione a n passi
non è altro che l'n-esima potenza della matrice di transizione.
Teorema 4.3. Sia Xn n≥ 0 una catena di Markov a stati niti. Risulta:
P (k) = P k. (4.11)
134
Dimostrazione 4.3. La dimostrazione si può eettuare in modo ricorsivo, sfruttando
le equazioni di Chapman-Kolmogorov, cominciando dal caso k = 2:
P (2) = P (1+1) = P (1)P (1) = P ·P = P 2
P (3) = P (1+1+1) = P (1)P (1)P (1) = P ·P ·P = P 3
... = ...
P (k) = P (1+1+...+1) =
k volte︷ ︸︸ ︷P (1)P (1)...P (1) = P k.
Dalle equazioni di Chapman-Kolmogorov si derivano inoltre, in modo ovvio, le seguenti
proprietà che utilizzeremo spesso nel seguito:
i) P(n+m)i j ≥ P(n)
ik P(m)k j ∀i, j,k ∈ S
ii) P(n·m)i j ≥
[P(n)
i j
]m∀n,m≥ 1 ∀i ∈ S.
4.5.2 Distribuzioni di probabilità al tempo n
Oltre alle probabilità condizionate, ottenibili mediante le equazioni di Chapman e Kol-
mogorov, è spesso necessario poter calcolare le distribuzioni di probabilità della posizione
del processo ad un dato istante n≥ 0. Denotiamo allora con
π0(i)≡ P(X0 = i), i ∈ S
[∑j∈S
π0( j) = 1
]il vettore delle probabilità iniziali della catena. Analogamente deniamo le probabilità
relative al tempo generico n con il vettore
πn(i)≡ P(Xn = i), i ∈ S
[∑j∈S
πn( j) = 1
]Si ha allora per ogni n≥ 0
πn( j) = P(Xn = j) = ∑i∈S
P(Xn = j|X0 = i)P(X0 = i) = ∑i∈S
P(n)i j π0(i).
La distribuzioni di probabilità al tempo 0, π0, può essere usata per ottenere le
probabilità di transizione in n passi, secondo quanto enuncia il seguente risultato:
135
Teorema 4.4. Per una catena di Markov omogenea nel tempo, con probabilità di
transizione P e distribuzione iniziale π0, risulta:
πn = π0Pn
e, più in generale,
πn = πkPn−k.
Dimostrazione 4.4. Procediamo calcolando la probabilità di giungere a un particolare
stato j al tempo n+ 1 partendo dallo stato iniziale e poi estendendo il risultato a uno
stato qualunque. La probabilità di essere nello stato j al tempo n+ 1 si può scrivere
come:
πn+1( j) = P(Xn+1 = j) = ∑i∈S
P(Xn = i∩Xn+1 = j)
= ∑i∈S
P(Xn+1 = j|Xn = i)P(Xn = i)
= ∑i∈S
Pi jπn(i).
L'ultima espressione è il prodotto righe per colonne tra il vettore riga πn e il cor-
rispondente vettore colonna P. j della matrice di transizione, ovvero la j-esima colonna
della matrice P. In termini matriciali, dunque,
πn+1 = πn ·P
dove πn+1 e πn sono due vettori riga e πn ·P è il prodotto di un vettore riga per una
matrice quadrata di ordine s = card(S). Da quest'espressione possiamo dedurre che:
π1 = π0 ·P
π2 = π1 ·P = π0 ·P ·P = π0 ·P 2
π3 = π2 ·P = π0 ·P 2 ·P = π0 ·P 3
. . .
πn = π0 ·P = · · ·= πkPn−k
136
che non è altro che una versione matriciale dell'equazione di Chapman-Kolmogorov.
Esempio 4.7 [Catena di Markov a due stati].
Sia S = A,B e assumiamo che la matrice di transizione della catena di Markov Xn, n≥0 sia
P =
(1−α α
β 1−β
),
con α e β strettamente compresi in (0,1). Sappiamo che, per ogni n, la matrice di
transizione in n passi si ottiene dalla relazione P(n) = P(n−1)P. In particolare
p(n)AA = p(n−1)AA (1−α)+ p(n−1)
AB β
= p(n−1)AA (1−α)+(1− p(n−1)
AA )β
= β +(1−α−β )p(n−1)AA .
Abbiamo ottenuto così una formula ricorsiva: se riapplicata alla quantità p(n−1)AA essa
produce
p(n)AA = β +β (1−α−β )+(1−α−β )2 p(n−2)AA ;
Iterando la formula n volte otterremo una espressione del tipo
p(n)AA = X +Y (1−α−β )n.
Le costanti X e Y possono essere determinate in base alle condizioni iniziali,
P(0)AA = 1, P(1)
AA = 1−α,
ovvero P(0)AA = X +Y = 1
P(1)AA = X +Y (1−α−β ) = 1−α
da cui
X =β
α +β; Y =
α
α +β
Quindi avremo
p(n)AA =β
α +β+
α
α +β(1−α−β )n
137
per ogni coppia (α,β ) la cui somma sia un mumero positivo. Se α + β = 0, avremo
banalmente che p(n)AA = 1 per ogni n. Stesso discorso se α + β = 2: in tal caso la
catena cambia stato ogni giorno. Se solo uno tra α e β è uguale a zero mentre l'altro è
positivo,la catena nirà certamente nell'unico stato in cui è possibile andare. Ad esempio,
se 0 = α < β , p(n)AA = 1; se invece 0 = β < α p(n)AA = (1−α)n+1.
Ovviamente le p(n)AB si ottengono per dierenza, mentre p(n)BB si ottiene scambiando il
ruolo di α e β e sostituendo alle quantità p(n)AB e p(n)BA i loro complementi a 1. Asinto-
ticamente, per n→ ∞, escludendo i casi degeneri con α +β = 0 oppure 2, il secondo
addendo di p(n)AA tende a zero e la matrice di transizione di equilibrio, risultaerà
P =
α
α +β
β
α +β
α
α +β
β
α +β
Ritorneremo più avanti su queste considerazioni, cruciali nello studio delle catene di Mar-
kov. ♦
4.6 Stazionarietà
Oltre a determinare le distribuzioni di probabilità condizionate per tutta la durata del
processo (nella maggior parte dei casi un compito irrealizzabile), può essere utile deter-
minare il comportamento asintotico di P(n)i j quando n→∞. Intuitivamente, è ragionevole
attendersi che l'inuenza dello stato iniziale diminuisca col tempo e che, di conseguenza,
all'aumentare di n P(n)i j si avvicini a un limite indipendente da i. Per analizzare precisa-
mente il comportamento asintotico del processo è necessario però approfondire prima il
concetto di invarianza di una legge di probabilità per una catena di Markov.
Consideriamo una distribuzione di probabilità π su S relativa ad un istante temporale
non specicato. Ricordiamo che, essendo π un vettore di probabilità, devono valere le
138
condizioni:
π(i) ∈ [0,1] ∀i ∈ S
∑i∈S
π(i) = 1(4.12)
Denizione 4.4. Si dice che π è una distribuzione invariante per la catena di Markov
Xn,n≥ 0 se:π = π ·P .
In termini intuitivi questo signica che, partendo da una situazione iniziale con di-
stribuzione di probabilità π, dopo un passo (o dopo un numero arbitrario di passi) la
distribuzione di probabilità marginale resta invariata. Infatti:
πP n = πP ·P n−1 = (πP )P n−1 = ...= πP = π.
Di conseguenza, una catena di Markov la cui distribuzione iniziale è π, avrà tutte le
distribuzioni marginali ai vari tempi identiche. Per questo motivo π è chiamata distri-
buzione invariante. Riferendoci a un solo stato j, un modo per interpretare il signicato
della distribuzione invariante è che, se osserviamo lo stato della catena in un certo istante
futuro n, πn( j) è la probabilità di trovare la catena in j al tempo n.
É facile intuire che l'interesse per le probabilità invarianti è prevalentemente ricon-
ducibile allo studio di πn quando n→ ∞. Se tale limite esiste, ogni sua componente
rappresenta approssimativamente la probabilità che il sistema si trovi nello stato i quan-
do n→ ∞, cioè dopo che è trascorso un tempo sucientemente lungo. Questo limite,
se esiste, costituisce la distribuzione di equilibrio del processo. Le sue componenti sono
chiamate probabilità di equilibrio e ovviamente soddisfano anch'esse l'equazione π=πP;
quindi una distribuzione stazionaria, se esiste, è sempre invariante. Vedremo nel prossimo
teorema che la distribuzione di equilibrio esiste solo se la catena soddisfa alcuni requisiti.
Questa intuizione è surrogata dal fatto che, poiché la regola di evoluzione del processo
in un passo è πn = πn−1P , quando la successione delle v.a. Xn ammette un limite in
distribuzione, sia πn che πn−1 ammettono lo stesso limite π∗ e deve per forza risultare
π∗ = π∗P .
139
Osservazione 4.1. Il sistema lineare πt =πtP è equivalente al sistema (P ′−I)π′= 0.
Quest'ultimo è un sistema omogeneo che ammette sempre almeno la soluzione banale
π′ = 0. In tal caso, però , questa soluzione non è accettabile poiché non rappresenta una
distribuzione di probabilità . In generale, il sistema ammette altre soluzioni se la matrice
(I−P ) non ha rango pieno. Quando s∗ è un numero nito e il rango di (I−P ) è s∗−1,
il sistema ammette innite soluzioni ma solo una soddisferà i requisiti
π(i) ∈ [0,1]
∑i∈S
π(i) = 1(4.13)
Nella pratica, la verica della esistenza di una distribuzione di equilibrio per la catena
permette di determinare in modo semplice un serie di caratteristiche della catena stessa.
Ad esempio potremmo valutare
1. la probabilità che la catena si trovi in un particolare stato i ∈ S per grandi valori di
n;
2. il numero di visite della catena allo stato i ;
3. la probabilità che la catena visiti lo stato i prima dello stato j
4. il tempo trascorso prima di tornare in i ;
5. il tempo necessario per raggiungere j partendo da i ;
Vedremo come le suddette (ed altre) caratteristiche della catena possano essere es-
senzialmente dedotte dalla natura della matrice delle probabilità di transizione P . Prima
di presentare i risultai principali, è però necessario introdurre alcune denizioni che ci
aiuteranno a chiarire la diversa natura degli stati che compongono lo spazio S.
4.7 Classicazione degli stati
4.7.1 Stati accessibili e stati comunicanti
Una prima classicazione che va introdotta riguarda l'accessibilità di uno stato, ossia la
possibilità, per uno stato j, di essere visitato quando la catena parte da uno stato i.
140
Denizione 4.5. Per una catena di Markov Xn, n≥ 0, uno stato j si dice accessibile
dallo stato i se esiste almeno un valore di n≥ 0 tale che:
P(n)i j > 0.
Uno stato j accessibile da un altro stato i è indicato dal simbolo
i j.
In altre termini, j è accessibile da i se c'è una probabilità positiva che j possa essere
raggiunto, partendo da i, in un numero n nito di passi. Per convenzione, poiché P(0)ii =
P(X0 = i|X0 = i) = 1, uno stato i è sempre auto-raggiungibile.
Partendo dalla precedente denizione è possibile ricavare altre caratterizzazioni utili
per classicare ulteriormente gli stati della catena.
Denizione 4.6. Gli stati i e j si dicono comunicanti se lo stato j è accessibile dallo
stato i e lo stato i è accessibile dallo stato j, ossia se ∃n,m≥ 0 tali che P(n)i j > 0 e P(m)
ji > 0.
Due stati i e j comunicanti si indicano col simbolo
i! j.
Teorema 4.5. La relazione di comunicazione tra due stati gode delle proprietà seguenti
Riessiva: uno stato i comunica sempre con sé stesso: i! i.
Simmetrica: se i comunica con j, anche j comunica con i: i! j⇒ j! i.
Transitiva: se lo stato i comunica con lo stato j e lo stato j comunica con lo stato
h, allora lo stato i comunica con lo stato h:
i! j e j! h⇒ i! h.
Dimostrazione 4.5. 1) Segue dal fatto che P(0)ii = P(X0 = i|X0 = i) = 1.
2) Segue banalmente dalla denizione stessa.
3) Siano a,b,c,d,≥ 0 tali che
P(a)i j > 0, P(b)
ji > 0, P(c)jh > 0, P(d)
h j > 0;
141
dalle equazioni di Chapman-Kolmogorov segue che:
P(a+c)ih = ∑
k∈SP(a)
ik P(c)kh ≥ P(a)
i j P(c)jh > 0
P(d+b)hi = ∑
k∈SP(d)
hk P(b)ki ≥ P(d)
h j P(b)ji > 0.
Denizione 4.7. Uno stato i si dice assorbente se:
P(n)ii = 1 ∀n≥ 0.
In altre parole uno stato è assorbente se, una volta raggiunto, non viene più abbando-
nato. Poiché gode delle proprietà riessiva, simmetrica e transitiva, la relazione che lega
due stati comunicanti è detta una relazione di equivalenza; questo permette di classicare
gli stati di una catena come appartenenti ad opportune classi di equivalenza1 disgiunte,
composte solo da stati che comunicano tra loro (nel caso di stato assorbente, una classe
è addirittura composta da un solo stato). In generale sarà possibile, partendo da una
classe, entrare in un'altra classe con probabilità positiva (qualora uno stato in una classe
sia accessibile da uno stato appartenente un'altra classe); tuttavia, non sarà possibile
tornare alla classe iniziale, altrimenti le due classi formerebbero insieme una classe unica.
Denizione 4.8. Si dice che una catena di Markov è irriducibile se è composta da una
sola classe, ossia se tutti i suoi stati comunicano tra loro.1Ricordiamo che una relazione di equivalenza è un concetto matematico che esprime in termini formali
il concetto di similitudine tra oggetti. In particolare, ricordiamo che:
una relazione binaria ∼ è una relazione di equivalenza se gode delle proprietà riessiva,
simmetrica e transitiva;
due elementi tra i quali sussiste la relazione di equivalenza ∼ si dicono equivalenti (per la
relazione ∼). La proprietà di simmetria ci consente infatti di prescindere dall'ordine con cui
quegli elementi compaiono all'interno della relazione;
un sottoinsieme di un insieme A che contiene tutti e soli gli elementi equivalenti a un qualche
elemento x di A prende il nome di classe di equivalenza di x. In una classe di equivalenza tutti
gli elementi in essa contenuti sono tra loro equivalenti.
142
Se una catena è irriducibile, per ogni coppia di stati i e j esiste un n > 0 tale che
P(n)i j > 0. In particolare, si può dimostrare che, se la catena ha un numero nito di stati,
esiste un n tale che la matrice P n ha tutti elementi positivi. In questo caso la catena
viene detta regolare.
Esempio 4.8
A) La catena di Markov, composta dagli stati 0, 1 e 2 e dotata della seguente matrice di
transizione:
P =
12
12 0
12
14
14
0 23
13
è irriducibile. Infatti, è possibile andare dallo stato 0 allo stato 2 (passando per lo stato
1) ed è altresì possibile andare dallo stato 2 allo stato 0 (sempre passando per lo stato
1).
B) La catena di Markov, composta dagli stati 0, 1, 2 e 3 e dotata della seguente matrice
di transizione:
P =
12
12 0 0
12
12 0 0
14
14
14
14
0 0 0 1
non è irriducibile, essendo composta dalle classi 0,1, 2, e 3. Si noti che mentre gli
stati 0 e 1 sono accessibili dallo stato 2, il contrario non è vero. Inoltre, poiché P33 = 1,
nessun altro stato può essere raggiunto da 3. ♦Le proprietà 1), 2) e 3) esplicitano la possibilità di suddividere lo spazio degli stati S in
classi di stati intercomunicanti che non si sovrappongono tra loro.
Esempio 4.9
143
Sia lo spazio degli stati S = 1,2,3,4. Con riferimento alla matrice P:
P =
0.5 0.5 0 0
1 0 0 0
0 1/2 1/3 1/6
0 0 0 1
possiamo dire che lo stato 4 rappresenta una classe (lo stato 4 comunica con se stesso),
in quanto, se siamo in 4, non è possibile raggiungere un qualsiasi altro stato. Partendo
dallo stato 1 è possibile raggiungere lo stato 2 con probabilità di transizione 1/2. Una
volta raggiunto lo stato 2 si ha una probabilità pari ad 1 di tornare in 1. Gli stati 1 e
2 formano dunque un'altra classe di stati intercomunicanti. A sua volta, partendo dallo
stato 3, si può raggiungere lo stato 2 con probabilità 1/2 e raggiungere lo stato 4 con
probabilità 1/6; una volta raggiunto lo stato 4 naturalmente non è più possibile raggiun-
gere il 3, il quale rappresenta quindi una classe a sé stante. Riassumendo, le classi di stati
intercomunicanti per la matrice P sono: A = 1,2, B = 3, C = 4. All'interno di
una particolare classe, ciascuna coppia di stati intercomunica; per gli stati appartenenti
a classi diverse può esserci raggiungibilità solo in un senso. ♦
Esempio 4.10 Sia S = 0,1,2 e
P =
1 0 0
0.5 0 0.5
0 1 0
Lo stato 0 forma una classe irriducibile. Dallo stato 1 è possibile raggiungere lo stato 0
oppure lo stato 2. Da qui, prima o poi, si tornerà comunque a 0. Le classi irriducibili per
la matrice P sono dunque: A=0, B=1,2. ♦
Esempio 4.11 Consideriamo la catena di Markov avente spazio degli stati S=0,1,2,3 e
144
matrice di transizione P:
P =
0 0 0 1
0 0 0 1
0.5 0.5 0 0
0 0 1 0
Partendo dallo stato 0 è possibile raggiungere lo stato 3. Dallo stato 3 è possibile rag-
giungere solamente lo stato 2. A sua volta, dallo stato 2 è possibile raggiungere lo stato
0 o lo stato 1. Dallo stato 1 si va quindi nello stato 3. La matrice P è costituita da
un'unica classe irriducibile A = 0,1,2,3; dunque la catena è irriducibile. ♦
Esempio 4.12 Consideriamo la catena di Markov avente spazio degli stati S= 1,2,3,4e matrice di transizione P:
P =
0.5 0.5 0 0
0.5 0.5 0 0
0.25 0.25 0.25 0.25
0 0 0 1
La classe costituita dagli stati 1 e 2 è una classe irriducibile. Partendo dallo stato 3 è
possibile raggiungere tutti gli altri stati, ma non è raggiungibile da nessun altro stato. Lo
stato 4 è una classe irriducibile. Le classi irriducibili sono dunque: A = 1,2, B = 3,C = 4. ♦
4.7.2 Stati ricorrenti e stati transitori
Un secondo tipo di classicazione è basato sul numero di volte in cui uno stato può
essere visitato dal processo. In particolare, gli stati di una catena di Markov si dividono
in due tipi: quelli che, potenzialmente, verranno visitati innite volte e quelli che verrano
visitati solamente un numero nito di volte. Per poter enunciare formalmente questa
classicazione è necessario introdurre le seguenti variabili casuali:
145
Denizione 4.9. Per ogni i ∈ S deniamo la quantità
Ti = min(n≥ 0 : Xn = i).
Ti è detta tempo di primo passaggio della catena nello stato i.
La quantità Ti registra il momento in cui il processo visita per la prima volta lo stato
i. Si noti che Ti non è propriamente una variabile aleatoria perché può potenzialmente
assumere anche valore innito (quando lo stato i non è mai visitato) e questo può avvenire
con probabilità positiva. Inoltre, si noti che Ti è denita senza specicare alcuno stato
iniziale.
Denizione 4.10. Siano i, j ∈ S e sia
f (n)i j = P(Xn = j∩Xn−1 6= j∩ ...∩X1 6= j|X0 = i)
o in modo equivalente
f (n)i j = P(Tj = n|X0 = i).
f ni j è in pratica la probabilità che, partendo da i, la catena visiti per la prima
volta lo stato j al tempo n.
Per convenzione si pone f (0)i j = 0, in quanto in zero passi la catena non può andare
dallo stato i allo stato j a meno che non sia i = j. Dalla probabilità del tempo di primo
passaggio nello stato j si può ricavare la probabilità che il processo visiti prima o poi lo
stato i. Indichiamo con
A(n)j (i) = Tj = n|X0 = i= Xn = j∩Xn−1 6= j∩ ...∩X1 6= j|X0 = i
l'evento il processo entra per la prima volta nello stato j al tempo n, partendo da i. Per
il teorema delle probabilità totali si può scrivere:
fi j = P
(∞⋃
n=1
A(n)j (i)
)=
∞
∑n=1
P(Tj = n|X0 = i) =∞
∑n=1
f (n)i j .
Da questo possiamo costruire la seguente denizione:
146
Denizione 4.11. Siano i, j ∈ S. Si dice probabilità eventuale di arrivo dallo stato
i allo stato j la probabilità :
fi j = P(Tj <+∞|X0 = i) = P(∃n≥ 1 : Xn = j|X0 = i).
Se è i = j, fii è detta probabilità di eventuale ritorno nello stato i ed è indicata più
brevemente con fi.
Le quantità fi sono essenziali per capire il comportamento dei singoli stati nel lungo
periodo.
Denizione 4.12. Sia S lo spazio degli stati di una catena di Markov e sia i ∈ S.
a) lo stato i è detto ricorrente se fi = 1;
b) lo stato i è detto transitorio se fi < 1.
Intuitivamente, se il processo parte dallo stato i e i è ricorrente, esso prima o poi
tornerà in i con probabilità 1. Tuttavia, poiché vale la proprietà di Markov, il processo
compie traiettorie la cui probabilità, ad ogni passo dipende solo dalla posizione attuale
della catena. Questo implica che, ad ogni ritorno nello stato i di partenza la catena si
rigenera in senso probabilistico e può essere studiata come se fosse di nuovo al tempo
0. Questo a sua volta implica che, se lo stato i è tale per cui f1 = 1, lo stato i verrà
visitato innite volte. Se invece f1 < 1 c'è una probabilità positiva che la catena, dopo
un certo numero di ritorni abbandoni per sempre lo stato i. Le condizioni di ricorrenza e
transitorietà possono essere caratterizzate attraverso il seguente teorema
Teorema 4.6. Lo stato i ∈ S è :
ricorrente se e solo se ∑∞n=1 P(n)
ii = ∞
transitorio se e solo se ∑∞n=1 P(n)
ii < ∞
Dimostrazione 4.6. Sia, per ogni n ≥ 0, p(n)j j la probabilità di ritornare in j dopo n
passi, con la convenzione che p(0)j j = 1. Sia inoltre f (n)j la probabilità che, partendo da
147
j, la catena torni per la prima volta in j al tempo n. Si vede facilmente, in base alle
equazioni di Chapman-Kolmogorov, che
p(n)j j =n
∑k=1
p(n−k)j j f (k)j . (4.14)
Per le successioni p(n)j j , n ≥ 0 e f j(n), n ≥ 1 introduciamo le rispettive funzioni
generatrici Pj(s) e Fj(s). Si ha
Pj(s) =∞
∑n=0
p(n)j j sn = 1+∞
∑n=1
n
∑k=1
p(n−k)j j f (k)j sn
= 1+∞
∑k=1
∞
∑n−k=0
p(n−k)j j sn−k f (k)j sk
= 1+Pj(s)Fj(s).
Ne segue che, per ogni j ∈ S,
Pj(s) =1
1−Fj(s).
Inoltre, è ovvio che Fj(1) = ∑∞n=1 f (n)j rappresenta la probabilità di un eventuale ritorno
allo stato j. Inoltre, al tendere di s a 1, si ha che Pj(1) = 1/(1−Fj(1).
Se Fj(1) = 1 lo stato è ricorrente per denizione e per la relazione appena scritta
risulterà
Pj(1) =∞
∑n=1
p(n)j j =+∞
Al contrario, se Fj(1)< 1, lo stato è transitorio e risulterà
Pj(1) =∞
∑n=1
p(n)j j <+∞
Esempio 4.13 [Passeggiata aleatoria] Nel caso della passeggiata aleatoria, si ipotizzi di
partire dallo stato 0, ovvero S0 = 0, e verichiamo se lo stato è ricorrente o transitorio.
Poiché si può tornaare a 0 solo in un numero pari di passi avremo che P(S2n+1 = 0) = 0,
per ogni n, mentre, anché S2n = 0 se e solo se si hanno, nelle prime 2n prove, n passi
in avanti ed n indietro. Quindi
P(S2n = 0) =(
2nn
)pn(1− p)n,
148
e∞
∑n=1
pn00 =
∞
∑n=1
(2nn
)pn(1− p)n. (4.15)
Per la formula di Stirling (6.3),
(2n)!n!n!
≈ e−2n(2n)2n√
4πne−2nn2n2πn
=4n√
πn
Per grandi valori di n il termine generico della serie (4.15) è dunque dello stesso ordine
di (4p(1− p))n/√
πn. Se p = 1/2, il termine generico vale 1/√
πn e la serie diverge,
dunque lo stato 0 è ricorrente. Se invece p 6= 1/2, il termine generico vale cn/√
πn
con |c| < 1. Dunque la serie converge e lo stato è transitiorio. Vedremo più avanti che
tutti gli stati della passeggiata hanno la stessa natura ovvero sono tutti transitori oppure
tutti ricorrenti. Questo ci garantisce che, nel caso simmetrico p = 1− p, la catena torna
sempre sui suoi passi, ovvero tutti gli stati sono ricorrenti. Se invece p 6= 1− p, tutti gli
stati sono transitori e verranno abbandonati prima o poi: la passeggiata diverge a +∞ se
p > 1− p e a −∞ se p < 1− p. ♦
Dalla denizione di stato ricorrente e transitorio e dalla susseguente discussione è
facilmente deducibile anche che il numero di ritorni allo stato i ricorrente saranno innite.
Al contario, se i è transitorio è possibile studiare la v.a. Ni =numero di ritorni nello
stato i. Abbiamo visto che, per la proprietà di Markov, la catena si rigenera ogni volta
che ritorna nello stato di partenza i. Denendo ciclo il tempo necessario a ciascun ritorno
nello stato i, possiamo allora pensare ogni ciclo come una v.a. dicotomica che assume
il valore 1 (il ciclo si compie) con probabilità fi e 0 (il ciclo non si compie e la catena
non torna più in i) con probabilità 1− fi. È allora immediato concludere che, se i è uno
stato transitorio, la v.a. Ni ha distribuzione geometrica con parametro 1− fi, ovvero
Ni ∼ Geo(1− fi). In particolare avremo
IE(Ni) =1
1− fi.
Per gli stati appartenenti a una stessa classe di equivalenza vale inoltre la seguente
proprietà importante:
149
Teorema 4.7. In una stessa classe di stati comunicanti, gli stati sono tutti o ricorrenti
o transitori, ovvero la transitorietà e la ricorrenza sono proprietà di classe.
Dimostrazione 4.7. È suciente dimostrare che se gli stati i e j appartengono alla
stessa classe e lo stato i è ricorrente, allora anche lo stato j è ricorrente.
Se questo è vero, allora sarà anche vero che se due stati sono comunicanti e i è
transitorio allora anche j sarà transitorio.Infatti, se lo stato j fosse ricorrente, per il teorema
precedente, i dovrebbe anch'esso essere ricorrente e non potrebbe quindi essere transitorio.
Dimostriamo allora la seguente implicazione
i! j e i è ricorrente ⇒ j è ricorrente .
Poiché per ipotesi lo stato i comunica con lo stato j, devono esistere due numeri interi k
e m tali che P(k)i j > 0 e P(m)
ji > 0. Per le equazioni di Chapman-Kolmogorov risulta
P(m+n+k)j j ≥ P(m)
ji P(n)ii P(k)
i j
da cui otteniamo, sommando su n:
∞
∑n=1
P(m+n+k)j j ≥
∞
∑n=1
P(m)ji P(n)
ii P(k)i j = P(m)
i j P(k)ji
∞
∑n=1
P(n)ii = ∞
poiché P(m)i j P(k)
ji > 0 e ∑∞n=1 P(n)
ii = ∞ perché i è ricorrente per ipotesi. Pertanto, per il
teorema precedente, possiamo concludere che anche j è ricorrente.
Il teorema precedente ovviamente aerma che anche la transitorietà è una proprietà
di classe.
Quando una catena ha un numero nito di stati s∗ < +∞ ed è irriducibile, gli stati
non possono essere transitori. Infatti, se lo fossero, dopo un tempo aleatorio ma nito
T0 la catena non visiterebbe più lo stato 0, dopo un tempo aleatorio T1 la catena non
toccherebbe più lo stato 1, e così via per tutti gli stati. Dopo un tempo T ∗ = max(Ti, i =
0,1, . . . ,s∗), la catena non avrebbe più stati da visitare e questo è impossibile. Dunque
una catena nita e irriducibile è per forza di cose composta da tutti stati ricorrenti. In
questo caso parleremo di catena ricorrente.
150
Invece, nel caso in cui lo spazio degli stati S è numerabile, possono esistere catene
ricorrenti e catene transitorie.
Esempio 4.14 [Ancora la passeggiata aleatoria]
♦
Osservazione 4.2. È importante sottolineare la dierenza tra il concetto di accessibilità
e quello di ricorrenza. Mentre l'accessibilità implica solo la possibilità per la catena di
Markov, di passare da uno stato i a uno stato j, il concetto di ricorrenza implica la certezza
che dallo stato i si ritorni nuovamente a esso, in un futuro più o meno prossimo.
4.7.3 Stati ricorrenti positivi e stati ricorrenti nulli; periodicità
Il fatto che uno stato sia ricorrente, ossia che possa essere visitato innite volte,non
garantisce che l'intervallo di tempo tra una visita e l'altra in quello stato sia nito. In altre
parole, può accadere che pur essendo certo che uno stato i verrà visitato di nuovo, prima di
tornare a visitarlo ancora occorra aspettare un tempo innitamente lungo. Pertanto, una
volta individuati gli stati ricorrenti, conviene classicarli ulteriormente in base a quanto
spesso la catena è in grado di visitarli. Questa classicazione viene fatta in base al valore
assunto dalla media del tempo di primo ritorno di un dato stato i.
Limitiamoci al caso di stati ricorrenti, per i quali il ritorno allo stato di partenza è un
evento certo. Per ogni i ∈ S ricorrente, deniamo allora la variabile aleatoria
Ri = min(n : Xn = i|X0 = i),
ovvero Ri è il primo istante in cui la catena ritorna nello stato di partenza. Notare che la
v.a. Ri non coincide con la variabile Ti denita nel paragrafo precedente. Il valore atteso
di Ri è denito da
µi = IE(Ri) =∞
∑n=1
n f (n)ii
151
dove f (n)ii è stata già denita come la probabilità che una catena, partendo dallo stato i,
torni nello stato i per la prima volta dopo n passi. Si noti che questa media ha senso solo
quando le f (n)ii costituiscono una distribuzione di probabilità , e questo peraltro avviene
solo quando lo stato i è ricorrente perché in quel caso ∑∞n=1 f (n)ii = fi = 1.
Partendo dal tempo medio di primo ritorno, è possibile dunque classicare gli stati
della catena in modo alternativo, espresso dalla seguente denizione
Denizione 4.13. Uno stato i si dice ricorrente positivo se
µi = IE(Ri)< ∞,
ossia se il tempo medio di ritorno è nito; lo stato i si dice ricorrente nullo se
µi = IE(Ri) = ∞,
Si può dimostrare che all'interno di una classe di equivalenza C tutti gli stati si
comportano allo stesso modo, ovvero sono tutti ricorrenti positivi, oppure tutti ricorrenti
nulli.
Si potrebbe supporre, a livello intuitivo, che quando uno stato j è ricorrente esso abbia
una probabilità positiva di essere visitato ad ogni tempo n. In altri termini si potrebbe
supporre che valga la relazione
j ricorrente ⇒ limn→∞
Pnj j > 0;
questo risultato tuttavia non è sempre vero. Consideriamo di nuovo l'esempio di una
passeggiata aleatoria in cui Sn = Sn−1+Xn, e le Xn sono una successione di v.a. indipen-
denti e somiglianti con distribuzione concentrata in −1 e 1, con probabilità (1− p) e p.
Poiché la catena si può muovere, ad ogni passo solo in uno stato adiacente a quello in
cui si trova, risulta che, per ogni j ∈ S avremo p(2n+1)j j = 0, qualunque sia n positivo. In
altri termini può accadere che una catena abbia bisogno, anche nel lungo periodo, di più
di un passo per ritornare nella posizione di partenza. Nel caso della passeggiata aleatoria
avremo allora, ad esempio, che
limn→∞
P(2n)j j > 0
limn→∞
P(2n+1)j j = 0
152
e dunque la successione P(n)j j non ammette limite. In altri termini la catena non ammette
una distribuzione limite, anche se tutti gli stati sono ricorrenti (caso in cui p = 0.5).
Per poter allora individuare la tipologia di catene markoviane che ammettono un
comportamento limite regolare, occorre escludere casi come quello appena descritto.
È necessario allora introdurre una ulteriore classicazione degli stati basata sulla periodi-
cità con cui la catena ritorna in uno stato visitato in precedenza.
Denizione 4.14. Uno stato j ha periodo d se d è il massimo comun divisore di ogni n
tale che P(n)j j > 0. Se d > 1 lo stato si dice periodico, se d = 1 lo stato si dice aperiodico.
In pratica, d è il massimo comun divisore del numero di passi che una catena deve
compiere per tornare nello stesso stato. Se indichiamo con Q j l'insieme Q j = n ≥ 1 :
P(n)j j > 0 il periodo d è il massimo comun divisore di tutti i numeri che stanno in Q j. In
sostanza, P(n)j j = 0 ogni volta che n non è multiplo di d.
Quest'ultima osservazione ci permette di dedurre, almeno a livello intuitivo, una ca-
ratteristica importante della catena, legata alla periodicità. Se uno stato j è periodico,
esso si presenta a intervalli regolari, quando invece è aperiodico, può presentarsi in un
momento qualunque. Anche la periodicità è una proprietà di classe.
Teorema 4.8. Se due stati i e j comunicano, essi hanno lo stesso periodo.
Dimostrazione 4.8. La dimostrazione formale del teorema richiederebbe nozioni di
teoria dei numeri che non abbiamo. Forniremo qui solo una spiegazione intuitiva. Sup-
poniamo che i due stati siano comunicanti, ma che abbiano periodi diversi, ad esempio
supponiamo che i abbia periodo 2 e j abbia periodo 3. In tal caso per compiere il tragitto
i→ i si potrebbe andare da i a j in due passi, poi da j a j in tre passi e inne da j a i in
due passi. In questo modo però si compierebbe il tragitto da i a i in 2+3+2 = 7 passi,
cosa impossibile perché 7 non è multiplo di 2.
Se dunque gli stati di una stessa classe hanno lo stesso periodo, si può concludere
che una catena irriducibile deve essere composta da stati che sono tutti periodici dello
stesso periodo oppure aperiodici. A seconda dei casi, la catena si dirà periodica oppure
153
aperiodica. Alla ne di questo elenco di classicazioni abbiamo allora individuato una
specie di stati particolari:
Denizione 4.15. Uno stato che sia ricorrente positivo, aperiodico, è detto ergodico.
Una catena irriducibile con tutti stati ricorrenti positivi ed aperiodici si chiama ergodica.
4.8 Distribuzioni di equilibrio
Una volta denite le varie forme di classicazione degli stati di una catena di Markov
possiamo nalmente riprendere lo studio del suo comportamento asintotico e stabilire
quali siano le condizioni sucienti a garantire l'esistenza di una distribuzione di equilibrio.
Studiare il comportamento di lungo termine di una catena è fondamentale poiché ci
permette diapprossimare la distribuzione esatta della posizione della catena al tempo n,
per n molto grande, con la sua versione asintotica.
Ricordiamo che una distribuzione di probabilità π su S è detta distribuzione invariante
se soddisfa la relazione
π = πP ;
per quanto detto in precedenza, questa distribuzione, se esiste, è anche una candidata ad
essere la distribuzione di equilibrio della catena poiché la sua natura garantisce stabilità
nel tempo, in quanto le distribuzione di probabilità marginali ai vari tempi saranno tutte
uguali a π. A priori tuttavia non è detto che una tale distribuzione esista; inoltre, se una
distribuzione con queste caratteristiche esiste, non è detto che sia unica. Ad esempio, per
la catena di Markov della rovina del giocatore (con due barriere assorbenti), le distribuzioni
π1 = (1, 0, 0, . . . 0) e π2 = (0, 0, 0, . . .1) sono entrambe stazionarie. Inoltre, si può
dimostrare che ogni combinazione convessa di esse, vale a dire ogni distribuzione del
tipo π∗ = απ1 + (1−α)π2, 0 ≤ π ≤ 1 è una distribuzione stazionaria; quindi ogni
catena che possiede più di una distribuzione stazionaria, ne possiede innite. É chiaro
che se una catena possiede innite distribuzioni stazionarie o non ne possiede nessuna,
cercare di prevederne il comportamento di lungo periodo diventa impossibile. Occorre
allora stabilire sotto quali condizioni siamo in grado di garantire l'esistenza e l'unicità
della distribuzione di equilibrio.
154
Teorema 4.9 (Teorema ergodico). Sia Xn, n > 0 una catena di Markov irriducibile
ed ergodica; allora
A) esiste un'unica distribuzione di probabilità π su S tale che per ogni j ∈ S
π( j) = ∑i∈S
π(i)pi j,
oppure, in forma matriciale, π = πP .
B) Per ogni i ∈ S
limn→∞
P(n)i j = π( j).
In termini matriciali, questo implica che esiste una matrice Q le cui righe sono
tutte uguali e coincidono con la distribuzione di equilibrio π del punto A), e tale
che P (n)→Q per n→ ∞.
C) Per ogni j ∈ S sia
I j(n) =
1 Xn = j
0 Xn 6= j.
Allora
P[
limn→∞
I j(1)+ I j(2)+ · · ·+ I j(n)n
= π( j)]= 1
ossia π( j) è il tempo che la catena spende mediamente nello stato j, nel lungo
periodo.
Dunque, anché una catena di Markov a stati niti ammetta una sola distribuzione
stazionaria, è suciente che essa sia irriducibile ed ergodica. Se sono soddisfatte que-
ste ipotesi, la distribuzione dell'istante n, πn, converge alla distribuzione stazionaria π
indipendentemente dallo stato iniziale, nel senso che, per ogni j ∈ S,
limn→∞
P(Xn = j) = limn→∞
∑i∈S
P(n)i j π0(i) = ∑
i∈Sπ0(i) lim
n→∞P(n)
i j = ∑i∈S
π0(i)π( j) = π( j).
Se una distribuzione π è di equilibrio per la catena, allora essa risulta anche invariante,
ovvero π = πP . Tuttavia il contrario non è vero in generale, in quanto esistono catene
che ammettono più di una distribuzione invariante.
155
Dimostrazione 4.9. Omessa, ma vedi oltre per alcune considerazioni informali.
Aldilà della dimostrazione formale, si possono comunque fare le seguenti considera-
zioni intorno teorema ergodico.
1. La condizione di aperiodicità è necessaria solo per garantire gli ultimi due punti della
dimostrazione. La prima tesi può essere stabilita sotto la sola ipotesi di irriducibilità
e di ricorrenza positiva della catena.
2. Per quanto riguarda il punto C), se è necessario che le catene siano irriducibili e
dotate di stati ricorrenti positivi per ammettere una distribuzione di equilibrio, è
intuitivo supporre che esista un legame tra la distribuzione di equilibrio e il tempo
medio di ritorno in uno stato. Sia allora µi = E(Ti) il tempo medio tra una visita
e l'altra della catena allo stato i, e sia
Ni(n) = il numero di ritorni allo stato i no al tempo n.
Allora
IE(Nni )≈
nIE(Ri)
=nµi,
ovvero
IE(
Nni
n
)≈ 1
µi
per ogni n e dunque
π(i) = limn→∞
IE(
Nni
n
)=
1µi.
In altri termini, se la catena, in media visita lo stato i una volta ogni IE(Ri) istanti
di tempo, allora deve risultare π(i) = 1E(Ti)
= 1µi
e questo numero rappresenta anche
il tempo mediamente speso nello stato i.
Esempio 4.15 Supponiamo che l'orizzonte temporale di un processo sia 60 secondi
e che mediamente esso visiti un certo stato i ogni 5 secondi: questo signica che il
processo, in media visiterà lo stato i un numero di volte pari a 60/µi = 60/5 = 12, ossia
156
trascorrerà nello stato i 12 secondi. In termini di proporzioni di tempo, questo si traduce
dicendo che1µi
=160
605
=1260
= 0.2 = π(i)
cioè il processo spende mediamente il 20% del suo tempo in i. ♦Dal teorema ergodico derivano i seguenti due corollari
Teorema 4.10 (Corollario 1). Se una catena di Markov possiede una distribuzione di
equilibrio π e lo stato j è uno stato transitorio, allora π( j) = 0.
Dimostrazione 4.10. Per ipotesi è vero che π = πP o, equivalentemente, π = πP n.
Si ha allora
π( j) = ∑i∈S
π(i)P(n)i j .
Poiché j è uno stato transitorio, è facile notare che2
limn→∞
P(n)i j = 0,∀i ∈ S
e dunque
π( j) = ∑i∈S
π(i) limn→∞
P(n)i j = 0.
Teorema 4.11 (Corollario 2). Se una catena di Markov possiede una distribuzione
stazionaria π ed è irriducibile, allora tutti i suoi stati sono ricorrenti.
Dimostrazione 4.11. Dal corollario precedente sappiamo che se uno stato è transitorio,
allora π( j) = 0. In questo caso sappiamo però che la catena è irriducibile, quindi deve
essere π( j) = 0, ∀ j ∈ S. Dal momento però che questo non è possibile, concludiamo che,
se una catena di Markov aperiodica ed irriducibile possiede una distribuzione di equilibrio,
allora essa dev'essere anche ricorrente.
2Basta ricordare che uno stato è transitorio se e solo se ∑∞n=1 p(n)ii < ∞ e notare che questo avviene
necessariamente se p(n)ii → 0. È facile estendere tale risultato per dimostrare che, indipendentemente
dallo stato di partenza, se j è transitorio, anche P(n)i j → 0.
157
Si noti che non è sempre vero il contrario; ossia, se la catena è ricorrente, non è detto
che abbia una distribuzione stazionaria. In particolare, come abbiamo accennato prima,
la distribuzione stazionaria non esiste se la catena è ricorrente nulla, mentre esiste se la
catena è ricorrente positiva.
Esempio 4.16 [Ancora sulla passeggiata aleatoria]
♦
Riassumendo, per una catena di Markov irriducibile, si possono vericare i seguenti
casi, validi sia per catene con un numero di stati nito o innito numerabile.
Teorema 4.12. Per una catena irriducibile e aperiodica si hanno solo le seguenti quattro
possibilità :
la catena è transitoria. Allora
limn→∞
P(n)i j = 0 ∀i, j ∈ S.
In tal caso ∑∞n=1 P(n)
i j < ∞ e non esiste una distribuzione stazionaria.
La catena è ricorrente ma non esiste una distribuzione stazionaria. Allora
limn→∞
P(n)i j = 0 ∀i, j ∈ S
e inoltre ∑∞n=1 P(n)
i j =∞ e tuttavia µi =∑∞n=1 n f (n)j j =∞. La catena è allora ricorrente
nulla.
La catena è ricorrente ma periodica. In questo caso limn→∞ P(n)i j esiste positivo solo
per alcuni valori di n; quindi P(n)i j non ammette limite e non esiste una distribuzione
di equilibrio.
La catena è ricorrente ed esiste una distribuzione di equilibrio. Allora
limn→∞
P(n)i j > 0 ∀i, j ∈ S
158
e inoltre
µi =∞
∑n=1
n f (n)j j =1
π( j).
La catena è ricorrente positiva e aperiodica.
Se la catena ha un numero nito di stati ed è irriducibile, è possibile, come già detto,
solo il quarto caso.
Teorema 4.13. Ogni catena di Markov irriducibile e con uno spazio degli stati niti è
ricorrente positiva e, se è anche aperiodica, ha un'unica distribuzione di equilibrio, ovvero
un'unica soluzione del sistema π = πP .
Prima di concludere la sezione, diamo un teorema con dimostrazione meno generale
del Teorema Ergodico, ma più semplice da dimostrare
Teorema 4.14 (Legge forte dei grandi numeri per catene di Markov). Sia
Xn, n≥ 0 una catena di Markov con X0 = i. Si supponga inoltre che i j. Allora
P
(limn→∞
1n
n
∑j=1
I(X j = k
)=
1EkTk|X0 = i
)= 1
o, equivalentemente
1n
n
∑j=1
I(X j = k
)→ 1
EkTkquasi certamente
Osservazione 4.3. In un processo di Markov, se una catena è ricorrente, le traiettorie
possono essere considerate come successioni di cicli C1, ...,Ck, in cui ogni ciclo rappre-
senta il tempo che trascorre tra una visita e l'altra allo stato k. Se indichiamo con
Lk la lunghezza del ciclo, possiamo condiderare le v.a. L1,L2, . . . come indipendenti e
somiglianti, e possiamo utilizzare tali grandezze all'interno della dimostrazione.
Dimostrazione 4.12. Caso 1: Sia k uno stato transitorio. Allora Rk è una v.a. tale
che
Pk Rk = ∞> 0
IE(Rk) = ∞
159
e quindi
limn→∞
1n
n
∑j=1
I(X j = k
)= 0 =
1IE(Rk)
Caso 2: sia k uno stato ricorrente.
a) Sia L(Cr) , la lunghezza del ciclor-esimo, per r = 1,2,3, ... con L(Cr)∼ Tk.
b) Sia Sr = L(C1)+L(C2)+ ...+L(Cr).
c) Sia Vn (k) = ∑nj=1 I
(X j = k
), ossia il numero di visite a k ≤ n. Secondo un'altra
interpretazione, Vn(k) è denito come:
Vn (k) = maxl : Sl ≤ n con l=intero
⇒SVn(k) ≤ n≤ SVn(k)+1
Dividendo per Vn (k), si ottiene
SVn(k)
Vn (k)≤ n
Vn (k)≤
SVn(k)+1
Vn ((k))
Se n→ ∞: Vn(k)→ ∞
Essendo SVn(k) somma di v.a. iid con media EkTk, per la Legge forte dei grandi numeri:
SVn(k)
Vn (k)→ EkTk quasi certamente
⇒SVn(k)
Vn (k)·Vn(k)+1
Vn(k)+1=
SVn(k)
Vn(k)+1·Vn(k)+1
Vn(k)→ EkTk quasi certamente
Quindin
Vn(k)→ EkTk quasi certamente
⇒Vn(k)
n→ 1
EkTkquasi certamente
-Caso 3: k, stato ricorrente, con i 6= k.
160
Per n→ ∞, poiché per ipotesi i k il caso 3 rappresenta una semplice estensione del
precedente caso particolare (= caso 2: i = k) . Di conseguenza, a livello asintotico si
ottiene un rapporto di v.a che tendono entrambe ad innito (anche partendo da i 6= k.
Criterio di convergenza: Sia Zn una v.a.
Zn→C quasi certamente
e tutte le Zn hanno supporto limitato:
EZn→C
Criterio di Cesáro Data una successione a1, ...,an:
an→ a⇔ 1n
n
∑t=1
at → a
I criteri appena enunciati consentono di dimostrare il teorema fondamentale del limite
per le catene di Markov, precedentemente introdotto.
Dimostrazione: Sia Zn =Vn(k)
n .
⇒Zn =
∑nj=1 I(X j = k)
n→ 1
EkTk
Per il criterio di convergenza:
EZn→1
EkTk
Se la catena di Markov è irriducibile:
EZn =1n
n
∑j=1
E(I(X j = k)) =1n
n
∑j=1
Pi(X j = k)1n
n
∑j=1
P( j)ik
Per il criterio di Cesáro:
EZn =1n
n
∑j=1
P( j)ik →
1EkTk
Poiché, per ipotesi, la catena è aperiodica e ricorrente con distribuzione stazionaria π:
π(k) =1
EkTk∀k ∈ S
161
La catena di Markov converge a π(k): tale distribuzione esiste ed è unica.
Dimostrazione unicità. Se esiste una distribuzione π:
πk = ∑i
πiP( j)ik ∀ j ∈ N
πk = ∑i
πi1n ∑
jP( j)
ik →1
EkTk
πk = ∑i
πi1
EkTk
πk =1
EkTk∀k
Dimostrazione esistenza: Sia S = 1, ...,N. Poiché
1n ∑
jP( j)
ik →1
EkTk∀n
Sommando per k:
1 =1n ∑
j∑k∈S
P( j)ik →
1EkTk
⇒
∑k∈S
1EkTk
= 1
Poiché è P jP = P j+1: P( j+1)ik = ∑t P j
itPtk per j = 1, ...n. Sommando e dividendo per n:
∑j
1n
n
∑k=1
P( j)it Ptk =
1n
n
∑k=1
P( j)it
∑j
1E jTj
Ptk =1
EkTk
162
4.9 Esercizi
4.9.1. Consideriamo una catena di Markov Xn,n≥ 0 con spazio degli stati S= 1,2,3,4,5e matrice di transizione
P =
0 12
12 0 0
14 0 1
412 0
14
14 0 0 1
2
0 0 0 1 0
0 0 0 0 1
Determinare le classi irriducibili di stati comunicanti e classificarle in termini di tran-
sitorietà e ricorrenza positiva e nulla. Stabilire se esiste o meno una distribuzione di
equilibrio: se esiste, determinarla.
4.9.2. Consideriamo una catena di Markov Xn,n≥ 0 con spazio degli stati S= 1,2,3,4,5,6e matrice di transizione
P =
0 1 0 0 0 0
0 0 1 0 0 012 0 0 1
2 0 0
0 0 0 0 12
12
0 0 0 13
13
13
0 0 0 13
13
13
Determinare le classi irriducibili di stati comunicanti e classificarle in termini di tran-
sitorietà e ricorrenza positiva e nulla. Stabilire se esiste o meno una distribuzione di
equilibrio: se esiste, determinarla.
4.9.3. Una stampante può trovarsi in due stati dierenti: occupata dalla stampa di un
documento (stato 1) oppure libera (stato 0). Per ogni unità di tempo, sia α la probabilità
di passare dallo stato occupata allo stato libera e (1−α) la probabilità di rimanere
nello stato occupato. Sia inoltre β la probabilità di passare dallo stato libera allo
stato occupata e (1−β ) la probabilità di rimanere nello stato libera.
163
1. Costruire una catena di Markov che rappresenti lo stato della stampante al trascorre
del tempo ed analizzarla al variare di α e β in [0,1].
2. Assumendo 0 < α < 1, e 0 < β < 1, determinare la distribuzione stazionaria.
3. Assumendo 0 < α < 1, e 0 < β < 1, calcolare la probabilità a regime che la
stampante sia occupata.
4.9.4. Tre partiti politici, A, B, e C, si preparano alle elezioni. Ogni lunedì, si eettua un
sondaggio per vericare quale partito è in vantaggio. Durante la settimana, il partito che
è in testa sore una crisi con probabilità α , indipendentemente da cosa sia accaduto nelle
precedenti settimane. Se il partito sore la crisi, nel sondaggio successivo esso risulta
ultima in graduatoria e gli altri due partiti restano nello stesso ordine Se invece il partito
in testa non sore la crisi, esso rimane in testa la settimana successiva. in tal caso, gli
altri due partiti rimangono nello stesso ordine con probabilità 0.5 e si scambiano i posti
con probabilità 0.5. Ad esempio, se il ranking nella settimana t è (A,B,C), nella settimana
t +1 si avrà
B,C,A se c'è una crisi
A,B,C oppure A,C,B con la stessa probabilità se non c'è crisi.
Sia Xn,n≥ 0 una catena di Markov, con Xn che rappresenta il ranking del partito
A nella settimana n. Quindi Xn può assumere i valori 1 (se il partito A è in testa), 2, and
3 (se il partito A è ultimo).
1. Trova la matrice di transizione della catena.
2. Disegna il diagramma di transizione.
3. Verica se la catena converge ad una qualche distribuzione di equilibrio, per n→∞.
4.9.5. Un dado regolare viene lanciato ripetutamente e ogni lancio è indipendente dagli
altri. Sia Xn denito come il valore più alto uscito nei primi n lanci. Spiegare perché la
successione delle Xn costituisce una catena di Markov. Scrivere la matrice di transizione.
Determinare, se esiste, la distribuzione invariante della catena.
164
4.9.6. Consideriamo una catena di Markov Xn,n≥ 0 con spazio degli stati S= 1,2,3,4,5e matrice di transizione
P =
12
12 0 0 0
0 13 0 2
3 0
0 1 0 0 0
0 0 0 15
45
0 0 0 1 0
Determinare le classi irriducibili di stati comunicanti e classificarle in termini di transi-
torietà e ricorrenza positiva e nulla. Stabilire se esiste o meno una distribuzione di equi-
librio: se esiste, determinarla. Trovare il tempo medio di primo passaggio in 5 partendo
da 1.
4.9.7. Consideriamo una catena di Markov Xn,n≥ 0 con spazio degli stati S= 1,2,3,4e matrice di transizione
P =
12
14
14 0
14
34 0 0
12 0 0 1
2
0 0 α 1−α
Determinare le classi irriducibili di stati comunicanti e classificarle in termini di tran-
sitorietà e ricorrenza positiva e nulla, nel caso in cui α = 0 e nel caso in cui 0 < α <
1. Stabilire nei due casi se esiste o meno una distribuzione di equilibrio: se esiste,
determinarla.
4.9.8. Modello di Ehrenfest per l'equilibrio termodinamico. Ci sono 2 urne e K palline.
Al tempo 0 ci sono h palline nell'urna 1 e K−h palline nell'urna 2. Sia, per ogni n, Xn il
numero di palline nell'urna 1. Ad ogni istante si sceglie a caso una delle K palline e le si
cambia urna. Questo implica che lo spazio degli stati della catena è
S = 0,1,2,3, . . .K.
Inoltre, gli elementi della matrice di transizione sono, per i = 1,2, . . . ,K−1,
pi,i+1 =K− i
K; pi,i−1 =
iK
;
165
Invece, per i = 0 si ha p0,1 = 1 e per i = K, pK,K−1 = 1. Tutti gli altri elementi della
matrice di transizione sono uguali a zero. Stabilire se la catena è ergodica o meno. In
caso positivo detrminare la distribuzione di equilibrio.
4.9.9. Consideriamo una catena di Markov Xn,n≥ 0 con spazio degli stati S= 1,2,3,4,5e matrice di transizione
P =
0 12
12 0 0
14 0 1
412 0
14
14 0 0 1
2
0 0 0 1 0
0 0 0 0 1
Determinare le classi irriducibili di stati comunicanti e classicarle in termini di tran-
sitorietà e ricorrenza positiva e nulla. Stabilire se esiste o meno una distribuzione di
equilibrio: se esiste, determinarla.
4.9.10. Un'urna contiene inizialmente 2 palline rosse e 2 palline nere. Due giocatori A e
B eettuano delle estrazioni successive con le regole seguenti: se la pallina estratta è nera,
essa viene eliminata; se la pallina estratta è rossa, essa viene rimessa nell'urna insieme ad
una nera. A vince non appena l'urna contiene 4 palline nere, B vince non appena l'urna
non contiene più palline nere. Sia Xn il numero di palline nere nell'urna dopo n estrazioni.
Stabilire se la successione Xn,n ≥ 1 è una catena di Markov. Determinare la matrice
di transizione.
4.9.11. Consideriamo una catena di Markov Xn,n ≥ 0 con spazio degli stati S =
1,2,3 e matrice di transizione
P =
0 1−2−k 2−k
1−2−k 0 2−k
0 0 1
dove k è un intero positivo. Classicare gli stati della catena. Determinare, se esiste, la
distribuzione di equilibrio. Detto T il tempo di primo arrivo in 3 partendo da 1, calcolare
166
IE(T ). Determinare le classi irriducibili di stati comunicanti e classicarle in termini di
transitorietà e ricorrenza positiva e nulla.
4.9.12. Consideriamo la catena di Markov avente come stati i 6 vertici di un esagono
regolare, numerati da 1 a 6 e dove Xn rappresenta il vertice occupato al tempo n. Gli
spostamenti avvengono secondo la seguente regola: ad ogni passo, ci si sposta sul vertice
adiacente in senso orario con probabilità p e sul vertice adiacente in senso anti-orario con
probabilità q; inoltre si resta con probabilità r = 1− p− q dove ci si trova. Scrivere la
matrice di transizione. Dimostrare che, se almeno uno tra p e q è strettamente positivo,
allora la catena è irriducibile.
4.9.13. Consideriamo una catena di Markov Xn,n ≥ 0 con spazio degli stati S =
0,1,2,3 e probabilità di transizione
p0,0 = 1, p1,0 =14, p1,2 =
34, p2,0 =
18, p2,1 =
18, p2,3 =
34, p3,3 = 1,
mentre lo stato iniziale è scelto a caso. Disegnare il grafo associato alla catena e
individuare gli stati transitori e ricorrenti. Calcolare la probabilità di assorbimento in
0.
4.9.14. Consideriamo una catena di Markov Xn,n ≥ 0 con spazio degli stati S =
0,1,2,3, · · · e matrice di transizione
P =
13
23 0 0 0 · · ·
13
13
13 0 0 · · ·
13 0 1
313 0 · · ·
13 0 0 1
313 · · ·
......
......
......
,
ovvero p0,0 = 1/3, p0,1 = 2/3 e, per ogni i≥ 1, pi0 = pii = pi,i+1 = 1/3. Determinare le
classi irriducibili di stati comunicanti e classicarle in termini di transitorietà e ricorrenza
positiva e nulla. Stabilire se esiste o meno una distribuzione di equilibrio: se esiste,
determinarla.
167
4.9.15. Sia X0,X1,X2, · · · una catena di Markov con spazio degli stati S = 0,1. InoltrePr(X0 = 1) = p e Pr(Xn+1 = 1|Xn = 1) = α , per n = 0,1,2, · · · . Sia poi, per ogni n,
Zn = X0 X1 · · ·Xn =n
∏j=0
X j.
Spiegare perché Zn,n≥ 0 è una catena di Markov e scrivere la matrice di transizione.
Determinare, per un n generico, Pr(Zn = 1).
4.9.16. Sia Xn,n≥ 0 una catena di Markov, e siano A e B due sottoinsiemi dello spazio
degli stati.
(a) È vero che PX2 ∈ B|X1 = x1,X0 ∈ A = PX2 ∈ B|X1 = x1? Se ne dia una dimo-
strazione o un controesempio.
uccessi (b) È vero che PX2 ∈ B|X1 ∈ A,X0 = x0 = PX2 ∈ B|X1 ∈ A? Se ne dia una
dimostrazione o un controesempio.
4.9.17. Sia Xn,n ≥ 0 una catena di Markov ne llo spazio degli stati −1,0,1 e si
supponga che P(i, j)> 0 ∀i, j. Quale è una condizione necessaria e suciente perché la
successione Yn,n ≥ 0, con Yn = |Xn|, ovvero la successione dei valori assoluti sia una
catena di Markov?
4.9.18. Sia Xn,n≥ 0 una catena di Markov nita e sia A un sottoinsieme dello spazio
degli stati. Supponiamo di voler determinare il tempo atteso prima che la catena entri
nell'insieme A, cominciando da un iniziale stato arbitrario. In altra forma, si indichi con
τA = infn≥ 0 : Xn ∈ A
la prima volta che la catena raggiunge A (τA è pari a 0 se X0 ∈ A). Si vuole calcolare
Ei(τA). Dimostrare che:
Ei(τA) = 1+ ∑k∈S
P(i,k)Ek(τA)
per i /∈ A
168
4.9.19. Si supponga che una catena di Markov abbia una distribuzione stazionaria π e
che lo stato j abbia riorrenza nulla. Dimostrare che π( j) = 0.
4.9.20. Birth-collapse di una catena. Si consideri una catena di Markov su S =
0,1,2, ... con P(i, i+ 1) = pi, P(i,0) = 1− pi ∀i, e p0 = 1 e 0 < pi < 1 ∀i > 0. Si
dimostri che
(i) La catena è ricorrente se e solo se limn→ ∞ ∏ni=1 pi = 0 (Questo, a sua volta, è
equivalente alla condizione ∑∞i=1(1− pi) = ∞)
(ii) La catena è ricorrente positiva se e solo se ∑∞n=1 ∏
ni=1 < ∞.
(iii) Quale è la distribuzione stazionaria se pi = 1/(i+1)?
4.9.21. Si consideri una catena di Markov irriducibile Xn,n≥ 0 denita in uno spazio
degli stati con n < ∞ stati. Si indichi con π la distribuzione stazionaria della catena e si
supponga che X0 sia distribuita secondo la legge π. Si denisca τ come l'istante di primo
ritorno allo stato iniziale, cioè τ = in fk > 0 : Xk = X0. Qual è il valore atteso di τ?
4.9.22. Si consideri una catena di Markov sugli interi non negativi S = 0,1,2, ....Denendo P(i, i+ 1) = pi e P(i, i− 1) = qi, si assuma che pi + qi = 1 ∀i ∈S , p0 = 1,
e 0 < pi ≤ 1/2 ∀i ≥ 1. Sulla base di quanto conosciuto circa la semplice, simmetrica
passeggiata casuale, si dimostri che la catena di Markov data è ricorrente.
4.9.23. Si dimostri che la relazione comunica con ( ) è una relazione di equivalenza.
Cioè. si dimostri che è una relazione riessiva, simmetrica e transitiva.
4.9.24. Teoria del rinnovamento e campionamento residuo lenghth-biased Siano X1,X2, . . .
iid con supporto 1, ...,d. Si denisca Sk = X1 + · · ·+Xk, e τ(n) = infk : Sk ≥ n e
Rn = Sτ(n)− n. In altri termini Rn è la durata residua al tempo n, ossia il periodo di
utilizzo rimanente della v.a. in opera al tempo n.
La sequenza R0,R1, ... è una catena di Markov. Qual è la matrice di transizione?
Qual è la distribuzione stazionaria?
169
Si denisca la durata totale Ln al tempo n come Ln = XT (n). Questa è la durata
complessiva della v.a. in opera al tempo n. Si dimostri che L0,L1, ... non è una
catena di Markov. Tuttavia Ln ha una distribuzione limite Lo faremo costruendo
una catena di Markov espandendo lo spazio degli stati e considerando la sequenza di
vettori casuali (R0,L0), (R1,L1), . . . . Questa sequenza forma una catena di Markov.
Quali sono la sua funzione di (probabilità di) transizione e la sua distribuzione
stazionaria?
Assumendo che si possa applicare il Teorema (Fondamentale) del limite (per catene di
Markov), quale è la distribuzione limite di Ln per n→ ∞?
4.9.25. Si richiami la denizione data di catena di Ehrenfest.
(a) Qual è la distribuzione stazionaria?
(b) Puoi spiegare senza calcoli perché la distribuzione è stazionaria? Cioè. supponendo di
far partire la catena di Ehrenfest al tempo 0 scegliendo uno stato secondo la distribuzione
che si aerma essere stazionaria, dovresti argomentare senza calcoli che anche lo stato
al tempo 1 dovrebbe avere la stessa distribuzione.
4.9.26. Si consideri una catena di Markov sui numeri interi con
P(i, i+1) = .4eP(i, i−1) = .6peri > 0
P(i, i+1) = .6eP(i, i−1) = .4peri < 0
P(0,1) = P(0,−1) = 1/2
Questa è una catena con inniti stati, ma ha una `forza di ripristino che ogni volta la
riporta indietro verso lo stato iniziale 0. Si trovi la distribuzione stazionaria.
4.9.27. [Un processo a media mobile]. I modelli a media mobile sono frequentemente
usati nell'analisi delle serie storiche, in economia ed in ingegneria. Alla base di questi
modelli, si assume che ci sia un processo non osservato Y0,Y1, · · · di variabili indipendentie identicamente distribuite. Un processo a media mobile considera una media (even-
tualmente una media ponderata) delle variabili Y all'interno di una nestra scorrevole.
170
Ad esempio, si ipotizzi che al tempo n consideriamo semplicemente la media tra Yn e
Yn−1, denendo così il nuovo processo
Xn = (1/2)(Yn +Yn−1).
In generale, il processo Xn, n ≥ 0 denito in questo modo non è markoviano. Come
semplice esempio, si ipotizzi che la distribuzione delle variabili casuali Yn, n ≥ 0 sia
dicotomica con
PYi = 1= 1/2 = PYi =−1.
Dimostrare che X0,X1, ... non è una catena di Markov.
4.9.28. Si lanci una moneta ripetutamente. È più probabile osservare prima la sequenza
T T oppure la sequenza TC? Siano N1 e N2 il numero di lanci necessari per osservare T T
e TC rispettivamente; Spiega, a livello intuitivo se se E(N1) è maggiore, minore o uguale
a E(N2). Risolvere l'esercizio in modo formale esplicitando il valore di E(Ni), i = 1,2.
Suggerimento: costruisci una catena di Markov con 4 stati: T T , TC, CT eCC.
4.9.29. Di seguito ci sono le matrici di transizione relative a tre diverse catene di Markov.
Per ognuna di queste
1. determinare le classi irriducibili di stati intercomunicanti e stabilire se si tratta di
classi transitorie, ricorrenti nulle o ricorrenti positive. Stabilire anche il periodo
delle classi
2. Stabilire, motivandolo, se, per ognuna delle tre catene di Markov, esiste o meno
una distribuzione di equilibrio. Nel caso esista scrivere qual è,
(A) S = 1,2,3,4; P =
0 0 0.5 0.5
1 0 0 0
0 1 0 0
0 0 1 0
171
(B) S = 1,2,3,4; P =
0 0 1 0
.25 .25 .25 .25
1 0 0 0
.25 .25 .25 .25
(C) S = N0 = 0,1,2,3, . . .
p0,0 = 1; p1,1 = 1;
pi,i−2 = pi,i+2 = 1/2, for i = 2,4,6, . . .
pi,i−2 = pi,i−1 = pi,i+2 = 1/3, for i = 3,5,7, . . .
4.9.30. Sia X0,X1,X2, . . . una catena di Markov su S = 1,2,3 con matrice di tran-
sizione
P =
0 1 0
0.5 0 0.5
0 1 0
1. Disegna il diagramma di transizione
2. Determina una distribuzione invariante per la catena
3. Calcola Pr(X4 = 1 | X0 = 1)
4. La distribuzione di Xn converge alla legge trovata al punto precedente? Se si,
perché? Se no, perché?
4.9.31. Si hanno due monete. La moneta A dà testa (T) con probabilità 0.6 e la
moneta B dà testa con probabilità 0.5. Si inizia a lanciare con la moneta A e la si lancia
continuamente no a che non esce croce (C); a quel punto si passa a giocare con la
moneta B. Analogamente, alla prima uscita di croce con la moneta B, si torna a giocare
con A, e così via. Sia Xn il risultato del lancio n-esimo.
1. Dimostrare che la successione X1,X2, . . . ,Xn, . . . è una catena di Markov.
172
2. Nel lungo periodo, quale proporzione di lanci verrà eettuata con la moneta A?
3. Qual è la probabilità che il quinto lancio si eettuerà con la moneta B?
4.9.32. Sia X0,X1,X2, . . . una catena di Markov sullo spazio degli stati S = 0,1,2con matrice di transizione
P =
.1 .7 .2
.2 .3 .5
0 .8 .2
1. Disegna il diagramma di transizione
2. Supponiamo che X0∼Bin(2,0.1). Determinare il vettore delle probabilità marginali
al tempo 1, ovvero le probabilità di trovarsi, al tempo 1, negli stati 0,1,2.
3. Calcolare P(X1 = 1,X2 = 1,X3 = 1|X0 = 2).
4. Calcolare P(X2 = 1,X3 = 1|X0 = 2).
5. (Facoltativo) Trovare una formula generale, valida per ogni t per P(Xt = 1 | X0 = 1)
4.9.33. Consideriamo una catena di Markov Xn,n ≥ 0 con spazio degli stati S =
1,2,3,4,5 e matrice di transizione
P =
0 12
12 0 0
14 0 1
412 0
14
14 0 0 1
2
0 0 0 1 0
0 0 0 0 1
Determinare le classi irriducibili di stati comunicanti e classicarle in termini di transitorie-
tà e ricorrenza positiva e nulla. Stabilire se esiste o meno una distribuzione di equilibrio:
se esiste, determinarla.
4.9.34.
173
4.9.35.
4.9.36. Consideriamo una catena di Markov Xn,n ≥ 0 con spazio degli stati S =
1,2,3,4,5,6 e matrice di transizione
P =
0 1 0 0 0 0
0 0 1 0 0 012 0 0 1
2 0 0
0 0 0 0 12
12
0 0 0 13
13
13
0 0 0 13
13
13
Determinare le classi irriducibili di stati comunicanti e classicarle in termini di transitorie-
tà e ricorrenza positiva e nulla. Stabilire se esiste o meno una distribuzione di equilibrio:
se esiste, determinarla.
4.9.37. Un'urna contiene inizialmente 3 palline rosse e 2 palline nere. Due giocatori A
e B eettuano delle estrazioni successive con le regole seguenti: se la pallina estratta
è nera, essa viene eliminata; se la pallina estratta è rossa, essa viene rimessa nell'urna
insieme ad una nera. A vince non appena l'urna contiene 5 palline nere, B vince non
appena l'urna non contiene più palline nere. Sia Xn il numero di palline nere nell'urna
dopo n estrazioni.
1. Stabilire se la successione Xn,n≥ 1 è una catena di Markov.
2. Determinare la matrice di transizione.
3. Stabilire se la catena è irriducibile o meno. Nel primo caso determinare se esiste
una distribuzione di equilibrio. Nel secondo determinare le cassi di stati irriducibili.
4.9.38. Sia X0,X1,X2, . . . una catena di Markov sullo spazio degli stati S = 0,1,2con matrice di transizione
P =
.6 .2 .2
.4 0 .6
0 .8 .2
174
1. Disegna il diagramma di transizione
2. Suppose that X0 ∼ Bin(2,0.4).Determina il vettore delle probabilità marginali al
tempo 1, ovvero le probabilità di trovarsi, al tempo 1, negli stati 0,1,2.
3. Calcolare P(X1 = 1,X2 = 2,X3 = 3|X0 = 2).
4. (Facoltativo) Trovare una formula generale, valida per ogni t per P(Xt = 3 | X0 = 1)
4.9.39. Assumiamo che la professione di un uomo possa essere classicata in tre cate-
gorie:
A) professionista
B) specializzato
C) non specializzato.
Supponiamo che tra i gli dei professionisti, l'80% è ancora professionista, il 10% è spe-
cializzato e l'altro 10% è non specializzato. Tra i gli degli specializzati, il 60% sono
specializzati, 20% professionisti e 20% non specializzati. Inne tra i non specializzati,
50% dei gli è non specializzato e il restante 50% si divide nelle altre due categiorie.
Assumiamo che ogni uomo abbia almeno un glio.
1. Costruisci una catena di Markov che rappresenti, ad ogni generazione, la categoria
professionale del rappresentante di una certa famiglia.
2. Determina la matrice di transizione
3. Calcola la probabilità che il nipote di un non specializzato sia un professionista
4. Calcola la probabilità che il pronipote di un non specializzato sia un professionista
Ora assumiamo che ogni uomo abbia un glio maschio con probabilità 0.8. Ferme re-
stando le altre probabilità nel caso un uomo abbia glio maschio, costruisci una matrice
di transizione a 4 stati in cui il quarto stato (diciamo D) rappresenta la ne della storia
per quella famiglia.
175
4.9.40. Un signore possiede 3 ombrelli che usa, quando servono, per andare da casa in
ucio e viceversa. Quando si trova a casa di mattina, e sta piovendo, prende con sé un
ombrello, a patto che ne abbia uno. Analogamente si comporta la sera quando torna. Se
non piove, non prende ombrelli. Assumiamo che, indipendentemente dal passato, ogni
mattina e ogni sera piove con probabilità p
1. Descrivi la catena di Markov con 4 stati, relativa al numero di ombrelli presenti la
mattina a casa, e scrivi la matrice di transizione.
2. Dimostra che esiste una distribuzione di equilibrio e che è data da
π j =
1−p4−p j = 0
14−p j = 1,2,3
3. calcola la percentuale di giorni in cui il signore si bagna
4.9.41. La popolazione di tre città A, B, e C, si sposta continuamente. I censimenti
fotografano la situazione una volta all'anno stabilendo in quale città risiede ciascun in-
dividuo. Supponiamo che tale processo sia una catena di Markov e che la matrice di
transizione associata allo spazio degli stati (A,B,C) sia la seguente:
A B C
A 0.7 0.2 0.1
B 0.3 0.5 0.2
C 0.2 0.2 0.6
Nella matrice di transizione, ad esempio, il valore 0.3 rappresenta la probabilità di risiedere
nella città A al tempo t sapendo che si viveva nella città B al tempo t−1. Assumiamo
inoltre che le popolazioni al tempo 0 nelle tre città siano pari 100mila per A, 500mila per
B e 200mila per C. Calcolare:
La matrice di transizione in due passi.
Le probabilità marginali di risiedere nelle varie città al tempo 1
176
Le probabilità marginali di risiedere nelle varie città al tempo 2
la eventuale distribuzione stazionaria della catena.
4.9.42. Uno studio sociologico ha evidenziato sei diversi stati associati con il consumo
di televisione: 0 (non la guardo mai), 1 (occasionalmente), 2 (frequentemente), 3 (di-
pendente), 4 (con modiche comportamentali dovute al troppo uso), 5 (malato). Le
transizioni da stato a stato sono regolate dalla seguente matrice di transizione di Markov,
dove Xn rappresenta la situazione di un generico paziente al tempo n.
P =
1 0 0 0 0 0
.5 0 .5 0 0 0
.1 0 .5 .3 0 .1
0 0 0 .7 .1 .2
0 0 0 0 0 1
1. Quali stati sono transitori e quali ricorrenti? Suddividi gli stati della catena in classi
separate.
2. Calcola P(Xn+1 = 4 | Xn−1 = 2)
3. Sia qi = P(Xn = 5,prima o poi | X0 = i) Partendo da X0 = 1 dimostra che la proba-
bilità di arrivare a 5 prima di 0 è proprio q1.
4. Esprimi q1 in termini della distribuzione limite
4.9.43. Alberto e Barbara vivono nella stessa città , dove ci sono due bar. Ogni notte,
Alberto sceglie il bar dove andare secondo la catena di Markov descritta dalla matrice P
P =
(.8 .2
.2 .8
)
Barbara invece sceglie il suo bar secondo una catena di Markov con matrice Q
Q =
(.1 .9
.9 .1
)
177
Assumiamo che, il giorno 0 (zero) Alberto vada al bar 1 mentre Barbara va al bar 2.
Dal primo giorno in cui si incontrano i due andranno sempre insieme allo stesso bar.
1. Modella il fenomeno come una singola catena di Markov con un solo stato assor-
bente. Determina la matrice di transizione per tale catena.
2. Sia N il numero aleatorio di notti che ci vorranno prima che i due si possano
incontrare. Calcola IE(N)
3. Dopo che si sono incontrati, i due continuano ad andare insieme al bar scegliendo
ogni sera secondo la matrice P: qual è la frequenza relativa di volte in cui andranno
al bar 1?
4. Rispondi alla stessa domanda usando però la matrice Q.
4.9.44. Il clima, in una data città , dipende dalle condizioni climatiche dei due giorni
precedenti. Si può allora formare una catena di Markov con 4 stati: A( SS) se c'è stato
sole nei due giorni precedenti, B(SN) se c'è stato sole due gioni prima e nuvole il giorno
prima. Analogamente deniamo gli stati C(NS) e D(NN).
Sappiamo che
dopo due giorni di sole si avrà ancora sole con probabilità pari a 0.7
dopo la sequenza (SN) si avrà sole con probabilità pari a 0.4;
dopo la sequenza (NS) si avrà sole con probabilità pari a 0.5;
dopo la sequenza (NN) si avrà sole con probabilità pari a 0.2;
4.9.45. Sia Z1,Z2, . . . v.a. indipendenti e somiglianti e tali che
P(Zi = 1) = p = 1−P(Zi = 0), i = 1, . . . , .
Siano inoltre S0 = 0 e Sn = Z1 + · · ·+Zn. Determinare in ognuno dei seguenti casi se
la successione Xn,n≥ 1 è una catena di Markov.
178
1. Xn = Zn
2. Xn = Sn
3. Xn = S0 +S1 + · · ·+Sn
Nei casi in cui si aermi che Xn,n ≥ 0, è una catena di Markov, determinare lo
spazio degli stati e la matrice di transizione. Se invece si aerma che Xn,n≥ 0 non è
una catena di Markov, spiegare perché.
4.9.46. In ognuno dei casi seguenti determinare se la catena di Markov Xn,n≥ 0 conassociata la matrice di transizione P è reversibile oppure no
1.
P =
(p 1− p
1−q q
)2.
P =
0 p 1− p
1− p 0 p
p 1− p 0
3. S = 0,1,2, . . . e
p01 = 1, pi,i+1 = p, pi,i−1 = 1− p, per i≥ 1.
4.9.47. A e B hanno in tasca 2 monete da 1 euro a testa. Decidono di giocare nel
seguente modo. Ognuno di loro prende una moneta e la lancia; se le monete mostrano
lo stesso lato (TT o CC) A vince l'euro di B. Se invece le due monete cadono su facce
diverse (TC o CT) B vince l'euro di A. Il gioco continua no a quando uno dei due resta
senza monete. Ognuna delle 4 monete dà T con probabilità p=0.6. Sia Xn,n ≥ 0 lacatena di Markov che denota, al tempo n, il numero di monete posseduto da A.
1. Scrivere la matrice di transizione della catena e identicare eventuali classi di stati.
2. qual è la probabilità che A possieda le 4 monete dopo solo due lanci?
179
3. qual è la probabilità che A possieda le 4 monete dopo esattamente tre lanci?
4. qual è la probabilità che il gioco nisca entro la terza partita?
5. qual è l'ammontare atteso di denaro che A posside dopo due partite?
180
CAPITOLO 5
Applicazioni delle catene di Markov
5.1 Processi branching
Un altro esempio notevole di applicazione della teoria delle catene di Markov è dato dai
cosiddetti processi branching. Questo tipo di processo è utilizzato spesso per modellare
processi biologici relativi ai meccanismi di crescita della popolazione, in particolare per
studiarne l'ereditarietà genetica ed epidemica1. Più in particolare, i processi branching
descrivono l'evoluzione di una popolazione che si riproduce secondo regole probabilistiche
ad ogni generazione.
Consideriamo una popolazione (di individui, molecole, maschi con un dato cognome,
etc.) Assumiamo che al tempo 0 vi sia un solo individuo nella popolazione e che egli
generi un numero aleeatorio di discendenti Y , dove Y è una v.a. discreta con legge PY (y)
P(Z = y) = py, y = 0, 1, 2 3, . . .
1La prima applicazione di questo modello, realizzata da Galton e Watson, fu usata per spiegare il
fenomeno della scomparsa dei nomi di famiglia in una popolazione in crescita
181
e funzione generatrice delle probabilità GY (s) = IE(sY). Gli individui sono generati tutti
allo stesso istante e formano la generazione al tempo 1: dopo aver generato la sua prole,
l'individuo iniziale muore. Al tempo 1, ognuno degli Y individui generati produrrà a sua
volta un numero aleatorio di discendenti che formeranno la generazione 2 e così via.
Ognuno degli individui della generazione j produce un numero di discendenti secondo la
legge PY (y) e le varie realizzazioni sono indipendenti sia all'interno di ogni generazione
che tra generazioni. Denotiamo allora con Zn la dimensione della popolazione al tempo
n, n≥ 0. Avremo
Z0 = 1
Z1 = Y
Z2 = Y (1)2 +Y (2)
2 + . . .Y (Z1)2
Z3 = Y (1)3 +Y (2)
3 + . . .Y (Z2)3
· · ·
Zn = Y (1)n +Y (2)
n + . . .Y (Zn−1)n
· · ·
dove le Y (k)j sono mutuamente indipendenti, sia al variare di j in 1,2, . . . ,k, sia al
variare di k. Poiché il valore del processo Zn, n ≥ 0, al tempo n, dipende solo da
quanto avviene al tempo n e dalla dimensione della popolazione al tempo n−1, ne segue
facilmente che si tratta di una catena di Markov omogenea nel tempo. Nel resto di questa
sezione mostreremo come sia possibile calcolare alcune grandezze notevoli relative ad un
processo branching, con particolare riferimento alla sua dinamica evolutiva. Studieremo
infatti come calcolare
IE(Zn) ; il valore atteso della dimensione della popolazione al tempo n;
Var(Zn) ; la sua varianza;
la distribuzione di probabilità di Zn, disponibile solo in alcuni casi in forma esplicita
182
la probabilità di estinzione eventuale della popolazione
Si noti che, anché abbia senso parlare di estinzione, occorre assumere che P(Y = 0)> 0,.
Infatti, se fosse P(Y = 0) = 0, tutti gli individui si riprodurrebbero con probabilità 1 ad
ogni iterazione e l'estinzione sarebbe impossibile.
5.1.1 Valore atteso e varianza di Zn
Prima di cominciare a studiare le caratteristiche del processo, conviene sottolineare che
poiché la dimensione della popolazione Z è data dalla somma di n variabili casuali in-
dipendenti e discrete (n variabile), risulterà particolarmente utile nei calcoli la funzione
generatrice delle probabilità. In tal senso sarà utile il seguente risultato.
Teorema 5.1. Siano Y1,Y2, · · · ,YN N v.a. discrete con supporto 0,1,2, . . . indipendentie somiglianti con funzione generatrice delle probabilità GY (s) e sia N una v.a. discreta con
stesso supporto e funzione generatrice delle probabilità GN(s). Sia inoltre N indipendente
dalle Yi. Allora, se ZN =Y1+Y2+ · · ·+YN , la funzione generatrice delle probabilità di ZN
è
GZN (s) = GN(GY (s)).
Dimostrazione 5.1.
GZN (s) = IE(sZN)= IE
(sY1+Y2+···+YN
)= IE
(IE(sY1+Y2+···+YN |N = n
))= IE(GY (s))
n
= GN(GY (s))
Il precedente risultato ci dice che, nel caso di un processo branching, denotando con
Gn(s) la quantità GZn(s), e denotando
GY (s) = G1(s)
con il simbolo G(s), risulterà
Gn(s) = Gn−1(G(s)). (5.1)
183
Utilizzando la (5.1) più volte, si ottiene facilmente che
Gn(s) = G(G(G(· · ·G(s))))︸ ︷︷ ︸nvolte
(5.2)
oppure, più in generale,
Gn(s) = Gn−k(Gk(s)), ∀k < n. (5.3)
Ciò posto, il valore atteso e la varianza di Zn sono forniti dai seguenti teoremi.
Teorema 5.2. Sia Zn, n ≥ 0 un processo branching e sia Y la variabile casuale che
descrive il numero di nati da ogni individuo. Si supponga inoltre che E(Y ) = µ. Allora
IE(Zn) = µn. (5.4)
Dimostrazione 5.2. Per quanto detto in precedenza possiamo scrivere
GZn(s) = GZn−1[G(s)], (5.5)
Derivando i due membri dell'uguaglianza, otteniamo
G′Zn(s) = G′Zn−1
[G(s)]G′(s), (5.6)
ovvero, calcolando il valore delle quantità in s = 1,
G′Zn(1) = G′Zn−1
(G(1))G′(1) = G′Zn−1(1)µ.
Si ricordi, infatti che, in ogni caso, G(1) = 1 e G′(1) = IE(Y ). L'ultima relazione può
allora essere scritta come
IE(Zn) = µ IE(Zn−1)
da cui
E(Zn) = E(Zn−1)µ = E(Zn−2)µ2 = . . . = µ
n
Fin da ora è intuitivamente chiaro che il comportamneto asintotico del processo sarà
molto diverso a seconda che il valore µ risulti maggiore, uguale oppure minore di 1.
184
Teorema 5.3. Sia Zn un processo branching e sia Y la variabile casuale che descrive
il numero di nati da ogni individuo. Si supponga inoltre che IE(Y ) = µ e Var(Y ) = σ2 Si
ha allora
Var(Zn) =
nσ2 se µ = 1
µn−1σ2 1−µn
1−µ, se µ 6= 1.
(5.7)
Dimostrazione 5.3. Poiché, per ogni v.a. X si ha IE(X(X−1)) = IE(X2)− IE(X) e
G′′X(1) =∂
∂ s
(∂
∂ sIE(sX)) |s=1 =
∂
∂ sIE(Xsx−1)= IE(X(X−1)) ,
e poiché
Var(X) = IE(X2)− (IE(X))2 ,
risulta
G′′Zn(1) = IE
(Z2
n)− IE(Zn) = Var(Zn)+(IE(Zn))
2− IE(Zn) = Var(Zn)+µ2n−µ
n. (5.8)
Inoltre, ricordando la (5.6), si ha
G′′Zn(1) = [G′(GZn−1(1))G
′Zn−1
(1)]′ =
= G′′[GZn−1(1)]G′Zn−1
(1) ·G′Zn−1(1)+G′′Zn−1
(1)G′[GZn−1(1)] =
= G′′[GZn−1(1)] · [G′Zn−1
(1)]2 +G′′Zn−1(1)G′[GZn−1(1)] =
= G′′(1)[G′Zn−1(1)]2 +G′′Zn−1
(1)G′(1) =
= G′′(1)[µn−1]2 +µG′′Zn−1(1).
(5.9)
Da quest'equazione possiamo ottenere una relazione ricorsiva per Var(Zn) sostituendo
la (5.8) nella (5.9):
Var(Zn)−µn +µ
2n = [µn−1]2[Var(Z1)−µ +µ2]+µ[Var(Zn−1)−µ
n−1 +µ2n−2] =
= µ2n−2 Var(Z1)−µ
2n−2µ +µ
2n−2µ
2 +µ Var(Zn−1)−µµn−1 +µµ
2n−2 =
= µ2n−2 Var(Z1)+µ
2n +µ Var(Zn−1)−µn,
ottenendo
Var(Zn) = µ2n−2
σ2 +µ Var(Zn−1) . (5.10)
185
Si proceda ora per induzione. Per n = 1, la tesi si riduce a Var(Z1) = σ2, ovviamente
vera; assumendo la tesi vera per n, dimostriamo ora che vale anche per n+1. Se µ = 1,
per la (5.10), si ha
Var(Zn+1) = Var(Z1)+nσ2 = (n+1)σ2.
Per µ 6= 1, invece,
Var(Zn+1) = µ2n
σ2 +µ
σ2µn−1(1−µn)
1−µ=
=µ2nσ2(1−µ)+µσ2µn−1(1−µn)
1−µ=
=σ2µn[µn(1−µ)+(1−µn)]
1−µ=
=σ2µn[µn−µn+1 +1−µn]
1−µ=
=σ2µn(1−µn+1)
1−µ.
(5.11)
Riguardo al caso µ 6= 1, si può notare che:
se µ > 1, la varianza tende a esplodere (la popolazione stessa, infatti, è in costante
crescita);
se µ < 1, la varianza tende a zero (la popolazione, infatti, tende ad estinguersi).
5.1.2 Distribuzione di Zn
Il calcolo della distribuzione di Zn, pur basandosi su un'idea relativamente semplice, è
piuttosto dicile da realizzare in pratica. L'idea è che conoscendo la distribuzione delle
Yn, si può usare la funzione generatrice delle probabilità delle Yn per trovare la funzione
generatrice delle probabilità di Zn utilizzando la (5.5) e, successivamente, la sua funzione
di probabilità attraverso la relazione
P(Zn = k) =1k!
G(k)Zn(0).
Tuttavia, come abbiamo detto, questo calcolo non è sempre possibile.
186
5.1.3 Probabilità di estinzione
L'aspetto forse più interessante nello studio dei processi branching è il calcolo della
probabilità di estinzione della popolazione. In termini formali sia l'evento
An = La popolazione è estinta al tempo n,
e sia γn = P(An). Se la popolazione è estinta al tempo n dovrà risultare Zn = 0 e,
di conseguenza, Zn+k = 0,∀k > 0. Detto in altri termini gli eventi An formano una
successione monotona
A1 ⊂ A2 ⊂ ·· · ⊂ An ⊂ An+1 ⊂ ·· · ⊂ A,
dove A è l'evento
A = La popolazione prima o poi si estingue.
Ne consegue che anche la successione γn, n≥ 1 è una successione monotona crescente
e limitata dal valore 1. Ne consegue che essa ammette un limite γ . Poiché la probabilità
è una funzione continua di insieme risulterà allora
limn→∞
γn = limn→∞
P(An) = P(
limn→∞
An
)= P(A) = γ.
Teorema 5.4. Sia γ la probabilità di eventuale estinzione della popolazione. Allora γ
è la più piccola soluzione non negativa dell'equazione s = G(s), dove G(·) è la funzione
generatrice della v.a. Y che determina la dimensione della prole di ciascun individuo.
Dimostrazione 5.4. Prima di dimostrare il teorema notiamo come, la funzione ge-
neratrice delle probabilità di una v.a. Y, denita sugli interi positivi oltre allo zero, sia
necessariamente una funzione crescente e convessa di s in [0,1]. la dimostrazione di
questo asserto è basata sul semplice calcolo delle due prime d due derivate. Inoltre, per
qualunque G, valgono
G(0) =∞
∑n=0
0yP(Y = y) = P(Y = 0),
187
e
G(1) =∞
∑n=0
1yP(Y = y) =∞
∑n=0
P(Y = y) = 1.
Innanzitutto mostriamo che, per ogni n ≥ 0, vale la relazione γn+1 = G(γn). Infatti, se
Gn(s) è la funzione generatrrice delle probabilità di Zn, γn = P(Zn = 0) = Gn(0). Allo
stesso modo, γn−1 = Gn−1(0), e inoltre
Gn(0) = G(G(G(· · ·G(0))))︸ ︷︷ ︸nvolte
= G(Gn−1(0)),
e quindi
γn = G(γn−1).
Entriamo ora nella dimostrazione del teorema. Occorre prima dimostrare che γ = G(γ),
ovvero la probabilità di estinzione è un punto sso di G(·), e inoltre che ∀s≥ 0 tali che
s = G(s), risulta s≥ γ . La prima delle due aermazioni è ovvia in quanto G è continua
e quindi
γ = limn→∞
γn = limn→∞
G(γn−1) = G(
limn→∞
γn−1
)= G(γ).
Per la seconda asserzione ricordiamo che G è non decrescente in [0,1] e quindi, ∀0 ≤s1 < s2 ≤ 1, G(s1) ≤ G(s2). Poiché Z0 = 1, si ha γ0 = 0. Sia ora s∗ ≥ 0 una soluzione
dell'equazione s = G(s). Allora vale la serie di implicazioni
0≤ s∗ ⇒ γ0 ≤ s∗⇒ G(γ0)≤ G(s∗)
γ1 ≤ s∗ ⇒ G(γ1)≤ G(s∗)⇒ γ2 ≤ s∗
...
⇒ γn ≤ s∗.
In pratica la successione γn,n≥ 0 è limitata da s∗ e
γ = limγn ≤ s∗.
Esempio 5.1 Legge Binomiale Sia Y una v.a. Bin(3,1/4) e Zn, n ≥ 0 un processo
branching con dimensione aleatoria della prole Y . Vogliamo calcolare la probabilità di
estinzione del processo.
188
Occorre allora determinare la più piccola soluzione di s = G(s) Sappiamo che la fun-
zione generatrice delle probabilità di Y ∼Bin(n, p) è pari a G(s) = (ps+ 1− p)n. Nel
nostro caso
G(s) = (s4+
34)3 =
164
(s+3)3
da cui
(s+3)3 = 64s⇒ s3 +9s2−37s+27 = 0
Poiché s = 1 è certamente una soluzione dell'equazione, applicando le regole per la
divisione dei polinomi,
(s3 +9s2−37s+27)/(s−1) = (s2 +10s+27)
e (s2+10s+27) non ha radici reali, ne segue che l'unica soluzione dell'equazione è s = 1
e 1 ecc dunque la probabilità di estinzione del processo. ♦
Per quanto detto nora, è evidente che debba esistere un legame tra la media µ della
variabile Y e la probabilità di estinzione γ. Tale legame in eetti esiste ed è illustrato dal
seguente teorema.
Teorema 5.5. Se µ = IE(Y ) > 1, la probabilità di estinzione è l'unica soluzione dell'e-
quazione γ = G(γ) ed è strettamente compresa tra 0 e 1.
Se µ = IE(Y )≤ 1, allora γ = 1. Più in dettaglio,µ > 1 ⇒ 0 < γ < 1
µ < 1 ⇒ γ = 1
µ = 1 ⇒ γ = 1 tranne nel caso P(Y = 1) = 1
(5.12)
In altri termini, se la media di riproduzione è inferiore a un individuo per membro,
allora la popolazione è destinata, prima o poi ad estinguersi. Lo stesso accade se la media
di riproduzione è esattamente pari a un individuo per membro, a meno che ogni individuo
non generi un glio con probabilità 1. Se invece la media di riproduzione è maggiore di un
individuo per membro, allora la popolazione ha una probabilità positiva di sopravvivere.
189
Dimostrazione 5.5. Daremo una dimostrazione essenzialmente graca. Prima di tutto,
riassumiamo le informazioni relative ad una generica funzione generatrice delle probabilità
GY (s).
GY (s) è crescente e convessa in [0,1];
GY (0) = P(Y = 0)> 0 (questa è una nostra assunzione per evitare che il problema
risulti banale);
G(1) = 1;
G′(1) = IE(Y ) = µ ;
γ è la più piccola soluzione positiva dell'equazione G(s) = s.
Da queste informazioni possiamo dedurre le seguenti conclusioni:
Caso µ > 1 : la curva G(γ) parte dal punto (0,GY (0)) e arriva al punto (1,1)
seguendo un percorso crescente e convesso. Poiché µ = G′Y (1), la tangente alla
curva G(s) in s = 1 ha coeciente angolare maggiore di 1 e dunque, per forza di
cose, la curva deve intersecare la bisettrice del primo quadrante in uno e un sol
punto 0 < s∗ < 1 che rappresenta la nostra soluzione γ . In questo caso, dunque,
l'estinzione non è certa ma avviene con una specica probabilità positiva.
6
-
r
G(s)
s
G(0)
P(Z = 0)
γ = s
γ = G(γ)
(1, 1)
190
Caso µ < 1 : la curva GY (s) parte ancora da 0,GY (0) e arriva al punto (1,1) in
modo crescente e convesso. Ora, però , la tangente alla curva in s = 1 è minore di
1 e dunque, per forza di cose, la curva G(s) giace, nell'intervallo (0,1), tutta al di
sopra della bisettrice. Ne consegue che l'unica soluzione dell'equazione s = G(S) è
pari a s = 1.
6
-
r
G(s)
s
G(0) G(s) = s
G(s)
(1, 1)
La stessa situazione si verica quando µ = 1, a meno che non sia P(Y = 1) = 1.
Infatti, in questo caso specico, si ha la certezza che ogni individuo ne produrrà un
altro, rendendo impossibile l'estinzione della popolazione.
Esempio 5.2 [Ancora sulla binomiale] Sia Zn, n≥ 0 un processo branching con Y ∼Bin(2,0.25)
Determinare la probabilità di estinzione o assorbimento a zero del processo.
Sia Y ∼ Bin(2,0.25) La media di Y è pari a µ = 0.5 Dunque, in base al teorema
precedente, la probabilità di assorbimento per la catena è pari a 1 . ♦
Esempio 5.3 [Legge geometrica] Sia Zn, n≥ 0 un processo branching con Y ∼Geo(0.25).
In questo caso la v.a. geometrica deve per forza di cose essere denita a partire da 0 e
la sua media in tal caso è pari a
µ =1/4
1−1/4= 3
191
Ne segue che γ è pari ad un numero strettamente minore di 1. Per ottenere il valore
esatto di γ occorre allora risolvere l'equazione s = G(s). ♦
5.2 Esempi notevoli
5.2.1 PageRank: un'applicazione per il web
PAGERANK è un algoritmo utilizzato nel più famoso motore di ricerca, GOOGLE, per
assegnare un livello di importanza alle varie pagine web legate ad una chiave di ricerca.
Il modo in cui è stato concepito fa un uso essenziale del concetto di distribuzione di
equilibrio di una catena di Markov. Vediamo in dettaglio.
Supponiamo che la chiave di ricerca - ad esempio la parola Markov - abbia individuato
un certo numero di pagine web diciamo N. Occorre adesso determinare un ordine di
importanza per tali link. Immaginiamo allora che l'algoritmo consideri le N pagine e
tutte quelle a loro connesse. Si ottiene così un grafo, formato da un insieme di vertici V
(le pagine web) e un insieme di archi orientati che rappresentano i possibili link, ovvero
se la pagina i connette alla pagina j vi sarà un arco che parte da i e va in j. Per ogni
pagina web i sia L(i) l'insieme dei link disponibili in quella pagina. Naturalmente L(i) può
anche essere vuoto; in tal caso si dice che la pagina i è dangling. Sia |A| la cardinalità delgenerico insieme A. Deniamo allora le probabilità di transizione da una pagina all'altra
come
pi j =
1/|L(i)| se j ∈ L(i)
1/|V | se L(i) = /0
0 altrimenti
Sia Xn,n ≥ 0 la catena di Markov che individua la pagina in cui ci si trova al tempo
n. Se Xn = i, la prossima posizione Xn+1 verrà determinata in modo casuale fra tutte
quelle collegate alla pagina i, a meno che i non sia dangling: in tal caso si riparte a caso
da una qualunque pagina. Purtroppo non è facile stabilire se tale matrice di transizione,
così costruita, sia irriducibile, né tantomeno se sia aperiodica. Modichiamo allora le
192
probabilità di transizione in modo che sia sempre possibile saltare ad un'altra pagina, non
collegata a quella in cui ci troviamo. Scegliamo allora un valore α ∈ (0,1) - in genere si
prende α ≈ 0.2 - e sia
pi j = (1−α)pi j +α1|V |
. (5.13)
In tal modo, c'è la possibilità che un navigatore annoiato abbandoni il suo percorso e
ricominci da una nuova pagina web, non collegata alla precedente.
A questo punto si può dimostrare che la nuova matrice di transizione [la quale, pur
essendo in genere di dimensione enorme è pur sempre nita!] è anche irriducibile e
aperiodica in quanto non contiene più zeri. È possibile allora determinare la distribuzione
di equilibrio risolvendo il sistema π = πP.
Esiste un modo alternativo per interpretare questo approccio. Supponiamo di voler
misurare l'importanza di una pagina, la j-esima, mediante un numero positivo π( j).
Assumiamo inoltre che tali importanze sommino, su tutte le pagine considerate, ad 1.
Sia Oi è il numero di pagine che possiedono un link a j. È ragionevole assumere che
una pagina è tanto più importante quante più pagine importanti puntano ad essa. In tal
senso π( j) dovrebbe risultare pari alla somma ponderata delle altre π(i), relativamente
alle i che contengono un link alla pagina j. Se il peso della pagina i-esima è preso pari a
1/Oi, ne risulta la relazione
π( j) = ∑i∈I j
π(i)1Oi
equivalente al consueto sistema per la determinazione della distribuzione di equilibrio.
Il vettore delle soluzioni π∗ rappresenta dunque le frequenze con cui queste pagine
vengono visitate dalla catena e possono essere dunque considerate come un punteggio
per le pagine stesse. In altre parole la pagina i ottine un ranking superiore a quella j
se π∗(i) > π∗( j). Sebbene l'idea sia molto semplice, la sua implementazione non lo è
aatto, per via delle dimensioni del problema, e sosticate tecniche di analisi matriciale e
numerica sono considerate nell'algoritmo. In parole molto semplici, l'algoritmo parte da
una soluzione iniziale π(0) per poi evolvere secondo la regola
π(k+1) = π
(k)P.
193
Alcuni commenti nali
In una società oramai dominata da Internet, il rank di una pagina può essere molto
importante per il protto di una impresa. Ci sono perciò compagnie che vendono
pagine con alto rank. Insomma la posizione di rango nelle classiche GOOGLE si
può comprare.
Lo stesso algoritmo è stato usato anche per formare delle graduatorie tra ricerca-
tori che competono per un posto di lavoro o tra dipartimenti che competono per
l'assegnazione di fondi da parte delle autorità statali.
L'idea è semplice e geniale ma anche facilmente soggetta ad operazioni di corru-
zione, in una forma molto dicile da individuare.
5.2.2 Il modello di Wright e Fisher in biologia
5.3 Reversibilità di una Catena di Markov stazio-
naria
Consideriamo una catena di Markov Xn,−∞ < n < +∞ stazionaria ed ergodica, con
probabilità di transizione P e probabilità di equilibrio π. Supponiamo che a partire da un
certo istante, di tracciare la sequenza degli stati della catena andando indietro nel tempo.
Ossia, partendo dal tempo n, consideriamo la nuova successione Yn,−∞ < n < +∞con Yn = X−n, per ogni n 6= 0 e Y0 = X0. Si può dimostrare che questa nuova successione
di stati è a sua volta una catena di Markov con probabilità di transizione date da, per
194
ogni coppia (i, j) ∈ S,
Qi j = P(Ym = j|Ym−1 = i) =P(Ym = j∩Ym−1 = i)
P(Ym−1 = i)
=P(Ym = j)P(Ym−1 = i|Ym = j)
P(Ym−1 = i)
=P(X−m = j)P(X−m+1 = i|X−m = j)
P(X−m+1 = i)
=π( j)Pji
π(i).
Per dimostrare che questo processo è ancora una catena di Markov, occorre vericare che
risulti
P(Ym = j|Ym−1 = i∩Ym−2∩Ym−3∩ ...) = P(Ym = j|Ym−1 = i).
Poiché la successione X0, X1, X2, . . . è una catena di Markov, ne consegue che la distri-
buzione condizionata degli stati futuri Xm, Xm+1, Xm+2, . . ., condizionatamente al valore
di Xm−1, non dipende dagli stati passati (Xm−1,Xm−2, · · ·) Tuttavia, la relazione di indi-
pendenza è una relazione simmetrica (A ⊥⊥ B ⇐⇒ B⊥⊥ A); quindi per Xm−1 ssato Xm
non dipende da Xm+1, Xm+2, . . .. Questo è suciente a garantire che la catena rovesciata
nel tempo è ancora di Markov. Se oltre a rispettare la proprietà di Markov, il processo
rispetta anche la relazione
Pi j = Qi j ∀i, j ∈ S,
la catena Xn si dice reversibile e il processo rovesciato Xm si dice catena di Markov
rovesciata. Riepiloghiamo queste aermazioni nella seguente denizione.
Denizione 5.1. Sia Xn una catena di Markov dotata di distribuzione di equilibrio e sia
Yn il processo denito da Yn = X−n per ogni n. Siano inoltre P e Q le rispettive matrici
di transizione. Se risulta
Qi j = Pi j (5.14)
∀(i, j) ∈ S, allora la catena Xn,−∞ < n <+∞ si dice reversibile e Yn si dice catena
di Markov rovesciata.
195
La condizione (5.14) può essere banalmente riformulata nel modo seguente
π(i)Pi j = π( j)Pji ∀i, j ∈ S. (5.15)
Questa ultima espressione è chiamata Detailed Balance Equation (DBE) e stabilisce, più
o meno che il tasso col quale il processo entra in un certo stato i proveniente da j deve
essere uguale al tasso con cui il processo entra in j proveniente da i. Più precisamente,
per un processo in equilibrio, il numero di volte in cui il processo entra in un certo stato
in un intervallo di tempo pressato deve essere uguale al numero di volte in cui ne esce.
La verica delle equazioni DBE presuppone la conoscenza della distribuzione di equilibrio.
In realtà , nella pratica si determina spesso la distribuzione di equilibrio proprio risolvendo
le equazioni DBE, come enunciato nel seguente teorema.
Teorema 5.6. Se per una data catena di Markov irriducibile con matrice di transizione
P esiste un'unica soluzione π per il sistema di equazioni
π(i)Pi j = π( j)Pji, i, j ∈ S,
allora la catena è ricorrente positiva, reversibile e la soluzione π è l'unica distribuzione di
equilibrio del processo.
Dimostrazione 5.6. Per dimostrare che la (5.15) soddisfa la relazione π = πP è
suciente sommare rispetto ad i ∈ S le due quantità
∑i
π(i)Pi j = ∑i
π( j)Pji
= π( j)∑i
Pji = π( j) ·1 =
= π( j),
che in forma matriciale fornisce ancora π = πP .
L'importanza del teorema precedente risiede nel fatto che la (5.15) sono in genere
più semplici da vericare rispetto al sistema π = πP . questo accade soprattutto in quei
196
casi, come ad esempio la passeggiata aleatoria, in cui ogni stato ecc accessibile solo da
alcuni stati limitro.
Concludiamo questa sezione con una caratterizzazione del concetto di reversibilità di
una catena stazionaria, dovuto a Kolmogorov.
Teorema 5.7. Criterio di reversibilità di Kolmogorov. Una catena di Markov Xn,n≥ 0è reversibile se, per ogni scelta di stati ( j1, j2, . . . , jk)∈ S, e per ogni k positivo, la matrice
di transizione della catena soddisfa la relazione
p j1, j2 p j2, j3 · · · p jk−1, jk p jk, j1 = p jk, jk−1 p jk−1, jk−2 · · · p j2, j1 p j1, jk .
Traducendo il criterio in italiano, esso stabilisce che, dato un qualunque stato di
partenza j1 ∈ S della catena, ogni cammino che ritorna a j1 in un numero qualunque di
passi, deve avere la stessa probabilità di vericarsi, in un senso di percorrenza o nell'altro.
5.4 L'Algoritmo di Metropolis
The algorithm was named after Nicholas Metropolis, who was an author along with
Arianna W. Rosenbluth, Marshall N. Rosenbluth, Augusta H. Teller, and Edward Teller
of the 1953 paper Equation of State Calculations by Fast Computing Machines which
rst proposed the algorithm for the specic case of the Boltzmann distribution;[1] and
W. Keith Hastings,[2] who extended it to the more general case in 1970.[3] There is
controversy over the credit for discovery of the algorithm. Edward Teller states in his
memoirs that the ve authors of the 1953 paper worked together for days (and nights).
[4] M. Rosenbluth, in an oral history recorded shortly before his death [5] credits E. Teller
with posing the original problem, himself with solving it, and A.W. Rosenbluth (his wife)
with programming the computer. According to M. Rosenbluth, neither Metropolis nor
A.H. Teller participated in any way. Rosenbluth's account of events is supported by other
contemporary recollections.[6]
The Metropolis-Hastings algorithm can draw samples from any probability distribu-
tion, requiring only that a function proportional to the density be calculable. In Bayesian
applications, the normalization factor is often extremely dicult to compute, so the abili-
ty to generate a sample without knowing this constant of proportionality is an important
197
feature of this and other commonly-used sampling algorithms. The general idea of the
algorithm is to generate a series of samples that are linked in a Markov chain (where
each sample is correlated only with the directly preceding sample). At suciently long
times, the distribution of the generated samples matches the distribution. The algorithm
essentially works as follows (this is actually a description of the Metropolis algorithm, a
special case of Metropolis - Hastings)
In maniera analoga, l'algoritmo di Metropolis è ancora oggi utilizzato per generare una
catena di Markov reversibile.
Siano:
π ( j) =b( j)
Bj = 1,2, ...
le probabilità stazionarie, in cui b( j) deniscono numeri positivi con somma nita data
da: B = ∑nj=1 b( j).
Sia Q la matrice di transizione di una catena di Markov irriducibile con elementi q(i, j)
e sia X0,X1, ... la catena di Markov oggetto di studio denita nel modo seguente: se
Xn = i, si genera una variabile casuale Y tale che PY = j= q(i, j).
Di conseguenza, se Y = j, si pone:
Xn+1 =
j con probabilità a(i, j)
i con probabilità 1−a(i, j)
Sotto tali condizioni, è possibile osservare che la sequenza di stati costituisce una
catena di Markov con probabilità di transizione P(i, j) date da:
P(i, j) = q(i, j)a(i, j) se i 6= j
P(i, i) = q(i, i)+∑i 6= j
q(i, j)(1−a(i, j)) ∀i
Tale catena risulta reversibile con probabilità stazionarie π ( j) se:
π (i)P(i, j) = π ( j)P( j, i) se i 6= j
198
o, equivalentemente:
π (i)q(i, j)a(i, j) = π ( j)q( j, i)a( j, i)
Assumendo π ( j) = b( j)B e ponendo:
a(i, j) = min(
π ( j)q( j, i)π (i)q(i, j)
,1)
è facile vericare che la penultima equazione è soddisfatta.
Inoltre, ponendo:
a(i, j) =π ( j)q( j, i)π (i)q(i, j)
si ha a( j, i) = 1 e l'equazione risulta nuovamente soddisfatta.
In modo analogo, se a(i, j) = 1 si ottiene:
a( j, i) =π (i)q(i, j)π ( j)q( j, i)
e ancora una volta la predente uguaglianza è soddisfatta.
Da ciò consegue la reversibilità della catena di Markov: tale catena sarà caratterizzata
dalle probabilità stazionarie, π ( j).
Inoltre, essendo π ( j) = b( j)B dall'equazione:
a(i, j) = min(
π ( j)q( j, i)π (i)q(i, j)
,1)
si evince che il valore di B non è necessario per denire la catena: i valori b( j) risultano,
dunque, i soli valori sucienti per descrivere e denire una catena di Markov.
One problem with applying Monte Carlo integration is in obtaining samples from some
complex probability distribution p(x). Attempts to solve this prob- lem are the roots of
MCMC methods. In particular, they trace to attempts by mathematical physicists to
integrate very complex functions by random sam- pling (Metropolis and Ulam 1949,
199
Metropolis et al. 1953, Hastings 1970), and the resulting Metropolis-Hastings algorithm.
A detailed review of this method is given by Chib and Greenberg (1995). Suppose our
goal is to draw samples from some distribution p(θ) where p(θ) = f (θ)/K, where the
normalizing constant K may not be known, and very dicult to compute. The Metropolis
algorithm ((Metropolis and Ulam 1949, Metropolis et al. 1953) generates a sequence of
draws from this distribution is as follows:
1. Start with any initial value θ0 satisfying f (θ0)> 0.
2. Using current θ value, sample a candidate point θ ∗ from some jumping distribution
q(θ1;θ2), which is the probability of returning a value of θ2 given a previous value
of θ1. This distribution is also referred to as the proposal or candidate-generating
distribution. The only restriction on the jump density in the Metropolis algorithm
is that it is symmetric, i.e.,
q(θ1;θ2) = q(θ2;θ1)
3. Given the candidate point θ ∗, calculate the ratio of the density at the candidate
θ ∗ and current state (θt−1) points,
α = min(
1,p(θ ∗
p(θt−1)
)= min
(1,
f (θ ∗
f (θt−1)
)Notice that because we are considering the ratio of p(x) under two dierent values,
the normalizing constant K cancels out.
4. If the jump increases the density (α > 1), accept the candidate point (set θt =
θ ∗) and return to step 2. If the jump decreases the density (α < 1), then with
probability α accept the candidate point, else reject it and return to step 2.
We can summarize the Metropolis sampling as rst computing α and then accepting
a candidate point with probability α (the probability of a move). This generates a Markov
chain (θ0,θ1, . . . ,θk, . . .), as the transition probabilities from θt to θt+1 depends only on
200
θt and not (θ0, . . . ,θt−1). Following a sucient burn-in period (of, say, M steps), the
chain approaches its stationary distribution and (as we will demonstrate shortly), samples
from the vector (θM+1, . . . ,θM+n) are samples from p(x).
Hastings (1970) generalized the Metropolis algorithm by using an arbitrary transition
probability function q(θ1;θ2) = Pr(θ1→ θ2), and setting the acceptance probability for
a candidate point as
α = min(
1,f (θ ∗)q(θ ∗;θt−1)
f (θt−1)q(θt−1;θ ∗
)This is the Metropolis-Hastings algorithm. Assuming that the proposal distribution
is symmetric, i.e., q(x,y) = q(y,x), recovers the original Metropolis algorithm
5.5 Algoritmo Metropolis2
L'algoritmo Metropolis fornisce un metodo per calcolare una sequenza di campioni casuali
da una distribuzione di probabilità dalla quale è dicile eettuare un campionamento
diretto. Questa sequenza può essere usata per approssimare la distribuzione (per esempio
generarne l'istogramma) o per calcolarne un integrale (per esempio il valore atteso).
L'algoritmo prende il nome di Nicholas Metropolis, che nel 1953 lo presentò , insieme
ad altri autori, per approssimare la distribuzione di Boltzmann e simulare l'evoluzione di
un sistema sico verso l'equilibrio termico.
L'algoritmo Metropolis può estrarre campioni da qualunque distribuzione di probabilità
P(x) e richiede solo che sia possibile calcolare una funzione proporzionale alla sua funzione
di densità . L'idea dell'algoritmo è quella di usare una catena di Markov che, dopo un
tempo sucientemente lungo, produca la distribuzione P(x). Per produrre questo risultato
la catena deve soddisfare due requisiti: deve
essere ergodica e deve soddisfare un'equazione di bilancio dettagliato. La prima
condizione assicura che esista al massimo una distribuzione asintotica, mentre la seconda
assicura che esista almeno una distribuzione asintotica per la catena.
Come sappiamo, una catena di Markov genera un nuovo stato xt+1 facendolo dipen-
dere solo dallo stato corrente xt . L'algoritmo usa una distribuzione proposta Q(x′, xt)
201
che dipende dallo stato corrente xt per generare un nuovo campione x′. La proposta è
accettata se il nuovo valore Xt+1 = x′ soddisfa
α <P(x′)Q(xt , x′)P(xt)Q(x′, xt)
(5.16)
con α ottenuto dalla distribuzione uniforme U(0, 1). Se la proposta non è accettata, si
mantiene il valore corrente xt+1 = xt .
Più in dettaglio, i passi dell'algoritmo sono i seguenti:
Passo 0: si pone X0 = x0
Passo t: si propone il valore Y ∼ Q(y, xt−1)
Passo t +1: si calcola α = min(
1, π(y)Q(y, xt+1)π(xt+1)Q(y, xt−1)
) Passo t +2: si pone Xt =
Y con probabilità α
Xt−1 con probabilità 1−α
5.6 Modello markoviano nelle assicurazioni
5.7 Applicazioni in nanza
5.8 Esercizi
5.8.1. Sia Zn,n ≥ 0 un processo branching standard, con Z0 = 1 e con variabile
aleatoria di riproduzione Y avente legge Geo(p = 2/5).
Calcolare la funzione generatrice delle probabilità di Y , G(s).
Usa G(s) per ottenere la media di una v.a. Geometrica(2/5 =.
Calcolare la funzione generatrice delle probabilità di Z2, G2(s).
Calcolare P(Z1 = 0), P(Z2 = 0), P(Z3 = 0) e P(Z4 = 0)
Calcolare la probabilità di estinzione eventuale γ .
202
Calcolare la probabilità di estinzione alla generazione 4.
Supponiamo che Y ∼Poi(2/5). In questo caso quanto vale la probabilità di even-
tuale estinzione?
5.8.2. Sia Zn,n≥ 0 un processo branching standard con variabile aleatoria di riprodu-
zione Y avente legge Geometrica di parametro p = 0.25.
Calcolare la funzione generatrice delle probabilità di Y , G(s).
Calcolare la funzione generatrice delle probabilità di Z2, G2(s)
Calcolare la probabilità di estinzione eventuale γ .
Calcolare P(Z3 = 0) e P(Z4 = 0)
5.8.3. Sia Zn,n ≥ 0 un processo branching standard, con Z0 = 1 e con variabile
aleatoria di riproduzione Y avente legge Binomiale (2,0.6) .
Calcolare la funzione generatrice delle probabilità di Y , G(s).
Calcolare la funzione generatrice delle probabilità di Z2, G2(s)
Calcolare la probabilità di estinzione eventuale γ .
Calcolare la probabilità di estinzione alla generazione 4.
Supponiamo che alla generazione 8 ci siano 10 individui. Qual è la probabilità di
estinzione eventuale condizionata a tale informazione?
5.8.4. Sia Z0,Z1,Z2, . . . un processo branching. dove Zn denota il numero di individui
nati nella generazione n e sia Z0 = 1. Sia poi Y la v.a. che denisce la il numero di gli
di ogni individuo e assumiamo Y ∼ Geo(1/3)
1. Sia G(s) = IE(sY) la funzione generatrice delle probabilità di Y . Usando il foglio di
aiuto, calcola G(s).
203
2. Sia G2(s) la funzione generatrice delle probabilità di Z2. Calcola G2(s) cercando di
non semplicare l'espressione.
3. Calcola la probabilità di estinzione eventuale γ
4. Calcola Pr(Z4 = 0)
5. Supponi che Z6 = 8 Calcola la probabilità di estinzione condizionata a questa
informazione
6. Supponi ancora che Z6 = 8. Calcola la probabilità che esattamente 5 degli 8
individui vivi al tempo 6 avranno ancora discendenti al tempo 10
5.8.5. Sia Z0,Z1,Z2, . . . un processo branching. dove Zn denota il numero di individui
nati nella generazione n e sia Z0 = 1. Sia poi Y la v.a. che denisce la il numero di gli
di ogni individuo e assumiamo Y ∼ Bin(2,3/4)
1. Sia G(s) = IE(sY) la funzione generatrice delle probabilità di Y . Usando il foglio di
aiuto, calcola G(s).
2. Sia G2(s) la funzione generatrice delle probabilità di Z2. Calcola G2(s) cercando di
non semplicare l'espressione.
3. Calcola la probabilità di estinzione eventuale γ
4. Dimostra che Pr(Z4 = 0) = 0.106
5. Supponi che Z6 = 8 Calcola la probabilità di estinzione condizionata a questa
informazione
6. Supponi ancora che Z6 = 8. Calcola la probabilità che esattamente 5 degli 8
individui vivi al tempo 6 avranno ancora discendenti al tempo 10
204
CAPITOLO 6
La legge esponenziale e il processo di Poisson
6.1 La Distribuzione Esponenziale
In un certo senso, abbiamo già un'ottima conoscenza delle catene di Markov nel tempo
continuo basata sulla nostra teoria sulle catene di Markov nel tempo discreto. Ad esempio,
un modo per descrivere una catena di Markov nel tempo continuo è di dire che
essa è una catena di Markov nel tempo discreto, tranne per il fatto che qui viene
esplicitamente modellato il tempo che intercorre tra una transizione e l'altra attraverso
variabili aleatorie continue e positive. Dunque il processo viene osservato ad ogni istante
t di un intervallo di numeri reali positivi.
La più importante distribuzione nel continuo per costruire e comprendere le catene
di Markov nel continuo è senza dubbio la distribuzione esponenziale, per ragioni che ora
illustreremo.
Denizione 6.1. Una v.a. continua X ha distribuzione esponenziale Exp(λ ) se la sua
funzione di densità è
fX(x|λ ) = λ exp(−λx) , x > 0,
205
mentre vale 0 per x ≤ 0.Il parametro λ deve essere positivo ed è chiamato tasso della
distribuzione.
Nello studio dei processi stocastici in tempo continuo, la distribuzione esponenziale è di
solito utilizzata per modellare il tempo di attesa di un determinato evento
La funzione di ripartizione di una distribuzione Exp(λ ) si calcola facilmente. Infatti
FX(t) = 0 per ogni t ≤ 0; per t positivo invece,
FX(t) =∫ t
0λ exp(−λy)dy
= −λ1λ
exp(−λy)∥∥t
0 = 1− exp(−λ t)
6.1.1 I primi momenti di una v.a. Exp(λ)
La media di una v.a. Exp(λ ) si calcola facilmente mediante integrazione per parti:
IE(X) =∫
∞
0xλ exp(−λx)dx
= λ
[−xexp(−λx)
λ|∞0 +
1λ
∫∞
0exp(−λx)dx
]= λ
[0+
1λ
−exp(−λx)λ
|∞0]
= λ1
λ 2 =1λ.
Al crescere del parametro λ , dunque, il livello medio di attesa dell'evento dimiinuisce;
per questo motivo λ viene pensato come un tasso del processo.
Come esercizio si può vericare che, applicando l'integrazione per parti due volte, il
momento secondo della distribuzione esponenziale vale
IE(X2)= ∫ ∞
0x2
λ exp(−λx) = · · ·= 2λ 2 .
Dai primi due momenti si può ottenere poi la varianza di X
Var(X) = IE(X2)− (IE(X))2 =
2λ 2 −
1λ 2 =
1λ 2 .
206
6.1.2 Assenza di memoria
Si dice che una v.a. X non ha memoria se, per ogni valore di (s, t) positivi,
Pr(X > s+ t | X > t) = Pr(X > s) .
Se si pensa ad X come il tempo di vita di uno strumento, l'equazione precedente aerma
che la probabilità che lo strumento viva almeno un tempo pari a s+ t dato che ha già
vissuto un tempo t equivale alla probabilità che ha un pezzo nuovo di vivere almeno un
tempo s. In pratica, se lo strumento non ha memoria, non invecchia. L'equazione
precedente si può riscrivere come
Pr(X > s+ t ∩X > t)Pr(X > t)
= Pr(X > s) ,
ovvero
Pr(X > s+ t) = Pr(X > s)Pr(X > t) , ∀s, t > 0. (6.1)
Se deniamo come G(t) = Pr(X > t) = 1−F(t) la funzione di sopravvivenza associata
alla v.a. X , l'equazione (6.1) si scrive
G(s+ t) = G(s)G(t)
e si può dimostrare che l'unica soluzione della precedente equazione funzionale è proprio
G(t) = exp(−λ t) , λ > 0.
Dunque l'unica v.a. che gode della proprietà di assenza di memoria è quella che la
funzione di sopravvivenza pari a G(t) = exp(−λ t), per un qualche λ > 0 e per ogni t
positivo. Dunque l'unica distribuzione che soddisfa la proprietà di assenza di memoria è
la distribuzione esponenziale.
Esempio 6.1 [] L'ammontare di tempo che un cliente trascorre in banca ha distribuzione
esponenziale, con media pari a cinque minuti. Qual è la probabilità che il cliente spenda
più di 15 minuti in banca? Qual è la probabilità che spenda in tutto più di 15 minuti in
207
banca sapendo che ne ha già trascorsi 10?
Soluzione: Sia X ∼Exp(λ ). Nel nostro caso λ = 0.2. Allora
Pr(X > 15) = exp(−λ15) = exp(−3) = 0.0498
Per rispondere alla seconda domanda dobbiamo ricorrere all'assenza di memoria della
legge esponenziale.
Pr(X > 15 | X > 10) = Pr(X > 5) = exp(−λ5) = exp(−1) = 0.368.
♦
Esempio 6.2 [] L'ammontare in euro del danno associato ad un singolo incidente d'auto è
giudicato, dalla compagnia assicuratrice, avere una distribuzione esponenziale con media
pari a 1000 euro. Di questi, tuttavia l'assicurazione paga solo la quota che eccede la
franchigia di 400 euro. Determinare la media e la varianza della v.a. Y : ammontare in
euro che la compagnia paga per ogni incidente.
Soluzione: Possiamo denire la nostra Y come
Y = (X−400)+ =
X−400 X > 400
0 X ≤ 400
Per semplicità conviene introdurre una variabile dicotomica I denita come
I =
1 X > 400
0 X ≤ 400.
In pratica I è una v.a. di Bernoulli con probabilità di successo pari a
Pr(I = 1) = Pr(X > 400) = exp(−0.4) = 0.67.
Per l'assenza di memoria della v.a. esponenziale possiamo dire che, se il danno è superiore
a 400 euro, esso seguirà ancora una legge esponenziale con lo stesso parametro (λ =
208
10−3). Dunque
IE(Y | I = 1) = 103; Var(Y | I = 1) = 106
IE(Y | I = 0) = 0; Var(Y | I = 0) = 0
oppure
IE(Y | I) = 103I; Var(Y | I) = 106I
Inne, per i risultati sul calcolo della media e della varianza iterate,
IE(Y ) = IE(IE(Y | I)) = 103×0.67 = 670 euro.
Inoltre
Var(Y ) = IE(Var(Y | I))+Var(IE(Y | I)) = IE(
106I)+Var
(103I
)= 106×0.67+106×0.67(1−0.67) = 891100
♦
6.1.3 Minimi di v.a. esponenziali.
Elenchiamo qui alcuni risultati relativi alla legge di funzioni di v.a. esponenziali, che
saranno utili nel seguito.
Teorema 6.1. Siano X1, . . . ,Xn delle v.a. indipendenti, e assumiamo che, per ogni i, Xi
segua una distribuzione esponenziale con parametro λi. Allora la distribuzione della v.a.
Y = min(X1, . . . ,Xn)
è ancora di tipo esponenziale con parametro (λ1 + · · ·+λn). Inoltre, la probabilità che il
minimo tra le n v.a. sia X j è pari a λ j/(λ1 + · · ·+λn).
Dimostrazione 6.1. Calcoliamo la funzione di sopravvivenza di Y ,
GY (t) = Pr(Y > t) .
209
Essa può esprimersi come
Pr(Y > t) = Pr(min(X1, . . . ,Xn)> t) = P(X1 > t, . . . ,Xn > t)
= P(X1 > t)×·· ·×P(Xn > t) = exp(−t[λ1 + . . .λn])
Dunque Y ha legge esponenziale con parametro λ1 + . . .λn.
Inoltre, la probabilità che sia proprio X j ad assumere il minimo valore, può ottenersi
attraverso il metodo del condizionamento: infatti
Pr(X j è il minimo
)= Pr
(X j < Xh, per h 6= j
)e l'ultima quantità scritta è pari a
∫∞
0Pr(X j < Xh, h 6= j|X j = t
)fX j(t)dt
=∫
∞
0Pr(X j < Xh, h 6= j|X j = t
)λ j exp(−λ jt)dt
=∫
∞
0Pr(t < Xh, h 6= j)λ j exp(−λ jt)dt
=∫
∞
0λ j exp(−λ jt)∏
h6= jPr(Xh > t)dt
=∫
∞
0λ j exp(−λ jt)∏
h6= jexp(−λht)dt
= λ j
∫∞
0exp−(λ1 + ...+λn)tdt
= λ j−exp−(λ1 + ...+λn)t
λ1 + · · ·+λn|∞0
=λ j
λ1 + · · ·+λn.
come si voleva dimostrare. ♦
Vediamo ora un esempio in cui le proprietà del minimo sono utilizzate insieme alla
proprietà di assenza di memoria,
Esempio 6.3 (Ross, p.332 numero 20). Consideriamo un sistema composto da due
sportelli: il cliente che arriva viene prima servito dallo sportello 1, e successivamente dal
210
server 2; al termine dei due servizi, esce dal sistemaI tempi di servizio nei due sportelli
sono v.a. esponenziali con parametro µi, i = 1, 2. Essi sono mutuamente indipendenti.
Supponiamo che un cliente, arrivando, trovi lo sportello 1 libero e ci siano invece due
clienti allo sportello 2, ovvero il cliente A, attualmente in servizio e il cliente B, che
aspetta in linea. Calcolare
(A) PA, ovvero la probabilità che A sia ancora allo sportello 2 quando il cliente termina
il primo servizio.
(B) PB, ovvero la probabilità che B si trovi ancora nel sistema quando il cliente termina
il primo servizio.
(C) IE(T ), dove T è la v.a. Tempo trascorso dal cliente nel sistema.
Soluzione:
[(A)]: Per calcolare PA occorre calcolare la probabilità che il servizio del nostro cliente
allo sportello 1 duri meno del tempo residuo del cliente A allo sportello 2. Per l'assenza
di memoria delle leggi esponenziali, il servizio residuo di A ha ancora legge esponenziale
di parametro (µ2), mentre il servizio del cliente allo sportello 1 ha legge esponenziale di
parametro (µ1). Quindi, PA è la probabilità che una v.a Exp(µ1) sia minore di una v.a.
Exp(µ2), e vale, per i risultati relativi ai minimi tra v.a. esponenziali,
PA =µ1
µ1 +µ2.
[(B)] Il cliente B sarà ancora nel sistema quando il nostro cliente arriva allo sportello 2
se il tempo di servizio del cliente è minore della somma del tempo di servizio residuo di
A e del tempo di servizio di B. Operiamo allora un condizionamento relativo a quale dei
due eventi si vericherà prima: che A concluda il suo servizio allo sportello 2 oppure che
211
il cliente concluda il suo servizio allo sportello 1.
Pr(B ancora nel sistema)
= Pr(B ancora nel sistema | A termina prima del cliente)µ2
µ1 +µ2
+ Pr(B ancora nel sistema | cliente termina 1 prima che A termini 2)
× µ1
µ1 +µ2.
Ora, Pr(B ancora nel sistema| il cliente termina 1 prima che A termini 2) è pari a 1 dal
momento che B è ancora in attesa che A termini il suo servizio quando il cliente arriva allo
sportello 2. D'altra parte, se A nisce il servizio prima del nostro cliente, per l'assenza
di memoria, il tempo di servizio residuo del cliente allo sportello 1 è di tipo Exp(µ1) e
dunque B sarà ancora nel sistema al termine del servizio del cliente allo sportello 1 con
probabilità µ1/(µ1 +µ2). Quindi,
Pr(B è ancora nel sistema) =µ1µ2
(µ1 +µ2)2 +µ1
µ1 +µ2.
[(C)] Suddividiamo il tempo T del cliente nel sistema in
T = T1 +R,
in cui T1 è il tempo che occorre anché il primo dei due eventi accada (che il cliente
termini il suo primo servizio oppure che A termini il servizio allo sportello 2), mentre R è
il tempo residuo. La v.a. T1 è dunque il minimo di due v.a. esponenziali indipendenti e
dunque T1 ∼ Exp(µ1 +µ2), cosicché
IE(T1) =1
µ1 +µ2.
Per calcolare IE(R), condizioniamo rispetto a qual è stato il primo dei due eventi sopra-
citati a vericarsi. Se il primo evento è la ne del servizio del cliente allo sportello 1
(e questo si verica con probabilità µ1/(µ1 + µ2)), il cliente passa allo sportello 2, e il
tempo residuo nel sistema per il cliente è pari alla somma de
il tempo residuo per A allo sportello 2;
212
l'intero tempo di servizio di B allo sportello 2;
l'intero tempo di servizio del cliente allo sportello 2.
Il tempo residuo per A allo sportello 2 è ancora di tipo Exp(µ2), mentre gli altri due tempi
sono due v.a. indipendenti e somiglianti Exp(µ2) per costruzione. Dunque il tempo medio
residuo nel sistema è pari a 3/µ2. Abbiamo allora stabilito che
IE(R| il primo evento è la ne del servizio del cliente allo sportello 1 ) =3µ2
,
e
IE(R) =µ1
µ1 +µ2
3µ2
+µ2
µ1 +µ2
× IE(R| il primo evento è la ne del servizio di A allo sportello 2) .
Ma se il primo evento a vericarsi è la ne del servizio di A possiamo di nuovo calcolare
il tempo residuo atteso del cliente nel sistema come la somma de:
il tempo atteso no al prossimo evento (o il cliente oppure B termina il proprio
servizio)
il tempo atteso residuo dopo l'evento sopradetto.
Il primo dei due tempi medi vale 1/(µ1+µ2). Per il calcolo del secondo occorre reiterare
la tecnica precedente condizionando ai due possibili eventi primi ad accadere. Si può
dimostrare con semplicità che
IE(R| il primo evento è la ne del servizio di A allo sportello 2)
=1
µ1 +µ2+
2µ2
µ1
µ1 +µ2+
(1µ1
+1µ2
)µ2
µ1 +µ2.
È così possibile calcolare IE(R) e, di conseguenza, IE(T ). ♦
Per esercizio considerate come risolvere il precedente problema assumendo una distribu-
zione diversa del tempo di servizio, ad esempio, una distribuzione uniforme [0, 1] o un
tempo di servizio deterministico come 1'unità di tempo.
213
6.2 La distribuzione Gamma
Iniziamo questa sezione con alcune nozioni relative alla funzione Gamma di Eulero Si
chiama funzione Gamma e si indica con Γ(ν) la funzione denita, per ν > 0, come
Γ(ν) =∫
∞
0xν−1e−xdx.
Si può facilmente dimostrare, mediante la formula di integrazione per parti (∫
udv =
uv−∫
vdu), che vale la relazione ricorrente
Γ(ν +1) = ν Γ(ν), t > 0. (6.2)
Infatti, ponendo u = xν−1 e dv = exp(−x)dx, si ha du = (ν−1)xν−2dx e v =−exp(−x)
in modo che
Γ(ν) =∫
∞
0xν−1 exp(−x)dx
= −xν−1 exp(−x)|∞0 +(ν−1)∫
∞
0xν−2 exp(−x)dx
= 0+(ν−1)Γ(ν−1)
Dunque Γ(ν) = (ν−1)Γ(ν−1). In particolare, se ν = n, un intero positivo maggiore o
uguale a 1, si ha, ricorsivamente,
Γ(n) = (n−1)Γ(n−1) = · · ·= (n−1)× (n−2)×·· ·×2×1×Γ(1) = (n−1)!Γ(1).
D'altronde
Γ(1) =∫
∞
0e−xdx = 1,
e quindi, se t è un numero intero,
Γ(t) = (t−1)!
Inoltre vale la formula Γ(1/2)=√
π, che si può dimostrare attraverso il cambio di variabile
x = y2/2 e ricordando l'espressione della densità della normale standardizzata. Per valori
elevati dell'argomento t, Γ(t) può essere approssimata mediante la formula di Stirling
Γ(t +1) =√
2πt tt e−t . (6.3)
214
La relazione che denisce la funzione Gamma può essere generalizzata nel modo seguente:
siano λ e ν due parametri positivi; allora l'integrale∫∞
0xν−1e−λxdx,
attraverso il cambio di variabile
λx = w =⇒ dx = dw/λ ,
vale ∫∞
0
1λ ν
wν−1e−wdw =Γ(ν)
λ ν. (6.4)
La relazione (6.4), oltre ad essere interessante per sé, suggerisce la denizione di una
nuova distribuzione di probabilità detta legge Gamma(ν ,λ ).
Si dice che X ∼ Gamma(ν ,λ ) quando S(x,ν ,λ ) = (0,∞) e, per ogni ν e λ positivi,
la funzione di densità vale
fX(x;ν ,λ ) =λ ν
Γ(ν)e−λxxν−1, x > 0. (6.5)
Il parametro λ prende il nome di parametro di scala mentre ν è detto parametro di forma.
La relazione (6.4) è utile per il calcolo dei momenti. Infatti,
IE(
Xk)=∫
∞
0
λ ν
Γ(ν)e−λxxν+k−1dx =
λ ν
Γ(ν)
Γ(ν + k)λ ν+k =
ν(ν +1) · (ν + k−1)λ k ,
da cui, ad esempio
IE(X) =ν
λ, Var(X) =
ν(ν +1)λ 2 − ν2
λ 2 =ν
λ 2 .
Casi particolari.
Se ν = 1, X ∼ Exp(λ ).
215
Se ν = ν/2 e λ = 1/2,
f (x;ν) =1
2ν/2Γ(ν/2)exp−1
2x
xν
2−1,
e la distribuzione prende il nome di Chi quadrato con ν gradi di libertà: in simboli
X ∼ χ2ν .
Una variabile X ∼ χ22 è equivalente ad una X ∼ Exp(1
2).
Se X ∼ Gamma(ν ,λ ), la trasformazione lineare Y = 2λX ha distribuzione χ22ν.
Attraverso la formula (6.4) è facile calcolare la funzione generatrice dei momenti MX(u)
di una distribuzione Gamma.
MX(u) = IE(euX)= ∫ ∞
0
λ ν
Γ(ν)exp(−x(λ −u))xν−1dx
=λ ν
Γ(ν)
Γ(ν)
(λ −u)ν
=
(λ
λ −u
)ν
Poiché la legge esponenziale è un caso particolare della legge Gamma (ν = 1) la legge
esponenziale ha funzione generatrice dei momenti
M(u) =λ
λ −u. (6.6)
La legge Gamma è importante nella teoria dei processi di Poisson soprattutto per la
seguente proprietà :
Teorema 6.2. Siano X1,X2, . . .Xn n v.a. indipendenti e somiglianti con distribuzione
esponenziale di parametro λ , e sia
Sn = X1 +X2 + · · ·+Xn.
Allora la v,a. Sn ha distribuzione di tipo Gamma(n,λ )
216
Dimostrazione 6.2. Calcoliamo la funzione generatrice dei momenti di Sn:
MSn(u) = IE(exp(uSn)) = IE(exp(u(X1 + . . .Xn)))
=n
∏i=1
IE(exp(uXi)) = per la somiglianza
= (λ/(λ −u))n ,
che è proprio la funzione generatrice dei momenti di una v.a. Gamma(n,λ ). ♦
Una dimostrazione della formula di Stirling
Diamo qui una dimostrazione piuttosto informale della formula di approssimazione di
Stirling, basata sul teorema del limite centrale e che vale solo per argomenti interi della
funzione Gamma, ovvero
Γ(n+1) = n!≈ e−nnn√
2πn, (6.7)
o meglio
limn→∞
n!nnen√
2πn= 1.
Sia dunque X0,X1,X2, . . . una successione di v.a. indipendenti e somiglianti con distri-
buzione di Poisson di parametro 1, ovvero
P(X j = k) = e−1 1k!, j = 1,2, . . . ;k = 0,1,2, . . . ;
Allora, per ogni n, Sn = X0 +X1 + · · ·+Xn ha ancora legge di Poissom con parametro n
e dunque
Pr(Sn = n) = e−n nn
n!(6.8)
Per grandi valori di n, tuttavia (Sn−n)/√
n converge in distribuzione ad una v.a. N(0,1).
e quindi
Pr(Sn = n) = Pr(n−1 < Sn ≤ n) = Pr(−1/√
n <Sn−n√
n≤ 0)
=∫ 0
−1/√
n
1√2π
e−x2/2dx≈ 1√2πn
;
217
Uguagliando l'ultima espressione con la (6.8) si ottiene allora
1√2πn≈ e−n nn
n!
da cui la tesi.
6.3 Il Processo di Poisson: un'introduzione
Il Processo di Poisson è il primo esempio di processo in tempo continuo che qui con-
sideriamo. La sua relativa semplicità, insieme all'utilità pratica lo rendono una buona
introduzione ai più generali processi in tempo continuo. Inizieremo fornendo diverse de-
nizioni equivalenti del Processo di Poisson; ognuna di queste, in modo diverso, fornisce
alcune informazioni sulla struttura e sulle proprietà del processo stesso. Prima ancora,
tuttavia, sarè necessario introdurre due nuovi concetti: quelli di incrementi stazionari e
di incrementi indipendenti.
Incrementi stazionari e indipendenti.
Per un processo stocastico in tempo continuo
X(t) : t ≥ 0 ,
si chiama incremento la dierenza tra valore del processo osservato in due tempi, detti s
e t. Per s< t, l'incremento dal tempo s al tempo t è dunque la v.a. dierenza X(t)−X(s).
Si dice che un processo ha incrementi stazionari se la distribuzione dell'incremento X(t)−X(s) dipende da s e t solo attraverso la dierenza t− s per tutti gli s < t. Dunque, se
t1− s1 = t2− s2, la distribuzione della v.a. incremento X(t1)−X(s1) è la stessa della
v.a. X(t2)−X(s2); è da notare come gli intervalli [s1, t1] e [s2, t2] non debbano essere
necessariamente disgiunti.
Si dice che un processo ha incrementi indipendenti se, comunque si scelgano quattro
tempi s1 < t1 < s2 < t2, le v.a. X(t2)−X(s2) e X(t1)−X(s1) sono indipendenti. In altri
termini, incrementi relativi a intervalli disgiunti, avranno un comportamento mutuamente
indipendente.
218
Non esistono molti esempi di processi stocastici che abbiano incrementi sia stazionari
che indipendenti. In genere, gli incrementi non soddisferanno nessuna delle due proprie-
tà. Un'eccezione che già conosciamo è la passeggiata aleatoria semplice; siano infatti
ξ1,ξ2,ξ3, . . . una successione di v.a. i.i.d. tali che
P(ξi = 1) = p e P(ξi =−1) = q = 1− p;
la passeggiata aleatoria semplice è allora denita come il processo
Xn : n≥ 0 ,
dove X0 = 0 e, per ogni n > 0,
Xn =n
∑i=1
ξi.
Attraverso questa rappresentazione, non è dicile vericare che il processoXn : n≥ 0ha incrementi stazionari e indipendenti.
6.3.1 Prima denizione del processo di Poisson
Denizione 6.2. (Prima denizione del processo di Poisson) Un processo stocastico in
tempo continuo N(t) : t ≥ 0 è un processo di Poisson con tasso λ > 0 se
1. N(0) = 0
2. N(t) ha incrementi stazionari e indipendenti.
3. Per ogni t > 0, la distribuzione della v.a. N(t) è di tipo Poisson con media pari a
λ t, ovvero
Pr(N(t) = k) =(λ t)k
k!exp(−λ t) , k = 0,1,2, . . .
La denizione precedente ci dice immediatamente qualcosa relativamente alla struttura
del processo di Poisson:
Per via della stazionarietà degli incrementi, le variabili aleatorie N(t)−N(s), per
s < t e N(t− s)−N(0) = N(t− s) hanno la stessa distribuzione, ovvero una legge
di Poisson con media λ (t− s).
219
Le traiettorie del processo sono non decrescenti con probabilità 1, in quanto N(t)−N(s)≥ 0 quasi certamente per ogni s < t.
Lo spazio degli stati del processo è chiaramente
S = 0,1,2, . . . .
Un modo intuitivo per interpretare il processo di Poisson è come un processo di conteggio,
in quanto, per ogni t > 0, N(t) rappresenta il numero di eventi che si sono vericati
nell'intervallo (0, t].
Va subito sottolineato come N(t)→ ∞ quando t → ∞; dunque N(t) non è un processo
stazionario, sebbene i suoi incrementi lo siano.
Un uso comune del processo di Poisson è quello di denire N(t) come il numero di
arrivi di clienti ad uno sportello nell'intervallo (0, t]. Secondo questa interpretazione, al
crescere di λ , i clienti tenderanno ad arrivare con maggiore frequenza, e questo spiega
perché il parametro λ si chiami tasso del processo.
Il processo di Poisson può essere introdotto, in modo alternativo, come limite di una
successione di processi di tipo bernoulliano, a parametro discreto. Per illustrare questo
risultato, dobbiamo prima di tutto denire il cosiddetto processo di Bernoulli, nel modo
che segue.
6.3.2 Il Processo di Bernoulli
Consideriamo la semiretta [0,∞) e suddividiamola in intervalli disgiunti, ognuno di lun-
ghezza pari ad h, dove h è molto piccolo. Otteniamo così gli intervalli
[0,h), [h,2h), [2h,3h), . . .
e così via. Supponiamo, poi, che ogni intervallo corrisponda a una prova indipendente di
Bernoulli, cosicché in ogni intervallo, indipendentemente dagli altri, si verica un evento
(un arrivo) con probabilità λh e non si verica nulla con probabilità 1−λh. Deniamo
il processo di Bernoulli
B(t) : t = 0,h,2h,3h, ... ,
220
dove la generica v.a. B(t) rappresenta il numero di eventi che si verica prima del tempo
t.
Per come è stato denito, il processo di Bernoulli B(t) ha incrementi stazionari e indipen-
denti. Inoltre B(0) = 0. Così il processo di Bernoulli sarà un'approssimazione nel tempo
discreto del processo di Poisson con tasso λ se la distribuzione di B(t) è approssimativa-
mente di tipo Poisson(λ t). Fissiamo un valore di t della forma nh; per esso conosciamo
l'esatta distribuzione di B(t). Infatti, al tempo t si sono vericate già n prove indipenden-
ti, ed ognuna con probabilità di successo pari a λh. Dunque B(t) ha una distribuzione
binomiale con parametri n e λh. Ne segue che il numero medio di successi no al tempo
t è pari a nλh = λ t, come sarebbe se B(t) avesse legge di Poisson con parametro λ t.
Inoltre, sia k un numero intero non negativo e sia t > 0, con t = nh per qualche n intero.
Allora, per n sucientemente grande, ovvero h molto piccolo,
Pr(B(t) = k) =
(nk
)(λh)k(1−λh)n−k
=n!
(n− k)!k!(λ tn)k(1− λ t
n)n−k
=n!
(n− k)!nk (1−λ tn)−k (λ t)k
k!(1− λ t
n)n
≈ n!(n− k)!nk (1−
λ tn)−k (λ t)k
k!exp(−λ t),
dove solo nell'ultimo passaggio si richiede che n sia grande. Inoltre, sotto le stesse
condizioni,
(1− λ tn)−k ≈ 1
en!
(n− k)!nk =n(n−1) · · ·(n− k+1)
nk ≈ 1.
Quindi, Pr(B(t) = k)≈ (λ t)k/k!exp(−λ t); questa ultima approssimazione risulterà esat-
ta per h→ 0).
Dunque, il processo di Bernoulli descrive una situazione molto naturale in cui, in ogni
piccolo intervallo di tempo, può accadere qualcosa oppure no: esso fornisce un'ulteriore
221
prospettiva di interpretazione per il processo di Poisson. Ad esempio, se si sono vericati
m eventi nell'intervallo (0, t], (ovvero N(t) = m), alla luce dell'interpretazione in termini
di processo di Bernoulli, i tempi in cui tali m eventi si sono vericati dovrebbero essere
distribuiti in modo uniforme, perché questo è quello che ci attenderemmo nel processo di
Bernoulli. Vedremo più avanti che tale intuizione è eettivamente corretta.
Pensare in termini del processo di Bernoulli rende più comprensibili alcune proprietà del
processo di Poisson. Questa impostazione risulterà ancora utile quando considereremo,
più in generale, le catene di Markov in tempo continuo. Nel processo di Bernoulli, la
probabilità di un evento in un qualsiasi intervallo specico è pari a λh mentre la probabilità
di osservare due o più successi è pari a 0 (ovvero Pr(B(h) = 1)= λh e Pr(B(h)≥ 2)= 0)).
Questo ci dice che, nel processo di Poisson, si avrà l'approssimazione Pr(N(h) = 1)≈ λh
e Pr(N(h)≥ 2) ≈ 0. Tale approssimazione si scrive in modo più formale ricorrendo alla
notazione di Landau
Pr(N(h) = 1) = λh+o(h); Pr(N(h)≥ 2) = o(h).
La notazione o(h) è chiamata notazione di Landau, e si legge o piccolo di h'. Se una
funzione f è o(h), questo sta a signicare che f è un innitesimo di ordine superiore
rispetto ad h, ovvero f (h)/h→ 0 quando h→ 0. In termini meno precisi, f (h) tende a
zero più velocemente rispetto ad h. Dal punto di vista notazionale, l'uso degli o(h) è utile
perché evita di scrivere lunghe, complicate o addirittura sconosciute espressioni quando
l'unica proprietà che interessa di una certa espressione è quanto velocemente essa tenda
a zero. Nel seguito faremo ampio uso della notazione di Landau ed è forse utile fare una
pausa e assicurarci di averne ben compreso il signicato.
6.3.3 Denizione 2 di Processo di Poisson
Denizione 6.3. Un processo stocastico in tempo continuo N(t) : t ≥ 0 è un processodi Poisson con tasso λ > 0 quando
i N(0) = 0
ii Ha incrementi stazionari e indipendenti.
222
iii
Pr(N(h) = 0) = 1−λh+o(h)
Pr(N(h) = 1) = λh+o(h)
Pr(N(h)≥ 2) = o(h).
Questa seconda denizione può sembrare più generale della Denizione 1 in quanto basata
su condizioni più primitive, maggiormente legate al processo di Bernoulli. Inoltre, essa
non utilizza, in modo esplicito, alcuna legge di probabilità e suggerisce, in qualche modo,
una naturalezza del processo di Poisson. In realtà le due denizioni sono equivalenti,
ovvero deniscono lo stesso processo stocastico, come adesso dimostreremo.
Teorema 6.3. Le due denizioni del processo di Poisson sopra presentate sono equiva-
lenti, ovvero la denizione 2 implica la denizione 1 e viceversa
Dimostrazione 6.3. Per prima cosa dimostriamo che la Definizione 1 implica la Defi-
nizione 2. Poiché le prime due condizioni sono uguali, occorre dimostrare che il terzo as-
sunto della prima definizione implica il terzo punto della seconda definizione. Assumiamo
allora che, per ogni t, N(t)∼ Po(λ t). Quindi,
Pr(N(h) = 0) = exp(−λh).
Se sviluppiamo l’esponenziale in serie di Taylor, si ha
Pr(N(h) = 0) = 1−λh+(λh)2
2!− (λh)3
3!+ . . .
= 1−λh+o(h).
Allo stesso modo,
Pr(N(h) = 1) = λhexp(−λh)
= λh[
1−λh+(λh)2
2!− (λh)3
3!+ . . .
]= λh−λ
2h2 +(λh)3
2!− (λh)4
3!+ . . .
= λh+o(h).
223
Infine,
Pr(N(h)≥ 2) = 1−Pr(N(h) = 1)−Pr(N(h) = 0)
= 1− (λh+o(h))− (1−λh+o(h))
= −o(h)−o(h) = o(h).
e quindi la Definizione 1 implica la Definizione 2.
Dimostriamo ora che il terzo assunto della seconda definizione implica il terzo punto
della prima definizione. Si fissi u≥ 0, e sia
g(t) = IE(exp(uN(t))) .
In altri termini, g(t) è la funzione generatrice dei momenti della v.a. N(t): essa è qui
considerata come una funzione di t. Allora
g(t +h) = IE(exp(uN(t +h)))
= IE(exp(uN(t))exp(u[N(t +h)−N(t)]))
= IE(exp(uN(t))) IE(exp(u[N(t +h)−N(t)]))
= g(t) IE(exp(u[N(h)])) .
Calcoliamo ora IE(exp(−u[N(h)])). Dalle assunzioni del terzo punto della Definizione
2, sappiamo che, per h “piccolo”, la distribuzione di N(h) si concentra sui valori 0 e 1 con
Pr(N(h)≥ 2) = o(h). Dunque,
IE(exp(uN(h))) = 1×Pr(N(h) = 0)+ eu Pr(N(h) = 1)+ ∑h≥2
euho(h)
= 1−λh+o(h)+ eu(λh+o(h))+o(h)
= 1+λheu−λh+o(h).
Mettendo insieme gli ultimi due risultati si ottiene
g(t +h) = g(t)(1+λheu−λh+o(h)) ,
224
ovverog(t +h)−g(t)
h= λg(t)(eu−1)+
o(h)h
.
Per h→ 0 si ottiene
g′(t) = λg(t)(eu−1),
da cuig′(t)g(t)
= λ (eu−1).
Integrando rispetto a t, ed usando la condizione g(0) = IE(exp(uN(0))) = 1, si ottiene
g(t) = exp(λ t(eu−1)) . (6.9)
Dunque, g(t) coincide con la trasformata di Laplace (o funzione generatrice dei momenti)
di una v.a. di Poisson di parametro λ t. Questo implica che, per ogni t > 0,
N(t)∼ Po(λ t),
che conclude la dimostrazione. ♦
6.3.4 Denizione alternativa del processo di Poisson.
Un terzo modo per denire il processo di Poisson consiste nel descrivere le leggi di
probabilità dei tempi di attesa tra il vericarsi di eventi successivi. In particolare dimo-
streremo che i tempi che intercorrono fra il vericarsi degli eventi seguono una distribu-
zione esponenziale di parametro λ , e sono tra loro delle v.a indipendenti e identicamente
distribuite.
Abbiamo già sottolineato come il processo di Poisson si tratti di un caso particolare di
processo di conteggio, in cui N(t) rappresenta il numero di eventi che si sono vericati no
al tempo t, e dove i tempi intercorsi tra il vericarsi di eventi successivi sono chiamati
tempi di interarrivo. Dimostreremo ora che i tempi di interarrivo per un processo di
Poisson con tasso λ sono v.a. esponenziali di parametro (λ ), indipendenti e somiglianti.
Questa proprietà caratterizza il processo di Poisson tra i processi di conteggio. Un
generico processo di conteggio in cui i tempi di attesa tra un evento e l'altro hanno leggi
225
arbitrarie si chiama processo di rinnovo. Noi non studieremo questa particolare classe di
processi stocastici. Ci limitiamo ad aermare che, qualora i tempi di attesa non fossero
esponenziali, allora il processo non avrebbe incrementi indipendenti e stazionari. Dunque,
il processo di Poisson è l'unico processo di rinnovo ad avere incrementi indipendenti e
stazionari.
Dimostriamo ora che i tempi di interarrivo tra un evento e l'altro in un processo di
Poisson sono indipendenti e somiglianti, tutti con distribuzione esponenziale di parame-
tro λ . Per prima cosa, si consideri il tempo necessario al vericarsi del primo evento,
denominato T1.
Per ogni t > 0, l'evento T1 > t è equivalente all'evento N(t) = 0. Quindi,
Pr(T1 > t) = Pr(N(t) = 0) = exp(−λ t);
dunque la funzione di ripartizione di T1 vale, per ogni t > 0,
FT1(t) = Pr(T1 ≤ t) = 1−Pr(T1 > t) = 1− exp(−λ t).
In altri termini, T1 ∼ Exp(λ ). In generale, sia Ti il tempo fra l'(i− 1)-esimo e l'i-esimo
evento. Possiamo allora usare una dimostrazione per induzione, nella quale la n-esima
proposizione si esprime come
Pn : T1, . . . ,Tn sono v.a. indipendenti e somiglianti con legge Exp(λ ).
per n = 1,2, . . .
Poiché abbiamo già vericato che la proposizione P1 è vera (ovvero T1 ha legge espo-
nenziale di parametro λ ed è. banalmente, indipendente da un un insieme vuoto di v.a.),
assumiamo per ipotesi che sia vera Pn e dimostriamo che è vera Pn+1. Per fare questo s-
siamo dei tempi (t, t1, . . . , tn > 0. La Proposizione Pn+1 è vera se dimostriamo che la distri-
buzione di Tn+1, condizionata all'evento (T1 = t1, . . . ,Tn = tn), non dipende da (t1, ..., tn)
(e questo dimostrerebbe che Tn+1 è indipendente da (T1, . . . ,Tn) e se dimostriamo che
P(Tn+1 > t) = exp(−λ t). Consideriamo allora la probabilità condizionata
Pr(Tn+1 > t|Tn = tn, . . . ,T1 = t1) ,
226
e riesprimiamo l'evento Tn = tn, . . . ,T1 = t1, che descrive i primi n tempi di interarrivo,
in un evento equivalente, espresso in termini degli istanti in cui gli n eventi si vericano.
Sia allora, per k = 1, . . . ,n,
Sk = T1 + · · ·+Tk
il k-esimo tempo di arrivo (il tempo in cui si verica il k-esimo evento) e sia sk = t1+ ...+tk.
Allora vale l'equivalenza tra i due eventi
Tn = tn, . . . ,T1 = t1= Sn = sn, . . . ,S1 = s1 .
Dunque possiamo riscrivere la nostra probabilità condizionata come
Pr(Tn+1 > t|Tn = tn, . . . ,T1 = t1) = Pr(Tn+1 > t | Sn = sn, . . . ,S1 = s1)
Ora, il fatto che Tn+1 > t sia indipendente dall'evento Sn = sn, ...,S1 = s1 deriva in
modo intuitivo dall'ipotesi di incrementi indipendenti ma occorrerebbe una dimostrazione
più rigorosa, che qui ci limitiamo ad accennare.
Dato l'evento Sn = sn, . . . ,S1 = s1, l'evento Tn+1 > t si verica se e solo se non ci
sono arrivi nell'intervallo di tempo (sn,sn + t], cosicché possiamo scrivere
Pr(Tn+1 > t|Sn = sn, . . . ,S1 = s1)
= Pr(N(sn + t)−N(sn) = 0|Sn = sn, . . . ,S1 = s1) . Per l'ipotesi di incrementi indipen-
denti, quello che accade nell'intervallo (sn,sn + t] non può dipendere da qualcosa che
si riferisce ai tempi no ad sn, come il nostro evento condizionante. Dunque l'ultima
quantità scritta equivale, per la stazionarietà degli incrementi, a
Pr(N(sn + t)−N(sn) = 0) = Pr(N(t) = 0) = exp(−λ t)
Abbiamo allora dimostrato che Tn+1 ha distribuzione di tipo esponenziale con parametro
λ ed è indipendente dai precedenti tempi di arrivo (T1, . . . ,Tn).
Dunque, un processo di Poisson può essere descritto come un processo di conteggio
in cui i tempi che intercorrono tra un evento e l'altro sono v.a. indipendenti e tutte di
legge esponenziale di parametro λ .
227
Denizione 6.4. (Denizione 3 di Processo di Poisson) Un processo stocastico in tempo
continuo N(t) : t ≥ 0 è un processo di Poisson con tasso λ > 0 se
1. N(0) = 0.
2. N(t) conta il numero di eventi che si sono vericati entro il tempo t (cioè N(t) è
un processo di conteggio).
3. I tempi che intercorrono fra gli eventi sono indipendenti e identicamente distribuiti
con una distribuzione esponenziale (λ ).
In pratica abbiamo appena dimostrato come la Denizione 1 implichi le 3 condizioni
della Denizione 3. Si può ovviamente dimostrare anche come il fatto che i tempi di
arrivo seguano la distribuzione esponenziale di parametro (λ ) implichi a sua volta la
terza condizione della Denizione 2. Questa dimostrazione è molto simile a quella già
vista e verrà omessa.
Denire un processo di Poisson mediante la terza denizione fornita può essere utile
se si vogliono studiare eventuali generalizzazioni a più sosticati processi di rinnovo. Da
un punto di vista formale, essa può benissimo essere considerata come una proprietà che
discende direttamente sia dalla Denzione 1 che dalla 2; infatti, entrambe queste deni-
zioni implicano che i tempi che intercorrono tra eventi successivi sono v.a. indipendenti
e somiglianti con legge esponenziale di parametro (λ ).
6.3.5 Distribuzione del tempo dell' n-esimo evento
Denominiamo Sn il tempo dell'n-esimo arrivo in un processo di Poisson, Sn = T1+ ...+Tn
è la somma dei primi n tempi di interarrivo. La distribuzione di Sn è una Gamma di
parametri (n,λ ). Questo risultato deriva direttamente dal teorema 6.2, relativo alla
distribuzione della somma di v.a. esponenziali indipendenti e somiglianti.
Qui daremo una dimostrazione alternativa, basata sulla natura del processo di Poisson.
Supponiamo dunque di voler calcolare la funzione di ripartizione della v.a. Sn, ovvero
FSn(t) = Pr(Sn ≤ t) .
228
L'evento Sn ≤ t coincide esattamente con l'evento N(t)≥ n. Infatti il tempo in cui
si verica l'n-esimo arrivo risulta minore o uguale a t se e solo se il numero degli arrivi
che si sono vericati nell'intervallo [0, t] risulta maggiore o uguale a n. Dunque,
Sn ≤ t⇐⇒ N(t)≥ n .
Allora
FSn(t) = P(Sn ≤ t) = P(N(t)≥ n) = ∑∞j=n (λ t) j/ j!exp(−λ t).
Per ottenere la densità di Sn, è suciente calcolare la derivata rispetto a t di FSn(t),
ottenendo
fSn(t) = −∞
∑j=n
λ(λ t) j
j!exp(−λ t)+
∞
∑j=n
λ(λ t) j−1
( j−1)!exp(−λ t)
= λ(λ t)n−1
(n−1)!exp(−λ t) =
λ n
(n−1)!tn−1 exp(−λ t).
che è proprio la densità di una v.a. Gamma con parametri (n,λ ), come già sapevamo.
6.4 Altre nozioni sul processo di Poisson
In questa sezione discuteremo alcuni processi che vengono deniti a partire dal semplice
processo di Poisson. In particolare, vedremo come
Il processo denito come la somma di due processi di Poisson indipendenti (spesso
denominato come sovrapposizione dei due processi), è ancora un processo di
Poisson, il cui tasso è pari a λ1 +λ2, dove λ1 e λ2 sono i rispettivi tassi dei due
processi di Poisson costituenti.
Se ogni evento relativo ad un processo di Poisson è segnato con una certa probabilità
p, indipendentemente da evento a evento, allora il processo segnato ¯N(t) : t ≥ 0,
dove ¯N(t) è il numero di eventi segnati no al tempo t, è ancora un processo
di Poisson con tasso pari λ p, dove λ è il tasso dell'originale processo di Poisson.
Questa operazione è chiamata thinning o selezione del processo di Poisson.
229
Le operazioni di somma di due o più processi di Poisson indipendenti e di thinning di
un processo di Poisson possono essere di grande utilizzo pratico nella modellizzazione di
sistemi in cui, ad esempio, i processi di Poisson rappresentano i ussi di arrivo ad un
sistema e si vuole classicare gli eventi in base a certe categorie. Ad esempio, potremmo
supporre che il numero di messaggi e-mail che riceviamo nel corso della giornate segua
un processo di Poisson di tasso pari 3 per ora. Tuttavia, ogni messaggio ha probabilità
2/3 di essere una mail interessante e una probabilità pari a 1/3 di essere spam. Allora
il numero di messaggi interessanti che riceviamo nella giornata è ancora un processo di
Poisson con tasso pari a 2.
6.4.1 Sovrapposizione di processi di Poisson
Siano allora N1(t) : t ≥ 0 e N2(t) : t ≥ 0 due processi di Poisson indipendenti con
rispettivi tassi pari λ1 e λ2. Il processo N(t) denito come la somma di N1(t) e N2(t),
N(t) = N1(t)+N2(t) : t ≥ 0 ,
è chiamato sovrapposizione dei due processi N1(t) e N2(t). Per dimostrare che N(t) è un
processo di Poisson, ricorrendo alla Denizione 1, occorre prima dimostrare che N(0) = 0;
questo è ovvio perché
N1(0) = N2(0) = 0.
Inoltre bisogna dimostrare che per ogni t, N(t)∼Po((λ1 +λ2)t). Questo è facile poiché,
230
per ogni k ≥ 0,
Pr(N(t) = k) = Pr(N1(t)+N2(t) = k)
=k
∑j=1
Pr(N1(t) = j∩N2(t) = k− j)
=k
∑j=1
Pr(N1(t) = j)Pr(N2(t) = k− j)
=k
∑j=1
1j!(k− j)!
exp(−(λ1 +λ2)t)λj
1 λk− j2 tk
=1k!
exp(−(λ1 +λ2)t) tkk
∑j=1
(kj
)λ
j1 λ
k− j2
=1k!
exp(−(λ1 +λ2)t) tk(λ1 +λ2)k,
dove l'ultimo passaggio deriva da un'applicazione diretta del teorema del binomio di
Newton. Per mostrare che N(t) è un processo di Poisson con tasso λ1+λ2 resta solamente
da dimostrare che che il processo N(t) ha incrementi stazionari e indipendenti.
Dati allora due tempi t1 < t2, deniamo la v.a. incremento
I(t1, t2) = N(t2)−N(t1).
Sappiamo che
I(t1, t2) = N(t2)−N(t1)
= N1(t2)+N2(t2)− (N1(t1)+N2(t1))
= (N1(t2)−N1(t1))+(N2(t2)−N2(t1))
≡ I1(t1, t2)+ I2(t1, t2)
dove I1(t1, t2) e I2(t1, t2) rappresentano i corrispondenti incrementi nei processi N1(t) e
N2(t). Tuttavia, per ipotesi, la v.a. incremento I1(t1, t2) ha distribuzione di Poisson di
parametro λ1(t2− t1) mentre la v.a. incremento I2(t1, t2) ha una distribuzione di Poisson
di parametro (λ2(t2− t1)). Inoltre I1(t1, t2) e I2(t1, t2) sono indipendenti in quanto lo sono
231
i due processi originali. Quindi, come prima, la somma dei due incrementi ha distribuzione
di Poisson con media (λ1+λ2)(t2−t1). Poiché Ni(t) è un processo di Poisson per i= 1,2,
la distribuzione dell'incremento Ii(t1, t2) dipende da t1 e t2 solo attraverso la loro dierenza
t2− t1, e questo basta a dimostrare che N(t) ha incrementi stazionari.
In secondo luogo, per t1 < t2 < t3 < t4, e siano I(t1, t2) = N(t2)−N(t1) e I(t3, t4) =
N(t4)−N(t3) gli incrementi relativi a due intervalli che non si sovrappongono, ovvero gli
intervalli (t1, t2] e (t3, t4] sono disgiunti. Allora
I(t1, t2) = I1(t1, t2)+ I2(t1, t2)
e
I(t3, t4) = I1(t3, t4)+ I2(t3, t4).
La v.a. I1(t1, t2) è indipendente da I1(t3, t4) perché il processo N1(t) ha incrementi in-
dipendenti, mentre I1(t1, t2) è indipendente da I2(t3, t4) perché i processi N1(t) e N2(t)
sono indipendenti. In modo analogo, possiamo vedere che I2(t1, t2) è indipendente sia da
I1(t3, t4) che da I2(t3, t4). Da tutto questo possiamo concludere che l'incremento I(t1, t2) è
indipendente dall'incremento I(t3, t4) in quanto sono v.a. ottenute come funzioni di altre
v.a. tra loro indipendenti. Dunque anche il processo N(t) ha incrementi indipendenti.
Abbiamo dunque dimostrato che il processo
N(t) : t ≥ 0
soddisfa le tre condizioni della Denizione 1 per cui è esso stesso un processo di Poisson
con tasso pari a λ1 +λ2.
Osservazione 1: Applicando più volte l'argomento qui usato si dimostra facilmente che,
per ogni k intero, la sovrapposizione di k processi di Poisson, indipendenti tra loro e con
tassi rispettivi pari a λ1,λ2, . . . ,λk, è ancora un processo di Poisson con tasso λ1+ ...+λk.
Osservazione 2: Il processo di Poisson è importante nel campo della probabilità poiché
gioca un ruolo, nell'ambito dei processi di conteggio, simile a quello che svolge la legge
normale in statistica. Si può dimostrare infatti che se consideriamo N processi di conteg-
gio indipendenti e li sommiamo tra loro, il processo risultante è in modo approssimativo,
232
ancora un processo di Poisson. Anché tale risultato sia valido, N deve essere sucien-
temente grandee i tassi dei processi individuali devono essere sucientemente piccoli.
Questo risultato è spesso impiegato come una giusticazione per l'utilizzo del processo
di Poisson.
Ad esempio, in una rete telefonica, ogni individuo produce un usso di richieste di
collegamento a un dato telefono: sebbene il comportamento di ogni singolo individuo non
somigli ad un processo di Poisson, è ragionevole tuttavia pensare che il usso complessivo
di richieste da parte di molti utenti sia formato da comportamenti pressoché indipendenti,
ed anche l'evidenza empirica suggerisce che tali grandezze possano essere modellate
attraverso un processo di Poisson.
Tuttavia, alcune scoperte recenti hanno messo in rilievo che, nelle reti internet, gli arrivi
di pacchetti di dati a specici gateway possono mostrare un comportamento che non
si adatta bene ad un processo di Poisson. Il usso di traco dei pacchetti mostra in
genere picchi molto elevati, chiamati bursts, che non suggeriscono una stazionarietà
del processo nel tempo. Quindi, anche se il usso di traco è l'aggregato dei ussi di
molti utenti, sembra non valere quel risultato asintotico prima accennato. Questo avviene
perché, in genere, il traco globale su un gateway tende a essere dominato da pochi
utenti ad ogni istante.
6.4.2 Thinning di un processo di Poisson
Sia N(t) : t ≥ 0 un processo di Poisson con tasso λ . Supponiamo che ogni evento
che si verichi nel processo sia segnato con probabilità pari a p, indipendentemente da
evento a evento, e che
N1(t) : t ≥ 0
sia il processo che conta gli eventi segnati. Dimostriamo che tale processo è ancora un
processo di Poisson di tasso λ p utilizzando la Denizione 2.
Notiamo prima di tutto che, banalmente N1(0) = N(0) = 0. Successivamente, la
probabilità che ci sia un solo evento segnato nell'intervallo [0,h] è pari alla probabilità
che ci sia un solo evento e questo evento sia segnato più la probabilità che ci sia un
233
numero maggiore di eventi ma che solo uno ne venga segnato. In formule
Pr(N1(h) = 1) = Pr(N(h) = 1) p+∞
∑k=2
Pr(N(h) = k)(
k1
)p(1− p)k−1
= (λh+o(h))p+∞
∑k=2
o(h)kp(1− p)k−1
= λ ph+o(h)
In modo analogo,
Pr(N1(h) = 0) = Pr(N(h) = 0)+Pr(N(h) = 1)(1− p)
+∞
∑k=2
Pr(N(h) = k)(1− p)k
= 1−λh+o(h)+(λh+o(h))(1− p)
= +∞
∑k=2
o(h)(1− p)k
= 1−λ ph+o(h).
Inne, la Pr(N1(h)≥ 2) può essere ottenuta mediante sottrazione:
Pr(N1(h)≥ 2) = 1−Pr(N1(h) = 0)−Pr(N1(h) = 1)
= 1− (1−λ ph+o(h))− (λ ph+o(h))
= o(h).
Dimostriamo ora che il processo thinned ha incrementi stazionari; calcoliamo allora la
distribuzione della v.a. incremento I1(t1, t2)≡N1(t2)−N1(t1): per questo calcolo useremo
234
la tecnica del condizionamento al valore della v.a. incremento relativa all'intero processo.
Pr(I1(t1, t2) = k) =∞
∑n=0
Pr(I1(t1, t2) = k|I(t1, t2) = n)Pr(I(t1, t2) = n)
=∞
∑n=k
Pr(I1(t1, t2) = k|I(t1, t2) = n)Pr(I(t1, t2) = n)
=∞
∑n=k
(nk
)pk(1− p)n−k [λ (t2− t1)]n
n!exp(−λ (t2− t1))
=[λ p(t2− t1)]k
k!exp(−λ p(t2− t1))
× ×∞
∑n=k
[λ (1− p)(t2− t1)]n−k
(n− k)!exp(−λ (1− p)(t2− t1))
=[λ p(t2− t1)]k
k!exp(−λ p(t2− t1))
Il risultato precedente mostra che la distribuzione della v.a. incremento I1(t1, t2)
dipende da t1 e t2 solo attraverso la dierenza t2− t1, e questo è suciente a stabilire che
gli incrementi del processo thinned sono stazionari. Inne, il fatto che gli incrementi
nel processo thinned siano indipendenti discende direttamente dall'indipendenza degli
incrementi nell'originario processo di Poisson N(t).
Concludiamo questa sezione con un'annotazione. Il processo N2(t) costituito dagli
eventi non segnati, è anch'esso un processo di Poisson, stavolta con tasso pari a λ (1−p). È inoltre possibile dimostrare che i due processi N1(t) e N2(t) sono indipendenti..
6.5 Cenno al caso non omogeneo
Sia Nt , t ≥ 0, una collezione di v.c. e assumiamo che per ogni t, Nt può assumere
i valori 0,1, . . .. Possiamo pensare a Nt come al numero di arrivi o di eventi che si
vericano nell'intervallo [0, t). Siano inoltre N0 = 0 e N(t, t + h) la v.a. che descrive il
numero di arrivi nell'intervallo [t, t + h), con t ≥ 0 e h > 0; si assume che tale variabile
sia indipendente da Nt , ossia che il processo abbia incrementi indipendenti. Si dice allora
che Nt , t ≥ 0 è un processo di Poisson non omogeneo se, per h→ 0,
Pr(N(t, t +h) = 0) = 1−λ (t)h+o(h)
235
e
Pr(N(t, t +h) = 1) = λ (t)h+o(h) ,
con λ (t) funzione positiva, detta intensità del processo, mentre o(h) è una quantità
innitesima rispetto a h. Si può dimostrare facilmente che
N(s,s+ t)∼ Po(µ(s, t)),
con
µ(s, t) =∫ s+t
sλ (u)du.
Il processo si riduce ovviamente ad uno omogeneo se la funzione di intensità è costante ov-
vero λ (t) = λ . In tal caso, i tempi intercorrenti tra due arrivi successivi sono indipendenti
ed hanno distribuzione esponenziale con media 1/λ .
6.6 Alcuni aspetti inferenziali∗
Supponiamo di osservare un processo di Poisson non omogeneo in cui la funzione di in-
tensità è incognita. La nestra di osservazione è data dall'intervallo [0, t0) e assumiamo
che gli eventi si verichino agli istanti t1 ≤ t2 ≤ . . .≤ tn. Un procedimento semplice per
denire la funzione di verosimiglianza è il seguente: dividiamo la nestra di osservazione
in m piccoli intervalli di ampiezza h= t0/m. Il generico intervallo è denotato con il simbolo
[u j,u j +h), j = 1, . . . ,m. Ogni intervallo fornisce un contributo al processo indipendente
dagli altri (per una delle proprietà del processo di Poisson). L'osservazione relativa all'in-
tervallo [u j,u j +h) contribuisce con un fattore pari a λ (u j)h+o(h) = λ (ti)h+o(h) se,
per qualche i = 1, . . . ,n, risulta
u j ≤ ti < u j +h,
ossia se si registra un arrivo nell'intervallo in questione; stiamo implicitamente assumendo
che h sia molto piccolo e che non sia possibile osservare più di un evento in un singolo
intervallo. Se invece nell'intervallo non si verica alcun evento, il contributo sarà pari a
un fattore 1−λ (u j)h+o(h). La funzione di verosimiglianza si ottiene allora come
Lh(λ (t)) =n
∏i=1λ (ti)h+o(h)
∗
∏j
1−λ (u j)h+o(h)
, (6.10)
236
dove il secondo prodotto si intende esteso a tutti i valori dell'indice j tali che l'intervallo
[u j,u j +h) non contenga alcuno dei tempi di arrivo t1, . . . , tn.
Il secondo fattore può allora essere riscritto come
∗
∏j
1−λ (u j)h+o(h)
= exp
∗
∑j
log(1−λ (u j)h+o(h)
)
≈ exp
−∗
∑j(λ (u j)h+o(h))
.
Fin qui la verosimiglianza ottenuta dipende da h. È necessario dunque determinare il
limite per h→ 0 di tale quantità, e osservare che esso è pari a
exp−∫ t0
0λ (u)du
.
Trascurando il fattore hn nel primo fattore, si ottiene allora
L(λ (t)) = exp−∫ t0
0λ (u)du
n
∏i=1
λ (ti) . (6.11)
Nel caso particolare di omogeneità, λ (t) = λ , la (6.11) diventa, più semplicemente,
L(λ ) = λne−λ t0 , (6.12)
equivalente alla verosimiglianza che si ottiene considerando un campione i.i.d. estratto
da una distribuzione di Poisson con media λ t0.
6.7 Esercizi
6.7.1. Sia (N(t), t ≥ 0) un processo di Poisson omogeneo con tasso pari a λ . Supponiamo
che N(1) = 2. Determinare
La distribuzione di probabilità di N(t) dato che N(1) = 2, sia per t ≥ 1 che per
t < 1.
Spiegare a parole perché i due risultati al punto precedente sono dierenti.
237
Sempre condizionando all'informazione N(1) = 2, calcolare la legge di probabilità
del tempo in cui si è vericato il primo evento.
6.7.2. Sia N1(t), t ≥ 0 un processo di Poisson di tasso λ1. Stabilire che tipo di distri-
buzione ha la variabile aleatoria N1(3) e determinarne media e varianza. Per 0 < s < t
ssati, calcolare Pr(N1(s) = 1,N1(t) = 3)
Sia T1 è il tempo in cui si verica il primo evento. Determinare la distribuzione di T1
e calconarne media e varianza.
Se al tempo t0 si è vericato un solo evento, determinare la legge di probabilità
dell'istante in cui tale evento si è vericato.
6.7.3. All'ucio passaporti le richieste di rinnovo che arrivano ogni giorno seguono una
distribuzione di Poisson con media pari a 5 passaporti, e tutti i giorni sono mutuamente
indipendenti e il numero di passaporti che arriva in un giorno non dipende da quanti
passaporti sono già nell'ucio. Ci vogliono 3 giorni anché una pratica venga sbrigata
(quindi se un passaporto arriva nel giorno 1, esso lascia l'ucio nel giorno 4). Per
n = 1,2,3, . . . sia Un il numero di passaporti che arrivano nell'ucio il giorno n, e sia Xn il
numero di passaporti presenti nell'ucio il giorno n. In pratica, Xn =Un−2+Un−1+Un).
Specicare qual è lo spazio degli stati del processo Xn,n≥ 3.Per n≥ 3, determinare la distribuzione di Xn.
Stabilire se la successione Xn,n≥ 1 è una catena di Markov oppure no e spiegarne
il perché.
6.7.4. Gli arrivi alla mia fermata dell'autobus n.1 seguono un processo di Poisson con
tasso pari ad 1 autobus per ora. Alla stessa fermata gli autobus della linea 7 arrivano
secondo un processo di Poisson con tasso pari a 7 autobus per ora. I due processi sono
indipendenti. Calcolare
1. la probabilità che, in un'ora, arrivino esattamente tre autobus (di una qualunque linea).
2. la probabilità che esattamente tre autobus della linea 7 arrivino alla fermata mentre
io aspetto un autobus della linea 1
238
6.7.5. Il numero X di visite ad una pagina web in un intervallo di tempo pressato segue,
una distribuzione di Poisson con parametro θ . A sua volta θ è considerato aleatorio e
segue una legge esponenziale di parametro λ .
Dimostrare che la legge marginale di X è di tipo geometrico: specicare il valore del
parametro.
6.7.6. In un processo di Poisson di tasso λ , sia T1 il tempo da 0 al primo evento. Sia
inoltre T2 il tempo che intercorre tra il primo e il secondo evento. Spiegare perché e
in base a quali proprietà matematiche ciascuno dei seguenti passaggi è giusticato. Per
t > 0,
Pr(T2 > t|T1 = s) = Pr(nessun evento in (s,s+ t)|T1 = s)
= Pr(nessun evento in (s,s+ t)) = exp−λ t
6.7.7. La compagnia di assicurazioni riceve richieste di indennizzo secondo un processo
di Poisson con tasso λ pari a 2 per settimana, e l'ammontare della i−esima richiesta è
una variabile aleatoria Yi. Tutte le Yi sono mutuamente indipendenti, con media pari a
400 euro e deviazione standard pari a 200 euro.
Calcolare il valore medio e la varianza dell'ammontare totale in euro degli indennizzi
chiesti in un periodo di 13 settimane.
6.7.8. Sia N1(t), t ≥ 0 un processo di Poisson di tasso λ1.
Dire che tipo di distribuzione ha la variabile aleatoria N1(3) e determinarne media e
varianza.
Per 0 < s < t ssati, trovare Pr(N1(s) = 1,N1(t) = 3)
Sia T1 è il tempo in cui si verica il primo evento. Determinare la distribuzione di T1
e calconarne media e varianza.
6.7.9. Sia N1(t), t ≥ 0 un processo di Poisson di tasso λ1. Sia inoltre N2(t), t ≥ 0un processo di Poisson di tasso λ2, e i due processi sono mutuamente indipendenti.
Se T 11 è il tempo in cui si verica il primo evento nel processo N1(t), t ≥ 0 e e T 1
2
è il tempo in cui si verica il primo evento nel processo N2(t), t ≥ 0, determinare la
Pr(T 1
1 > T 12 )).
239
Suggerimento: eettuare i calcoli usando il condizionamento rispetto a T 11 .
6.7.10. Alcuni moschini cadono nella brocca della limonata secondo un processo di
Poisson di tasso pari a λ = 5 moschini per ora. Le vespe invece cadono nella stessa
brocca secondo un processo di Poisson di tasso pari a λ = 3 vespe per ora. Supponiamo
che non ci siano altri insetti nei dintorni e supponiamo anche che, una volta che l'insetto
è caduto, resti nella brocca. Al tempo t = 0 ci sono 0 insetti nella brocca.
Sia T il tempo di arrivo del primo insetto, moschino o vespa nella brocca. Calcolare
la densità della v.a. T .
Dato che dopo 10 minuti (1 sesto di ora...) la brocca contiene esattamente due
insetti, calcolare la probabilità che si tratti di una vespa e di un moschino.
6.7.11. Sia N(t), t ≥ 0 un processo di Poisson con tasso pari a λ , e sia T1 il tempo in
cui si verica il primo evento.
Determinare esattamente la distribuzione di N(3).
Calcolare Pr(T1 > t).
Calcolare il valore atteso di T1 sapendo che T1 > s, ovvero
IE(T1|T1 > s)
6.7.12. I clienti arrivano in un negozio secondo un processo di Poisson di tasso pari a 5
per ora. Ogni cliente ha una probabilità pari a 0.2 di andarsene senza aver comprato nulla.
Quando comprano, l'ammontare della loro spesa in euro è una v.a. di tipo Gamma(α,δ )
con α = 100 e λ = 2.5.
1. Calcola l'incasso medio orario e la deviazione standard del negozio in una data ora.
2. Se la giornata di lavoro consta di 10 ore, calcola l'incasso medio e la deviazione
standard relativa all'intera giornata.
3. Ricalcola le stesse quantità del punto 2, condizionatamente all'informazione che
quel giorno si sono avuti 40 clienti.
240
CAPITOLO 7
Martingale
7.1 Introduzione
Il concetto di martingala è necessario per la modellizzazione matematica dei giochi equi.
La caretteristica principale di un gioco equo, qualunque esso sia, è che il guadagno atteso
di una scommessa o di un sistema di scommesse, deve essere pari a zero. In altri termini
il capitale di un giocatore dopo una giocata dovrà essere, in media, pari al valore del
capitale prima della giocata stessa. Formalizziamo questa idea nella seguente denizione
Denizione 7.1. La successione Mn; n≥ 1 è una martingala se, per ogni n,
a) IE(|Mn|)<+∞
b) IE(Mn+1|M1, . . . ,Mn) = Mn
Più in generale si può denire il condizionamento al punto b) mediante una successione di
variabili aleatorie Xn, n≥ 0, dove, per ogni n, Xn rappresenta l'informazione disponibile
al tempo n. Dunque avremo la condizione equivalente
241
b2) IE(Mn+1|X1, . . . ,Xn) = Mn.
In tal caso si dice che la successione Mn;n≥ 1 è una martingala rispetto alla successione
Xn, n≥ 0.
La condizione b) si può altresì esprimere come
IE(Mn+1−Mn|M1, . . . ,Mn) = 0,
che meglio coglie il signicato di scommessa equa: condizionatamente a quanto avvenuto
nelle prime n scommesse, il guadagno medio della (n+1)-esima scommessa è pari a zero.
Nelle vere case da gioco, tuttavia, il gioco non è mai equo ed il banco è favorito. Dal
punto di vista del giocatore questo si esprime attraverso il concetto di super-martingala,
per la quale la condizione b) diventa
IE(Mn+1|M1, . . . ,Mn)≤Mn,
Dualmente, è possibile interpretare il gioco da parte del banco, mediante il concetto di
sub-martingala, in cui la seconda condizione diventa
IE(Mn+1|M1, . . . ,Mn)≥Mn.
Illustriamo ora alcuni esempi di martingale.
Esempio 7.1 Sianio X1,X2, . . . v.a. indipendenti con media E(Xn) = µn; allora la
successione Sn,n≥ 1, con
Sn =n
∑r=0
(xr−µr)
è una martingala. Infatti
IE(|Sn|) = IE(|∑
r(xr−µr) |
)≤ IE
(∑r|xr−µr|
)< ∞.
Inoltre
IE(Sn|S1, . . . ,Sn−1) = IE(Xn−µn +Sn−1 | S1, . . . ,Sn−1) = 0+Sn−1 = Sn−1.
242
♦
Esempio 7.2 Sia Sn,n≥ 1 una passeggiata aleatoria simmetrica, ovvero
∀n, Sn = Sn−1 +Xn,
con le Xn v.a. indipendenti e somiglianti con distribuzione
Xn =
+1 0.5
−1 0.5.
Allora, la successione Mn,n≥ 1, con Mn = S2n−n è una martingala. Infatti
IE(|Mn|) = IE(|S2
n−n|)≤ IE
(S2
n)+n
= IE(X1 + · · ·+Xn)2 +n = IE
(X2
1 + · · ·+X2n +∑
i∑
jXiX j
)+n
= 2n+∑i
∑j
IE(xix j)
= 2n+∑i
IE(xi)∑j
IE(x j)= 2n
Inoltre
IE(Mn+1|M1, . . . ,Mn) = IE(S2
n+1−n−1 | S20,S
21, . . .S
2n)
= IE((Sn +Xn+1)
2−n−1 | S20,S
21, . . .S
2n)
= IE(S2
n +2SnXn+1 +X2n+1−n−1 | S2
0,S21, . . .S
2n)
= S2n +2Sn IE(Xn+1)+ IE
(X2
n+1)−n−1
= S2n +1−n−1 = S2
n−n = Mn.
Nel corso della dimostrazione abbiamo considerato equivalente, come è ovvio, il condizio-
namento alla successione delle Mn e quello alla successione delle S2n, visto che, per ogni
243
n, le due successioni dieriscono per una costante nota. ♦
Esempio 7.3 Processi branching Sia Zn,n≥ 1 un processo branching, ovvero per ogni
n, Zn rappresenta la dimensione numerica della n-esima generazione di una popolazione.
Dalla teoria dei processi branching (vedi 5.1) sappiamo già che
IE(Zn+1 | Z1,Z2, . . . ,Zn) = µZn,
in quanto Zn+1 è la somma di Zn v.a. somiglianti con media pari µ , il valore atteso della
dimensione della prole di ciascun individuo nella popolazione. Sappiamo inoltre che, ad
ogni n,
IE(Zn) = µn.
Deniamo allora il processo stocastico Wn;n≥ 1 in cui, per ogni n,
Wn =Zn
IE(Zn).
Allora
IE(Wn+1|Z1, . . . ,Zn) = IE(Zn+1/µ
n+1|Z1, . . . ,Zn)
=1
µn+1 µZn
= Wn.
Dunque il processo Wn;n ≥ 0 è una martingala rispetto alla successione Zn;n ≥ 0.♦
7.2 Tempi di arresto
Per apprezzare a pieno l'utilità dell'idea di martingala nella teoria dei processi aleatori,
è importante introdurre il concetto di tempo di arresto. In ogni gioco, equo o meno,
occorre inserire, tra le regole, il criterio con cui il gioco terminerà. Per essere ecace
244
nel contesto delle martingale, una regola d'arresto deve basarsi su quanto successo in
precedenza e non su quanto potrà accadere in futuro. Supponete di trovarvi su su un
treno che da Milano va a Napoli e chiedete qual è la fermata di Roma. Se Tizio vi dice
che la vostra fermata è quella dopo Firenze, Tizio sta utilizzando una buona regola di
arresto. Se Caio invece vi suggerisce di scendere alla fermata prima di Napoli, allora Caio
non sta usando una buona regola d'arresto.
Denizione 7.2. [ Tempo di arresto]. Sia Xn,n≥ 1 un processo aleatorio. La v.a.
non negativa T è un tempo di arresto per il processo Xn, n≥ 0 se, per ogni n, l'evento
T = n dipende solo dalle v.a. X0,X1, . . . ,Xn (cioè da quanto già avvenuto) e non
dipende da Xn+1,Xn+2, . . . (ovvero dal futuro). Analogamente, si può dire che la variabile
indicatrice dell'evento T = n, diciamo I(T = n), può essere funzione solo delle v.a.
X0,X1, . . . ,Xn.
Rincontreremo più volte questo concetto nella teoria dei processi di Markov. Vedia-
mone ora una prima applicazione concreta a proposito dell'idea di martingala. Il prossimo
teorema si chiama dei sistemi semplici, in quanto determina un risultato utile per quella
categoria di strategie di gioco, molto semplici, che consistono nel giocare no a che non
abbiamo raggiunto un certo target predenito.
Teorema 7.1. (Teorema dei sistemi semplici) Sia Xn,n≥ 0 una martingala e sia T un
tempo di arresto per Xn. Sia poi Zn,n≥ 0 un processo denito da
Zn =
Xn se T ≥ n
XT altrimenti.
ovvero il processo Xn stoppato al tempo aleatorio T . Allora Zn è una martingala
rispetto alla successione Xn, n≥ 0.
Prima di dimostrare il teorema è bene sottolinearne il signicato. Esso ci dice che la
successione dei capitali relativi ad un gioco equo, interrotto in modo aleatorio mediante
una regola di arresto come sopra descritto, ovvero un tempo di arresto, è ancora una
martingala.
245
Dimostrazione 7.1. Definiamo la funzione indicatrice
I(T > n) =
1 se T > n
0 altrimenti.
Si può allora verificare che vale sempre la relazione
Zn+1 = Zn +(Xn+1−Xn)I(T > n).
Infatti, quando T ≤ n la relazione diventa XT = XT + 0; al contrario se T > n si avrà
Xn+1 = Xn +Xn+1−Xn.
Dunque
IE(Zn+1|X0, . . . ,Xn) = IE(Zn +(Xn+1−Xn)I(T > n)|X0, . . . ,Xn)
(Zn e I(T > n) dipendono solo da X0, . . . ,Xn)
= Zn + I(T > n) IE(Xn+1−Xn|X0, . . . ,Xn) = Zn.
Dobbiamo infine dimostrare che IE(|Zn|)< ∞. Riscriviamo Zn nel modo seguente,
Zn =n−1
∑r=0
XrI(T = r)+XnI(T ≥ n).
Poiché le v.a. I(T = r) sono limitate superiormente da 1, per ogni r,
IE(|Zn|)≤n−1
∑r=0
IE(|Xr|)+ IE(|Xn|)< n IE(|X1|)< ∞,
perché le Xn formano una martingala. ♦
Il teorema precedente, in sostanza, ci dice che, partecipando ad un gioco equo e decidendo
di interrompere il gioco secondo una strategia ragionevole, ovvero un tempo di arresto,
la successione delle nostre vincite è ancora una martingala, ovvero non c'è modo di
trasformare, a nostro vantaggio, un gioco equo. In altri termini, si ha la relazione
IE(Zn) = IE(Z0) = IE(X0) .
246
Tuttavia, giova ricordare che, a meno di non aggiungere alcune speciche restrizioni sulla
v.a. tempo di arresto T , non è sempre vero che
IE(XT ) = IE(X0) .
In altri termini, non è sempre vero che la martingala, interrotta in un momento aleatorio,
conservi le sue caratteristiche. Il prossimo esempio ci suggerisce come, senza aggiunge-
re ulteriori ipotesi, si potrebbero costruire strategie tali che IE(XT ) risulti maggiore di
IE(X0).
Esempio 7.4 [ Passeggiata aleatoria simmetrica.] Consideriamo una passeggiata alea-
toria simmetrica Sn, n ≥ 0. Sappiamo già, per altre vie, che la passeggiata tocca
ogni livello con probabilità 1, e sappiamo anche che Sn, n ≥ 0 è una martingala. Un
giocatore potrebbe allora decidere di giocare no al momento in cui non raggiunge un
determinato livello positivo. Questa strategia condurrebbe ad una vincita certa. Tuttavia
una strategia del genere è possibile solo se il giocatore è in grado di subire perdite di
qualunque importo; inoltre, il tempo di attesa per arrivare al livello voluto è innito. In
altri termini, occorrerebbero sia un tempo che un credito inniti per attuare una tale
strategia. ♦Occorre allora stabilire sotto quali condizioni aggiuntive accade che IE(XT ) = IE(X0). In-
tanto, dalla denizione di Zn nel Teorema 7.1, possiamo notare che, se Pr(T < ∞) = 1,
allora Znq.c.→ XT .
Teorema 7.2. (Teorema del campionamento opzionale elementare).
Siano Xn,n≥ 0, T , e Zn,n≥ 0, denite come nel teorema precedente: allora, se
esiste una v.a. Y con IE(Y )< ∞ e |Zn|< Y , per ogni n, allora EXT = EX0.
Dimostrazione 7.2. Poiché Znq.c.→ XT , |XT −Zn| → 0. Per il teorema della convergenza
dominata di Lebesgue1, essendo |Zn|< Y , si avrà IE(|XT −Zn|)→ 0. Dunque
| IE(X0)− IE(XT ) |= | IE(Zn)− IE(XT ) | ≤ IE(|Zn−XT |)1Si tratta di un risultato classico di teoria della misura, si veda ad esempio il testo di Ash, Real
Analysis and Probability, 1971.
247
In conclusione,
| IE(X0)− IE(XT ) | ≤ limn→∞
IE(|Zn−XT |) = 0
da cui la tesi. ♦
Una versione più generale del teorema è la seguente
Teorema 7.3. (Teorema del campionamento opzionale).
Sia Xn,n ≥ 0 una martingala e sia T un tempo d'arresto per Xn. Sia T ∧ n =
min(T,n). Vale allora la seguente relazione
IE(X0) = IE(XT∧n) .
Dimostrazione 7.3. [[Orsingher, 2005]]
IE(XT∧n) = IE(XT∧nI(T ≤ n))+ IE(XT∧nI(T > n))
=n
∑k=1
IE(XT∧nI(T = k))+ IE(XT∧nI(T > n))
=n
∑k=1
IE(XkI(T = k))+ IE(XT∧nI(T > n))
=n
∑k=1
IE(IE(Xn|X(1:k)I(T = k)
))+ IE(XT∧nI(T > n))
=n
∑k=1
IE(IE(XnI(T = k)|X(1:k)
))+ IE(XT∧nI(T > n))
=n
∑k=1
IE(XnI(T = k))+ IE(XT∧nI(T > n))
= IE(XnI(T ≤ n))+ IE(XT∧nI(T > n))
= IE(Xn) = IE(X0) . ♦
Il teorema precedente mostra che IE(X0) è uguale al valore atteso del processo inter-
rotto al tempo minimo tra T e il generico n. Inserendo l'ipotesi che il tempo d'arresto T
sia limitato possiamo enunciare il seguente teorema alternativo
Teorema 7.4. Se Xn,n≥ 0 è una martingala e T è un tempo d'arresto per la succes-
sione Xn; allora IE(XT ) = IE(X0) se vale una delle seguenti condizioni
248
T è limitato
oppure
IE(T )< ∞ ed esiste una costante c tale che
IE(|Xn+1−Xn||X0, . . . ,Xn)< c.
Dimostrazione 7.4. Si veda, ad esempio, Grimmett & Stirzaker [1992]
Un'applicazione diretta del teorema precedente permette una dimostrazione alternativa
dell'equazione di Wald. Siano allora X1,X2, . . . delle v.a. indipendenti e somiglianti con
media IE(X j)= µ e si ponga, per ogni n, Sn = ∑
nj=1 X j, con S0 = 0. Sia inoltre T un
tempo d'arresto per Sn. Allora
IE(ST ) = µ IE(T ) .
Per dimostrare questo risultato occorre prima vericare che la successione Mn =
Sn−nµ,n≥ 1 è una martingala, che lasciamo per esercizio. Inoltre
IE(|Mn+1−Mn| |M0, . . . ,Mn) = IE(|Xn+1−µ|)≤ IE(|Xn+1|)+ |µ|= c.
Perciò vale il teorema precedente e
IE(MT ) = IE(M0) = 0.
Ma MT = ST −µT e quindi
IE(ST ) = µ IE(T )
♦
7.3 Alcune disuguaglianze
Sia Xn,n≥ 1 una martingala composta da v.a. non negative. Sia t > 0. Deniamo le
seguenti due v.a.
U = maxn≥0
Xn, e Vn = maxk≤n
Xk. (7.1)
U è il massimo valore che la martingala raggiunge lungo l'intera traiettoria, mentre Vn è
il massimo raggiunto no al tempo n. Allora valgono le seguenti disuguaglianze
249
Teorema 7.5. [Stirzaker, 2005].
Pr(U ≥ t)≤ 1t
IE(X0)
e
IE(V 2
n)≤ 4IE
(X2
n).
Dimostrazione 7.5. Dimostriamo prima la disuguaglianza relativa alla U , tenendo
conto che
limn→∞
Vn =U. (7.2)
Definiamo allora T = minm : Xm ≥ t come il primo istante in cui la martingala tocca o
supera il livello t. Dunque la v.a. Tn = T ∧n è un tempo d’arresto limitato e per il Teorema
7.3,
IE(XTn) = IE(X0) = IE(Xn) .
Inoltre si può scrivere
IE(Xn) = IE(XT∧n) = IE(XT∧nI(T ≤ n))+ IE(XT∧nI(T > n))
≥ t IE(I(T ≤ n))+ IE(XT∧nI(T > n)) poiché XT ≥ t
= t Pr(T ≤ n)+ IE(XT∧nI(T > n))
≥ t Pr(T ≤ n) poiché le Xn ≥ 0.
Dunque
t Pr(T ≤ n)≤ IE(Xn) = IE(X0) .
Ora i due eventi T ≤ n e Vn ≥ t sono equivalenti e dunque
t Pr(Vn ≥ t)≤ IE(Xn) = IE(X0) ,
da cui la prima delle tue tesi, lasciando n tendere all’infinito.
Lo stesso risultato, noto come disuguaglianza di Doob, si può ottenere con una dimo-
strazione alternativa, costruita sullo spazio Ω di partenza. Consideriamo la successione di
eventi, incompatibili tra loro, tutti contenuti nello spazio Ω di partenza
Ak = ω : X1 < t,X2 < t, . . . ,Xk ≥ k , k = 1,2, . . . ,n.
250
Si ha chen⋃
k=1
Ak =
max
1≤k≤nXk ≥ t
.
Ciascun evento Ak può essere espresso in termini delle prime k v.a. della martingala; perciò
IE(Xn) =∫
Ω
Xn(ω)dP
≥∫⋃n
k=1 Ak
Xn(ω)dP
=n
∑k=1
∫Ak
Xn(ω)dP
=n
∑k=1
∫Ak
IE(Xn | X0, . . . ,Xk)dP
≥n
∑k=1
∫Ak
Xk(ω)dP
≥ tn
∑k=1
∫Ak
dP
= t Pr
(n⋃
k=1
Ak
)= t Pr(Vn ≥ t) ,
che fornisce, di nuovo, la tesi.
Per quanto riguarda la seconda tesi si ha
IE(V 2
n)
=∫
∞
0Pr(V 2
n > t)
dt
=∫
∞
0Pr(Vn >
√t)
dt
= 2∫
∞
0zPr(Vn > z)dz
≤ 2∫
∞
0IE(XnI(Vn ≥ z)dz (per la prima parte del teorema)
= 2IE(∫ Vn
0Xndx
)= 2IE(XnVn)
≤ 2√
IE(X2n ) IE(V 2
n )
251
Dunque, √IE(V 2
n )≤ 2√
IE(X2n )
ed elevando al quadrato si ottiene la tesi ♦
7.4 Applicazione al problema della rovina del gio-
catore
Il teorema del campionamento opzionale fornisce una via alternativa e più elegante per
riottenere i risultati già descritti nella 4.3. Torniamo allora alla situazione in cui due
giocatori si giocano un euro ad ogni partita. Il capitale iniziale del giocatore A è pari ad
a euro, quello del giocatore B è pari a b euro. Il giocatore A vince ognuna delle partite
(tra loro mutuamente indipendenti) con probabilità p. Vogliamo ora dimostrare, in modo
alternativo, che, quando p = q, detta ua la probabilità di rovina di un giocatore che parte
con a euro, si ottiene ua = b/(a+b). Se Sn è il capitale del giocatore A dopo n partite,
è facile dimostrare che Sn,n ≥ 0, con S0 = a, è una martingala. Infatti, per ogni n
Sn = Sn−1 +Xn, dove Xn vale 1 oppure −1 con uguale probabilità. Allora
IE(Sn | S0,S1, . . . ,Sn−1) = (Sn−1 +1)× 12+(Sn−1−1)× 1
2= Sn−1.
Inoltre, le regole del gioco fanno sì che, la v.a.
T = T0∧Ta+b,
ovvero il primo istante in cui uno dei due giocatori resta senza soldi, è un tempo di
arresto. Questo fa allora sì che
IE(Sn) = IE(ST ) = IE(S0) = a.
Tuttavia la v.a. ST può assumere solo i due valori 0 e a+ b: poniamo ρ = P(ST = 0)
e P(ST = a+ b) = 1−ρ . Ovviamente, ρ rappresenta quello che, nella $4.3, avevamo
chiamato ua. Dall'equazione
IE(ST ) = ρ×0+(1−ρ)× (a+b) = a
252
si ricava, come nella 4.3,
ρ = 1− aa+b
=b
a+b.
253
254
CAPITOLO 8
Moto browniano
Il moto browniano è un particolare processo stocastico che, per la sua trattabilità ma-
tematica, ha assunto una notevole popolarità nella letteratura economica e nanziaria;
esso rappresenta infatti un modello matematico sucientemente semplice da essere uti-
lizzato nelle applicazioni ordinarie della teoria delle decisioni in condizioni di incertezza.
Si può aermare che il moto browniano rappresenti probabilmente il più semplice modello
probabilistico in tempo continuo adatto a caratterizzare sistemi dinamici complessi quali
quelli di natura nanziaria.
Robert Brown, un biologo-botanico inglese, nel 1826, osservò che particelle sospese
nell'acqua depositata nell'incavo di un pezzo di quarzo, erano soggette a continui impatti e
avevano un moto caotico. Bown congetturò che le vibrazioni a cui era soggetto il quarzo si
propagavano nell'acqua, le cui molecole colpivano le particelle in sospensione provocando
un moto apparentemente caotico. Nei primi anni del '900, Einstein e Smoluchowski per
primi scoprirono che il caos poteva avere delle regole. Einstein per primo descrisse il
moto di una foglia che cade a terra da un albero, assumendo che essa venga sollecitata
dal calore mediante un gran numero di shocks indipendenti e somiglianti in un piccolo
255
intervallo di tempo; e proprio questa situazione sarà poi tipica del moto browniano.
La teoria di Einstein era molto complicata perché ai suoi tempi non esistevano quegli
strumenti matematici, primo tra tutti il concetto di media condizionata, che consentirono
a Wiener (1923) una formulazione più rigorosa di quello che poi diventerà noto come
processo di Wiener o moto browniano.
In campo economico, fu Louis Bachelier, che nel 1900, e quindi prima ancora di
Einstein, concepì l'andamento del valore di un asset nel tempo come inuenzato da
un numero enorme di shocks aleatori, ovvero le domande e le oerte dei singoli agenti.
Sebbene il modello di Bachelier fosse molto rozzo, in quanto assumeva che i cambiamenti
di prezzo nel tempo (e non i logaritmi) fossero normalmente distribuiti, la sua idea aprì
la strada ad ulteriori sviluppi che portarono alla teoria dei mercati ecienti, sviluppata
poi da ?, ed alla formalizzazione matematica della moderna nanza matematica.
8.1 Una prima denizione costruttiva
Si consideri una passeggiata aleatoria simmetrica in cui si compie un passo di ampiezza
±z ogni δ istanti, con δ > 0 piccolo a piacere. Nel tempo [0, t] si eettuano allora [t/δ ]
passi, dove [c] rappresenta la parte intera di c. Questo signica che ad ogni passo opera
una v. a.
X j =
z 1/2
−z 1/2.
per j = 1,2, . . . , [t/δ ] da cui IE(X j)= 0 e Var
(X j)= z2.
Siano poi
S0 = 0, e St =[t/δ ]
∑j=1
X j.
In genere δ è molto piccolo rispetto a t, e per questo consideriamo [t/δ ] = t/δ . Avremo
così
IE(St) = 0, e Var(St) =tδ
z2.
Inne, anché il processo abbia una varianza che non esploda o non degeneri (se non
per t → ∞. . . ) possiamo porre z =√
δ , ovvero l'ampiezza del passo è in una relazione
256
quadratica con la frequenza. Avremo così
X j =
+√
δ 1/2
−√
δ 1/2
e
IE(St) = 0, e Var(St) = t.
Consideriamo adesso t ssato, e facciamo tendere δ a zero. Per il Teorema del limite
centrale applicato alla quantità St avremo che
St−E(St)
σ(St)
d→ N(0,1),
oppure
St−E(St)d→ N(0, t).
Quello appena presentato è un modo costruttivo per denire un moto browniano o pro-
cesso di Wiener, come limite di passeggiate aleatorie simmetriche, rendendo la frequenza
e l'ampiezza dei passi entrambe innitesime, secondo un rapporto stabilito. Diamo ora
una denizione formale del processo.
Denizione 8.1. Una famiglia di v.a. Xt , t ∈ R è detta processo di Wiener se e solo
se soddisfa le seguenti condizioni:
1) X0 = 0
2) ∀(s1,s2, . . . ,sk) e (t1, t2, . . . , tk) tali che
s1 < s1 + t1 < s2 < s2 + t2 < · · ·< sk < sk + tk,
le v.a. Xs1+t1−Xs1 , Xs2+t2−Xs2 , . . . , Xsk+tk−Xsk sono mutuamente indipendenti;
3) ∀s≥ 0 e ∀t ≥ 0,
Xs+t−Xs ∼ N(0, t)
ed in particolare, ∀t > 0,Xt ∼ N(0, t)]
257
Un processo così denito ha alcune caratteristiche molto speciche che ora illustre-
remo con un certo dettaglio.
1. Le variabili incremento relative a intervalli disgiunti sono indipendenti e stazionarie.
Queste proprietà sono intuitivamente chiare se pensiamo alla costruzione del moto
browniano come limite di passeggiate aleatorie.
2. Le traiettorie del moto browniano sono, con probabilità 1, continue ma non die-
renziabili. Questo risultato è troppo avanzato dal punto di vista matematico per
essere dimostrato in modo rigoroso. Ne daremo una dimostrazione euristica alla
ne di questa sezione. Tuttavia è importante sapere che tutte le possibili traiettorie
del moto browniano saranno continue, ovvero possono essere tracciate senza mai
alzare la matita dal foglio: le traiettorie saranno inoltre talmente caotiche da
cambiare direzione continuamente, al punto da non poter calcolarne la derivata
in nessun punto.
3. Il moto browniano è. in tutto e per tutto una passeggiata aleatoria in tempo
continuo, e per questo eredita molte delle proprietà delle passeggiate aleatorie nel
discreto.
4. La denizione del moto browniano si dierenza da quella del processo di Poisson
solo per la legge di probabilità del processo ai vari istanti (legge gaussiana invece
che di Poisson).
Sulle traiettorie del moto browniano.
Diamo qui di seguito due teoremi che illustrano la natura continua ma non dierenziabile
delle traiettorie di un moto browniano. Le dimostrazioni saranno di natura euristica e
non rigorosa.
Teorema 8.1. Le traiettorie di un modo browniano X(t), t ≥ 0 hanno lunghezza innitain ogni intervallo di tempo limitato.
258
Dimostrazione 8.1. Consideriamo l’intervallo di tempo [0, t] e rifacendoci alla deri-
vazione del moto browniano come limite di passeggiate aleatorie, sappiamo che in tale
intervallo si effettuano t/δ passi, ognuno di ampiezza z per un cammino totale pari a
l = zt/δ . Ma z =√
δ e dunque l = t/√
δ , e
limδ→0
t√δ=+∞.
Teorema 8.2. Le traiettorie di un moto browniano X(t), t ≥ 0 sono continue ma non
dierenziabili, come se la traiettoria cambiasse direzione ad ogni intervallo innitesimale.
Dimostrazione 8.2. Consideriamo l’incremento del processo in un piccolo intervallo di
tempo X(t +∆t)−X(t); esso ha distribuzione normale con media 0 e varianza ∆t. Inoltre
IE(| X(t +∆t)−X(t) |2
)= ∆t,
ovvero, la dimensione “tipica” dell’incremento | X(t +∆t)−X(t) | è dell’ordine di√
∆t.
Quando ∆t → 0, anche√
∆t → 0, e questo è in accordo con la continuità delle traiettorie.
Tuttavia, se consideriamo la derivata
∂X(t)∂ t
= lim∆t→0
X(t +∆t)−X(t)∆t
≈ lim∆t→0
1√∆t
.
In pratica per valori di ∆t molto piccoli, il valore assoluto del numeratore è dell’ordine di√
∆t che è molto più grande di ∆t e quindi il limite non esiste. Questo implica, sebbene
in modo tutt’altro che rigoroso, che il moto browniano X(t) ha traiettorie che non sono
differenziabili in alcun punto.
8.2 Distribuzioni associate al moto browniano
Fin dalla denizione si evince che il moto browniano è un processo stazionario in me-
dia, ovvero IE(Xt) = 0, ∀t > 0, ma non in varianza in quanto Var(Xt) è funzione di t.
Una immediata generalizzazione del processo si ha qualora si assuma che i passi della
passeggiata aleatoria iniziale siano di ampiezza c√
δ cosicché Xt ∼ N(0,c2t) cioè
fXt (u) =1
c√
2πtexp(− 1
2c2tu2)
259
Il parametro c governa l'ampiezza delle uttuazioni delle traiettorie intorno al valore
medio.
Determiniamo ora la leggi multivariate del processo, ovvero la densità congiunta del
livello del processo agli istanti t1 < t2 < · · ·< tk. Sia allora t = (t1, . . . , tk) la generica k-pla
di tempi e x = (x1, . . . ,xk) un generico valore di Rk. Si vuole determinare la legge del
vettore aleatorio
X = Xt = (Xt1,Xt2, . . . ,Xtk) .
Dunque,
fX(x) = fX(x1,x2, . . . ,xk)
= ft1(x1) ft2(x2|x1) ft3(x3|x2,x1) . . . ftn(xk | xk−1, . . .x1)
= ft1(x1) ft2(x2|x1) ft3(x3|x2) . . . ftk(xk|xk−1),
dove il simbolo ft j(x j|x j−1) rappresenta la densità della v.a. Xt j nel punto x j condizionata
all'informazione che Xt j−1 = x j−1. Nei calcoli precedenti, mentre le prime due uguaglianze
sono ovvie, la terza deriva dalla natura markoviana del processo, ereditata dalla sua natura
di limite di passeggiate aleatorie. Inoltre, per la omogeneità temporale si ha che, per ogni
j = 2, . . . ,k
ft j(x j|x j−1) = ft j−t j−1(x j− x j−1),
cosicché, ponendo per comodità di notazione x0 = t0 = 0, avremo
fX(x) = ft1(x1) ft2−t1(x2− x1) ft3−t2(x3− x2) . . . ftk−tk−1(xk− xk−1)
=k
∏j=1
ft j−t j−1(x j− x j−1)
=k
∏j=1
1c√
2π√(t j− t j−1)
exp(−
(x j− x j−1)2
2c2(t j− t j−1)
)Abbiamo così ridotto, per la proprietà di Markov, la distribuzione congiunta ad un prodot-
to di densità univariate ognuna condizionata al valore osservato al tempo immediatamente
precedente. Inoltre, la legge del vettore X, essendo il prodotto di k normali univariate, è
260
ancora di tipo normale, con vettore delle medie e matrice di covarianza che specicheremo
nel seguito.
Questo tipo di semplicazione rende alcuni calcoli molto semplici; ad esempio, sup-
poniamo di voler calcolare la densità del processo al tempo s sapendo che al tempo t > s
si avrà Xt = L. In altri termini occorre determinare la legge di (Xs|Xt = L) per s < t.
Avremo allora
fs|t(x|L) = fXs|Xt (x|L) = fs,t(x,L)/ ft(L)
= fs(x) ft−s(L− x)/ ft(L)
=1
c√
2πse(− 1
2c2sx2)
1c√
2π(t− s)e− 1
2c2(t−s)(L−x)2 c
√2πt
e−L2
2c2t
=1
c√
2π
√t
s(t− s)exp(− 1
2c2 [x2
s+
(L− x)2
t− s− L2
t])
=1
c√
2π
√t
s(t− s)exp(− 1
2c2x2(t− s)t +(L− x)2ts−L2s(t− s)
st(t− s))
=1
c√
2π
√t
s(t− s)exp(− 1
2c2t
s(t− s)[x2 (t− s)
t+(L− x)2 s
t−L2 s(t− s)
t2 ])
=1
c√
2π
√t
s(t− s)exp(− 1
2c2t
s(t− s)[x2(1− s
t+
st)−2Lx
st+L2(
st− s
t+
s2
t2 )]
=1
c√
2π
√t
s(t− s)exp(− 1
2c2t
s(t− s)[x2−2xL
st+
L2s2
t2 ])
=1
c√
2π
√t
s(t− s)exp(− 1
2c2t
s(t− s)(x− s
tL)2).
Allora
Xs|(Xt = L)∼ N(
Lst,c2 s(t− s)
t
). (8.1)
È importante sottolineare che il moto browniano appartiene alla famiglia dei processi gaus-
siani, ovvero ad una categoria di processi in cui tutte le distribuzioni nito-dimensionali
risultano di tipo gaussiano.
Denizione 8.2. Sia Xt , t ≥ 0 un processo tale che
261
1) X0 = 0
2) Per ogni k e per ogni k-pla (t1, t2, . . . , tk) il vettore aleatorio (Xt1,Xt2, . . . ,Xtk) ∼Nk(µ,Σ), per qualche vettore µ e qualche matrice simmetrica semidenita positiva
Σ,
si chiama processo gaussiano: il processo è interamente caratterizzato da µ = µ(t) e
Σ = σ(t,s),s, t ∈ℜ+.
Avendo già mostrato, nel caso del moto browniano, che la legge congiunta di (Xt1,Xt2, . . . ,Xtk)
è un prodotto di leggi normali e quindi a sua volta normale, il moto browniano è un pro-
cesso gaussiano. Esso potrà essere descritto completamente dal vettore µ delle medie e
dall'elemento generico σ(t,s) = Cov(Xs,Xt). Si vede facilmente che il vettore delle medie
è composto da tutti zeri (ovvero µt = IE(Xt) = 0,∀t ≥ 0), mentre, per s < t,
σ(s, t) = Cov(Xs,Xt) = Cov(Xs,Xs +Xt−Xs)
= Var(Xs)+Cov(Xs,Xt−Xs) = sc2 +0 (per l'indipendenza degli incrementi)
= sc2
Più in generale risulterà
σ(s, t) = c2(s∧ t).
Esempio 8.1 Si consideri un moto browniano standard Xt , t ≥ 0 con c = 1. Se volessimo
scrivere la distribuzione congiunta delle variabili (X3,X5,X10) avremo che
IE
X3
X5
X10
=
0
0
0
,
e
Var
X3
X5
X10
=
3 3 3
3 5 5
3 5 10
.
♦
262
8.2.1 Il ponte browniano
Consideriamo un moto browniano vincolato a tornare al livello 0 ad un dato istante t0: per
semplicità notazionale poniamo t0 = 1 e studiamo il moto browniano Xs,s ∈ R sotto
la condizione X1 = 0. Per quanto già visto nel paragrafo precedente, ponendo t = 1 e
L = 0, la legge univariata di Xt |X1 = 0 per t < 1 è
Xt |X1 = 0∼ N(0, t(1− t)c2).
Dunque il ponte browniano ha tutte le distribuzioni marginali con media nulla. Inoltre,
poiché le distribuzioni condizionate associate ad una legge normale multivariata sono
ancora normali, il ponte browniano è un processo gaussiano. Per essere completamente
caratterizzato, è necessario allora ottenere la funzione di coviarianza
Cov(Xs,Xt | X1 = 0) , (s, t)< 1.
Senza perdere in generalità assumiamo s < t. Avremo allora
Cov(Xs,Xt | X1 = 0) = IE(XsXt |X1 = 0)
= IE(IE(XsXt |Xt ,X1 = 0) |X1 = 0)
= IE(Xt IE(Xs|Xt) |X1 = 0) (per la markovianità )
= IE(
X2t
st|X1 = 0
)(per la 8.1)
=st
IE(X2
t | X1 = 0)
=st
t(1− t)c2 = s(1− t)c2
Il ponte browniano è importante anche per le sue applicazioni statistiche. Vedre-
mo adesso come, in una impostazione non parametrica dell'inferenza, la distribuzione
campionaria della funzione di ripartizione empirica ha distribuzione che converge asin-
toticamente a quella di un moto browniano. Per semplicità assumiamo di osservare un
campione (X1,X2, . . . ,Xn)iid∼ U(0,1) e, ssato 0 < s < 1, denotiamo con Nn(s) il nume-
ro di osservazioni con valore minore o uguale ad s. Formalizziamo questa grandezza,
263
introducendo, per ogni j = 1, . . .n, la v.a.
I j(s) =
1 X j ≤ s
0 X j > s.
In questo modo si avrà Nn(s) = ∑nj=1 I j(s); essendo le I j(s) mutuamente indipendenti,
risulta
Nn(s)∼ Bin(n,s).
Per la legge forte dei grandi numeri, avremo allora che, per n→ ∞,
Fn(s) =Nn(s)
nn→∞→ IE(I1(s)) = Pr
(X j ≤ s
)= FX(s) = s.
È anche noto che, per il teorema di Glivenko e Cantelli, la convergenza alla vera funzione
di ripartizione è uniforme, ovvero
sup0<s<1
|Fn(s)− s| → 0.
Utilizzando il teorema del limite centrale è anche possibile dimostrare che, sempre per s
ssato,√
n(Fn(s)− s)≈ N(0,s(1− s))
ovvero, ponendo Tn(s) =√
n(Fn(s)− s),
limn→∞
Pr(Tn(s)≤ x) =∫ x
−∞
ϕ (u,0,s(1− s))du,
dove ϕ(a,b,c) è la densità di una legge gaussiana di media b, varianza c, calcolata in
a. Dunque, per s ssato, la funzione di ripartizione empirica converge ad una legge nor-
male. Analizziamo ora il comportamento asintotico della legge congiunta della funzione
di ripartizione empirica trasformata Tn(s) e calcolata in diversi tempi. Essa converge ad
un processo gaussiano di cui dobbiamo calcolare media e matrice di covarianza. Il valor
264
medio è pari a zero ∀t e questo è ovvio. La covarianza vale invece
Cov(Tn(s),Tn(t)) = Cov(√
n(Fn(s)− s),√
n(Fn(t)− t))
= nCov(Fn(s),Fn(t)) =1n
Cov(Nn(s),Nn(t))
=1n[IE(Nn(s)Nn(t))− IE(Nn(s)) IE(Nn(t))]
=1n
IE(IE(Nn(s)Nn(t)|Nn(s)))−1n
n2st
=1n
IE(Nn(s) IE(Nn(t)|Nn(s)))−nst
=1n
IE(
Nn(s)[
Nn(s)+ [n−Nn(s)]t− s1− s
])−nst,
dove l'ultimo passaggio è motivato dal fatto che, sapendo che Nn(s) delle v.a. risultano
minori di s, il valore medio di tutte quelle minori di t si ottiene considerando le Nn(s) e
aggiungendo il valor medio delle altre, ottenibile ricalibrando le probabilità di successo.
Avremo dunque
Cov(Tn(s),Tn(t)) =1n
[IE((N2
n (s)+(nNn(s)−N2
n (s)) t− s
1− s
)]−nst
=1n
IE(
N2n (s)(1−
t− s1− s
)+nNn(s)t− s1− s
)−nst
Il momento secondo di Nn(s) = Nn vale
IE(N2
n)= Var(Nn)+(IE(Nn))
2 = ns(1− s)+n2s2.
Dunque
Cov(Tn(s),Tn(t)) =1n
[1− t1− s
(ns−ns2 +n2s2)+n2 s(t− s)1− s
]−nst
=1− t1− s
(s− s2 +ns2)+ns(t− s)
1− s−nst
=1− t1− s
[s(1− s)+ns2]+nst−ns2−nst +ns2t
1− s
= (1− t)s+(1− t)ns2
1− s+
ns2(1− t)1− s
= s(1− t).
Dunque, il processo Tn(s), s > 0 converge ad un processo gaussiano con elemento di
covarianza pari a s(1− t) che riconosciamo essere quello di un ponte browniano.
265
8.2.2 Altri risultati
Tempo di primo passaggio
Consideriamo un moto browniano standard (c = 1) e deniamo la v.a. positiva
Ta = Tempo di primo passaggio in a,
e calcoliamone la distribuzione. Senza perdere in generalità assumiamo a > 0. Conviene
esprimere la grandezza Pr(Ta ≤ t) in termini della Pr(X(t)≥ a). Si ha infatti
Pr(X(t)≥ a) = Pr(X(t)≥ a|Ta ≤ t)Pr(Ta ≤ t)
+ Pr(X(t)≥ a|Ta > t)Pr(Ta > t) .
Quando (Ta ≤ t), il processo tocca a non oltre il tempo t e, per la markovianità, al tempo
t il processo si troverà sopra o sotto il livello a con uguale probabilità. Se invece Ta > t,
l'evento X(t)≥ a ha probabilità nulla. Dunque
Pr(X(t)≥ a) =12
Pr(Ta ≤ t) . (8.2)
È possibile allora calcolare la funzione di ripartizione della v.a. Ta:
Pr(Ta ≤ t) = 2∫
∞
a
1√2πt
exp−x2
2tdx
=2√2π
∫∞
a/√
texp−u2
2du ponendo x/
√t = u
= 2[
1−Φ
(a√t
)].
La funzione di densità si ottiene per derivazione e vale
fTa(t) =∂
∂ t2[
1−Φ
(a√t
)]=
at3/2 ϕ
(a√t
)=
a√2π
1t3/2 exp
(−1
2a2
t
), (8.3)
266
che è la densità di una v.a. Gaussiana Inversa. Dall'espressione della funzione di
ripartizione di può desumere che
Pr(Ta < ∞) = limt→∞
Pr(Ta ≤ t) = 1, (8.4)
ovvero il processo toccherà qualunque livello a con certezza. Inoltre il tempo medio di
primo passaggio in a si ottiene, ricordando il teorema 2.4, come segue
IE(Ta) =∫
∞
0Pr(Ta > t)dt
=∫
∞
0
[1−2Φ
(− a√
t
)]dt
=∫
∞
0
[Φ
(− a√
t
)−Φ
(− a√
t
)]dt
=∫
∞
0
∫ a/√
t
−a/√
tϕ(y)dydt
= 2∫
∞
0
∫ a/√
t
0
1√2π
exp−(12
y2)dydt
= 2∫
∞
0
∫ a2
y2
0
1√2π
dt exp−(12
y2)dy
=2a2√
2π
∫∞
0
1y2 exp−(1
2y2)dy
≥ 2a2√
2π
∫ 1
0
1y2 exp−(1
2y2)dy >
2a2√
2π
∫ 1
0
1y2 exp−(1
2)dy = ∞
Dunque, il processo tocca qualunque livello a con probabilità 1 ma il tempo medio che
impiega per arrivare ad a è innito, per quanto piccolo sia a! Questo dipende dal fatto
che, con probabilità positiva, il processo prende una direzione opposta ad a ed il tempo
di ritorno può essere innitamente lungo.
Va aggiunto che, per simmetria, Tad= T−a, e la densità della v.a. T−a si ottiene
riscrivendo la (8.3) con |a| al posto di a. Nella derivazione della (8.2) abbiamo utilizzato
un caso particolare di un risultato più generale che va sotto il nome di principio di
riessione. Se, ssato un tempo d'arresto T , a partire da quel punto riettiamo il moto
browniano originale, il nuovo processo sarà ancora un moto browniano. Più precisamente
267
Teorema 8.3. Sia T un tempo di arresto per il moto browniano standard Xt , t ≥ 0.Allora, il processo così denito ∀t ≥ 0,
X∗t = XtI(t≤T )+(2XT −Xt) I(t>T )
è ancora un moto browniano standard.
0.0 0.2 0.4 0.6 0.8 1.0
−6
−4
−2
02
46
Principio di riflessione
t
Un'altra quantità di interesse è la v.a. massimo livello del processo in [0, t], denito da
Yt = max0≤s≤t
X(s).
268
La funzione di ripartizione di Yt si calcola facilmente sulla base dei risultati precedenti.
Per a > 0,
Pr(Yt ≥ a) = Pr(Ta ≤ t)
= 2Pr(X(t)≥ a)
=2√2π
∫∞
|a|/√
texp−(u2
2)du,
da cui
FYt (a) = 1−Pr(Ta ≤ t) = 1−FTa(t).
Tempo di massimo livello
Come conseguenza dei risultati della sezione precedente, descriveremo ora la legge di
probabilità dell'istante aleatorio Ht in cui il processo X(s) raggiunge per la prima volta il
suo massimo valore nell'intervallo [0, t] (Orsingher [2005], pag.84). Sia
Ht = inf
s < t : X(s) = maxz∈(0,t)
X(z).
Otterremo la distribuzione di Ht come legge marginale della distribuzione doppia di Ht e
della v.a.
max0≤z≤t
X(z).
Avremo allora
Pr(
Ht ∈ ds, max0≤z≤t
X(z) ∈ da)
= Pr(
Ta ∈ ds, maxs≤z≤t
X(z) ∈ da)
= Pr(Ta ∈ ds)Pr(
maxs≤z≤t
X(z) ∈ da|Ta ∈ ds)
= Pr(Ta ∈ ds)Pr(
maxs≤z≤t
X(z) ∈ da|X(s) = a)
[proprietà di Markov forte]
269
Concentriamoci ora sulla funzione di ripartizione associata al fattore dell'ultima quantità
scritta. Per la omogeneità spazio-temporale del processo si può scrivere
Pr(
maxs≤z≤t
X(z)≤ r|X(s) = a)
(8.5)
= Pr(
maxz∈(0,t−s)
X(z)≤ r−a|X(0) = 0)
= 1−2Pr(X(t− s)≥ r−a)
= 1−2+2Pr(X(t− s)≤ r−a)
= 2Pr(X(t− s)≤ r−a)−1
La derivata della (8.5) sarà allora
Pr(
maxs≤z≤t
X(z) ∈ dr | X(s) = a)
= 2ϕ(r−a√t− s
)1√t− s
=2√
2π√
t− sexp(−1
2(r−a)2
t− s
),
per ogni s < t. Ponendo r = a si ottiene
Pr(
maxs≤z≤t
X(z) ∈ da | X(s) = a)=
2da√2π(t− s)
.
Tornando al calcolo principale, si ha dunque
Pr(
Ht ∈ ds, maxs≤z≤t
X(z) ∈ da)
= Pr(Ta ∈ ds)2da√
2π(t− s)
=2da√
2π(t− s)
∂
∂ s
[2√2π
∫∞
|a|√s
exp(−u2
2)du
]
=2da√
2π(t− s)
2√2π
exp−(a2
2s)
a
2√
s3ds
=dads
π√
s3(t− s)a exp(−a2
2s)
270
Integrando rispetto ad a, si ottiene
Pr(Ht ∈ ds) =ds
π√
s3(t− s)
∫∞
0aexp(−a2
2s)da
=ds
π√
s(t− s)
∫∞
0
as
exp(−a2
2s)da
=ds
π√
s(t− s)
[−∫
∞
0d exp
(−a2
2s
)]=
ds
π√
s(t− s),
È facile vedere cheHt
t∼ Beta(1/2,1/2).
Infatti, sia Yt = Ht/t. Allora
fYt (y) = fHt (ty) |∂Ht
∂Yt|
=tdy
π√
ty(t− ty)
=dy
π√
y(1− y), y ∈ (0,1).
Il moto browniano come martingala.
Il moto browniano standard è una martingala rispetto alla successione B(s),s ≥ 0.Osserviamo infatti che per t > s:
IE(B(t)|B(u),u≤ s) = IE(B(s)+B(t)−B(s)|B(u),u≤ s)
= B(s)+ IE(B(t)−B(s)|B(u),u≤ s) = B(s).
Nell'ultimo passaggio si sono considerate la proprietà di indipendenza degli incrementi ed
il fatto che IE(B(s)) = 0, per ogni s. Ovviamente, per ogni t, IE(|B(t)|)< ∞.
271
8.3 Alcune varianti del moto browniano
8.3.1 Moto browniano con drift o deriva
Un processo X(t), t ≥ 0 si chiama moto browniano con drift µ e parametro di varianza
σ2 se
1. X(0) = 0;
2. X(t), t ≥ 0 ha incrementi stazionari e indipendenti
3. ∀t > 0, X(t)∼ N(µt,σ2t)
Si ottiene un moto browniano con drift e varianza a partire da un moto browniano standard
B(t), t ≥ 0 con la trasformazione lineare
X(t) = σB(t)+µt, t > 0.
8.3.2 Moto browniano geometrico
A partire da un moto browniano X(t), t ≥ 0, con drift µ e parametro di dispersione
σ2, è possibile denire un moto browniano geometrico Y (t) mediante la trasformazione,
denita per ogni t ≥ 0, da
Y (t) = exp(X(t))
Il moto browniano geometrico, a dierenza di quello standard, assume solo valori non
negativi e questo lo rende un modello matematico particolarmente adatto alle applicazioni
economiche e nanziarie.
Intermezzo: la legge log-normale
Sia X ∼ N(µ,σ2), e consideriamo la trasformazione Y = eX . La densità di Y si ottiene
mediante calcoli standard
fY (y) = fX(logy) | ∂X∂Y|
=1√
2πσyexp(− 1
2σ2 (logy−µ)2)
272
La v.a. Y ha distribuzione log-normale di parametri µ e σ . Il calcolo dei momenti
è semplice se si ricorre alla funzione generatrice dei momenti per una legge normale.
Sappiamo già che, se X ∼ N(µ,σ2),
MX(u) = IE(euX)= exp
(µu+
σ2u2
2
).
Dunque,
IE(Y ) = IE(eX)= MX(1)
= exp(
µ +σ2
2
),
e
Var(Y ) = IE(Y 2)− [IE(Y )]2
= IE(e2X)− [IE(eX)]2
= MX(2)− [MX(1)]2
= exp(2µ +2σ
2)− exp(2µ +σ
2)= exp
(2µ +σ
2)(exp(σ
2)−1).
Torniamo allora al moto browniano geometrico e calcoliamone il livello medio al tempo
t sulla base di quanto avvenuto in precedenza. Calcoliamo cioè. per s < t, la quantità
IE(Y (t) | Y (u),0≤ u≤ s).
IE(Y (t) | Y (u),0≤ u≤ s) = IE(
eX(t) | X(u),0≤ u≤ s)
= IE(
eX(s)+X(t)−X(s) | X(u),0≤ u≤ s)
= eX(s) IE(
eX(t)−X(s) | X(u),0≤ u≤ s)
= Y (s) IE(
eX(t)−X(s))
[incrementi indipendenti].
Poiché X(t)−X(s)∼ N(µ(t− s),σ2(t− s)), il calcolo precedente relativo ai momenti di
una v.a. log-normale ci dice che
IE(
eX(t)−X(s))= exp
(µ(t− s)+
12
σ2(t− s)
)273
e
IE(Y (t) | Y (u),0≤ u≤ s) = X(s)exp(
µ(t− s)+12
σ2(t− s)
).
Il moto browniano geometrico può essere molto utile per la modellizzazione nel tempo
dei prezzi nei mercati nanziari, quando si assume che le variazioni percentuali di un
prezzo siano indipendenti e somiglianti. Allora, se Xn è il prezzo al tempo n e si assume
che le v.a. Xn/Xn−1, con n≥ 1, siano indipendenti e somiglianti, si vede facilmente che,
ponendo Yn = Xn/Xn−1, si ha, per ogni n,
Xn = YnXn−1 = YnYn−1Xn−2 = · · ·= YnYn−1 · · ·Y2Y1X0,
ovvero
logXn = logX0 +n
∑j=1
logYj. (8.6)
Essendo le logYj indipendenti e somiglianti, la loro somma, adeguatamente standardiz-
zata, si distribuirà approssimativemente come un moto browniano con drift, e dunque il
processo Xn,n≥ 0 sarà l'approssimazione di un moto browniano geometrico.
8.4 Alcuni risultati sul moto browniano
In questo paragrafo utilizzeremo alcune nozioni relative alle martingale, in particolare
il teorema del campionamento opzionale per risolvere alcuni semplici problemi associati
ad un moto browniano. Per approfondimenti su questi aspetti si veda Orsingher [2005].
Consideriamo allora un moto browniano standard X(t), t ≥ 0 limitato all'intervallo [a,b]
con a < 0 < b. Vogliamo studiare il processo in corrispondenza di alcuni tempi aleatori;
in particolare, vogliamo considerare il tempo di arresto
Ta,b = min(Ta,Tb) = (Ta∧Tb),
dove
Ta = inft : X(t) = a , Tb = inft : X(t) = b .
Deniamo la quantità,
u(x) = Pr(Ta < Tb | X(0) = x) .
274
Essa rappresenta, nel continuo, la probabilità di rovina del giocatore già incontrata: essa
valuta la probabilità di raggiungere prima il limite a rispetto al limite b, per un moto
browniano che parte da un punto x ∈ (a,b). Per quanto riguarda il caso a), ricorrendo al
teorema 7.3, si può scrivere
IE(X(Ta,b)
)= IE(X(0)) .
Dunque, se X(0) = x, si ricava
x = a×Pr(Ta < Tb | X(0) = x)+b×Pr(Ta > Tb | X(0) = x)
= (a−b)u(x)+b,
da cui si ricava
u(x) =b− xb−a
.
Consideriamo adesso la quantità
IE(Ta∧Tb | X(0) = x) .
Essa rappresenta la durata media del gioco nel caso continuo. In questo caso il risultato
si può ottenere tenendo conto che U(t) = X2(t)− t è una martingala. Allora, ancora per
il teorema 7.3,
IE(U(Ta,b)
)= IE
(X2(Ta,b)−Ta,b
)= IE
(X2(0)
)= x2.
Dunque
IE(Ta,b | X(0) = x
)= a2×Pr(Ta < Tb | X(0) = x)
+ b2×Pr(Ta ≥ Tb | X(0) = x)− x2
= a2(
b− xb−a
)+b2
(1− b− x
b−a
)− x2
=1
b−a
(ab(a−b)− x(a2−b2)− x2(b−a)
)= (a− x)(x−b).
Questo risultato generalizza quello trovato a proposito della rovina del giocatore in cui si
partiva da x = 0 e si era ottenuto un tempo medio di durata del gioco pari ad ab.
275
276
APPENDICE A
Alcune nozioni di algebra lineare
Denizioni preliminari
Una matrice A si dice quadrata se ha lo stesso numero d di righe e colonne. Relativamente
ad una matrice quadrata A si dice che
A è simmetrica se ai j = a ji, i, j = 1, · · ·d;
A è denita positiva (denita non-negativa) se
t′At > 0; (t
′At≥ 0)
per ogni vettore t ∈ Rd, t 6= 0d, dove 0d è un vettore composto da d zeri.
A è ortogonale se A′= A−1 (ovvero se, A
′A = AA
′= Id).
Si dice che λ ∈C è un autovalore di A se A−λ I è singolare (o, in modo equivalente
se det(A−λ I) = 0). Se x ∈ Cd\0 soddisfa la relazione Ax = λx, allora x è un
autovettore associato all'autovalore λ .
277
Si denisce traccia di A la somma degli elementi sulla diagonale principale, ovvero
tr(A) =k
∑j=1
a j j.
La traccia gode di alcune proprietà. Se A e B sono due matrici quadrate di dimensione
d, allora
tr(A+B) = tr(A)+ tr(B) (A.1)
e
tr(AB) = tr(BA) . (A.2)
La proprietà (A.1) garantisce che la traccia è un operatore lineare. La proprietà (A.2)
continua a valere anche in caso di matrici non quadrate ma tali che lo siano i loro prodotti,
ovvero nel caso in cui A ha dimensione k×h e B ha dimensione h× k.
Si può dimostrare che se una matrice simmetrica è denita positiva allora i suoi k
autovalori sono tutti strettamente positivi.
Teorema A.1. [della decomposizione spettrale].
Se A è una matrice simmetrica denita positiva, esiste una matrice ortonormale1 Q della
stessa dimensione di A tale che
A = QΛQ′,
dove Λ = diag(λ1, · · · ,λk) è una matrice diagonale costruita con gli autovalori di A,
mentre le colonne di Q sono gli autovalori di A.
Da quanto sopra si deduce anche, ricordando proprietà elementari del determinante e
dell'inversa di una matrice quadrata, che
| A |=k
∏j=1
λ j
e
A−1 = QΛ−1Q′.
1tale cioè, che le colonne hanno norma pari a 1, sono tra loro ortogonali, e vale la relazione Q′ = Q−1.
278
Data una matrice simmetrica di dimensione k denita positiva, è possibile denire la
matrice radice quadrata di A ovvero quella matrice R tale che A = RR′; in virtù del
teorema precedente basta porre
R = QΛ1/2 = Qdiag
(√λ1, · · · ,
√λk
).
Da questo si deduce, inoltre, che
| R |=| A |1/2; R−1 = Λ−1/2Q′.
279
280
APPENDICE B
Nozioni di calcolo combinatorio
Qui di seguito riportiamo i principali risultati relativi ai vari modi in cui è possibile
contare N oggetti a seconda delle regole di conteggio. Si abbia allora un insieme
I = a1, a2, . . . , an di n oggetti; si vuole contare il numero dei possibili modi che esistono
per suddividere questi oggetti e contare in quanti modi essi possono essere raggruppati.
Iniziamo da un principio basilare, la cosiddetta regola moltiplicativa. Se un esperi-
mento consiste nel prendere a caso un oggetto a dall'insieme I e poi di scegliere un altro
oggetto b da un altro insieme J = b1, b2, . . . , bm, di m oggetti, allora i possibili risultati
complessivi di questo esperimento composto saranno m ·n, ovvero
(a1,b1) (a1,b2) . . . . . . (a1,bm)
(a2,b1) (a2,b2) . . . . . . (a2,bm)
. . . . . . . . . . . . . . .
(an,b1) (an,b2) . . . . . . (an,bm)
Ad esempio, se esistono 3 dierenti strade per andare da Firenze a Roma e altre 5 strade
per andare da Roma a Napoli, allora i modi per andare da Firenze a Napoli, passando
281
per Roma, sono 3 · 5 = 15. Questa regola può essere facilmente estesa ad un numero
qualunque di stadi dell'esperimento.
Nel seguito illustreremo i principali criteri del calcolo combinatorio outilizzando come
esempi guida le metafore del mazzo di n carte distringuibili tra loro o, in alternativa,
quello dell'urna contenente n palline, anche queste considerate distinguibili tra loro.
Raggruppamenti ordinati e non: estrazioni senza ripetizione
Si ha un mazzo di n carte e se ne estrae una a caso. Dal mazzo rimanente, composto
da n−1 carte, se ne estrae un'altra, e poi ancora una dal mazzo di n−2 carte. Questo
procedimento è chiamato di estrazione senza ripetizione. I possibili tris di carte estratte
sono, in base alla regola moltiplicativa, n(n−1)(n−2). Si può ovviamente generalizzare
il ragionamento a un qualunque numero di estrazioni, diciamo k(k≤ n) e il numero totale
di k-ple di n elementi presi k alla volta sarà allora pari a
Pn,k = n(n−1)(n−2) . . . (n− k+1) =n!
(n− k)!.
Il simbolo Pn,k, iniziale di permutazioni rappresenta dunque il numero di possibili estra-
zioni di k elementi da un insieme di n, tenendo conto dell'ordine in cui tali estrazioni sono
state eettuate. Quando k = n, cioè quando tutte le carte sono estratte, si ha Pn,n = n!,
che rappresenta dunque anche il numero dei modi in cui n oggetti possono essere ordinati
tra loro. Abbiamo già notato che questo tipo di estrazione è ordinata, perchè si tiene
conto dell'ordine in cui le carte vengono estratte. Ad esempio, le n! permutazioni di n
oggetti sarebbero in realtà tutte uguali qualora non tenessimo conto dell'ordine di estra-
zione e si considerassero uguali insiemi composti dagli stessi elementi. Cosa accade allora
se vogliamo individuare non più le permutazioni, bensì le combinazioni di n elementi presi
k per volta? In altri termini, quanti modi abbiamo di estrarre k oggetti da un insieme di
n, quanlora non si voglia tener conto dell'ordine di estrazione?
Iniziamo con un esempio relativo a un mazzo di sei carte da cui ne vengono estratte due.
Sappiamo già che P6,2 = 6 · 5 = 30.
Tuttavia, se consideriamo uguali le coppie (1,5) e (5,1), (1,3) e (3,1), e così via,
282
(1,2) (1,3) (1,4) (1,5) (1,6)
(2,1) (2,3) (2,4) (2,5) (2,6)
(3,1) (3,2) (3,4) (3,5) (3,6)
(4,1) (4,2) (4,3) (4,5) (4,6)
(5,1) (5,2) (5,3) (5,4) (5,6)
(6,1) (6,2) (6,3) (6,4) (6,5)
avremo che il numero delle Cn,k sarà pari a 15 = 302! .
Più in generale Pn,k =Cn,k · k!, in quanto le permutazioni di n oggetti di classe k sono
uguali a gruppi di k!, tenendo conto dei k! modi in cui si possono riordinare i k oggetti
estratti. Dunque,
Cn,k=Pn,k
k!=
n!(n− k)!k!
=
(nk
),
ovvero il numero delle permutazioni si ottiene dalle combinazioni, ognuna contata tante
volte quante sono le permutazioni dei suoi elementi. Il simbolo(nk
)prende il nome di coeciente binomiale, di cui parleremo tra breve.
Finora, dunque, siamo in grado di riempire due caselle della tabella che segue
ORDINATO NON ORDINATO
Estrazioni senza ripetizione Pn,k =n!
(n−k)! Cn,k=(n
k
)Estrazioni con ripetizione
Nel seguito riempiremo anche le restanti due caselle. Esempio B.1 Dobbiamo colloca-
re 6 libri su uno scaale. In quanti modi possono essere ordinati? [Risposta: 6!= 720] ♦
Esempio B.2 Un'associazione di 25 membri deve eleggere un segretario e un presidente.
283
In quanti modi possiamo selezionare una coppia di persone? Supponiamo poi che la stessa
associazione voglia eleggere un comitato di 8 persone. Quanti possibili comitati esistono?
[Risposta: (1) P25,2 = 25 ·24 = 600; (2) 25!8!17! ] ♦
Proprietà del coeciente binomiale
Il coeciente binomiale gode di alcune proprietà. Esso à deginito da(nk
)=
n!k!(n− k)!
, k ≤ n
Per convenzione si assume che 0! = 1. Questo implica che(n0
)= 1 =
(nn
)Più in generale, si avrà la seguente relazione di simmetria:(
nk
)=
(n
n− k
).
L'ultima relazione scritta appare ovvia non appena si consideri la denizione stessa del
coeciente binomiale. Una sua semplice interpretazione probabilistica è che, il numero
di modi di estarre k palline da un'urna non può che coincidere con il numero di modi di
lasciare n− k palline nell'urna. Questo modo di ragionare porge un nuovo signicato del
coeciente binomiale: se un'urna contiene k palline bianche ed n− k palline bianche, e
queste palline vengono estratte e messe in la, Cn,k rappresenta il numero di modi in cui
posizionare le k palline rosse, oppure le n− k palline bianche.
Una seconda proprietà è data da(nk
)=
(n−1k−1
)+
(n−1
k
), ∀k ≤ n :
La suddetta relazione può essere facilmente ottenuta mediante il calcolo diretto. Esiste
però una giusticazione combinatoria più interessante. Supponiamo di avere un'urna con
284
1 pallina rossa e n−1 palline bianche. I modi di estrarre k palline dall'urna, con il vincolo
che ci sia tra loro la rossa è pari a (n−1k−1
)in quanto la rossa ci va di diritto; inoltre il numero di modi di estrarre k palline dall'urna
con il vincolo che non ci sia la rossa sono invece(n−1
k
)in quanto la rossa viene esclusa dalle estrazioni. Ma la somma dei due coecienti corri-
sponde a tutti i modi in cui posso estrarre le k palline (alcuni con la rossa, altri senza),
da cui la tesi.
Un'applicazione fondamentale del coeciente binomiale è nell'enunciato del famoso
risultato di Newton noto come Teorema Binomiale.
Denizione B.1. Dato un intero n e due numeri reali qualunque x,y si ha
(x+ y)n =n
∑j=0
[(nj
)x jyn− j
]L'enuciato si può dimostrare per induzione: esso vale per n = 1 in quanto
(x+ y)1 =
(10
)x0y+
(11
)xy0 = x+ y.
Basta allora dimostrare che il fatto che sia vero per n−1 implica che sia vero anche per
n.
Una dimostrazione alternativa è di tipo combinatorio. Si parta dal prodotto di binomi
(x1 + y1)(x2 + y2) . . .(xn + yn). Esapandendo tutti i prodotti, si ottengono 2n monomi,
ognuno composto da n elementi. Ognuno di questi monomi contiene il valore xi oppure
yi, per ogni i = 1, . . .n. Tra i 2n termini, quelli che contengono k delle xi e (n− k) delle
yi sono esattamente(n
k
)per quanto detto in precedenza. Inoltre, se xi = x, per ogni i e
yi = y, per ogni i, si ottiene
(x1 + y1) · · ·(xn + yn) = (x+ y)n =n
∑k=0
((nk
)xkyn−k
)285
che rappresenta il risultato cercato. Quando x = y = 1 si ha
(1+1)n = 2n =n
∑k=0
(nk
),
una formula che ci dice che 2n rappresenta il numero di tutti i sottoinsiemi di un insieme
di n oggetti, ovvero la cardinalità dell'insieme delle parti.
Prendendo invece x =−1, y = 1 si ha
(1−1)n = 0 =n
∑k=0
(nk
)(−1)k.
Generalizzazioni al caso di più gruppi
Le considrazioni intorno al coeciente binomiale possono essere generalizzate al caso di
un'urna contenente palline di tre o più colori oppure, in modo duale, al caso in cui n palline
debbano essere suddivise in k gruppi di dimensione ssata. Partiamo da questa seconda
situazione: si hanno n palline e si vogliono allocare in k diverse buche in modo che la
prima buca ne contenga n1, il secondo n2, e così via, in modo che n1+n2 · · ·+nk = n. In
quanti modi è possibile eettuare questa operazione? Il primo gruppo può essere formato
in( n
n1
)modi diversi, tanti quanti sono i modi di scegliere n1 palline da un insieme di
n. Dopo la prima selezione, le altre n2 palline relative al secondo gruppo possono essere
selezionate in(n−n1
n2
)modi diversi. Secondo lo stesso ragionamento, il terzo gruppo può
essere poi selezionato in(n−n1−n2
n3
)modi dierenti, e così via. Per la regola moltiplicativa,
dunque il numero totale di modi in cui n palline possono essere suddivise in k gruppi di
numerosità n1,n2, . . . ,nk è pari a(nn1
)(n−n1
n2
). . .
(n−n1−n2−nk1
nk
).
Notando che l'ultimo fattore ï¾½ pari a 1, e fatte le dovute semplicazioni si ottiene la
quantità (n
n1,n2, . . . ,nk
)=
n!n1!n2! . . .nk!
. (B.1)
L'ultima quantità scritta prende il nome di coeciente multinomiale e rappresenta, come
già anticipato, anche il numero di modi in cui si possono ordinare n palline di cui n1 di
286
un colore, n2 palline di un altro colore, no alle ultime nk di un altro colore e in modo
che n1 + · · ·+nk = n. Vale anche una generalizzazione del teroema binomiale.
Teorema B.1. (Teorema Multinomiale). Per ogni k-pla di numeri reali (x1,x2, . . . ,xk) e
per ogni ntero n, si ha
(x1 + x2 + · · ·+ xk)n = ∑
n!n1! · · ·nk!
xn11 xn2
2 · · ·xnk
k ,
dove la sommatoria è estesa a tutte le k-ple di numeri interi non negativi (n1,n2, . . . ,nk)
la cui somma è pari a n.
Esempio B.3 Si hanno 25 membri in un'organizzazione da dividere in 3 commissioni A,
B, C, tali che si abbiano 10 persone in A e B, e 5 persone in C. I modi possibili saranno
allora
Pr10,10,525 =
25!10!25!
♦
Estrazioni con ripetizione
Siamo in grado ora di riempire la seconda riga della Tabella B, ovvero contare tutti i modi
in cui si possono scegliere k oggetti da un insieme di n quando le scelte vengono eettuate
con ripetizione, ovvero ogni oggetto può essere scelto più di una volta. Analizziamo prima
il caso in cui si tenga conto dell'ordine, ovvero si vogliono contare tutti i modi in cui è
possibile selezionare k palline ordinate da un insieme di n, quando ogni pallina può essere
scelta più volte. È chiaro che la prima scelta può essere scelta in n modi diversi, la
seconda ancora in n modi diversi e così via no alla k-esima scelta. Avremo così che il
numero di Disposizioni con ripetizione di n oggetti di classe k è pari a
Dn,k = nk.
Si noti che, in questo caso si può anche avere k ≥ n.
Analizziamo ora il caso in cui non si debba tener conto dell'ordine con cui le palline
vengono selezionate. Vogliamo cioè contare quante sono le Combinazioni con ripetizione.
287
Immaginiamo allora di estrarre k palline, rimettendole ogni volta nell'urna, e si voglia
contare tutte le possibili k− ple, di palline estratte, non tenendo conto dell'ordine con
cui le palline vengono estratte. Per contare tuttii possibili modi, è conveniente numerare
le palline da 1 a n e disporle in la. Pensiamo ora alle k scelte come k bastoncini da
inserire fra le palline, con la convenzione che, se viene scelta la pallina j, il bastoncino
viene posizionato nell'immediata destra della pallina. Ad esempio con 5 palline e k = 2,
selezionare la prima e la seconda pallina corrisponde al graco a sinistra nella gura
mentre scegliere due volte la terza pallina corrisponde al graco a destra.
Ogni scelta delle k palline, corrisponde quindi ad una particolare disposizione in la
delle n palline e dei k bastoncini, col solo vincolo che la prima della la deve essere per
forza una pallina. Possiamo allora aermare che il numero di combinazioni con ripetizione
è pari al numero di modi in cui posso piazzare k bastoncini tra n−1 palline, ovvero
Denizione B.2. Il numero di combinazioni con ripetizione di n oggetti di classe k è
pari a
C′n.k =(
n+ k−1k
)=
(n+ k−1
n−1
).
Esempio B.4 Una fabbrica di dolciumi deve confezionare scatole di cioccolatini da 10
pezzi ciascuna con 5 tipi diversi di cioccolatini. Determinare quante scatole diverse si
possono confezionare. ♦
Poichè non di interessa l'ordine con cui i cioccolatini vengono collocati ma solo quanti
ce ne sono per ogni tipo, allora il numero totale di scatole sarà
C15,10 =
(5+10−1
5
)=
(1410
)
cioè in questo caso le n palline sono i cinque tipi di cioccolatini e k = 10 sono il numero
di estrazioni con ripetizione che vengono fatti.
288
B.1 Esercizi
B.1.1. Dato un mazzo di 32 carte da poker - ovvero con 7,8,9,10,J,Q,K,A - determinare
il numero di possibili scale, con la usuale convenzione che l'asso A può stare prima del 7
e dopo il K.
B.1.2. Due giocatori si arontano in 10 partite di scacchi, 12 partire di dama, 15 partite
a carte. Determinare il numero N1 di modi possibili in cui possono spartirsi le vittorie.
Determinare poi lo stesso numero sapendo però che a scacchi è nita pari, a dama ha
vinto il Giocatore 1 e a carte ha vinto il Giocatore 2.
289
290
APPENDICE C
Le principali distribuzioni di probabilità
In questa appendice, dopo un breve cenno ad alcune speciali funzioni matematiche, molto
frequenti nei calcoli statistici, sono elencate le principali famiglie di leggi di probabilità
utilizzate nei problemi di inferenza, bayesiana e non. Per ognuna di esse, oltre ad una
breve introduzione sulla genesi della famiglia, vengono fornite le principali caratteristiche.
Per comodità di lettura elenchiamo qui la notazione utilizzata:
funzione di ripartizione F(x) = P(X ≤ x);
funzione di densità (nel caso assolutamente continuo) f (x;θ), dove θ rappresenta il
generico vettore dei parametri (nel caso in cui il parametro è scalare, verrà indicato
con θ ) oppure funzione di probabilità (nel caso discreto) p(x;θ) = P(X = x;θ);
media: IE(X ;θ) ; varianza: Var(X ;θ).
si indica con S(X ;θ) il supporto della variabile aleatoria X , ovvero l'insieme dei valori
x per i quali P(X = x;θ)> 0 (caso discreto) oppure f (x;θ)> 0 (caso assolutamente
continuo).
291
Funzione Gamma di Eulero
Si chiama funzione Gamma e si indica con Γ(t) la funzione denita, per t > 0, come
Γ(t) =∫
∞
0xt−1e−xdx.
Si può facilmente dimostrare, mediante un'integrazione per parti, che vale la relazione
ricorrente
Γ(t +1) = t Γ(t), t > 0. (C.1)
Dalla (C.1) e dal fatto che
Γ(1) =∫
∞
0e−xdx = 1,
discende che, se t è un numero intero,
Γ(t) = (t−1)!
Inoltre vale la formula Γ(1/2)=√
π, che si può dimostrare attraverso il cambio di variabile
x = y2/2 e ricordando l'espressione della densità della curva normale standardizzata. Per
valori elevati dell'argomento t, Γ(t) può essere approssimata mediante la formula di
Stirling
Γ(t +1) =√
2πt tt exp−t +ε
12t(
1+O(1t)
), 0≤ ε ≤ 1. (C.2)
Funzione Beta di Eulero
Si denisce funzione Beta e si indica con B(s, t) la funzione denita, per s > 0, t > 0,
come
B(s, t) =∫ 1
0xs−1(1− x)t−1dx;
Si può dimostrare, anche in questo caso attraverso un semplice cambio di variabile, che
B(s, t) è esprimibile in termini della funzione Gamma attraverso la relazione
B(s, t) =Γ(s)Γ(t)Γ(s+ t)
.
292
C.1 Distribuzioni discrete
Bernoulliana [Be(θ)]
Si dice che la v.a. X ∼ Be(θ) quando S(X ;θ) = 0,1 per ogni θ ∈ [0,1], e
p(x;θ) = θx(1−θ)1−x, x = 0, 1.
Inoltre, si calcola facilmente che
IE(X ;θ) = θ , Var(X ;θ) = θ(1−θ).
Binomiale [Bin(n,θ)]
Si dice che la v.a. X ∼ Bin(n,θ) quando S(X ;θ) = 0,1,2, · · · ,n per ogni θ ∈ [0,1] e
P(k;n,θ) = P(X = k;n,θ) =(
nk
)θ
k(1−θ)n−k, k = 0,1,2, · · · ,n.
Si può facilmente dimostrare che, se Y1,Y2, · · · ,Yn sono n v.a. indipendenti, tutte con
distribuzione Be(θ), allora la variabile somma
X = Y1 +Y2 + · · ·Yn ∼ Bin(n,θ); (C.3)
dalla (C.3) è immediato dedurre che, se X ∼ Bin(n,θ), allora
IE(X ;n,θ) = nθ , Var(X ;n,θ) = nθ (1−θ).
Geometrica [Geo(θ)]
Si dice che la v.a. X ∼ Geo(θ) quando S(X ;θ) = 0,1,2, · · · per ogni θ ∈ [0,1] e
P(k;θ) = P(X = k;θ) = θ (1−θ)k, k = 0,1,2, · · · .
La v.a. geometrica ha una naturale interpretazione come il numero di insuccessi che
precedono il vericarsi del primo successo in una successione di prove bernoulliane, ovvero
293
indipendenti e tutte con la stessa probabilità di successo. Il calcolo della media si eettua
con un piccolo trucco
IE(X ;θ) =∞
∑j=0
jθ(1−θ) j =∞
∑j=1
jθ(1−θ) j
=∞
∑k=0
(k+1)θ(1−θ)k+1 =−θ (1−θ)∞
∑k=0
∂
∂θ(1−θ)k+1;
Assumendo la possibilità di invertire il simbolo di integrazione e quello di serie, si ottiene
che la quantità precedente è pari a
−θ(1−θ)∂
∂θ
∞
∑k=0
(1−θ)k+1 =
=−θ (1−θ)∂
∂θ
(1−θ)
θ=
θ(1−θ)
θ 2 =1−θ
θ,
la quale suggerisce come il numero atteso di insuccessi che precedono il primo successo
è inversamente proporzionale alla probabilità di successo nella singola prova. Con calcoli
simili si ottiene che Var(X ;θ) = (1−θ)/θ 2. A volte, la v.a. geometrica viene denita
come il numero Z di prove necessarie per ottenere il primo successo. È ovvio che risulta
Z = X +1 e che
P(k;θ) = Pr(Z = k;θ) = θ (1−θ)k−1, k = 1,2,3, · · · .
Binomiale negativa [BiNeg(n,θ)]
Si dice che la v.a. X ∼ BiNeg(n,θ) quando S(X ;θ) = 0,1,2, · · · per ogni θ ∈ [0,1] e
P(k;n,θ) = Pr(X = k;n,θ) =(
n+ k−1k−1
)θ
n (1−θ)k, k = 0,1,2, · · · .
La v.a. binomiale negativa, in analogia con quanto detto a proposito della v.a. geometri-
ca, ha una naturale interpretazione come il numero di insuccessi che precedono il vericarsi
dell'n-esimo successo in una successione di prove bernoulliane, ovvero indipendenti e tutte
con la stessa probabilità di successo.
294
Una v.a. X ∼ BiNeg(n,θ) può essere vista come la somma di n v.a. Y1,Y2, · · · ,Yn,
indipendenti e somiglianti, con distribuzione Geo(θ). Ne segue che
IE(X ;θ) =n
∑j=1
IE(Yj;θ
)= n
1−θ
θ; Var(X ;θ) =
n
∑j=1
Var(Yj;θ
)= n
1−θ
θ 2 ;
Ipergeometrica [IpGeo(N,n,θ)]
Si dice che la v.a. X ∼ IpGeo(N,n,θ) quando S(X ;N,n,θ) = 0,1,2, · · · ,n per ogni
0 < θ < 1,n < N ed Nθ ∈ N e
P(k;N,n,θ) =(
Nθ
k
)((1−θ)N
n− k
)/
(Nn
),
per n− (1− θ)N ≤ k ≤ Nθ . La distribuzione ipergeometrica emerge in modo naturale
negli schemi di estrazione senza ripetizione o in blocco. Consideriamo un'urna contenente
N palline di cui Nθ di colore rosso, e eettuiamo l'estrazione in blocco di n palline. Allora
il numero di palline rosse tra le n estratte avrà distribuzione di tipo IpGeo(N,n,θ). Con
semplici calcoli si dimostra che
IE(X ;N,n,θ) = nθ ; Var(X ;N,n,θ) =N−nN−1
nθ(1−θ)
Beta-binomiale [BeBi(n,α,β )]
Si dice che la v.a. X ∼ BeBi(n,α,β ) quando S(X ;θ) = 0,1,2, · · · ,n per ogni α >
0,β > 0,n ∈ N e
P(k;n,α,β ) =
(nk
)B(α + k,β +n− k)
Beta(α,β )
L'interpretazione più naturale di una v.a. beta-binomiale è quella di una mistura di
distribuzioni binomiali con parametro n ssato e parametro θ aleatorio con distribuzione
di tipo Beta(α,β ). Si vede infatti facilmente che
P(k;n,α,β ) =∫ 1
0
(nk
)θ
k(1−θ)n−k 1Beta(α,β )
θα−1dθ(1−θ)β−1.
Calcoli semplicissimi (utilizzando la denizione e le proprietà della funzione Beta di Eulero)
conducono a
IE(X ;n,α,β ) =nα
α +β, Var(X ;n,α,β ) =
nαβ
(α +β )(α +β +1).
295
Poisson [Po(θ)]
Si dice che X ∼ Po(θ) quando S(X ;θ) = 0,1,2, · · · per ogni θ ∈ [0,1], e
P(k;θ) = Pr(X = k;θ) = e−θ θ k
k!
Inoltre
IE(X ;θ) = Var(X ;θ) = θ .
C.2 Distribuzioni assolutamente continue
Beta [Beta(α,β )]
Si dice che X ∼ Beta(α,β ) quando S(x,α,β ) = [0,1] e, per ogni α > 0, e β > 0, la
funzione di densità vale
f (x;α,β ) =1
B(α,β )xα−1 (1− x)β−1 , x ∈ [0,1].
Dall'espressione della densità si ottiene la seguente uguaglianza, utile per il calcolo dei
momenti: ∫ 1
0xα−1 (1− x)β−1 dx = B(α,β ) =
Γ(α)Γ(β )
Γ(α +β ).
Da questo si deduce immediatamente che, per ogni k positivo,
IE(
Xk)=
Γ(α + k)Γ(β )Γ(α +β + k)
Γ(α +β )
Γ(α)Γ(β )=
α(α +1) · · ·(α + k−1)(α +β )(α +β +1) · · ·(α +β + k−1)
.
Così, ad esempio,
IE(X) =α
α +β; Var(X) = IE
(X2)− (IE(X))2 =
αβ
(α +β )2(α +β +1)(C.4)
Caso particolare. Per α = β = 1 si ottiene la distribuzione uniforme nell'intervallo
[0,1]. Una v.a. con tale distribuzione si denota con il simbolo X ∼ U(0,1).
296
Esponenziale [Exp(θ)]
Si dice che X ∼ Exp(θ) quando S(x,θ) = (0,∞) e, per ogni θ > 0, la funzione di densità
vale
f (x;θ) = θ e−θx, x > 0
I momenti si ottengono come casi particolari dei momenti di una distribuzione di tipo
Gamma.
Gamma [Gamma(α,θ)]
Si dice che X ∼ Gamma(α,θ) quando S(x,α,θ) = (0,∞) e, per ogni α e θ positivi, la
funzione di densità vale
f (x;α,θ) =θ α
Γ(α)e−θxxα−1, x > 0 (C.5)
Il parametro θ prende il nome di parametro di scala mentre α è detto parametro di forma.
Dalla forma della densità (6.2) si deduce l'uguaglianza∫∞
0e−θxxα−1dx =
Γ(α)
θ α, (C.6)
utile per il calcolo dei momenti. Infatti,
IE(
Xk)=∫
∞
0
θ α
Γ(α)e−θxxα+k−1dx =
θ α
Γ(α)
Γ(α + k)θ α+k =
α(α +1) · (α + k−1)θ k ,
da cui, ad esempio
IE(X) =α
θ, Var(X) =
α(α +1)θ 2 − α2
θ 2 =α
θ 2 .
Casi particolari.
Se α = 1, X ∼ Exp(θ).
297
Se α = ν/2 e θ = 1/2,
f (x;ν) =1
2ν/2Γ(ν/2)exp−1
2x
xν
2−1,
e la distribuzione prende il nome di Chi quadrato con ν gradi di libertà: in simboli
X ∼ χ2ν .
Una variabile X ∼ χ22 è equivalente ad una X ∼ Exp(1
2).
Se X ∼ Gamma(α,θ), la trasformazione lineare Y = 2θX ha distribuzione χ22α.
Gamma inversa [GI(α,θ)]
Si dice che X ∼ GI(α,θ) quando S(X ,α,θ) = R+ per ogni α,θ > 0, e la funzione di
densità vale
f (x;α,θ) =θ α
Γ(α)
1xα+1 e−θ/x, x > 0. (C.7)
La densità (C.7) deve il suo nome al fatto che
X ∼ GI(α,θ)−→ 1/X ∼ Gamma(α,θ).
Dall'espressione della (C.7) si deduce la seguente identità, utile per il calcolo dei momenti
della X : ∫∞
0e−θ/x 1
xα+1 dx =Γ(α)
θ α(C.8)
Utilizzando la (C.8) si ottiene facilmente che, ad esempio,
IE(X) =θ
α−1; Var(X) =
θ 2
(α−1)2(α−2).
Pareto [Pa(γ,β )]
Si dice che X ∼ Pa(γ,β ) quando S(X ,γ,β ) = (β ,+∞) per ogni γ , e la funzione di densit
vale
f (x;γ,β ) = γβ γ
xγ+1 , x > β , β > 0.
Inoltre
IE(X ;γ,β ) =γ
γ−1β ; Var(X ;γ,β ) =
γ
(γ−1)2(γ−2)β
2.
298
Normale o Gaussiana [N(µ,σ2)]
Si dice che X ∼ N(µ,σ) quando S(x,µ,σ) = IR e, per ogni µ ∈ IR e σ > 0, la funzione
di densità vale
f (x; µ,σ) =1
σ√
2πexp
−1
2
(x−µ
σ
)2, x ∈ R.
Con semplici integrazioni per parti si ottengono i momenti di X . Elenchiamo di seguito i
più importanti dal punto di vista statistico;
IE(X) = µ; Var(X) = σ2;
IE(X−µ)2k−1 = 0,∀k ∈ N, IE(X−µ)2k =(2k)!σ2k
k!2k .
Quando µ = 0 e σ = 1, la v.a. prende il nome di normale standardizzata e la densità
viene in genere indicata con il simbolo ϕ(·).La funzione di ripartizione non ha una espressione esplicita. Nel caso standardizzato, per
approssimare
Φ(x) =∫ x
−∞
ϕ(t)dt,
si utilizza, per x→+∞, il seguente risultato:
1−Φ(x)≈ ϕ(x)x
.
Cauchy [Ca(µ,σ)]
Si dice che X ∼ Ca(µ,σ) quando S(x,µ,σ) = IR e, per ogni µ ∈R and σ > 0, la funzione
di densità vale
f (x; µ,σ) =σ
π (σ2 +(x−µ)2), x ∈ R.
Si dimostra facilmente che la media (e ovviamente tutti i momenti di ordine superiore)
di una v.a. di Cauchy non esiste. La v.a. di Cauchy può essere ottenuta mediante
trasformazioni elementari di altre v.a. note. Ad esempio,
299
se X ∼ U(−π
2 ,π
2 ), allora Y = tan(X) ∼ Ca(0,1) (questa relazione può essere utile
per generare valori pseudo-aleatori da una legge di Cauchy).
se X1 e X2 sono indipendenti con distribuzione N(0,1), allora Y = X1/X2 ∼ Ca(0,1)
Logistica [Lo(µ,σ)]
Si dice che X ∼ Lo(µ,σ) quando S(x,µ,σ) = IR e, per ogni µ ∈ R e σ > 0, la funzione
di densità vale
f (x; µ,σ) =1σ
exp
x−µ
σ
(
1+ exp
x−µ
σ
)2 , x ∈ R.
Si dimostra facilmente che
V ∼ U(0,1)−→ X = logV
1−V∼ Lo(0,1) (C.9)
Laplace o doppia esponenziale [La(µ,λ )]
Si dice che X ∼ La(µ,λ ) quando S(x,µ,λ ) = IR e, per ogni µ ∈ R e λ > 0, la funzione
di densità vale
f (x; µ,λ ) =λ
2exp−λ |x−µ| , x ∈ R.
La densità è simmetrica rispetto al parametro di posizione µ che ne rappresenta quindi
la media e la mediana. Il parametro λ , o meglio 1/λ , è il parametro di scala. Inoltre
Var(X ;λ ) = 2/λ 2.
Student [St(ν ,µ,σ)]
Si dice che X ∼ St(ν ,µ,σ) quando S(x,µ,σ ,ν) = IR e, per ogni µ ∈ IR, ν > 0, e σ > 0,
la funzione di densità vale
f (x; µ,σ) =Γ((ν +1)/2)
Γ(ν/2)Γ(1/2)σ√
ν
(1+
(x−µ)2
σ2ν
)−(ν+1)/2
, x ∈ IR . (C.10)
Il parametro ν prende il nome di gradi di libertà. Si può dimostrare che il momento
k-esimo di una v.a. t di Student esiste solo quando ν > k.
300
Caso particolare: per k = 1 si riottiene una distribuzione di Cauchy.
È importante ricordare che se X ∼ N(µ,σ2) e Y ∼ χ2ν , con X e Y indipendenti, allora
(X−µ)√
ν
σ√
Y∼ St(ν ,µ,σ)
Fisher [Fis(ν ,ξ )]
Si dice che X ∼ Fis(ν ,ξ ) quando S(x,ν ,ξ ) = IR e, per ogni ν ,ξ > 0, la funzione di densità
vale
f (x;ν ,ξ ) =Γ((ν +ξ )/2)
Γ(ν/2)Γ(ξ/2)ν
ξ/2ξ
ν/2 x(ν−2)/2
(ν +ξ x)(ν+ξ )/2, x > 0 .
I parametri ν e ξ prendono il nome di gradi di libertà. Questa legge appare in molti
sviluppi della teoria del campionamento da popolazioni gaussiane. Ad esempio se X ⊥⊥Y ,
X ∼ χ2ν e Y ∼ χ2
ξ, allora
X ξ
Y ν∼ Fis(ν ,ξ ).
Inoltre
X ∼ Fis(ν ,ξ )⇒ ξ Xν +ξ X
∼ Beta(ν ,ξ ).
C.3 Distribuzioni multivariate
Multinomiale [MNomk(n,p)]
Si dice che il vettore k-dimensionale ha distribuzione multinomiale e si indica con il
simbolo X ∼ MNomk(n,p), dove n è un intero e p = (p1, p2, · · · , pk), con p j ≥ 0 e
p1 + p2 + . . . pk = 1, quando
S(x,n,p,) =
(n1, · · · ,nk) interi : ni ≥ 0,
k
∑i=1
ni = n
e la funzione di probabilità vale
Pr(X1 = n1, · · · ,Xk = nk) =n!
n1!n2! · · ·nk!pn1
1 pn22 · · · p
nkk .
301
La distribuzione multinomiale rappresenta la versione multidimensionale della legge bi-
nomiale; per questo motivo, se X ∼ MNomk(n,p), ogni coordinata del vettore X ha
distribuzione binomiale. Più precisamente,
X∼MNomk(n,p) =⇒ X j ∼ Bin(n, p j), j = 1, · · · ,k.
Inoltre,
IE(X) =
np1
np2
· · ·npk
,
e
Var(X j)= np j(1− p j), j = 1, · · · ,k; Cov
(Xi,X j
)=−npi p j,∀i 6= j.
Dirichlet [Dirk(α,γ)]
Si dice che il vettore k-dimensionale X∼ Dirk(α,γ) quando
S(x,α,γ) =
x ∈ IRk : xi > 0,
k
∑i=1
xi < 1
e la funzione di densità vale
f (x;p,γ) =Γ(α1 + · · ·αk + γ)
γ ∏ki=1 Γ(α j)
k
∏i=1
xαi−1i
(1−
k
∑i=1
xi
)γ−1
. (C.11)
La distribuzione di Dirichlet si dice anche Beta multivariata; infatti, per k = 1, la (C.11)
si riduce alla densità di una Beta(α1,γ).
Un modo costruttivo per ottenere una v.a. con legge di Dirichlet è il seguente: siano
Z1,Z2, · · · ,Zk+1 v.a. indipendenti tali che Zi ∼ Gamma(αi,1), i = 1, · · · ,k + 1, e sia
T = ∑k+1i=1 Zi. Allora il vettore
X =1T(Z1, · · · ,Zk)
ha distribuzione di Dirichlet con parametri p = (α1, · · · ,αk) e γ = αk+1. Da questa
rappresentazione si deduce che Z d= T X; si può inoltre dimostrare facilmente che T è
302
indipendente da X: quindi, moltiplicando tra loro le coordinate dei due vettori, si ottiene
che, per ogni k-pla di interi (r1, · · · ,rk), si ha
k
∏i=1
Zrii
d= T r
k
∏i=1
X rii ,
con r = ∑ki=1 ri, ovvero
IE
(k
∏i=1
X rii
)=
∏ki=1 IE
(Zri
i)
IE(T r)
Da questa formula generale, ricordando che T ∼Gamma(∑k+1i=1 αi,1), si deduce facilmente
che
IE(Xi) =IE(Zi)
IE(T )=
αi
∑ki=1 αi + γ
;
IE(X2
i)
=IE(Z2
i)
IE(T 2)=
αi(αi +1)(∑k
i=1 αi + γ)(∑ki=1 αi + γ +1)
;
IE(XiX j
)=
IE(Zi) IE(Z j)
IE(T 2)=
αiα j
(∑ki=1 αi + γ)(∑k
i=1 αi + γ +1).
Normale multivariata [Nk(µ,Σ)]
Si dice che il vettore X= (X1, . . . ,Xk) ha distribuzione Normale multivariata con parametri
di posizione e scala pari a µ e Σ, matrice denita positiva, e si indica col simbolo Nk(µ,Σ),
se la densità vale
f (x) =1
(2π)k/2|Σ|1/2 exp−1
2(x−µ)′Σ−1(x−µ
).
Per k = 1 si ottiene la distribuzione normale univariata. Si può vericare facilmente che
IE(X) = µ, Var(X) = Σ.
Una delle proprietà più importanti della distribuzione Nk(µ,Σ) è la seguente, che stabilisce
che ogni trasformazione lineare di X ha ancora legge normale.
303
Proposizione C.1. Sia Ap,k una matrice di rango p≤ k: allora
AX∼ Np(Aµ;AΣA′).
Distribuzioni marginali e condizionate.
Se X∼ Nk(µ,Σ) allora ogni sottoinsieme delle coordinate di X ha ancora legge normale;
anche la distribuzione di un sottoinsieme delle coordinate di X condizionatamente al
resto delle coordinate ha legge normale; più precisamente, consideriamo la partizione di
X = (X1,X2), con X1 di dimensione p < k e X2 di dimensione k− p.
Proposizione C.2. Sia
X =
(X1
X2
)∼ Np
((µ1µ2
),
(Σ11 Σ12
Σ21 Σ22
));
allora
X1 ∼ Nk (µ1,Σ11) (C.12)
e
[X2 | X1 = x1]∼ Nk−p(µ2 +Σ21Σ
−111 (x1−µ1),Σ22−Σ21Σ
−111 Σ12
)(C.13)
Normale Gamma [NoGa(µ,σ ,α,θ)]
Si dice che il vettore (X ,Y ) ha distribuzione normale-gamma, e si indica col simbolo
NoGa(µ,σ ,α,θ), se la densità vale, per x ∈ IR e y > 0,
f (x,y; µ,σ ,α,θ) = f (x;y,µ,σ) f (y;α,θ) =
√y
σ√
2πe−
y2
((x−µ)
σ
)2θ α
Γ(α)e−θyyα−1.
In pratica, la distribuzione della variabile doppia viene denita in termini della legge
marginale di Y , di tipo Gamma(α,θ), e della legge condizionata di X | Y = y, di tipo
N(µ,σ2/y). L'importanza di questa legge è dovuta al fatto che essa rappresenta la di-
stribuzione a priori coniugata nel modello gaussiano con parametro di posizione e scala
entrambi incogniti.
304
Student multivariata [Stk(µ,Σ,ν)]
Si dice che il vettore X = (X1, . . . ,Xk) ha distribuzione t con ν gradi di libertà e parametri
di posizione e scala pari a µ e Σ, matrice denita positiva, e si indica col simbolo
Stk(µ,Σ,ν), se la densità vale
f (x) =Γ((ν + k)/2)
|Σ|1/2Γ(ν/2)(ν π)k/2
(1+
(x−µ)′Σ−1(x−µ)
ν
)− ν+k2
.
Per k = 1 si ottiene la t di Student univariata. La distribuzione t multivariata può
essere ottenuta come mistura di scala di distribuzioni normali multivariate come mostra
il seguente risultato [Dickey, 1968].
Teorema C.1. Siano X un vettore aleatorio k-dimensionale e Y una variabile aleatoria
positiva tali che
X | Y ∼ Nk(µ,Y Ψ), Y ∼ GI(a,b);
allora la legge marginale di X è del tipo
X∼ Stk
(2a,µ,
ba
Ψ
).
Se poi, come caso particolare, si pone a = ν/2 e b = 1/2, allora Y−1 ∼ χ2ν e X ∼
Stk(ν ,µ,Ψ/ν).
Dimostrazione C.1. Lasciata per esercizio.
Da sottolineare anche il seguente noto risultato.
Teorema C.2. Nelle condizioni del teorema precedente si ha che
(a)
W =2bY∼ χ
22a;
(b) La v.a.
V =(X−µ)′Ψ−1 (X−µ)
Y∼ χ
2k
è indipendente da Y .
305
(c)
2a(X−µ)′Ψ−1 (X−µ)
2bk∼ Fis(k,2a)
Dimostrazione C.2. Si tratta di un risultato classico della teoria del campionamento
da popolazioni normali. Si veda ad esempio, Azzalini [2000].
Wishart [Wk(m,Σ)]
Si dice che la matrice quadrata k-dimensionale V, denita positiva, ha distribuzione di
Wishart con m gradi di libertà e parametro di scala pari a Σ, matrice denita positiva, e
si indica col simbolo Wk(m,Σ), se la densità vale
f (V) =1
2mk/2Ψk(m/2)|Σ|m/2 |V|(m−k−1)/2 exp
−1
2tr(Σ−1V
),
dove
Ψk(u) = πk(k−1)/4
k
∏i=1
Γ
(u− 1
2(i−1)
), u >
k−12
.
Un modo di costruire una matrice aleatoria di Wishart è il seguente: siano (Z1, · · · ,Zm)iid∼
Nk(0,I); allora la quantità
W =m
∑i=1
ZiZ′i
si distribuisce secondo una legge di Wishart Wk(m,I).Alcune proprietà della distribuzione Wk(m,Σ):
Proposizione C.3. Sia V∼Wk(m,Σ):
se A è una matrice q× k, allora Y = AVA′ ∼Wq(m,AΣA′)
tr(V)∼ χ2mk.
IE(V ) = mΣ
306
Wishart inversa [W−1k (m,Σ)]
Sia V∼Wk(m,Σ). Poiché V è denita positiva con probabilità 1, è possibile calcolare la
funzione di densità della matrice aleatoria inversa Z = V−1:
f (Z) =|Z|−(m+k+1)/2
2mk/2Ψk(m/2)|Σ|m/2 exp−1
2tr(Σ−1Z−1) .
Inoltre
IE(Z) =Σ−1
m− k−1.
La distribuzione è particolarmente utile nell'analisi coniugata del modello normale multi-
variato.
307
308
Bibliograa
Azzalini, A. (2000). Inferenza Statistica. Una presentazione basata sul concetto di
verosimiglianza. Springer Italia, Milano.
Bayes, T. (1763). An essays towards solving a problem in the doctrine of chances. Phil.
Trans. Roy. Soc. 53 370418.
Chung, K. & AitSahlia, F. (2003). Elementary Probability Theory. New York:
Springer.
Cifarelli, D. & Muliere, P. (1989). Statistica bayesiana. Giappichelli, Torino.
Dall'Aglio, G. (2000). Calcolo delle Probabilità (II ed.). Zanichelli, Bologna.
de Finetti, B. (1937). La prévision: ses lois logiques, ses sources sujectives. Ann.
Inst. H. Poincaré 7 168.
de Finetti, B. (1970). Teoria delle probabilità: sintesi introduttiva con appendice
critica. Volumi primo e secondo. Turin: Giulio Einaudi Editore. Nuova Biblioteca
Scientica Einaudi, 25* et 25**.
309
de Finetti, B. (1974). Theory of probability: a critical introductory treatment. Vol.
1. John Wiley & Sons, London-New York-Sydney. Translated by Antonio Machì
and Adrian Smith, With a foreword by D. V. Lindley, Wiley Series in Probability and
Mathematical Statistics.
de Finetti, B. (1975). Theory of probability: a critical introductory treatment. Vol. 2.
John Wiley & Sons, London-New York-Sydney. Translated from the Italian by Antonio
Machì and Adrian Smith, Wiley Series in Probability and Mathematical Statistics.
de Finetti, B. (1981). Scritti (19261930). Padua: Casa Editrice Dott. Antonio
Milani (CEDAM). With a preface by Massimo de Felice.
Dickey, J. M. (1968). Three multidimensional-integral identities with Bayesian
applications. Ann. Math. Statist. 39 16151628.
Grimmett, G. & Stirzaker, D. (1992). Probability and Random Processes (II ed.).
Oxford Univ. Press.
Orsingher, E. (2005). Moto browniano. Roma: Aracne.
Stirzaker, D. (2005). Stochastic Processes and Models. Oxford Univ. Press.
310
Top Related