3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. · 2007-12-20 · Sono cio`e variabili...

32
§3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. Le studio delle propriet` a di successioni di variabili casuali indipendenti costituisce un settore di grande importanza teorica ed applicativa della teoria delle probabilit` a. E’ questo l’ambito nel quale sono nati i teoremi asintotici fondamentali: la legge dei grandi numeri e il teorema centrale del limite. Questi risultati si estendono, in realt` a, anche al caso di variabili non indipendenti, ma soggette a certe condizioni di “debole dipendenza.” Nel prossimo paragrafo ne daremo un cenno, limitatamente al caso delle catene di Markov. Per limiti di spazio ci limiteremo a considerare il caso di successioni di variabili casuali ξ 1 2 ,... che oltre ad essere indipendenti sono anche identicamente distribuite (i.i.d., in forma abbreviata), anche se tutti i risultati sono estendibili al caso in cui le variabili non sono egualmente distribuite. Se consideriamo il caso di variabili con un numero finito di valori, le successioni di variabili i.i.d. non sono altro che gli schemi di Bernoulli introdotti nel §1.7. Infatti se le variabili prendono i valori x 1 ,... ,x r la loro distribuzione congiunta non ` e altro che uno schema di Bernoulli con spazio degli stati ¯ Ω= {x 1 ,... ,x r }. Viceversa se abbiamo uno scema di Bernoulli con ¯ Ω= {a 1 ,... ,a r }, dove gli a i sono oggetti qualsiasi, possiamo sempre ricondurci al caso di variabili casuali prendendo al posto di ogni a j il suo indice j =1,... ,r. In questo modo lo spazio di probabilit` a( ¯ , ¯ P )` e la distribuzione di una variabile casuale. Pertanto gli schemi di Bernoulli infiniti ( ¯ , F ,℘), dove F ` e la σ-algebra degli insiemi cilindrici e la misura su di essa viste nel §1.7, rappresentano successioni di variabili casuali i.i.d. che assumono un numero finito di valori, la cui comune distribuzione ` e data da ( ¯ , ¯ P ). Le variabili i.i.d. non sono altro che le componenti dell’evento elementare ω =(ω 1 2 ,... ) ¯ . Osservazione. Dato uno schema di Bernoulli e una qualunque funzione reale f su ¯ Ω, la successione ξ 1 2 ,... ,ξ n delle variabili casuali che associano ad ogni ω =(ω 1 2 ,... , ) il numero ξ j = f (ω j ) costituisce un nuovo schema di Bernoulli. Infatti le nuove variabili casuali sono ancora i.i.d. ed assumono un numero finito di valori r. Il risultato vale anche per generali variabili casuali i.i.d., discrete o continue. 3.1. Legge dei grandi numeri. Teorema (Legge dei grandi numeri in senso debole.) Sia ξ 1 2 ,... una suc- cessione infinita di variabili casuali i.i.d. definite su uno spazio di probabilit` a (Ω, F ,P ), che ammettono valor medio M (ξ j )= m e dispersione Var(ξ j )= σ 2 , j =1, 2,... . Allora, posto S n = n j =1 ξ j , per ogni > 0 si ha lim n→∞ P ({ω Ω: S n n m <})=1. (3.1.1) Dimostrazione. Passando al complementare, e moltiplicando entrambi i membri della disuguaglianza per n, troviamo, per la disuguaglianza di Chebyshev (2.3.6), P ({ S n n m })= P ({|S n nm|≥ n}) Var(S n ) n 2 2 = σ 2 n 2 . (3.1.2) 44

Transcript of 3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. · 2007-12-20 · Sono cio`e variabili...

Page 1: 3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. · 2007-12-20 · Sono cio`e variabili vettoriali, ciascuna di esse ha n componenti, che sono anch’esse i.i.d. con distribuzione

§3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI.

Le studio delle proprieta di successioni di variabili casuali indipendenti costituisce unsettore di grande importanza teorica ed applicativa della teoria delle probabilita. E’ questol’ambito nel quale sono nati i teoremi asintotici fondamentali: la legge dei grandi numerie il teorema centrale del limite. Questi risultati si estendono, in realta, anche al caso divariabili non indipendenti, ma soggette a certe condizioni di “debole dipendenza.” Nelprossimo paragrafo ne daremo un cenno, limitatamente al caso delle catene di Markov.

Per limiti di spazio ci limiteremo a considerare il caso di successioni di variabili casualiξ1, ξ2, . . . che oltre ad essere indipendenti sono anche identicamente distribuite (i.i.d., informa abbreviata), anche se tutti i risultati sono estendibili al caso in cui le variabili nonsono egualmente distribuite.

Se consideriamo il caso di variabili con un numero finito di valori, le successioni divariabili i.i.d. non sono altro che gli schemi di Bernoulli introdotti nel §1.7. Infatti sele variabili prendono i valori x1, . . . , xr la loro distribuzione congiunta non e altro cheuno schema di Bernoulli con spazio degli stati Ω = x1, . . . , xr. Viceversa se abbiamouno scema di Bernoulli con Ω = a1, . . . , ar, dove gli ai sono oggetti qualsiasi, possiamosempre ricondurci al caso di variabili casuali prendendo al posto di ogni aj il suo indicej = 1, . . . , r. In questo modo lo spazio di probabilita (Ω, P ) e la distribuzione di unavariabile casuale.

Pertanto gli schemi di Bernoulli infiniti (Ω∞,F , ℘), dove F e la σ-algebra degli insiemicilindrici e ℘ la misura su di essa viste nel §1.7, rappresentano successioni di variabilicasuali i.i.d. che assumono un numero finito di valori, la cui comune distribuzione e datada (Ω, P ). Le variabili i.i.d. non sono altro che le componenti dell’evento elementareω = (ω1, ω2, . . . ) ∈ Ω∞.

Osservazione. Dato uno schema di Bernoulli e una qualunque funzione reale f su Ω,la successione ξ1, ξ2, . . . , ξn delle variabili casuali che associano ad ogni ω = (ω1, ω2, . . . , )il numero ξj = f(ωj) costituisce un nuovo schema di Bernoulli. Infatti le nuove variabilicasuali sono ancora i.i.d. ed assumono un numero finito di valori ≤ r.

Il risultato vale anche per generali variabili casuali i.i.d., discrete o continue.3.1. Legge dei grandi numeri.Teorema (Legge dei grandi numeri in senso debole.) Sia ξ1, ξ2, . . . una suc-

cessione infinita di variabili casuali i.i.d. definite su uno spazio di probabilita (Ω,F , P ),che ammettono valor medio M(ξj) = m e dispersione Var(ξj) = σ2, j = 1, 2, . . . . Allora,posto Sn =

∑nj=1 ξj , per ogni ε > 0 si ha

limn→∞

P (ω ∈ Ω :∣∣∣∣Sn

n− m

∣∣∣∣ < ε) = 1. (3.1.1)

Dimostrazione. Passando al complementare, e moltiplicando entrambi i membridella disuguaglianza per n, troviamo, per la disuguaglianza di Chebyshev (2.3.6),

P (∣∣∣∣Sn

n− m

∣∣∣∣ ≥ ε) = P (|Sn − nm| ≥ nε) ≤ Var(Sn)n2ε2

=σ2

nε2. (3.1.2)

44

Page 2: 3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. · 2007-12-20 · Sono cio`e variabili vettoriali, ciascuna di esse ha n componenti, che sono anch’esse i.i.d. con distribuzione

Infatti M(Sn) = n m, e, per la (2.7.3), Var(Sn) =∑n

j=1 Var(ξj) = nσ2.Il membro di destra della (3.1.2) tende a 0 per n → ∞, e il teorema e dimostrato.

Osservazione. La legge dei grandi numeri si puo interpretare dicendo che la ”mediaempirica” Sn

n = ξ1+ξ2+...+ξn

n si discosta significativamente dalla media ”a priori” m solosu un insieme la cui probabilita tende a zero per n → ∞.

Si noti comunque che la stima (3.1.2) della probabilita che la media empirica si allon-tani dalla media ”a priori” m di una certa quantita ε ottenuta utilizzando la disuguaglianzadi Chebyshev non e in genere ottimale, come vedremo tra breve.

Schemi di Bernoulli. Probabilita e frequenza. Consideriamo lo schema diBernoulli con spazio degli stati Ω = 0, 1, probabilita p(1) = p ed evento elementareω = (ω1, ω2, . . . ). Se prendiamo le variabili casuali i.i.d. ξj(ω) = ωj avremo Sn = Nn,dove Nn e numero di ”successi” su n prove. In questo caso, come abbiamo visto, M(ξj) = p,mentre Var(ξj) = p − p2 = pq. Pertanto dalla (3.1.2) otteniamo la disuguaglianza

P (ω : |Nn

n− p| ≥ ε) ≤ p q

nε2. (3.1.3)

La quantita Nn/n e naturale chiamarla “frequenza” dell’evento “successo”: infatti e ilrapporto tra il numero delle prove che hanno successo e il numero totale.

La formula (3.1.3) ha un’importante conseguenza di ordine metodologico per i fon-damenti della probabilita e della statistica. Essa fornisce un modo per calcolare unaprobabilita incognita ripetendo le prove e calcolando le frequenze empiriche Nn

n . Per nmolto grande si ha la quasi certezza di essere vicini alla “probabilita vera”.

Una corretta definizione di probabilita nelle scienze esatte sarebbe quindi legata allapossibilita di ripetere le prove infinite volte in condizioni identiche. Questa e la cosiddetta“definizione frequentista” della probabilita, che trae ispirazione, come si e visto, dalla leggedei grandi numeri.

Un’importante conseguenza della legge dei grandi numeri nela forma (3.1.3) e laseguente: per prove ripetute indipendenti, un evento di probabilita anche piccolissima,purche diversa da zero, si verifica sempre prima o poi, cioe per n grande abbastanza. Adesempio, preso ε < 1

2 , e un δ > 0 comunque piccolo, basta prendere n talmente grandeche np > 2 e nε2

pq > 1δ per essere ”quasi sicuri” (a meno di un insieme probabilita δ), che

almeno una prova ha avuto successo.

In termini matematici la convergenza (3.1.1) prende il nome di “convergenza in prob-abilita”. Si dice che una successione di variabili casuali ξ1, ξ2, . . . , definite su uno spazio diprobabilita (Ω,F , P ), tende in probabilita a zero se, per ogni ε > 0, si ha limn→∞ P (|ξn| >ε) = 0.

Questo tipo di convergenza e piuttosto debole, ed e per questo che la (3.1.1) si chiamalegge dei grandi numeri in senso debole. Infatti non garantisce nulla circa la convergenzaNn(ω)

n → p per un qualche ω ∈ Ω∞ fissato a priori. Si possono facilmente trovare esempidi successioni di variabili casuali che tendono in probabilita a zero, ma non convergono azero in nessun punto fissato. Per gli schemi di Bernoulli vale comque un risultato piu forte,che ora passiamo a descrivere

45

Page 3: 3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. · 2007-12-20 · Sono cio`e variabili vettoriali, ciascuna di esse ha n componenti, che sono anch’esse i.i.d. con distribuzione

Legge dei grandi numeri in senso forte per gli schemi di Bernoulli. Come sie detto, la (3.1.3) si puo interpretare dicendo che la successione Nn/n − p, definita nellospazio di probabilita costituito dallo schema di Bernoulli infinito (Ω∞,F , ℘), converge inprobabilita a 0. Vale pero il seguente risultato che prende il nome di “convergenza quasi-ovunque”,ed e piu forte, perche, che, come si puo vedere facilmente, implica la (3.1.3).

Teorema (Legge dei grandi numeri in senso forte). Su un insieme di puntiΩ ⊂ Ω∞ di probabilita piena (℘(Ω) = 1) si ha

limn→∞

Nn(ω)n

= p.

La dimostrazione fa uso del noto lemma di Borel-Cantelli.Lemma. Sia An∞n=1 una successione di eventi nello spazio di probabilita (Ω,F , P ),

tale che∑∞

n=1 P (An) < ∞. Allora, l’evento che si verifichino infiniti An cioe l’insieme

A =∞⋂

n=1

∞⋃k=n

Ak

ha probabilita nulla: P (A) = 0.Dimostrazione del lemma. Per la continuita della probabilita

P (A) = limn→∞

P (∪∞k=nAk) ≤ lim

n→∞

∞∑k=n

P (Ak) = 0.

Dimostrazione del teorema. Introduciamo le variabili centrate ξj := ξj − p, eSn := Nn(ω) − np =

∑nj=1 ξj . Tenendo conto che M(ξj) = 0 e che le variabili sono i.i.d.

abbiamo

M(S4

n

)=

n∑j=1

M(ξ4j ) + 6

∑i<j

M(ξ2i )M(ξj)2 = nm4 + 3n(n − 1)pq ≤ maxm4, 3pqn2,

dove si posto m4 = M(ξ41) e si e ricordato che M(ξ2

j ) = Var(ξj) = pq. Applicando ladisuguaglianza di Chebyshev per la quarta potenza, si trova

P

( |Sn|n

> ε

)≤ M(S4

n)(nε)4

≤ maxm4, 3pqε4n2

,

e poiche la quantita a destra e sommabile su n, per il lemma di Borel-Cantelli esiste uninsieme Ωε ⊂ Ω∞ di probabilita piena ℘(Ωε) = 1 tale che per ω ∈ Ωε abbiamo

lim supn→∞

|Sn(ω)n

≤ ε. (3.1.5)

Se ora εk = εk , k = 1, 2, . . . possiamo ripetere l’argomento e trovare insiemi Ωεk

con℘(Ωεk

) = 1, e tali che la (3.1.5) vale con εk al posto di ε. La loro intersezione Ω := ∩∞k=1Ωεk

46

Page 4: 3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. · 2007-12-20 · Sono cio`e variabili vettoriali, ciascuna di esse ha n componenti, che sono anch’esse i.i.d. con distribuzione

ha ancora evidentemente probabilita piena (perche Ωc = ∪∞k=1Ω

cεk

e un’unione di insiemidi misura nulla), e per ω ∈ Ω vale l’affermazione del teorema.

Il metodo Monte-Carlo. Una classica applicazione della legge dei grandi numerie il metodo Monte-Carlo. Si tratta di un metodo probabilistico per il calcolo numerico diintegrali multipli al calcolatore.

Assumendo, per semplicita che l’insieme d’integrazione sia l’ipercubo unitario 0 ≤xj ≤ 1, j = 1, . . . , n, si tratta di calcolare un integrale del tipo

I =∫ 1

0

dx1

∫ 1

0

dx2 . . .

∫ 1

0

dxn f(x1, x2, . . . , xn),

ove f e una funzione che supponiamo continua.Se la dimensione n e grande, e basta n ≈ 10, il metodo delle somme di Riemann e

molto dispendioso: anche dividendo l’intervallo in sole 10 parti si dovrebbe calcolare lafunzione in 1010 punti.

Il metodo Monte-Carlo e cosı concepito. Siano ξ1, ξ2, . . . , ξr variabili i.i.d., con dis-tribuzione uniforme sul cubo [0, 1]n. Sono cioe variabili vettoriali, ciascuna di esse han componenti, che sono anch’esse i.i.d. con distribuzione uniforme sull’intervallo [0, 1].Abbiamo quindi nr variabili casuali i.i.d. con distribuzione uniforme su [0, 1].

L’integrale viene allora approssimato dalla ”media empirica”

I ≈ 1r

r∑j1

f(ξj).

Infatti le nuove variabili casuali f(ξj), j = 1, 2, . . . , n, come si e osservato preceden-temente, sono ancora i.i.d. e, per la Legge dei Grandi Numeri, la media empirica e vicinaa I con grande probabilita quando n e grande. Ma la media di ciascuna di queste nuovevariabili e proprio M(f(ξj)) = I.

L’errore, che puo essere valutato sulla base della disuguaglianza di Chebyshev o conmetodi piu raffinati, dipendera dalla comune varianza σ2

f = Var(f(ξj)) delle f(ξj), che echiaramente finita, perche f e continua e quindi limitata. Se usiamo la disuguaglianza diChebyshev, la (3.1.2) ci da, per ogni ε > 0

P

∣∣∣∣∣∣1rr∑

j=1

f(ξj) − I

∣∣∣∣∣∣ ≥ ε

≤σ2

f

rε2.

3.2. Entropia di Shannon. Teorema di McMillan.L’ entropia di Shannon e un concetto molto importante in teoria dell’ informazione,

soprattutto per i problemi di codificazione. Diamo qui la sua definizione nel caso piusemplice, quello di uno schema di Bernoulli con r stati.

Sia dunque Ω = a1, a2, . . . , ar lo spazio degli stati e siano pi = P (ai) le corrispon-denti probabilita. Si definisce ”entropia” dello schema di Bernoulli la quantita

h = −r∑

j=1

pj ln pj , (3.2.1)

47

Page 5: 3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. · 2007-12-20 · Sono cio`e variabili vettoriali, ciascuna di esse ha n componenti, che sono anch’esse i.i.d. con distribuzione

dove si puo anche ammettere che qualcuna delle probabilita pj sia nulla, convenendo che0 · log 0 = 0.

In alcuni testi nella definizione dell’entropia di Shannon (3.2.1) compare il logaritmoin base 2 al posto de logaritmo naturale ln. Le due definizioni coincidono a meno di unacostante moltiplicativa.

Si noti che essendo pj ∈ [0, 1], l’entropia (3.2.1) e sempre definita e non puo maiessere negativa. Essa e nulla solo se tutti gli addendi sono nulli, e quindi, visto il vincolo∑r

i=1 pi = 1, e nulla solo quando sia ha pj = 1 per qualche j = 1, 2, . . . e pi = 0 per i = j.La quantita h da in un certo senso una misura del ”disordine” della probabilita su Ω,

che e chiaramente minimo quando si sa che viene scelto con certezza un solo elemento aj .

Calcoliamo ora il massimo dell’entropia al variare della distribuzione di probabilitasu Ω. Data la presenza del vincolo

∑ri=1 pi = 1 usiamo il metodo dei moltiplicatori di

Lagrange. Detto λ il moltiplicatore, si tratta di trovare il massimo della funzione

G(p1, . . . , pr;λ) = −r∑

j=1

pj ln pj + λ

r∑j=1

pj − 1

. (3.2.2)

Prendendo le derivate parziali, il punto di massimo e soluzione del problema

∂G

∂pj= − ln pj − 1 + λ = 0, j = 1, . . . , r,

Si ottiene pj = e−1+λ, j = 1, . . . , r, cioe le probabilita sono tutte eguali, per cui pj = 1r .

L’entropia massima spetta dunque alla probabilita uniforme su X, e vale hM = log r.Il senso dell’entropia e chiarito dal seguente teorema di McMillan.Teorema. Presi comunque due numeri positivi ε1, ε2 piccoli a piacere, si trova un

numero intero n0(ε1, ε2) tale che per n ≥ n0 nello spazio Ωn si trova un insieme Cn ⊂ Ωcon le seguenti proprieta

i) P (Cn) ≥ 1 − ε1;ii) per ogni ω ∈ Cn si ha e−n(h +ε2) ≤ P (ω) ≤ e−n(h −ε2);iii) en(h −ε2) ≤ |Cn| ≤ en(h +ε2);(Nella iii), come d’uso, | · | indica la cardinalita (= numero di elementi) dell’insieme.)Osservazione. Il teorema e interessante solo se h < log r, cioe se la probabilita su Ω

non e uniforme. Infatti se h = log r si ha en h = nr, che e il numero di tutti gli elementi diΩn, ciascuno dei quali (la probabilita e uniforme!) ha probabilita 1

nr . Quindi Cn coincidecon Ωn e non c’e niente da dimostrare. Supporremo quindi che sia h < log r.

Dimostrazione del Teorema di McMillan. Come al solito il punto genericoω ∈ Ωn lo scriviamo nella forma ω = (ω1, ω2, . . . , ωn), dove le variabili casuali ωj prendonouno dei valori di Ω = a1, . . . , ar. Introduciamo le variabili casuali ξ

(s)j (ω), i = 1, 2, . . . , r,

j == 1, 2, . . . , n, cosı definite: ξ(s)j (ω) = 1 se ωj = as, e ξ

(s)j (ω) = 0 altrimenti. E’ chiaro

che per un dato s le variabili ξ(s)j , j = 1, 2, . . . , n, sono indipendenti ed identicamente

distribuite. Inoltre M(ξ(s)j ) = ps, e la dispersione e Var(ξ(s)

j ) = ps(1 − ps). La somma

48

Page 6: 3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. · 2007-12-20 · Sono cio`e variabili vettoriali, ciascuna di esse ha n componenti, che sono anch’esse i.i.d. con distribuzione

N (s)(ω) :=∑n

j=1 ξ(s)j (ω) e il numero di coordinate di ω = (x1, x2, . . . , xn) che sono pari

ad as. Per un certo δ ∈ (0, 1) poniamo

Cn =

ω :∣∣∣∣N (s)

n− ps

∣∣∣∣ < δ, 1 ≤ s ≤ r

.

Mostriamo che, qualunque sia δ ∈ (0, 1) si ha limn→∞ P (Cn) = 1. Infatti abbiamo

Cn = ∩rs=1(Ω

(s)n )c, con Ω(s)

n =

ω :∣∣∣∣N (s)

n− ps

∣∣∣∣ > δ

,

e, per la legge dei grandi numeri (3.1.1), P (Ω(s)n ) → 0 per n → ∞, per s = 1, 2, . . . , r.

Quindi, sempre per n → ∞,

P (Cn) = P

(r⋂

s=1

(Ω(s)n )c

)= 1 − P

(r⋃

s=1

Ω(s)n

)≥ 1 −

r∑s=1

P(Ω(s)

n

)→ 1. (3.2.3)

Questo dimostra la i). Per la ii), si osservi che per ω = (ω1, . . . , ωn) ∈ Cn abbiamo

P (ω) =n∏

j=1

p(ωj) =r∏

s=1

(ps)N(s)(ω) = exp

r∑s=1

N (s) ln ps =

exp

−n

[−

r∑s=1

ps ln ps −r∑

s=1

(N (s)

n− ps) ln ps

].

Il fatto che ω ∈ Cn implica che, per δ piccolo abbastanza,∣∣∣∣∣r∑

s=1

(N (s)

n− ps) ln ps

∣∣∣∣∣ ≤ δ

r∑s=1

| ln ps| < ε2.

Preso δ in questo modo, scegliamo n cosı grande che la probabilita P (Cn) nella (3.2.3) siamaggiore di 1 − ε1.

Questo prova l’ affermazione ii) del teorema. Quanto alla iii), si ha, per la ii),

|Cn|e−n(h+ε2) ≤∑

ω∈Cn

P (ω) ≤ 1

che da immediatamente |Cn| ≤ en(h+ε2). Dall’ altra parte abbiamo, per la i),

1 − ε1 ≤ P (Cn) =∑

ω∈Cn

P (ω) ≤ |Cn|e−n(h−ε2)

da cui si ottiene |Cn| ≥ (1 − ε1)en(h−ε2) = en(h−ε∗2) dove ε∗2 = ε2 + ln(1 − ε1) > ε2, per cuianche |Cn| ≤ en(h+ε∗2). Prendendo ε∗2 come nuovo ε2, si vede che soddisfa le ii) e iii).

49

Page 7: 3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. · 2007-12-20 · Sono cio`e variabili vettoriali, ciascuna di esse ha n componenti, che sono anch’esse i.i.d. con distribuzione

Il teorema e dimostrato.Il teorema di McMillan afferma essenzialmente che, se h < ln r, per n grande possiamo

buttar via gran parte dello spazio di probabilita, e limitarci al solo insieme Cn, senza quasiperdere probabilita. Eppure tutti i punti dello spazio di probabilita sono rn e noi neprendiamo grosso modo una frazione esponenzialmente piccola in n: en h

rn = e−n(ln r−h).La ii) dice poi che tutti i punti di questo insieme Cn hanno in un certo senso la stessa

probabilita. Siamo cioe vicini alla distribuzione uniforme o classica, per‘o in un sensomolto debole, e precisamente nel senso che ln P (ω)

n ≈ −h.Il teorema di McMillan potrebbe essere completato dimostrando affermazioni quasi-

ovunque, relative allo schema di Bernoulli infinito (Ω∞,F , ℘). Per esempio si puo vederefacilmente, in base alla legge dei grandi numeri in senso forte, che si ha, per ogni ω ∈ Ω ⊂Ω∞ dove Ω ha probabilita piena ℘(Ω) = 1, che, posto ω(n) := (ω1, . . . , ωn), si ha

limn→∞

− 1n

lnP (ω(n)) = h. (3.2.4)

3.3. Legge di De Moivre-Laplace. Teorema Centrale del Limite.Consideriamo ancora uno schema di Bernoulli con spazio degli stati Ω = 0, 1 e

P (1) = p ∈ (0, 1). Come abbiamo visto nel §1.4, il numero di ”successi” N(ω) su n provee distribuito secondo la legge binomiale (1.5.7).

La legge di De Moivre-Laplace, che ora daremo in forma di teorema, afferma chequando n cresce, nella zona ”centrale” della distribuzione, la distribuzione binomiale va acoincidere con la distribuzione gaussiana.

Teorema. Se k e un intero tale che |k − np|n− 23 < an, con an → 0 per n → ∞ si ha

P (N = k) = pn(k) =(

n

k

)pkqn−k =

1√2πnpq

e−(k−np)2

2npq (1 + rn(k)) (3.3.1)

dove il resto rn(k) e tale che limn→∞ maxk:|k−np|<ann

23|rn(k)| = 0.

Dimostrazione. La dimostrazione fa uso della formula di Stirling, che fornisce uncomodo modo di scrivere n!, soprattutto per n grandi:

n! = nn e−n√

2πn eθ(n)

n , n = 2, 3, . . . , |θ(n)| <110

. (3.3.2)

Nelle nostre ipotesi non solo n, ma anche k e n− k devono andare all’infinito per n → ∞,per cui possiamo usare la formula di Stirling per tutti e tre i fattoriali. Abbiamo

n!k!(n − k)!

pkqn−k ∼ nne−n√

npkqn−k√2πk(n − k)kke−k(n − k)n−ke−n+k

=( p

p∗)k( q

q∗)n−k

√2πp∗q∗

dove p∗ = kn , q∗ = 1 − p∗, e con ∼ indichiamo l’equivalenza asintotica (cioe il fatto che il

rapporto delle due grandezze tende ad 1). Infatti il fattore eθ(n)

n e i corrispondenti per k en − k tendono ad 1. Portando tutto all’esponente otteniamo la relazione

pn(k) ∼ e−nH(p∗)

√2πp∗q∗

, H(x) = x lnx

p+ (1 − x) ln

1 − x

1 − p.

50

Page 8: 3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. · 2007-12-20 · Sono cio`e variabili vettoriali, ciascuna di esse ha n componenti, che sono anch’esse i.i.d. con distribuzione

Nelle nostre ipotesi |p∗−p| = | kn −p| ≤ ann− 1

3 → 0 per n → ∞, quindi possiamo svilupparela funzione H(p∗) intorno al valore p∗ = p. La funzione H(x) e infinitamente derivabileper x ∈ (0, 1) e si ha

H ′(x) = lnx

p− ln

1 − x

1 − p, H ′′(x) =

1x

+1

1 − x, H ′′′(x) = − 1

x2+

1(1 − x)2

.

Dunque H(p) = H ′(p) = 0, H ′′(p) = 1p + 1

q = 1pq . Lo sviluppo di H al secondo ordine in

p∗ = p da, per qualche p intermedio tra p∗ e p,

nH(p∗) = n(p∗ − p)2

2pq+

H ′′′(p)3!

n(p∗ − p)3.

Ora n|p∗ − p|3 = |k−np|3n2 ≤ a3

n → 0 per n → ∞, mentre n (p∗−p)2

2pq = (k−np)2

2npq .Il teorema e dimostrato.

Osservazione. Come si e visto nel §1.5, il massimo della probabilita e pn(k0), dovek0 = [np − q], ed e chiaro che k0−np√

2n p q→ 0, per n → ∞. Ne segue che

maxk

pn(k) ≤ pn(k0) ∼1√

2n p q→ 0, n → ∞. (3.3.3)

Il teorema di De Moivre-Laplace permette anche di dare l’andamento asintotico diprobabilita finite.

Teorema Centrale del Limite in forma integrale. Nelle ipotesi del precedenteteorema, per ogni scelta dei numeri reali A < B e C si ha

limn→∞

∑k:A≤ k−np√

npq≤B

pn(k) =∫ B

A

e−x22

√2π

dx

limn→∞

∑k:C≤ k−np√

npq

pn(k) =∫ ∞

C

e−x22

√2π

dx, limn→∞

∑k: k−np√

npq≤C

pn(k) =∫ C

−∞

e−x22

√2π

dx(3.3.4)

Dimostrazione. Poniamo zk = k−np√2πnpq

, 0 ≤ k ≤ n, e g(x) = e−x22 /

√2π. I punti

zk costituiscono un reticolo finito di passo zk+1 − zk = 1√2n p q

. Nella zona dei k per cuiA ≤ zk ≤ B vale la legge di De Moivre-Laplace (3.3.1), e tenendo conto della convergenzadelle somme di Riemann, si ha

∑k:A≤ k−np√

npq≤B

pn(k) =∑

k:A≤zk≤B

e−z2

k2

√2πnpq

(1 + o(1)) →∫ B

A

g(x)dx.

51

Page 9: 3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. · 2007-12-20 · Sono cio`e variabili vettoriali, ciascuna di esse ha n componenti, che sono anch’esse i.i.d. con distribuzione

Passando agli intervalli infiniti, consideriamo la seconda relazione (3.3.4). Si osserviche, per ogni ε > 0 si trova un B > maxC, 0 talmente grande che

∫ B

−Bg(x)dx > 1− ε

4 , eper il dato B, per il precedente risultato, n talmente grande che

max

∣∣∣∣∣∣

∑k:−B≤zk≤B

pn(k) −∫ B

−B

g(x)dx

∣∣∣∣∣∣ ,

∣∣∣∣∣∣∑

k:C≤zk≤B

pn(k) −∫ B

C

g(x)dx

∣∣∣∣∣∣ <

ε

12.

Ne segue che per tale n si ha∫ ∞

Bg(x)dx < ε

8 e∑

k:zk>B pn(k) < ε3 e inoltre∣∣∣∣∣∣

∑k:zk≥C

pn(k) −∫ ∞

C

g(x)dx

∣∣∣∣∣∣ ≤ ε

2+

∣∣∣∣∣∣∑

k:C≤zk≤B

pn(k) −∫ B

C

g(x)dx

∣∣∣∣∣∣ < ε.

Poiche ε e arbitrario, la seconda delle (3.3.4) e dimostrata.La terza si mostra nello stesso modo.Il Teorema Centrale del Limite in forma integrale e un risultato generale che vale per

ogni successione di variabili casuali i.i.d. con dispersione finita, ed anche, sotto ipotesidi carattere generale, per successioni con “debole” dipendenza e non identicamente dis-tribuite. La dimostrazione non e difficile, specie nel caso i.i.d., ma richiede il concetto di“funzione caratteristica” di una variabile aleatoria, una generalizzazione della trasformatadi Fourier al caso di probabilita, che e un prerequisito non richiesto per il nostro corso.

Anche il teorema locale, l’analogo cioe della legge di De Moivre-Laplace, si estendenello stesso modo, sotto opportune ipotesi aggiuntive.

3.4. Grandi deviazioni.Al di fuori della zona centrale, cioe nella zona delle cosiddette ”grandi deviazioni”

(si intende, rispetto al valor medio) il comportamento delle somme di variabili aleatorieindipendenti non e in generale piu gaussiano, ma presenta ancora caratteristiche universali,ed e un importante oggetto di studio sia per la teoria che per le applicazioni.

Daremo qui una breve trattazione di carattere elementare, limitandoci a semplici dis-uguaglianze ottenute con il ”metodo di Cramer”. Il metodo si applica a somme Sn =∑n

k=1 ξk di variabili casuali i.i.d. che siano limitate o che almeno abbiano momento espo-nenziale finito: M(eλξ1) < ∞ per λ ∈ (−α, β), con α, β > 0. Menzioniamo “en passant”che, data una variabile casuale ξ, il suo momento esponenziale φξ(λ) = M(eλξ), se esisteper λ in qualche intervallo che contiene lo 0, e una funzione che determina univocamentela variabile casuale ξ, e prende il nome di “funzione generatrice dei momenti”. Il nome esiegato dal fatto che i momenti M(ξk), k = 1, 2, . . . sono dati dalle derivate di φξ calcolatenel punto λ = 0. Non possiamo ulteriormente dilungarci su questo importante argomento.

Rimaniamo, come nel precedente paragrafo nell’ambito degli schemi di Bernoulli, chee chiaramente tra i piu importanti per le applicazioni, e sia Nn =

∑nj=1 ξj il numero di

“successi” su n prove. I valori ξk ∈ 0, 1 sono i risultati delle singole prove. Come si sa,la distribuzione di Nn e binomiale.

Il metodo di Cramer consiste nel considerare il momento esponenziale

φNn(λ) := M(eλNn) = (φ(λ))n, φ(λ) := M

(eλξ1

)= peλ + q = 1 + p(eλ − 1), (3.4.1)

52

Page 10: 3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. · 2007-12-20 · Sono cio`e variabili vettoriali, ciascuna di esse ha n componenti, che sono anch’esse i.i.d. con distribuzione

dove λ ∈ R, e si e usato il fatto che le variabili eλξk sono i.id., per cui il valor mediodel prodotto e il prodotto dei valori medi: M(eλNn) = (M(eλξ1))n = (φ(λ))n. Postoψ(λ) = lnφ(λ), la disuguaglianza di Chebyshev (2.3.4) da, per ogni r > 0, λ > 0

P (Nn − np > nr) = P(eλ(Nn−np) > eλnr

)≤ e−λn(r+p)M

(eλNn

)= e−n(λ(r+p)−ψ(λ)).

(3.4.2a)Per r < 0, λ < 0 si ha similmente

P (Nn − np < rn) = P(eλ(Nn−np) > eλnr

)≤ e−n(λ(r+p)−ψ(λ)). (3.4.2b)

Nel metodo di Cramer si sceglie il valore del parametro λ che minimizza il termine adestra nelle (3.4.2a,b). Consideriamo il caso r > 0, e assumiamo che r sia tale che r+p < 1,altrimenti sarebbe nr + np > n, cioe il valore rn non e raggiungibile da Nn.

Poniamo Ψ(λ) = λ(p + r) − ψ(λ). Poiche ψ(λ) = ln(peλ + q) si ha ψ(0) = 0 e quindiΨ(0) = 0. Per trovare il massimo di Ψ(λ) cerchiamo i punti stazionari:

Ψ′(λ) = p + r − ψ′(λ) = 0. (3.4.3a)

Se p + r ∈ (0, 1) abbiamo un’unica soluzione λ = λ(r). Infatti

ψ′(λ) =peλ

peλ + q, ψ′′(λ) =

pqeλ

(peλ + q)2> 0, (3.4.3b)

quindi ψ′ e strettamente crescente, tende a 0 per λ → −∞ e ad 1 per λ → ∞, e dunquec’e una sola soluzione della (3.4.3a). Inoltre ψ′(0) = p, e quindi λ(0) = 0.

Per r > 0 otteniamo quindi la stima di grandi deviazioni nella forma

P (Nn − np > nr) ≤ exp −n Λ(r) , con Λ(r) = Ψ(λ(r)), (3.4.4)

che per essere effettiva va completata con uno studio della funzione Λ(r). In particolare eimportante verificare che Λ(r) > 0 per r > 0 altrimenti la stima (3.4.4.) e irrilevante.

La funzione di grandi deviazioni Λ(r), e detta anche “funzione di Cramer”, ed hainteresse studiarla anche per r < 0. Infatti se r < 0 il membro di destra della (3.4.4) dauna stima della probabilita P (Nn − np < nr).

Come abbiamo visto, λ(0) = 0, per cui Λ(0) = Ψ(λ(0)) = 0. Inoltre λ(r) e soluzionedella (3.4.3a), e per le regole di derivazione delle funzioni composte si ha

Λ′(r) = (p + r)λ′(r) + λ(r) − ψ′(λ(r))λ′(r) = λ(r),

quindi Λ′(0) = 0. Infine dalla (3.4.3a) segue che ψ′′(λ(r))λ′(r) = 1, per cui Λ′′(0) =1

ψ′′(0) = 1pq > 0. Dunque Λ(r) ha un minimo nullo per r = 0, ed e positiva per r = 0.

La (3.4.4) da quindi una stima esponenziale per le deviazioni dell’ordine di n.Esempio. Se lanciamo 10000 volte una moneta sappiamo che la media del numero

di teste NT e M(NT ) = 5000 . Qual’e la probabilita dell’evento NT > 5250?

53

Page 11: 3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. · 2007-12-20 · Sono cio`e variabili vettoriali, ciascuna di esse ha n componenti, che sono anch’esse i.i.d. con distribuzione

In questo caso r = 25010000 = 1

40 e abbastanza piccolo e possiamo sviluppare Λ(r) inserie di Taylor. Come abbiamo visto, Λ(0) = Λ′(0) = 0 e quindi lo sviluppo inizia daltermine di secondo ordine. Poiche p = q = 1

2 abbiamo

Λ(r) ≈ 12Λ′′(0)r2 =

12pq

r2 = 2r2.

Si trova che la probabilita e piccolissima, anche se lo scarto e solo il 5% della media:

P (NT > 5250) ≤ exp −nΛ(r) ≈ exp−2nr2 = exp−12, 5.

3.5. Un esempio di stima statistica: il parametro di una binomiale.La statistica, o piu precisamente, la statistica inferenziale, e forse il settore di ap-

plicazione per eccellenza delle successioni di variabili aleatorie i.i.d. Volendo descriverlain poche parole, si puo dire che il problema che ci si pone e quello di ricostruire la dis-tribuzione di probabilita di una variable casuale, in tutto o in parte incognita, a partireda una serie di realizzazioni, cioe di risultati di prove indipendenti. Questi dati prendonoil nome di “campione”.

Il caso piu semplice e quello in cui il tipo di distribuzione e noto, ma non sono notii suoi parametri, o perlomeno non tutti. Un caso di questo tipo e quello di un’indaginesanitaria per determinare la percentuale, in una grande popolazione di M individui, deipossessori di un certo carattere genetico g.

Consideriamo infatti la prova che consiste nel prendere un individuo a caso e registrareil risultato 1 se possiede il carattere g (“successo”) e 0 (“insuccesso”) altrimenti. Se Mg eil numero degli individui che possiedono il carattere g, il valor medio della variabile casualecosı costruita e per la frazione incognita p = Mg

M . Ripetendo la prova n volte nelle stessecondizioni, cioe reinserendo l’individuo analizzato nella popolazione e prendendo di nuovoun individuo a caso ogni volta, siamo in pratica nella situazione di estrazioni ripetute daun’urna con restituzione, quindi di prove ripetute indipendenti. I risultati delle prove checostituiscono il campione, sono dunque una realizzazione di variabili casuali indipendentiche assumono il valore 1 con la probabilita (incognita) p = Mg

M . Se M e molto granderispetto alla cardinalita n del campione, come spesso accade, il fatto che gli individuiesaminati vengano reintrodotti oppure no non ha molta importanza.

Da un punto di vista matematico la situazione e dunque la seguente. Lo spazio deirisultati di ogni singola prova e Ω = 0, 1, con P (1) = p la probabilita incognita. Effet-tuando n prove, lo spazio degli eventi e Ωn, con evento elementare ω = (ω1, ω2, . . . , ωn),e sappiamo che il numero dei successi N(ω) =

∑nj=1 ωj ha una distribuzione di tipo noto,

cioe e binomiale, con il parametro incognito p.Il campione ottenuto e un particolare punto dello spazio degli eventi Ωn, e sia esso

ω = (ω1, . . . , ωn). Per la legge dei grandi numeri (3.1.1), la frazione N(ω)n , la ”frequenza

empirica”, e con grande probabilita, cioe se non siamo stati troppo “sfortunati”, vicinaalla ”frequenza vera” p, se n e grande.

Il problema statistico consiste nel determinare quant’e ”buona” la stima di p datadalla frequenza empirica τ(ω) := N(ω)

n . E’ ovvio che la probabilita del caso “fortunato”

54

Page 12: 3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. · 2007-12-20 · Sono cio`e variabili vettoriali, ciascuna di esse ha n componenti, che sono anch’esse i.i.d. con distribuzione

p = τ(ω) e in genere nulla. Si tratta invece di determinare un intervallo (p−, p+), chedipendera da τ(ω), tale che ”con grande probabilita” (diciamo 1 − ε, dove ε e piccolo) psia compreso in esso: p ∈ (p−, p+).

E’ chiaro che il risultato statistico e tanto piu preciso quanto piu l’intervallo e stretto,ed e tanto piu “affidabile” quanto piu ε e piccolo. Come vedremo, pero, e come del resto eintuitivo, per n fissato queste due richieste sono in competizione tra di loro: quanto piu εe piccolo, cioe quanto piu grande si vuole l’affidabilita del test, tanto piu l’intervallo saraampio, e quindi tanto meno precisa sara la stima di p, e viceversa.

La possibilita di avere risultati che siano insieme di grande precisione e affidabilita equindi legata alla possibilita di prendere campioni grandi. Per n fissato si possono decidereaffidabilita e precisione sulla base della situazione concreta. In ogni caso noi supporremoche n sia abbastanza grande da poter applicare la legge dei grandi numeri e la legge di DeMoivre-Laplace.

Assumiamo dunque che n sia grande, e, sulla base della legge di De Moivre Laplace pas-siamo a considerare la variabile normalizzata N(ω)−np√

npq , che tende alla gaussiana standard,ed ha quindi per grandi n, distribuzione indipendente dall’incognita p. Fissato ε ∈ (0, 1),vogliamo determinare b(ε) in modo tale che per grandi n la probabilita che la deviazionestandard della variabile normalizzata ecceda b(ε) sa ε. Sulla base del teorema centrale dellimite in forma integrale integrale abbiamo, per n grande,

P

(∣∣∣∣N(ω) − np√npq

∣∣∣∣ ≤ b(ε))

= P

(|τ(ω) − p| ≤ b(ε)

√pq√

n

)∼

∫ b(ε)

−b(ε)

e−x22

√2π

dx = 1 − ε. (3.5.1)

Dalla (3.5.1) si trova, per la simmetria della gaussiana, ε = 2∫ ∞

b(ε)g(x)dx, dove g(x) indica

la densite gaussiana standard. Questa e un’equazione funzionale per b(ε), che ha soluzioneunica. Infatti la funzione a destra F (b) = 2

∫ ∞b

g(x)dx e monotona decrescente in b, perchela sua derivata e sempre negativa. Inoltre si ha F (0) = 1 e limb→∞ F (b) = 0. Quindi c’eun unico valore b = b(ε) per cui F (b) = ε ∈ (0, 1].

Posto β := b2(ε)2n , l’insieme di cui alla (3.5.1) si scrive nella forma (τ − p)2 ≤ 2βpq.

Quindi, per p fissato la frequenza empirica cade con probabilita 1 − ε nell’intervallo

p −√

2βpq ≤ τ(ω) ≤ p +√

2βpq, (3.5.2a)

che, per n → ∞ si stringe, perche β → 0. A noi interessa stimare p per il dato τ = τ(ω)misurato. Tenendo conto che q = 1 − p, l’insieme (τ − p)2 ≤ 2βpq e la regione del piano(p, τ) che ha per contorno l’ellisse di equazione

τ2 + p2(1 + 2β) − 2p(τ + β) = 0. (3.5.2b)

L’ellisse (3.5.2b) passa per i punti (0, 0) e (1, 1), e per β → 0, cioe per n → ∞, si stringesulla retta τ = p. (Si consiglia al lettore di disegnare l’ellisse.)

Si noti che nelle vicinanze dell’origine e del punto (1, 1) l’ellisse (3.5.2b) esce un po’nelle zone ”proibite” p < 0 e p > 1. Questo e un effetto spurio dovuto al fatto che per

55

Page 13: 3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. · 2007-12-20 · Sono cio`e variabili vettoriali, ciascuna di esse ha n componenti, che sono anch’esse i.i.d. con distribuzione

n finito nei punti vicini a p = 0 e p = 1 l’approssimazione gaussiana (cioe la legge di DeMoivre-Laplace) non vale perche la dispersione e piccola.

L’intervallo in p che ci interessa per il dato τ si trova risolvendo la (3.5.2b), che eun’equazione di secondo grado in p. Le soluzioni sono

p±(τ) =τ + β

1 + 2β±

√β

1 + 2β

√2τ(1 − τ) + β.

Per grandi n la larghezza dell’intervallo si comporta come

p+ − p− ∼ 2√

βτ(1 − τ) =√

2b(ε)√n

√τ(1 − τ). (3.5.3)

Il risultato si interpreta dicendo che, sulla base del τ misurato, con un ”livello disignificanza” 1−ε il valore di p cercato cade nell’ ”intervallo di confidenza” (p−(τ), p+(τ)).

Non si esclude che p sia in realta fuori dell’intervallo di confidenza. Si afferma soloche, se questo avviene, allora il τ misurato e caduto in una zona di grandi deviazioni diprobabilita ε. Dunque ε rappresenta grosso modo la probabilita di sbagliarsi per effettodella “sfortuna” (definita da ε). Se, per esempio scegliamo un livello di significanza del99%, implicitamente escludiamo la possibilita di finire nell’ 1% di casi ”estremi”, cioeassumiamo di non essere cosı sfortunati da cadere nell’ 1% di casi ”estremi”.

Dalla (3.5.3) si vede che se ε diminuisce, cioe se si vuole aumentare l’attendibilita(livello di significanza), l’intervallo di confidenza si allarga.

La scelta di ε dipendera comunque dalle circostanze. Volendo avere un risultato moltosicuro, si puo prendere ε = 10−3 o meno ancora, mentre nelle scienze ”poco serie” allaricerca di facili effetti, capita anche di prendere ε = 0, 1.

56

Page 14: 3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. · 2007-12-20 · Sono cio`e variabili vettoriali, ciascuna di esse ha n componenti, che sono anch’esse i.i.d. con distribuzione

§4. CATENE DI MARKOV.

4.1. Generalita. Catene omogenee e classificazione degli stati.

Le catene di Markov sono una generalizzazione degli schemi di Bernoulli. Si trattaanche qui di successioni di variabili aleatorie, non piu pero indipendenti, ma dipendenti,anche se dipendenti solo dalle variabili vicine. Si puo pensare a successioni di prove con“memoria corta”.

Lo spazio degli eventi e come per gli schemi di Bernoulli, quello delle successioni finiteo infinite di elementi di uno spazio degli stati finito Ω = a1, . . . , ar, che supporremonumerico, cosicche le componenti degli elementi di Ωn sono variabili casuali.

E’ tradizione iniziare la successione dall’elemento di indice 0, per cui nel caso di uncatena finita di “lunghezza” n+1 l’evento elementare e indicato con ω = (ω0, ω1, . . . , ωn),e nel caso di una catena infinita ω = (ω0, ω1, . . . ), con ωt ∈ Ω, t = 0, 1, . . . . Nel caso dicatena infinita, cosı come per gli schemi di Bernoulli infiniti del §1.7, la probabilita saraassegnata sulla σ-algebra F generata dagli insiemi cilindrici di Ω∞.

Nelle catene di Markov la dipendenza delle variabili casuali ωt e espressa unicamentedalle probabilita condizionate P (ωt = ak|ωt−1 = aj) =: p

(t)jk , t = 1, 2, . . . , j, k = 1, . . . , r.

Per un dato t le probabilita p(t)jk , j, k = 1, . . . , r, costituiscono una matrice r × r, che

indichiamo con P(t), ed e detta ”matrice di transizione” al tempo t. L’elemento di matricep(t)jk e infatti la probabilita di finire nello stato ak al tempo t se si e nello stato aj al tempo

t − 1, e quindi la ”probabilita di transizione”. Se le variabili sono indipendenti (schemidi Bernoulli) allora P (ωt = ak|ωt−1 = aj) non dipende da aj , e quindi la matrice ditransizione ha le righe eguali.

La probabilita su Ωn+1 e determinata dalla distribuzione del primo elemento ω0, unamisura di probabilita arbitraria su Ω che indichiamo con µ0, e da una successione dellematrici r × r, P(t), t = 1, . . . , n, con certe proprieta che ora diremo, i cui elementi sonole probablita di transizione. In termini di queste quantita la probabilita dell’evento ele-mentare ω = (ω0, ω1, . . . , ωn) ∈ Ωn e data dalla formula

p(ω) = µ0(ω0) p(1)ω0ω1

. . . p(n)ωn−1ωn

. (4.1.1)

( Per abuso di notazione scriviamo qui p(t)ωt−1ωt per indicare p

(t)jk quando ωt = ak e ωt−1 = aj .

La notazione diventa coerente se, come faremo d’ora in poi, al posto dei generici statia1, . . . , ar prendiamo i loro indici 1, 2, . . . , r. )

La condizione che devono soddifare le matrici P(t), t = 1, 2, . . . , n e quella di essere”matrici stocastiche”, secondo la seguente definizione.

Definizione. Una matrice P quadrata r × r, con elementi pjk : j, k = 1, . . . , r edetta ”matrice stocastica” se valgono le seguenti due condizioni:

i) pjk ≥ 0, j, k = 1, . . . , r (ha elementi non negativi);ii)

∑rk=1 pjk = 1, per ogni j = 1, . . . , r (la somma degli elementi di ogni riga e 1).

57

Page 15: 3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. · 2007-12-20 · Sono cio`e variabili vettoriali, ciascuna di esse ha n componenti, che sono anch’esse i.i.d. con distribuzione

Queste condizioni implicano che la funzione p(ω) definita nella (4.1.1) e la densitadiscreta di una probabilita. Infatti dalla condizione i) viene che p(ω) ≥ 0, e dalla ii),sommando prima su ωn, poi su ωn−1, etc., fino a ω0, otteniamo

∑ω∈Ωn+1

p(ω) =r∑

ω0=1

µ0(ω0)r∑

ω1=1

p(1)ω0ω1

. . .r∑

ωn−1=1

p(n−1)ωn−2ωn−1

r∑ωn=1

p(n)ωn−1ωn

=r∑

ω0=1

µ0(ω0)r∑

ω1=1

p(1)ω0ω1

. . .r∑

ωn−1=1

p(n−1)ωn−2ωn−1

= . . . =r∑

ω0=1

µ0(ω0) = 1.

Indichiamo con P(n)µ0 la probabilita su Ωn+1 con densita discreta definita dalla (4.1.1).

Lo spazio di probabilita (Ωn+1, P(n)µ0 ) definisce una catena di Markov di lunghezza n + 1.

Per “catena di Markov” tout court, individuata dallo spazio degli stati Ω, la probabilitainiziale µ0 e la successione delle matrici di transizione P(t)∞t=1, si intende la successionedegli spazi (Ωn+1, P

(n)µ0 ), oppure direttamente lo spazio di probabilita (non piu discreto)

(Ω∞,F , ℘µ0), dove F e, come nel caso degli schemi di Bernoulli, la σ-algebra generatadagli insiemi cilindrici, e la probabilita ℘µ0 e definita dalla (4.1.1) sugli insiemi cilindrici,ed e poi estesa a tutti gli insiemi di F facendo uso della continuita della probabilita.

Queste definizioni sono coerenti, e in particolare individuano un’unica probabilita ℘ suF , grazie al fatto che le probabilita P

(n)µ0 soddisfano la seguente condizione di compatibilita:

se m > n la distribuzione marginale delle variabili (ω0, . . . , ωn) indotta da P(m)µ0 e data

da P(n)µ0 . Infatti la probabilita indotta dalla (4.1.1) sulle successioni (ω0, ω1, . . . , ωm−1) si

ottiene fissando le prime m componenti ω0 = i0, ω1 = i1, . . . , ωm−1 = im−1, e sommandola (4.1.1) su ωm, per cui

P (ω0 = i0, ω1 = i1, . . . , ωm−1 = im−1) = µ0(i0) p(1)i0i1

. . . p(m−1)im−2im−1

.

Questa e proprio la densita discreta della catena di lunghezza m. Ripetendo l’operazionesi giunge ad una simile formula per ogni n < m:

P (ω0 = i0, ω1 = i1, . . . , ωn = in) = µ0(i0) p(1)i0i1

. . . p(n)in−1in

. (4.1.2)

Quindi, data una catena di Markov, ogni catena finita di lunghezza n+1 e la distribuzionemarginale delle prime n + 1 componenti (ω0, ω1, . . . , ωn) indotta dalla probabilita ℘µ0 odalla P

(m)µ0 , con m > n.

E’ opportuno a questo punto ricordare che i singoli elementi dello spazio finito Ωn

danno una partizione di Ω∞, o di ogni Ωm con m > n, in componenti cilindriche. Glielementi della partizione sono specificati dalle prime n componenti (ω0, ω1, . . . , ωn−1) nellospazio Ωm o Ω∞, che sono fissate e individuano la ”base” del cilindro, mentre le altre sonolasciate libere.

Proprieta delle matrici stocastiche.Ricordiamo che una matrice Q quadrata r×r e un’ applicazione lineare dello spazio Rr

dei vettori a r componenti in se: se b = (b1, b2, . . . , br) ∈ Rr, Q b si ottiene rappresentandob come un vettore colonna ed effettuando il prodotto righe per colonne.

58

Page 16: 3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. · 2007-12-20 · Sono cio`e variabili vettoriali, ciascuna di esse ha n componenti, che sono anch’esse i.i.d. con distribuzione

Una seconda trasformazione lineare di Rr in se si ottiene rappresentando b comeun vettore riga ed effettuando la moltiplicazione matriciale da sinistra: b Q. Le duetrasformazioni sono in genere diverse, e rimandiamo il lettore ad un corso elementare dialgebra lineare per i dettagli.

Se b e un vettore, diremo che e ”non negativo”, e scriveremo b ≥ 0, se le sue componentisono non negative, cioe se bj ≥ 0, per ogni j = 1, 2, . . . , r. Diremo inoltre che b e unaprobabilita se e non negativo e

∑rj=1 bj = 1. (In questo caso infatti le sue componenti

sono una probabilita su Ω.)Infine introduciamo lo speciale vettore 1 = (1, . . . , 1).

Lemma 1. Le seguenti affermazioni sono equivalenti:i) Q e una matrice stocastica;ii) Q b ≥ 0 per ogni b ≥ 0, e Q1 = 1;iii) se b e una probabilita, allora anche b′ = b Q e una probabilita.

L’equivalenza vuol dire che la ii) o la iii) potrebbero essere prese come definizione dimatrice stocastica.

Dimostrazione. Denotiamo con qjk, j.k = 1, . . . , r le componenti di Q.Il fatto che i) implica ii) e immediato. Q1 = 1 segue dalla definizione e Q b ≥ 0,

perche moltiplicando e sommando gli elementi di matrice e le componenti del vettore chesono non negativi, si ottengono ancora numeri non negativi.

Per vedere che, viceversa, ii) implica i), introduciamo i vettori δ(j) di componentiδ(j)k = δkj , k, j = 0, 1, . . . , r e δkj e il simbolo di Kronecker. Chiaramente δ(j) ≥ 0 e

Qδ(j) = (q1j , q2j , . . . , qrj). Quindi la ii) implica qkj ≥ 0 per ogni j = 1, . . . , r, e poicheQ1 = 1 e equivalente a

∑k qjk = 1 per ogni j = 1, . . . , r, la i) segue da ii).

Mostriamo ora che i) implica iii). Per le regole del prodotto matriciale, abbiamo, perj = 1, . . . , r, b′j =

∑rk=1 bkqkj , per cui chiaramente b′j ≥ 0. Sommando su j otteniamo

r∑j=1

b′j =r∑

k=1

bk

r∑j=1

qkj =r∑

k=1

bk = 1.

Viceversa se vale iii), siccome i vettori δ(j) sono probabilita, δ(j)Q = (qj1, qj2, . . . , qjr) eanche una probabilita, e quindi qjk ≥ 0 e

∑rk=1 qjk = 1, cioe vale la i).

Il lemma e dimostrato.

Lemma 2. Se Q e P sono matrici stocastiche, anche il loro prodotto P Q lo e.Dimostrazione. Posto R = PQ, e detti pjk, ed rjk, j, k = 1, . . . , r gli elementi di

matrice di P e di R rispettivamente, abbiamo rjk =∑r

i=1 pjiqik, e quindi rjk ≥ 0, perchegli elementi di P e Q sono non negativi. Inoltre, per definizione di matrice stocastica(proprieta ii) ), abbiamo

∑rk=1 rjk =

∑ri=1 pji

∑rk=1 qik =

∑ri=1 pji = 1.

Probabilita di transizione.Gli elementi di matrice delle matrici P(t) sono le ”probabilita di transizione”, e pre-

cisamente p(t)jk e la probabilita di transizione dallo stato j allo stato k al tempo t. Questa

terminologia e collegata alla seguente proprieta fondamentale delle catene di Markov, chetalvolta viene presa come proprieta definitoria delle catene stesse.

59

Page 17: 3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. · 2007-12-20 · Sono cio`e variabili vettoriali, ciascuna di esse ha n componenti, che sono anch’esse i.i.d. con distribuzione

Per ogni scelta degli stati i, j ∈ Ω e del tempo t > 0 si ha

P (ωt = j|ωt−1 = i, ωt−2 = it−2, . . . , ω1 = i1, ω0 = i0) =

P (ω0 = i0, . . . , ωt−2 = it−2, ωt−1 = i, ωt = j)P (ω0 = i0, . . . , ωt−2 = it−2, ωt−1 = i)

=µ0(i0) p

(1)i0i1

. . . pt−1it−2ip

tij

µ0(i0) p(1)i0i1

. . . pt−1it−2i

= p(t)ij .

dove abbiamo naturalmente supposto che sia µ0(i0) p(1)i0i1

. . . pt−1it−2i > 0.

La probabilita condizionata a sinistra dipende dunque in realta solo dallo stato altempo k − 1 (la catena di Markov ha quindi ”corta memoria”):

P (ωt = j|ωt−1 = i, ωt−2 = it−2, . . . , ω0 = i0) = P (ωt = j|ωt−1 = i) = p(t)ij . (4.1.3)

Questa proprieta e detta ”proprieta di Markov”.

Catene omogenee.

La catena di Markov si dice “omogenea” se P(t) = P per ogni t = 1, 2, . . . , cioe lematrici stocastiche sono tutte eguali. D’ora in poi ci occuperemo solo di catene omogenee.Ogni tale catena e chiaramente individuata dalla matrice di transizione e dalla probabilitainiziale µ0.

Le potenze Pt, t = 1, 2, . . . della matrice P, cioe i prodotti (righe per colonne) di Pper se stessa, sono ancora matrici di transizione, e precisamente i loro elementi di matrice,che indicheremo con pjk(t), sono le probabilita di transizione a t passi:

P (ωt+s = j|ωs = i) = pij(t), s, t = 1, 2, . . . . (4.1.4)

Per dimostrare la (4.1.4) usiamo il procedimento di induzione. Infatti per t = 1 la (4.1.4)coincide con la (4.1.3) che abbiamo dimostrato. Supponendo ora che valga per ogni t ≤ t0,per qualche intero t0 > 0, vogliamo dimostrare che vale anche per t = t0 + 1. Abbiamo

P (ωs+t0+1 = j|ωs = i) =P (ωs+t0+1 = j, ωs = i)

P (ωs = i)=

r∑k=1

P (ωs+t0+1 = j, ωs+t0 = k, ωs = i)P (ωs = i)

=r∑

s=1

P (ωs+t0+1 = j|ωs+t0 = s, ωs = i)P (ωs = i)

P (ωs+t0 = k, ωs = i) =

r∑k=1

P (ωs+t0+1 = j|ωs+t0 = k, ωs = i)P (ωs+t0 = k|ωs = i).

Per l’ipotesi induttiva si ha P (ωs+t0 = k|ωs = i) = pik(t0) e dalla proprieta di Markov(4.1.3) segue P (ωs+t0+1 = j|ωs+t0 = k, ωs = i) = pjk. Quindi

r∑k=1

P (ωs+t0+1 = j|ωs+t0 = k, ωs = i)P (ωs+t0 = k|ωs = i) =r∑

k=1

pik(t0) pkj = pij(t0 + 1).

60

Page 18: 3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. · 2007-12-20 · Sono cio`e variabili vettoriali, ciascuna di esse ha n componenti, che sono anch’esse i.i.d. con distribuzione

Osservazione. Si noti che se pkj = pj , cioe se le righe della matrice stocasticasono eguali, la catena di Markov omogenea degenera in uno schema di Bernoulli, cioe lecomponenti ωj , j ≥ 1 sono indipendenti ed egualmente distribuite.

Classificazione degli stati.Uno stato j ∈ Ω e detto ”inessenziale” se esiste almento un altro stato k ed un tempo

t0 tali che pjk(t0) > 0, ma pkj(t) = 0 per ogni t = 1, 2, . . . . Se uno stato non e inessenzialee detto ”essenziale”.

Da uno stato inessenziale si puo quindi uscire verso un altro stato, dal quale pero nonsi puo piu rientrare.

Gli stati essenziali j e k si dicono (essenziali) comunicanti se esistono tempi t ed stali che pjk(t) > 0 e pkj(s) > 0. La proprieta di essere comunicanti e una relazione diequivalenza. Infatti e simmetrica ed anche la transitivita e facile da vedere. Infatti se jcomunica con k e k con m allora esistono tempi t1, s1, t2, s2 tali che pjk(t1) > 0, pkj(s1) > 0e pkm(t2) > 0, pmk(t2) > 0, per cui se t = t1 + t2 e s = s1 + s2 si ha

pjm(t) =r∑

h=1

pjh(t1)phm(t2) ≥ pjk(t1)pkm(t2) > 0,

pmj(s) =r∑

h=1

pmh(s1)phj(s2) ≥ pmk(s1)pkj(s2) > 0.

Quindi j comunica con m.Lo spazio degli stati si puo dividere quindi nell’ insieme Ω(0) degli stati inessenziali, e

in un certo numero p di classi di stati essenziali tra di loro comunicanti: Ω = Ω(0) ∪ Ω(1) ∪. . .∪ Ω(p) dove Ω(j) ⊂ Ω, j = 1, . . . , p sono classi di stati essenziali tra di loro comunicanti.

Esempio 1. Consideriamo una catena con spazio degli stati a 4 elementi e matricestocastica

P =

0 1

212 0

12 0 0 1

20 0 1

212

0 0 12

12

.

E’ chiaro che gli stati 1, 2 sono inessenziali (infatti pj1 = pj2 = 0 se j = 3, 4, quindi daglistati 3, 4 non si po mai tornare agli stati 1, 2), mentre gli stati 3, 4 costituiscono una classedi stati essenziali comunicanti.

Se vi e piu di una classe di stati essenziali comunicanti, una volta realizzato unqualunque stato di una certa classe, si rimane sempre all’interno di quella classe. Difatto la catena si decompone in tante ”sottocatene” quante sono le classi di stati essenzialicomunicanti, all’interno delle quai “gira” sempre la stessa massa di probabilita, e che sicomportano come catene indipendenti.

Possiamo dunque limitarci al caso in cui si ha una sola classe di stati essenziali traloro comunicanti. Una tale catena di Markov si dice ”indecomponibile”.

Osservazione. Catene di Markov omogenee come probabilita sullo spaziodei cammini di un grafo. Ad ogni catena omogenea si puo associare un grafo che ha

61

Page 19: 3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. · 2007-12-20 · Sono cio`e variabili vettoriali, ciascuna di esse ha n componenti, che sono anch’esse i.i.d. con distribuzione

come vertici gli r elementi dello spazio degli stati Ω e lati (orientati) i → j se pij > 0. Seuna successione fissata (ω0, ω1, . . . , ωk) ha probabilita positiva, pu‘o rappresentarsi comeun cammino del grafo di lunghezza k, che inizia in ω0 e finisce in ωk, e la probabilita (4.1.2)pu essere interpretata come la probabilita di tale cammino.

La catena di Markov pu quindi essere vista come una misura di probabilita sullo spaziodei cammini di un grafo, o sullo spazio dei salti tra un vertice e l’ altro di un grafo.

E’ facile vedere che la probabilita di transizione pjk(s), cioe l’elemento di matrice diindice j, k della matrice Ps si uo calcolare sommano le probabilita di tutti i cammini delgrafo fatti di s passi che iniziano in j e finiscono in k.

4.2. Catene ergodiche.Definizione. Una catena omogenea si dice ”ergodica” se la sua matrice stocastica e

tale che si trova un tale intero positivo s per cui pij(s) > 0 per ogni scelta di i, j = 1, . . . , r.

E’ facile vedere che se la catena soddisfa la condizione per s = s0 allora la soddisfaanche per s = s0 +1 e quindi per tutti gli s ≥ s0. Infatti pij(s0 +1) =

∑rk=1 pikpkj(s0) > 0

perche pkj(s0) > 0 per ogni k, per ipotesi, e i numeri pik non possono essere nulli per tuttii k perche devono sommarsi a 1.

Esempio 1. Si considerino le catene con tre stati e matrici stocastiche

P1 =

1 0 012 0 1

213

13

13

, P2 =

12

12 0

12 0 1

213

13

13

.

Sebbene simili, le due catene hanno comportamenti molto diversi.Per P1 gli stati 2, 3 sono inessenziali: da lı si finisce nello stato 1 e non si torna piu

indietro. In tal caso si dice che lo stato 1 risulta ”assorbente” (vedi l’osservazione quisotto). La catena non e ergodica, e, come si vede facilmente, ogni sua potenza ha comeprima riga 1 0 0.

La catena con matrice P2 e invece ergodica, come si vede analizzando il grafo.Osservazione 1. Uno stato j e ”assorbente” se pjj = 1. E’ uno stato essenziale

che comunica solo con se stesso, e una volta che il sistema e in quello stato vi rimane persempre. Infatti si puo facilmente vedere che se pjj = 1 allora che pjj(s) = 1 per ognis = 2, 3, . . . .

Esempio 2. Si consideri la catena, sempre con tre stati, e matrice stocastica

P =

0 12

12

1 0 01 0 0

.

Si verifica facilmente che

P2 =

1 0 00 1

212

0 12

12

e P3 = P. Ne segue che la catena non e ergodica e si ha Pn = P per n dispari e Pn = P2

per n pari. Catene di questo tipo si dicono ”periodiche”.

62

Page 20: 3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. · 2007-12-20 · Sono cio`e variabili vettoriali, ciascuna di esse ha n componenti, che sono anch’esse i.i.d. con distribuzione

Esempio 3. Si consideri la catena, sempre con tre stati, e matrice stocastica

P =

12 0 1

21 0 00 1 0

.

Si verifichi che P4 ha tutti i termini positivi. La catena e quindi ergodica.Osservazione 2. Si potrebbe dimostrare che gli esempi visti esauriscono la tipologia

delle catene di Markov indecomponibili. Se una tale catena non e ergodica ci sono quindisolo due possibilita: o e periodica o ci sono stati inessenziali (se lo sono tutti tranne unoquest’ultimo e uno stato assorbente).

Il risultato fondamentale per le catene ergodiche e il seguente teorema, detto anche”teorema di Doblin”.

Teorema. Sia data una catena ergodica con matrice di transizione P. Allora esisteun’unica probabilita π = (π(1), . . . , π(r)) tale che le valgono le seguenti due affermazioni:

i) π e invariante, cioe π P = π;ii)limn→∞ pij(n) = π(j), i, j = 1, . . . , r.La seconda affermazione si puo esprimere in parole dicendo che la matrice Pn tende

alla matrice con tutte le righe eguali, date dalle componenti del vettore π.

Dimostrazione. Introduciamo l’importate concetto di “distanza in variazione” tradue probabilita µ′ e µ′′ su Ω:

d(µ′, µ′′) =12

r∑i=1

|µ′(i) − µ′′(i)|. (4.2.1)

E’ facile vedere che d(µ′, µ′′) ≤ 1, e che d(·, ·) e una metrica nello spazio delle probabilitasu Ω (identificabile con il sottoinsieme dei vettori di Rr con componenti non negative asomma totale pari a 1).

[ Ricordiamo che la funzione d(µ′, µ′′) e per definizione una ”metrica” se valgono leseguenti proprieta : i) d(µ′, µ′′) ≥ 0; ii) d(µ′, µ′′) = d(µ′′, µ′), iii) d(µ′, µ′′) = 0 se e solo seµ′,= µ′′, e, iv) vale la disuguaglianza triangolare d(µ, µ′′) ≤ d(µ, µ′) + d(µ′, µ′′). ]

Introduciamo il simbolo∑+

k ak, che indica la somma dei soli termini ak positivi. Siha

∑k ak =

∑+k ak −

∑+k (−ak). Quindi

0 =r∑

i=1

(µ′(i) − µ′′(i)) =∑+

i(µ′(i) − µ′′(i)) −

∑+

i(µ′′(i) − µ′(i))

e pertanto

d(µ′, µ′′) =12

[∑+

i(µ′(i) − µ′′(i)) +

∑+

i(µ′′(i) − µ′(i))

]=

∑+

i(µ′(i) − µ′′(i)). (4.2.2)

Fatta questa osservazione, il resto del teorema dipende dal seguente fatto fondamen-tale, che enunciamo come un lemma.

63

Page 21: 3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. · 2007-12-20 · Sono cio`e variabili vettoriali, ciascuna di esse ha n componenti, che sono anch’esse i.i.d. con distribuzione

Lemma. Si ha d(µ′ P, µ′′ P) ≤ d(µ′, µ′′), e se mini,j pij ≥ α > 0, allora

d(µ′ P, µ′′ P) ≤ (1 − α) d(µ′, µ′′). (4.2.3)

Dimostrazione. Applicando le definizioni abbiamo

d(µ′ P, µ′′ P) =∑+

j[(µ′P)(j) − (µ′′P)(j)] =

∑j∈Ω+

[(µ′P)(j) − (µ′′P)(j)] , (4.2.4)

dove Ω+ ⊂ 1, 2, . . . , r = Ω il sottoinsieme degli indici j tali che (µ′P)(j)− (µ′′P)(j) > 0.Non pu essere Ω+ = Ω, cio le differenze non possono essere tutte positive, perch se cosfosse otterremmo una contraddizione:

1 =r∑

j=1

(µ′P)(j) >r∑

j=1

(µ′′P)(j) = 1.

Quindi a Ω+ ⊂ manca almeno di un indice, per cui∑

j∈Ω+ pij < 1 − α, e dunque

d(µ′P, µ′′P) =r∑

i=1

∑j∈Ω+

pij(µ′(i) − µ′′(i)) ≤ (1 − α)∑+

i(µ′(i) − µ′′(i)) = (1 − α)d(µ′, µ′′).

Il lemma e dimostrato.

Sia ora n0 il piu piccolo intero tale che Pn0 ha tutti gli elementi positivi, per cuiα = minij pij(n0) > 0. Poniamo, per n > n0, n = m n0 + n1, e sia µn = µ0 Pn. Si ha, perogni intero p > 0,

d(µn, µn+p) = d(µ0Pn, µ0Pn+p) ≤ (1 − α) d(µ0Pn−n0 , µ0Pn−n0+p)≤ . . . ≤ (1 − α)md(µ0Pn1 , µ0Pn1+p) ≤ (1 − α)m. (4.2.5)

Se n → ∞ si ha anche m → ∞, e quindi supp≥0 d(µn, µn+p) → 0. Pertanto la successioneµn e di Cauchy, ed ha un limite: π = limn→∞ µ0Pn. Abbiamo inoltre

π P = limn→∞

µn P = limn→∞

µ0 Pn+1 = π.

Quindi la probabilita π e invariante.Per vedere che la probabilita invariante e unica, supponiamo per assurdo che ce ne

siano due, π1 e π2: π1P = π1, π2P = π2. Se n0 e come sopra abbiamo anche evidentementeπ1 = π1Pn0 e π2P = π2Pn0 , per cui

d(π1, π2) = d(π1Pn0 , π2Pn0) ≤ (1 − α)d(π1, π2).

Ma siccome α > 0 questa relazione implica d(π1, π2) = 0 e quindi π1 = π2.

64

Page 22: 3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. · 2007-12-20 · Sono cio`e variabili vettoriali, ciascuna di esse ha n componenti, che sono anch’esse i.i.d. con distribuzione

Consideriamo ora il caso particolare µ0 = δ(1) = (1, 0, . . . , 0), che e equivalente aconsiderare la distribuzione della catena sotto la condizione ω0 = 1. La relazione µ0Pn → π,indicando con µ0Pn(j) le componenti, implica quindi, per n → ∞

p1j(n) =r∑

i=1

µ0(i)pij(n) = µ0Pn(j) → π(j) j = 1, . . . , r.

E’ chiaro che si puo egualmente prendere µ0 = δ(i), per ogni i = 1, . . . , r, e si trova allostesso modo limn→∞ pij(n) = π(j).

Il teorema e dimostrato.

Osservazione 3. La distribuzione invariante π (invariante sotto P, come specificatodall’affermazione i) del teorema) e detta anche distribuzione ”stazionaria” (si intende neltempo). Infatti se µ0 = π tutte le componenti ωt per t > 0 hanno la stessa distribuzioneπ. Per vederlo basta osservare che la relazione πP = π implica πP2 = πPP = πP = π equindi πPk = π per ogni k = 1, 2, . . . .

Osservazione 4. Per una catena di Markov ergodica esistono due costanti positiveC, β, con β < 1 tali che, per ogni misura iniziale µ0 si ha

max1≤i≤r

|µn(i) − π(i)| ≤ d(µn, π) ≤ C βn. (4.2.6)

Infatti, dalla definizione di distanza in variazione segue che max1≤i≤r |µn(i)− π(i)| ≤d(µn, π). Inoltre dalla (4.2.5), prendendo p → ∞, e tenendo conto che m = [ n

n0] > n

n0− 1,

dove [·] designa la parte intera, troviamo

d(µn, π) ≤ (1 − α)n

n0−1 = C βn,

dove β = (1 − α)1

n0 e C = (1 − α)−1.

Osservazione 5. La determinazione della probabilita invariante π si fa risolvendo ilproblema agli autovalori (”a sinistra”) π = πP, che e equivalente all’ordinario problemaagli autovalori (”a destra”) π = PT π, dove PT indica la matrice trasposta di P (la qualein generale non e una matrice stocastica).

La probabilita invariante π e un autovettore a sinistra corrispondente all’ autovalore1, e normalizzato in modo che

∑ri=1 π(i) = 1.

4.3. Legge dei grandi numeri ed entropia per catene di Markov stazionarie.

Supponiamo di avere una catena omogenea ergodica, e prendiamo come misura inizialela misura invariante π. Per conseguenza ciascuna componente ωt, t = 0, 1, 2, . . . , avra lastessa distribuzione π. Per ogni i, j ∈ Ω siano Ni(ω) e Nij(ω), rispettivamente, il numerodelle componenti ωt tali che ωt = i e il numero delle coppie (ωt, ωt+1) tali che ωt = i eωt+1 = j, per t = 0, 1, 2, . . . , n − 1, cioe il numero delle volte che compare lo stato i, e ilnumero delle volte che compare lo stato i seguito dallo stato j, nei primi n ”tempi”. Perqueste quantita vale la seguente legge dei grandi numeri.

65

Page 23: 3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. · 2007-12-20 · Sono cio`e variabili vettoriali, ciascuna di esse ha n componenti, che sono anch’esse i.i.d. con distribuzione

Teorema. Per n → ∞ si ha, per ogni ε > 0,

P

(∣∣∣∣Ni(ω)n

− π(i)∣∣∣∣ ≥ ε

)→ 0, i ∈ X

P

(∣∣∣∣Nij(ω)n

− π(i)pij

∣∣∣∣ ≥ ε

)→ 0 i, j ∈ X.

Dimostrazione. Introduciamo le funzioni indicatrici χ(i)t (ω) dell’evento ωt = i,

i = 1, . . . , r, cioe funzioni tali che χ(i)t (ω) = 1 se ωt = i e χ

(i)t (ω) = 0 altrimenti, in

termini delle quali abbiamo

Ni(ω) =n−1∑t=0

χ(i)t (ω), Nij(ω) =

n−1∑t=0

χ(i)t (ω)χ(j)

t+1(ω).

Per i valori medi di queste quantita, dato che tutte le componenti ωt hanno la stessadistribuzione π abbiamo M(χ(i)

t ) = π(i) e

M(χ(i)t χ

(j)t+1) = P (ωt = i, ωt+1 = j) = P (ωt+1 = j|ωt = i) = π(i)pij .

Le corrispondenti dispersioni, tenendo conto che le funzioni χ(i)t assumono solo i valori 0, 1

per cui sono eguali ai propri quadrati, sono

Var(χ(i)t ) = π(i)(1 − π(i)), Var(χ(i)

t χ(j)t+1) = π(i)pij(1 − π(i)pij). (4.3.1)

Facendo uso della disuguaglianza di Chebyshev (2.3.6) abbiamo

P

(∣∣∣∣Ni(ω)n

− π(i)∣∣∣∣ ≥ ε

)≤ Var(Ni)

ε2n2. (4.3.2)

La varianza della somma si puo esprimere tramite la (2.7.3) e facendo uso della (4.3.1)troviamo che la varianza della somma Ni, pur non essendo pari alla somma delle vari-anze, come nel caso indipendente, e comunque, grazie alla “debole” dipendenza, ancoradell’ordine del numero n degli addendi.

Infatti, tenendo conto che Cov (χ(i)s , χ

(i)t ) = π(i)(pii(t − s) − π(i)), abbiamo

Var(Ni) = nπ(i)(1 − π(i)) + 2∑

0≤s<t<n

Cov (χ(i)s , χ

(i)t )

= nπ(i)

1 − π(i) + 2∑

0≤s<t<n

(pii(t − s) − π(i))

.

Per la (4.2.6) troviamo |pii(t − s) − π(i)| ≤ Cβt−s, per cui

Var(Ni) ≤ nπ(i)

(1 + 2C

n−1∑s=0

∑t>s

|(pii(t − s) − π(i))|)

≤ nπ(i)(

1 +2Cβ

1 − β

).

66

Page 24: 3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. · 2007-12-20 · Sono cio`e variabili vettoriali, ciascuna di esse ha n componenti, che sono anch’esse i.i.d. con distribuzione

In conclusione, dalla (4.3.2) si trova la legge dei grandi numeri per le variabili casualiNi, i = 1, . . . , r.

Quanto alle Nij si deve usare l’ analoga della (4.3.2)

P

(∣∣∣∣Nij(ω)n

− π(i)pij

∣∣∣∣ ≥ ε

)≤ Var(Nij)

ε2n2,

e mostrare che anche in questo caso la varianza non cresce piu che linearmente in n, cioec’e una costante C tale che Var(Nij) ≤ Cn.

Posto, per brevita, χijt = χi

tχjt+1, come nel caso precedente, il punto fondamentale

consiste nell’espressione della covarianza. Se t > s+1 abbiamo, per la proprieta di Markov,

Cov (χijs , χij

t ) = M(χisχ

js+1χ

itχ

jt+1) − π2(i)p2

ij =

π(i)pij [P (ωt+1 = j, ωt = i|ωs+1 = j, ωs = i) − π(i)pij ] = π(i)p2ij(pji(t − s − 1) − π(i)).

La conclusione seguira ancora una volta dal fatto che, per la (4.2.6), si ha |pji(t− s− 1)−π(i)| ≤ Cβt−s−1.

Il lettore e invitato ad elaborare autonomamente i dettagli.Il teorema e dimostrato.Entropia per le catene di Markov ergodiche.Per introdurre l’entropia delle catene di Markov conviene partire dalla caratteriz-

zazione dell’entropia data dalla (3.2.4), che abbiamo brevemente discusso per gli schemi diBernoulli. L’entropia e il limite, per n → ∞, quasi-ovunque rispetto alla probabilita ℘, cioead eccezione dei punti ω ∈ B ⊂ Ω∞, B ∈ F , di probabilita complessiva nulla ℘(B) = 0,della quantita − 1

n log p(ω(n)), dove, dato ω = (ω0, ω1, . . . ), ω(n) = (ω0, ω1, . . . , ωn) la suaproiezione su Ωn+1.

La legge dei grandi numeri appena dimostrata ci permette allora di calcolare l’entropiadella catena di Markov stazionaria, la cui misura iniziale quindi µ0 = π. Dalla (4.1)abbiamo

p(ω) = π(ω0)r∏

i,j=1

pNij(ω)ij = explog π(ω0)) +

r∑i,j=1

Nij(ω) log pij.

Ne segue che per grandi n, sulla base del precedente teorema,

− 1n

log p(ω) = − 1n

log π(ω0) +r∑

i,j=1

Nij(ω)n

log pij ∼ −r∑

i,j=1

π(i)pij log pij .

Quindi l’entropia della catena di Markov dipende dalla probabilita invariante π e dalleprobabilita di transizione, ed ha la forma esplicita

h = −r∑

i,j=1

π(i)pij log pij .

Non sarebbe difficile a questo punto dimostrare l’analogo del teorema di McMillan.Nel caso delle catene di Markov si avra naturalmente che in una configurazione “tipica”,cioe appartenente all’insieme di probabilita quasi totale Cn, non solo le frequenze dei varisimboli Ni

n sono vicini alle loro medie π(i), ma anche le frequenze delle coppie di vicini Nij

nsono vicine alle loro medie π(i)pij .

67

Page 25: 3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. · 2007-12-20 · Sono cio`e variabili vettoriali, ciascuna di esse ha n componenti, che sono anch’esse i.i.d. con distribuzione

§5. STATI DI GIBBS, MODELLO DI ISING E TRANSIZIONI DI FASE.

5.1. Considerazioni introduttive.

Un ”sistema a molte componenti” e descritto da un insieme molto grande di vari-abili, di cui non interessa o non e possibile conoscere in dettaglio l’evoluzione, per cui sene richiede una trattazione probabilistica ”in grande”, relativa ad alcune caratteristichecollettive del sistema.

I problemi teorici o pratici che portano alla considerazione di tali sistemi sono moltie di varia natura. Storicamente i primi esempi sono nati dallo studio della MeccanicaStatistica, un settore della Fisica Teorica che studia le proprieta della materia nelle suevarie forme di aggregazione: gas, solidi, liquidi, plasma etc. Le variabili in questo casosono le coordinate e gli impulsi delle singole molecole, e come e noto dai corsi di Fisicaelementare, sono dell’ ordine del numero di Avogadro n ≈ 1023.

La descrizione collettiva avviene in termini delle grandezze termodinamiche, quali lapressione, la temperatura etc., che corrispondono per lo piu a medie spaziali su volumi checontengono un gran numero di molecole, garantite dalla legge dei grandi numeri. Problemiquali la diffusione e la trattazione delle fluttuazioni termodinamiche fanno invece appello alTeorema Centrale del Limite. In ogni caso, come e ben noto, leggi termodinamiche esattesi ottengono solo nel limite in cui il numero di Avogadro, e i volumi ”microscopici” siassumono come praticamente infiniti. Dal unto di vista matematico sono considerati comegrandezze che tendono all’infinito, secondo un procedimento che prende il nome di ”limitetermodinamico”. Il limite termodinamico e, in varia forma, uno strumento fondamentaledi indagine per i sistemi a molte componenti.

Proprio a partire da problemi dlla Meccanica Statistica si sono sviluppati, negli ultimidecenni, gli strumenti matematici per la trattazione statistica o probabilistica dei sistemia molte componenti, che ora trovano applicazione nella trattazione di problemi che hannoorigine in varie discipline, come la biologia, l’informatica, l’economia etc.

Alcuni modelli di sistemi stocastici a molte componenti sono gia stati visti in prece-denza, soprattutto nei §3 e 4. Si tratta degli schemi di Bernoulli e delle catene di Markov,cioe di variabili disposte in successione (che nelle applicazioni puo essere temporale ospaziale), indipendenti nel caso degli schemi di Bernoulli, e a ”corta memoria” nel casodelle catene di Markov. Per questi sistemi abbiamo derivato importanti risultati asintotici,validi cioe quando il numero di componenti e grande. Sono risultati di questo tipo, in-fatti, le leggi dei grandi numeri, da cui scende il teorema di McMillan, e il teorema di DeMoivre-Laplace, cioe il Teorema Centrale del Limite.

Piu in generale possiamo considerare sistemi di variabili casuali disposte su un reticolobi- o tridimensionale, o anche di dimensione d > 3. E’ naturale considerare sistemi similinella modellizzazione di cristalli, di sistemi di reti di connessioni, etc. Se le variabilisono indipendenti avremo uno ”schema di Bernoulli” in piu dimensioni, se invece c’ e un’interazione locale avremo qualcosa di simile ad una catena di Markov.

In dimensione d > 1 si apre tutta una serie di nuovi problemi che riguardano la strut-tura spaziale della configurazione delle variabili. Se, per esempio, consideriamo variabili

68

Page 26: 3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. · 2007-12-20 · Sono cio`e variabili vettoriali, ciascuna di esse ha n componenti, che sono anch’esse i.i.d. con distribuzione

casuali associate ai siti di un reticolo bidimensionale regolare (finito o su tutto Z2), cheassumono valori in Ω = 0, 1, un problema naturale e, come vedremo, quello di chiedersise, per esmpio gli ”0” siano ”sparsi” o raggruppati in ”isole” circondate da un ”mare” di”1”. Questi problemi hanno spesso, grande importanza pratica, e la loro risposta dipenderadalla dimensione del reticolo, o in genere dalla sua natura, e dalla distribuzione assegnata.

In queste brevi note, dopo una semplice introduzione agli stati di Gibbs per sistemicon un numero finito di stati, considereremo soprattutto un classico modello di variabiliinteragenti sul reticolo bidimensionale Z2, nato per modellizzare i materiali ferromagmetici:il ”modello di Ising”. Le nostre considerazioni sono finalizzate ad illustrare il fenomenodelle transizioni di fase: faremo vedere come si ottengano, al variare dei parametri edelle condizioni al contorno, diverse distribuzioni di probabilita (”fasi”). A questo fineillustreremo il classico argomento di Peierls, che costituisce la base per la comprensionedelle transizioni di fase.

5.2. Breve introduzione agli stati di Gibbs.Come il lettore sicuramente sa, le distribuzioni di Gibbs corrispondono agli stati di

equilibrio dei sistemi molecolari studiati in Termodinamica e in generale nella Fisica Sta-tistica, dove costituiscono, si puo dire, la nozione di base. In tempi recenti le distribuzionidi Gibbs hanno acquistato una notevole importanza di per se, cioe come modello proba-bilistico, che si e rivelato particolarmente adatto per lo studio di sistemi generali a moltecomponenti interagenti, quali si incontrano non solo in Fisica, ma anche in Biologia, Econo-mia, Teoria dell’ Informazione, etc..

I risultati ottenuti nelle ultime tre decadi, a seguito del lavoro pioneristico di R.Dobrushin, O. Lanford, R. Minlos, D. Ruelle, Ya. Sinai e altri ancora, hanno mostratoquali siano le relazioni tra la struttura ”locale” dei sistemi e il loro comportamento ”ingrande”. In particolare hanno portato ad una buona comprensione di fenomeni comele transizioni di fase (cioe la presenza di piu stati di equilibrio con gli stessi valori deiparametri), dei vari ”fenomeni critici” ad esse connessi, e dei problemi di rilassamento,cioe di convergenza all’equilibrio.

Per introdurre gli stati di Gibbs usiamo un modello elementare, che mostra bene comeessi siano, in sostanza, distribuzioni di probabilita che massimizzano l’entropia, in presenzapero di una grandezza conservata: l’energia. Supponiamo di avere uno spazio degli statiΩ, che per il momento assumiamo finito, i cui elementi si possono interpretare, se si vuole,come stati fisici. Su ognuno di essi sia definita una variabile casuale, cioe una funzionereale, e(ω), detta ”energia”. Numeriamo, come al solito, i punti dello spazio Ω, ponendoΩ = a1, . . . ar, e poniamo di nuovo P (aj) := pj , e(aj) := ej .

L’entropia e definita, come s’e visto nel §3.2, dalla relazione S = −∑r

j=1 pj log pj .La semplice massimizzazione dell’entropia ci porterebbe, come si e visto, alla probabilitauniforme. Ora ci poniamo pero il compito di trovare la distribuzione di probabilita chemassimizza l’entropia, sotto la condizione che l’energia media sia fissata:

∑rj=1 pj ej = e∗.

Dobbiamo quindi introdurre non un solo moltiplicatore di Lagrange, come nella (3.2.2) ,ma due:

K(p1, . . . , pr;λ, β) = −r∑

j=1

pj ln pj + λ

r∑j=1

pj − 1

− β

r∑j=1

pj ej − e∗

.

69

Page 27: 3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. · 2007-12-20 · Sono cio`e variabili vettoriali, ciascuna di esse ha n componenti, che sono anch’esse i.i.d. con distribuzione

Derivando stavolta abbiamo

∂K

∂pj= − ln pj − 1 + λ − βej , ⇒ pj = exp −1 + λ − βej .

La normalizzazione da 1 =∑r

j=1 pj = e−1+λ∑

j e−βej , per cui, posto Z(β) =∑rj=1 e−βpj (questa quantita e detta ”funzione di partizione”), si trova

pj =e−βej

Z(β)=

e−βej∑rk=1 e−βek

, j = 1, 2, . . . , r. (5.2.1)

Questa distribuzione di probabilita prende il nome di ”distribuzione di Gibbs”, conparametri λ e β.

Rimane da determinare β imponendo l’altra condizione sull’energia media. Supponi-amo per evitare banalita che ej non sia costante, per cui si ha em := minj ej < eM :=maxj ej . L’ energia media e

r∑j=1

ej pj := 〈e〉β =

∑rj=1 eje

−βej∑rj=1 e−βej

, (5.2.2)

ed e facile vedere che questa quantita tende a eM per β → −∞ e ad em per β → +∞.Inoltre se ej non e costante, per ogni β reale si ha

d

dβ〈e〉β = −〈e2〉β + 〈e〉2β < 0.

Poiche la derivata e sempre negativa, per ogni e∗ ∈ (em, eM ), esiste un solo valore di β percui 〈e〉β = e∗, e la distribuzione di Gibbs quindi e pienamente determinata.

Circa il significato del parametro β, si osservi che per β = 0 sia ha la distribuzioneuniforme o classica: per la (5.2.2) 〈e〉0 corrisponde alla media classica. Quindi se β > 0 lamedia e inferiore alla media uniforme, e sono cioe favoriti gli stati di bassa energia, mentreil viceversa accade per β < 0.

Nei problemi fisici si ha sempre β > 0, perche nelle distribuzioni di equilibrio tendonoad essere favoriti gli stati di bassa energia. In effetti in Termodinamica β = 1

kT , cioe βe, a meno della costante di Boltzmann k, l’inverso della temperatura. Nella terminologiafisica, e talvolta in quella probabilistica, Ω prende il nome di spazio degli stati o spaziodelle fasi, e la probabilita (5.2.1) anche il nome di ”stato di Gibbs”.

Tutto quanto detto si trasporta naturalmente al caso in cui lo spazio degli stati Ω enumerabile, purche le energie sino tali che le serie che danno i valori medi convergono.

5.3. Transizioni di fase per il modello di Ising.

Il modelo di Ising. Si tratta di un modello matematico molto semplificato dei mate-riali ferromagnetici, in cui le molecole vengono rappresentate come “magnetini elementari”,

70

Page 28: 3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. · 2007-12-20 · Sono cio`e variabili vettoriali, ciascuna di esse ha n componenti, che sono anch’esse i.i.d. con distribuzione

con due possibili posizioni, che corrispondono all’allineamento nel senso di un asse orien-tato conforme o contrario all’orientamento dell’asse. Se si ha in mente la componente lungol’asse e naturale denotare le due posizioni con ±1.

Il fatto che il magnetino possa avere solo due posizioni puo essere gustificato da con-siderazioni di Meccanica Quantistica, che come e noto, descrive il comportamento dellecomponenti ”microscopiche” della materia. Nonostante la sua “rozzezza” il modello diIsing riproduce in maniera sorprendentemente buona il fenomeno della magnetizzazionespontanea alle basse temperature dei materiali ferromagnetici.

Passando alla descrizione del modello, consideriamo nel reticolo Z2, cioe nel reticolodei punti del piano di coordinate intere che rappresenta il reticolo cristallino delle molecole,l’insieme ΛL dei punti x = (x1, x2) contenuti nel quadrato |x1| ≤ L, |x2| ≤ L, dove L > 0e un intero che considereremo grande e tendente all’ infinito. Il nostro spazio degli statiin ogni sito e Ω = −1, 1, cioe ad ogni sito x ∈ ΛL e assegnata una variabile causaleσx ∈ Ω, detta ”spin”, che corrisponde alla direzione del magnetino elementare nel sito xdel reticolo cristallino.

Lo spazio delle fasi dell’intero sistema e ΩL = −1, 1ΛL , ed ha cardinalita n = 2|ΛL| =2(2L+1)2 . L’energia di una configurazione ω = σx : x ∈ ΛL ∈ ΩL e data dalla funzione

HL(ω) = −∑

x,y∈ΛL|x−y|=1

σxσy. (5.3.1a)

Se β e la ”temperatura inversa”, positiva, come e nei casi fisici, la funzione di partizioneZL e la distribuzione di Gibbs sono date dalle relazioni

ZL(β) =∑ω

e−βHL(ω), pL(ω) =e−βHL(ω)

ZL(β). (5.3.1b)

Notiamo alcune caratteristiche della funzione (5.3.1a), detta anche ”hamiltoniana”,che da l’energia del sistema. E’ una somma di interazioni tra variabili ”prime vicine”,per la condizione |x − y| = 1, ed e invariante per traslazioni spaziali, cioe l’energia diinterazione tra due primi vicini, che e −σxσy, dipende solo dalle variabili σx, σy e non dalleposizioni x, y. Inoltre e chiaro che l’interazione ”dei primi vicini” favorisce l’allineamentodei magneti, cioe l’eguaglianza delle variabili, perche in questo caso −σxσy = −1 e ilminimo dell’energia. Tale interazione si dice ”ferromagnetica”.

Possiamo considerare distribuzioni con ”condizioni al contorno”, cioe condizionate avalori fissati sul perimetro, o bordo, di ΛL. Ci limiteremo a considerare condizioni positiveo negative: dare condizioni positive corrisponde a porre σx = +1 sul bordo di ΛL, cioe perx = (±L, x2) e x = (x1,±L), e similmente per le negative. Si tratta di due distribuzionidi probabilita (dette con termine fisico “stati”) diverse, e denoteremo con p±L (ω) le lorodensita discrete, mentre useremo come al solito la maiuscola P±

L (A) per un evento genericoA. Le funzioni di partizione sono anch’esse diverse e le indichiamo con Z±

L (β). E’ chiaroche le probabilita si calcolano sommando solo su quegli ω che soddisfano le condizioni albordo.

71

Page 29: 3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. · 2007-12-20 · Sono cio`e variabili vettoriali, ciascuna di esse ha n componenti, che sono anch’esse i.i.d. con distribuzione

Il fenomeno della magnetizzazione spontanea, come sempre accade in Meccanica Sta-tistica, e descritto chiaramente solo nel limite termodinamico, che corrisponde a L → ∞.In tale limite, se la temperatura e alta, e quindi β e piccolo, sia che si prendano le con-dizioni al contorno positive o negative (o di qualunque altro tipo), la distribuzione diprobabilita del sistema, definita sulla σ-algebra degli insiemi cilindrici dello spazio deglieventi Ω = −1,+1Z2

, e una sola, non dipende cioe dalle condizioni al contorno, e invari-ante per traslazioni sul reticolo, ed e simmetrica rispetto al cambiamento di segno dellevariabili. Quest’ultima proprieta vuol dire che, se indichiamo con P la trasformazione suΩ che inverte le variabili in tutti i siti, allora un evento A e l’ evento PA devono averela stessa probabilita. Quindi in particolare la probabilita dell’evento A+ = ω0 = +1 edell’evento A− = PA+ = ω0 = −1 sono eguali.

Se si diminuisce la temperatura pero, cioe si aumenta β, si ha una ”transizione difase” (come si dice con termine fisico): superato un certo valore critico βc si hanno nellimite termodinamico due diverse probabilita in Ω, che indichiamo con P±, che sono sempreinvarianti per traslazioni, ma non sono sono piu invarianti rispetto a P. Grosso modo sipu‘o dire che P+ corrisponde ad un mare di + con isole di −, e P− viceversa, ad un mare di− con isole di +. In conseguenza della simmetria dell’energia, si ha che P±(PA) = P∓(A).P+ e P− ovviamente si ottengono nel limite termodinamico con condizioni + o − al bordo,rispettivamente.

Questi risultati richiedono nozioni e tecniche che non possiamo introdurre in questasede. E’ pero relativamente facile e piuttosto istruttivo vedere come per bassa temperaturale due probabilita con diverse condizioni al bordo P±

L diano luogo per L → ∞ a probabilitalimite diverse. Questo ci consente anche di introdurre in un contesto elementare la tecnicadei ”contorni” ideata da Peierls negli anni trenta, e che e alla base della teoria matematicadelle transizioni di fase.

I contorni e la disuguaglianza di Peierls. Consideriamo la probabilita con con-dizioni al bordo positive P+

L . Per una data configurazione ω ∈ ΩL tracciamo un ”contorno”disegnando attorno ad ogni sito x con ωx = −1 un quadrato con centro in x, e lati dilunghezza 1 paralleli agli assi. Prendiamo poi l’unione di questi quadrati, e la frontiera diquesto insieme, che denotiamo con ∂ω, la chiameremo ”frontiera della configurazione ω”.Come si puo vedere facendo un disegno, ∂ω e fatta di spezzate chiuse, fatte di segmenti dilunghezza 1 paralleli agli assi, che si intersecano solo nei vertici, e separano le zone con spin+1 da quelle con spin −1. Queste ultime hanno l’aspetto di ”isole” perche sono semprecrcondate da un bordo su cui dappertutto lo spin e +1.

E’ chiaro che data la frontiera ∂ω, e considerate le condizioni al bordo, si puo ricostru-ire la configurazione ω completamente.

I siti vicini su cui si somma per calcolare l’energia (5.3.1a) sono agli estremi di unsegmento di lunghezza 1 disposto orizzontalmente o verticalmente. Chiamiamo ”legami diprimo vicino” o semplicemente ”legami” questo segmenti, che supponiamo non orientati.La somma (5.3.1a) si puo allora anche considerare anche come una somma sui legami, mabisogna tenere conto che ogni legame, che non e orientato, compare due volte: se x e ysono primi vicini, le coppie x, y e y, x nella (5.3.1a) corrispondono allo stesso legame. Se illegame connette due spin con lo stesso segno il suo contributo alla (5.3.1a) e +1, mentre e−1 se connette spin con il segno opposto.

72

Page 30: 3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. · 2007-12-20 · Sono cio`e variabili vettoriali, ciascuna di esse ha n componenti, che sono anch’esse i.i.d. con distribuzione

Si noti che ogni legame che connette spin di segno opposto e tagliato da un segmento di∂ω, quindi il numero di tali legami, diciamolo N−, e pari alla lunghezza di ∂ω: N− = |∂ω|.Pertanto, detto N+ il numero di legami con spin eguali, siccome il numero totale dei legamie NL = 4L(2L+1) (infatti i legami orizzontali su ogni riga sono 2L e le righe sono 2L+1,quindi 2L(2L + 1) in totale, e altrettanti sono i legami verticali), si vede che

−HL(ω) =∑

x,y∈VL|x−y|=1

σxσy = 2(N+ − N−) = 2NL − 4N− = 2NL − 4|∂ω|. (5.3.2)

Diciamo ”contorno” una curva chiusa non autointersecantesi che appartiene a ∂ω.La frontiera ∂ω si decompone in modo unico in contorni, che possono essere visti comeperimetri di poligoni con lati di lunghezza intera.

Il risultato che permette di dimostrare la presenza di due fasi e la disuguaglianza diPeierls, la cui dimostrazione e istruttiva e abbastanza semplice.

Proposizione. (Disuguaglianza di Peierls.) Sia γ un contorno fissato compatibilecon ΛL. Allora vale la seguente disuguaglianza

P+L (γ ∈ ∂ω) ≤ e−4β|γ|. (5.3.3)

Dimostrazione. Sia ΩγL = ω : γ ∈ ∂ω l’ insieme delle configurazioni che hanno in

comune il contorno γ. Per le (5.3.1a,b) abbiamo

P+L (γ ∈ ∂ω) =

∑ω∈Ωγ

Le−βHL(ω)∑

ω e−βHL(ω)=

∑ω∈Ωγ

Leβ(2NL−4|∂ω|)∑

ω eβ(2NL−4|∂ω|) =

∑ω∈Ωγ

Le−4β|∂ω|∑

ω e−4β|∂ω| .

Sia ora Ωγ

L = ω : ∂ω ∩ γ = ∅ l’insieme delle configurazioni in cui γ non ce n’e nep-pure un ”pezzetto”, cioe nessun segmento del contorno γ e parte di un contorno di unaconfigurazione di Ω

γ

L. Tra ΩγL e Ω

γ

L c’e una relazione invertibile: dato ω ∈ ΩγL si ottiene

ω′ = φγ(ω) ∈ Ωγ

L cambiando i segni a tutti gli spin interni a γ. E’ chiaro che ∂ω = ∂ω′∪γ,per cui |∂ω| = |∂ω′| + |γ|. Dalla precedente relazione otteniamo dunque

P+L (γ ∈ ∂ω) =

∑ω∈Ωγ

Le−4β|∂ω|∑

ω e−4β|∂ω| ≤∑

ω∈ΩγL

e−4β|∂ω|∑ω∈Ω

γ

Le−4β|∂ω| =

∑ω′∈Ω

γ

Le−4β(|∂ω′|+|γ|∑

ω∈Ωγ

Le−4β|∂ω| = e−4β|γ|.

La disuguaglianza e dimostrata.Esistenza di due fasi per basse temperature (grandi β). La disuguaglianza

di Peierls permette di dimostrare, come ora vedremo, che i contorni tendono ad esseresempre piu corti al crescere di β. Quindi le isole tendono ad essere piccole, e per β grandeabbastanza avremo uno stato con prevalenza di +

Dato un contorno γ diremo suo ”punto iniziale” il suo punto di seconda coordinatax2 minima tra tutti i punti di coordinata x1 minima. E’ il ”punto in basso a sinistra”,che corrisponde al minimo secondo l’ordinamento lessicografico dei punti del piano R2:(x1, x2) < (x′

1, x′2) se x1 < x′

1 o se x1 = x′1 e x2 < x′

2.

73

Page 31: 3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. · 2007-12-20 · Sono cio`e variabili vettoriali, ciascuna di esse ha n componenti, che sono anch’esse i.i.d. con distribuzione

Passiamo ora a dimostrare due risultati fondamentali. Il primo stabilisce che per βgrande i contorni sono dell’ordine di log L, con lunghezza media decrescente al crescere diβ. Indichiamo, come al solito, con |ΛL| = (2L + 1)2 il numero di punti in ΛL.

Proposizione 1. Per β grande abbastanza esiste una costante C(β), con C(β) → 0per β → ∞, tale che per L → ∞:

P+L

(maxγ∈∂ω

|γ| > C(β) log |ΛL|)

→ 0, L → ∞.

Dimostrazione. E’ facile vedere che il numero Nx(r) dei possibili contorni con puntoiniziale x = (x1, x2) e lunghezza totale r soddisfa la disuguaglianza Nx(r) ≤ 3r−1. Infatti,partendo da x il primo tratto ha al piu tre possibilita perche la coordinata x1 non puodiminuire, e cosı ad ognuno degli r passi, tranne l’ultimo, che e determinato, perche ilcontorno e chiuso.

La probabilita che ci sia un contorno γ di lunghezza r che inizia in un determinatopunto x e maggiorata dalla somma delle probabilita su tutti i possibili contorni di lunghezzar che iniziano in x. Quindi per la disuguaglianza di Peierls

P+L ( c’e γ ∈ ∂ω che inizia in x con |γ| = r) ≤ Nx(r)e−4βr ≤ 3r−1e−4βr. (5.3.4)

Se β e cosı grande che 3e−4β < 1, per ogni fissata costante C1 > 0 si trova

P+L ( c’e γ ∈ ∂ω che inizia in x con |γ| > C1 log |ΛL|) ≤∑

r>C1 log |ΛL|3r−1e−4βr ≤ (3e−4β)C1 log |ΛL|

1 − 3e−4β.

Moltiplicando per il numero possibile di punti iniziali, che e |ΛL|, otteniamo

P+L ( c’e γ ∈ ∂ω con |γ| > C1 log |ΛL|) ≤

|ΛL|(3e−4β)C1 log |ΛL|

1 − 3e−4β

ed e facile vedere che quest’ultima espressione tende a 0, per L → ∞, se C1 log(3e−4β)+1 <0, cioe se C1 > (4β − log 3)−1. Basta quindi prendere C(β) = 2(4β − log 3)−1.

D’ora in poi supporremo che β sia tale da soddisfare la disuguaglianza 3e−4β < 1.Il secondo risultato consiste nella seguente proposizione.Proposizione 2. Per β → ∞ si ha P+

L (ω0 = −1) → 0 uniformemente in L.Dimostrazione. Se ω0 = −1 l’origine 0 = (0, 0) giace all’interno di un contorno γ.

Sia (p, q) il punto iniziale di un contorno che racchiude l’origine. Poiche p, q devono esserepunti con coordinate semintere (di cui p e certamente negativa) e il contorno e fatto ditratti di lunghezza 1 paralleli agli assi, si vede con semplici considerazioni geometriche cheil contorno piu piccolo che parte da (p, q) e contiene l’ origine ha lunghezza 2(|p|+ |q|)+2.Quindi la probabilita che ci sia un contorno che inizia in (p, q) e racchiude l’ origine, emaggiorata per la (5.3.4) da

∞∑r=2(|p+q|)+2

3r−1e−4βr ≤ 32(|p|+|q|)+1e−8β(|p|+|q|+1)

1 − 3e−4β.

74

Page 32: 3. SUCCESSIONI DI VARIABILI CASUALI INDIPENDENTI. · 2007-12-20 · Sono cio`e variabili vettoriali, ciascuna di esse ha n componenti, che sono anch’esse i.i.d. con distribuzione

Il numero di punti di coordinate semintere (p, q) tali che |p| + |q| = s e maggiorato da4(s+1). La probabilita che ci sia un contorno che racchiude l’origine si maggiora sommandola precedente probabilita sui possibili punti iniziali (p, q), e si trova facilmente, per ogni L,

P+L (ω0 = −1) = P+

L ( c’e γ ∈ ∂ω che racchiude 0)

≤∞∑

s=1

(4s + 1)32s+1e−8β(s+1)

1 − 3e−4β≤ 2(9e−8β)2

(1 − 3e−4β)(1 − 9e−8β)2, (5.3.5)

e quest’ ultima quantita tende a 0 per β → ∞.E’ chiaro che le probabilita P±

L possono vedersi come probabilita degli insiemi cilindricisullo spazio degli eventi Ω = ±1Z2

che si ottiene nel limite termodinamico. Non e difficilevedere che sono famiglie compatibili, nel senso visto discutendo le catene di Markov, equindi nel limite termodinamico definiscono probabilita P± sulla σ-algebra F generatadagli insiemi cilindrici.

La conclusione la formuliamo come un teorema, la cui dimostrazione segue immedi-atamente dalle Proposizioni 1 e 2.

Teorema. (Esistenza di due fasi.) Se β e grande abbastanza, nel limite ter-modinamico L → ∞, le probabilita limite P±, ottenute con condizioni al bordo positivee negative, rispettivamente, sono distinte, e in particolare P+(ω0 = −1) < 1

2 , mentreP−(ω0 = −1) > 1

2 .Dimostrazione. Dalla (5.3.5) si vede che se β e grande abbastanza si ha P+(ω0 =

−1) < 12 . E’ chiaro che se consideriamo le condizioni al bordo negative si ottiene per

simmetria la disuguaglianza P−(ω0 = +1) < 12 , e l’asserto e dimostrato.

Abbiamo quindi due misure di probabilita diverse (o ”stati termodinamici”, o ”fasi”),per la stessa temperatura inversa β.

75