Note del corso di Calcolo delle Probabilit a 2mazzucch/NoteCdP2-1718.pdf · 2020. 3. 5. · Note...

117
Note del corso di Calcolo delle Probabilit` a2 Le seguenti note costituiscono una sintetica descrizione degli argomenti svolti a lezione. Non sostituiscono, bens` ı integrano, gli appunti. Si ringraziano gli studenti del corso che con i loro commenti hanno contribuito ad arricchire questi appunti. Ringrazio in particolare Antonio Lorenzin per la preparazione di alcuni disegni, Francesco Pedrotti per aver fornito una dimostrazione alternativa del teorema 32, Lorenzo Barban e Tiziano Fassina per l’aiuto nella correzione di numerosi typos. Richiami di teoria della misura e applicazioni al calcolo delle probabilit` a La teoria della probabilit` a` e la teoria della misura con un’anima (l’anima ` e la nozione di indipendenza). [M. Kac] Lo scopo di questa sezione introduttiva ` e quello di richiamare alcuni risultati fonda- mentali della teoria della misura e le principali definizioni della teoria assiomatica della probabilit` a di Kolmogorov. Ricordiamo prima di tutto la definizione di spazio di probabilit` a , la struttura matematica che modellizza i fenomeni che presentano un certo grado di incertezza. Definizione 1 Uno spazio di probabilit`a ` e una terna , F , P), dove: Ω ` e un insieme; •F⊂P (Ω) ` e una σ-algebra di sottoinsiemi di Ω, cio´ e una famiglia di insiemi che soddisfa le seguenti propriet` a 1 : 1 ´ E possibile sostituire le condizioni 1, 2, 3 con 1 0 , 2, 3 dove 1 0 . F6 = 1

Transcript of Note del corso di Calcolo delle Probabilit a 2mazzucch/NoteCdP2-1718.pdf · 2020. 3. 5. · Note...

  • Note del corso di Calcolo delleProbabilità 2

    Le seguenti note costituiscono una sintetica descrizione degli argomenti svolti alezione. Non sostituiscono, bens̀ı integrano, gli appunti. Si ringraziano gli studentidel corso che con i loro commenti hanno contribuito ad arricchire questi appunti.Ringrazio in particolare Antonio Lorenzin per la preparazione di alcuni disegni,Francesco Pedrotti per aver fornito una dimostrazione alternativa del teorema 32,Lorenzo Barban e Tiziano Fassina per l’aiuto nella correzione di numerosi typos.

    Richiami di teoria della misura e applicazioni al

    calcolo delle probabilità

    La teoria della probabilità è la teoria della misura con un’anima(l’anima è la nozione di indipendenza). [M. Kac]

    Lo scopo di questa sezione introduttiva è quello di richiamare alcuni risultati fonda-mentali della teoria della misura e le principali definizioni della teoria assiomaticadella probabilità di Kolmogorov.

    Ricordiamo prima di tutto la definizione di spazio di probabilità , la strutturamatematica che modellizza i fenomeni che presentano un certo grado di incertezza.

    Definizione 1 Uno spazio di probabilità è una terna (Ω,F ,P), dove:

    • Ω è un insieme;

    • F ⊂ P(Ω) è una σ-algebra di sottoinsiemi di Ω, cioé una famiglia di insiemiche soddisfa le seguenti proprietà 1:

    1É possibile sostituire le condizioni 1, 2, 3 con 1′, 2, 3 dove

    1′. F 6= ∅

    1

  • 1. Ω ∈ F2. se E ∈ F allora Ec ∈ F3. se {En} ⊂ F è una successione di insiemi appartenente alla famiglia F ,

    allora ∪nEn ∈ F .

    • P : F → [0,+∞) è una misura di probabilità su F , cioé una funzione definitasugli insiemi della σ algebra F con le seguenti proprietà :

    1. Normalizzazione: P(Ω) = 12. σ-additività : per ogni famiglia numerabile {En} ⊂ F di insieme a due

    a due disgiunti, cioé tali che En ∩ Em = ∅ se n 6= m, si ha

    P(∪nEn) =∑

    P(En) (1)

    In un modello probabilistico l’insieme Ω viene detto spazio campionario. Nellamodellizzazione di un esperimento, gli elementi ω ∈ Ω rappresentano i possibili esiti.

    La σ-algebra F è una classe di insiemi contenente Ω e chiusa per le operazioniinsiemistiche di passaggio al complementare, unione e intersezione di una famiglianumerabile di elementi. 2 Gli insiemi appartenenti alla σ-algebra F sono dettieventi. Rappresentano sostanzialmente le collezioni di esiti di cui ha senso calcolarela probabilità .

    Introduciamo anche il concetto di algebra di insiemi, più debole di quello diσ-algebra.

    Definizione 2 Una collezione A ⊂ P(Ω) è detta algebra se possiede le seguentiproprietà :

    1. Ω ∈ A

    2. se E ∈ A allora Ec ∈ A

    3. se {E1, ..., En} ⊂ A allora ∪Nn=1En ∈ A.

    A differenza di una σ-algebra, un’algebra è una famiglia di insiemi contenente Ωe chiusa per le operazioni insiemistiche di passaggio al complementare, unione eintersezione di una famiglia finita di elementi. Chiaramente una σ- algebra è ancheun’algebra.Si dimostra facilmente che se E1, E2 ∈ A allora E1 ∩ E2 ∈ A. Analogamente, seE1, E2 ∈ A, con E1 ⊂ E2, allora E2 \ E1 ∈ A.

    Introduciamo anche la definizione di misura di probabilità finitamente additiva,in cui la σ-additività (Eq ( 2)) viene indebolita.

    2Si dimostra facilmente che se A,B ∈ F allora A \B ∈ F e che se {En} ⊂ F allora ∩nEn ∈ F

    2

  • Definizione 3 Una funzione P : A → [0,+∞) definita su un’algebra A è dettamisura di probabilità finitamente additiva se:

    1. Normalizzazione: P(Ω) = 1

    2. additività : per ogni famiglia finita {E1, ..., EN} ⊂ A di insiemi a due a duedisgiunti, cioé tali che En ∩ Em = ∅ se n 6= m, si ha

    P(∪Nn=1En) =N∑n=1

    P(En) (2)

    Se si elimina la proprietà 1 (normalizzazione) P è detta misura finitamente additiva.Se P è una misura di probabilità finitamente additiva, non è complicato dimostrarele seguenti proprietà :

    • per ogni A ∈ A, vale che P(Ac) = 1− P(A)

    • monotonia: se A,B ∈ A, con A ⊂ B, allora P(A) ≤ P(B).

    • se A,B ∈ A, allora P(A ∪B) = P(A) + P(B)− P(A ∩B)

    • se A,B ∈ A, con A ⊂ B, allora P(B \ A) = P(B)− P(A)

    Esercizi:

    1. Sia Ω un insieme infinito numerabile e F = P(Ω). Si definisca P(E) =0 se E ha un numero finito di elementi e P(E) = +∞ se E ha infinitielementi. Si dimostri che P è una misura finitamente additiva ma non σ-additiva. (Suggerimento per la soluzione: Si consideri E sottoinsieme coninfiniti elementi.)

    2. Sia P una misura finitamente additiva su un’algebra A e sia {En} ⊂ A unafamiglia numerabile di insiemi di Amutuamente disgiunti e tali che ∪nEn ∈ A.Si dimostri che P(∪nEn) ≥

    ∑∞n=1 P(En). (suggerimento: Si scriva ∪nEn =

    (∪Nn En) ∪ (∪∞n=N+1En) e si sfrutti l’additività finita di P).

    Il seguente teorema fornisce, da una parte, una caratterizzazione delle misure diprobabilità σ-additive e presenta una loro interessante caratterizzazione.

    Teorema 1 Sia P una misura di probabilità finitamente additiva su un’algebra diinsiemi A. Le seguenti condizioni sono equivalenti:

    i. P è σ-additiva su A: cioè per ogni famiglia numerabile {En} ⊂ A di insiemia due a due disgiunti tale che ∪nEn ∈ A, si ha P(∪nEn) =

    ∑n P(En)

    3

  • ii. Continuità dal basso: per ogni successione {En} ⊂ A tale che En ⊂ En+1 e∪nEn ∈ A, si ha

    P(∪nEn) = limn→∞

    P(En)

    iii. Continuità dall’alto: per ogni successione {En} ⊂ A tale che En+1 ⊂ En e∩nEn ∈ A, si ha

    P(∩nEn) = limn→∞

    P(En)

    iv. Continuità in ∅: per ogni successione {En} ⊂ A tale che En+1 ⊂ En e ∩nEn =∅, si ha

    limn→∞

    P(En) = 0

    Dimostrazione:

    i. ⇒ ii. Sia {En} ⊂ A una successione di insiemi dell’algebra A tale che En ⊂ En+1 e∪nEn ∈ A. Costruiamo la successione {Ẽn} ⊂ A di insiemi disgiunti, definitada:

    Ẽ1 := E1, Ẽn := En \ En−1É immediato verificare che Ẽn ∈ A ∀n ∈ N, che Ẽn∩ Ẽm = ∅ e ∪nEn = ∪nẼn.Abbiamo

    P(∪nEn) = P(∪nẼn) = limN→+∞

    N∑n=1

    P(Ẽn) = limN→+∞

    P(EN)

    dove, nell’ultimo passaggio, abbiamo usato P(Ẽn) = P(En)− P(En−1).

    ii. ⇒ iii. Sia {En} ⊂ A una successione di insiemi dell’algebra A tale che En+1 ⊂ Ene ∩nEn ∈ A. Costruiamo una successione {Ẽn} ⊂ A di insiemi dell’algebraA tale che Ẽn ⊂ Ẽn+1 e ∪nẼn ∈ A, definita da Ẽn = Ecn. Dato che A èun’algebra, è immediato verificare che Ẽn ∈ A ∀n ∈ N. Inoltre ∪nẼn ∈ A inquanto ∪nEcn = (∩nEn)c. Per la proprietà ii abbiamo

    P(∩nEn) = P((∪nẼn)c) = 1− P(∪nẼn) = 1− limn→∞

    P(Ẽn) = limn→∞

    P(En)

    iii. ⇒ iv. Immediato in quanto iv è un caso particolare di iii.

    iv. ⇒ i. Sia {En} ⊂ A famiglia numerabile di insiemi a due a due disgiunti tale che∪nEn ∈ A. Consideriamo la successione {Ẽn} definita da ẼN := ∪n>NEn.Dato che ∪nEn = ∪Nn=1En ∪ ẼN , possiamo dedurre che, dato che A è un’

    4

  • algebra e per ipotesi En e ∪nEn appartengono ad A, abbiamo che ẼN ∈ A∀N ∈ N. Inoltre ẼN+1 ⊂ ẼN e ∩nẼn = ∅ (lo si dimostri per esercizio).Abbiamo dunque che limn→∞ P(Ẽn) = 0 e quindi P(∪nEn) =

    ∑n P(En).

    Estensione di una misura

    Di solito nella costruzione di un modello probabilistico non è semplice definire laσ-algebra ed è preferibile partire da una famiglia di insiemi C e costruire poi unaσ-algebra che li contiene. Data una collezione di insiemi C ⊂ P(Ω), si definisce σ-algebra generata da C e si indica col simbolo σ(C) l’intersezione di tutte le σ-algebrecontenenti C:

    σ(C) :=⋂C⊂F

    F

    La famiglia di insiemi σ(C) gode delle seguenti proprietà :

    • C ⊂ σ(C)

    • σ(C) è una σ-algebra

    • se C ⊂ F e F è una σ-algebra, allora σ(C) ⊂ F . Per tale proprietà σ(C) è lapiù piccola σ-algebra contenente C

    • se C è una σ-algebra allora C = σ(C)

    • se C = ∅ allora σ(C) = {∅,Ω}

    • se C1 ⊂ C2 allora σ(C1) ⊂ σ(C2)

    • se C1 ⊂ C2 ⊂ σ(C1) allora σ(C1) = σ(C2)

    La dimostrazione, abbastanza semplice, viene lasciata per esercizio.

    Esempio 1 Si consideri la famiglia di insiemi A ⊂ P(R) definita da:E ∈ A se E è unione disgiunta di un numero finito di intervalli semiaperti dellaforma (a, b], con −∞ ≤ a < b ≤ +∞, dove (a, b] := (a, b) se b = +∞. A èun’algebra di insiemi, ma non è una σ algebra. La σ-algebra generata da A è laσ-algebra di Borel su R.

    5

  • Affrontiamo ora il seguente problema. Data una misura di probabilità P0 : A → [0, 1]finitamente additiva su una algebra A, esiste un’estensione P di P0 alla σ-algebragenerata? Esiste cioè P : σ(A) → [0, 1] misura di probabilità σ-additiva tale cheP(E) = P0(E) per ogni E ∈ A? Tale estensione, se esiste, è unica?La risposta alla prima domanda è affermativa se P0 è σ-additiva sull’algebra A. Intal caso la procedura di estensione di Caratheodory permette la costruzione di P nelseguente modo:

    1. Si costruisce tramite P0 una misura esterna P∗0 : P(Ω)→ [0, 1] definita da

    P∗0(E) := inf∑n

    P0(An),

    dove l’estremo inferiore è calcolato su tutte le successioni {An} ⊂ A tali cheE ⊂ ∪nAn.

    2. Definisco la classe M ⊂ P(Ω) degli insiemi P∗0-misurabili, dove un insiemeA ⊂ Ω è detto P∗0-misurabile se per ogni E ⊂ Ω:

    P∗0(E) = P∗0(E ∩ A) + P∗0(E ∩ Ac)

    3. si dimostra che M è una σ-algebra e che P∗0 ristretta ad M è σ-additiva.Inoltre A ⊂ M e quindi, per la definizione di σ(A), abbiamo σ(A) ⊂ M. Siverifica facilmente che se E ∈ A allora P0(E) = P∗0(E).

    4. Si definisce infine P : σ(A)→ [0, 1] come la restrizione di P∗0 a σ(A) ottenendol’estensione di P0 cercata.

    Per i dettagli rimandiamo al corso di Analisi Matematica III, dove è stata descrittaquesta procedura nel caso particolare in cui Ω = R, A è l’algebra formata da unionifinite di intervalli disgiunti della retta reale e P0(I) = b− a se I = (a, b] (in questocaso di fatto si considera una misura non normalizzata e quindi non di probabilità). La misura risultante è la misura di Lebesgue sulla σ-algebra di Borel della rettareale.Occupiamoci ora invece del problema dell’unicità dell’estensione. É possibile cheesistano due estensioni diverse, cioé due misure P1 e P2 che coincidono su A, ma taliche esiste almeno un insieme E ∈ σ(A) tale che P1(E) 6= P2(E)? Vedremo che sela classe degli insiemi da cui si parte ha certe proprietà , allora l’estensione è unica.Niotiamo che questo non è vero comunque in generale. Se consideriamo ad esempiouna famiglia C ⊂ P(Ω) della forma C = {E1, E2}, con E1 ∩ E2 6= ∅, e definitauna misura P0 su C, allora l’estensione di P0 a σ(C) non è unica (lo si verifichi peresercizio).Premettiamo alcune definizioni.

    6

  • Definizione 4 Una classe di insiemi P ⊂ P(Ω) è detto π−sistema se possiede laseguente proprietà :

    π. se A,B ∈ P allora A ∩B ∈ P.

    In altre parole, un π−sistema è una classe di insiemi chiusa per intersezioni finite.

    Definizione 5 Una classe di insiemi L ⊂ P(Ω) è detto λ−sistema se possiede leseguente proprietà :

    λ1. Ω ∈ L;

    λ2. Se A ∈ L allora Ac ∈ L.

    λ2. Se {An}n∈N ⊂ L famiglia numerabile di insiemi in L a due a due disgiunti,cioè tali che An ∩ Am = ∅ se n 6= m, allora ∪nAn ∈ L.

    Notiamo che quello di λ-sistema è un concetto più debole di σ-algebra. Una σ-algebra è anche un λ-sistema, ma in generale non è detto che un λ-sistema sia ancheuna σ-algebra.Esercizio: Dimostrare che le proprietà λ1, λ2, λ3 sono equivalenti alle proprietàλ1, λ

    ′2, λ3 dove:

    λ′2. se A,B ∈ L, con B ⊂ A allora A \B ∈ L.

    Lemma 1 Sia C ⊂ P(Ω) una classe di insiemi che è sia un π-sistema, sia unλ-sistema. allora C è una σ-algebra.

    La dimostrazione viene lasciata per esercizio.Il seguente teorema ha numerose applicazioni perchè permette di dimostrare in al-cuni casi che se una classe di insiemi C ha una certa proprietà , tutti gli insiemi dellaσ-algebra generata da C posseggono la stessa proprietà .

    Teorema 2 (di Dynkin) Sia P un π-sistema e L un λ-sistema.Se P ⊂ L allora σ(P) ⊂ L.

    Dimostrazione: Definiamo L0 ⊂ P(Ω) come l’intersezione di tutti i λ-sistemi conte-nenti P . La dimostrazione viene quindi suddivisa in tre passi principali.

    1. L0 è un λ sistema e contiene P (questa parte della dimostrazione viene lasciataper esercizio.

    7

  • 2. L0 è anche un π-sistema. Questa parte è la più complicata e viene dimostratain dettaglio più sotto.

    3. Dai punti 1 e 2 e dal lemma 1 possiamo concludere che P ⊂ L0 ⊂ L e che L0è una σ-algebra contenente P , da cui:

    P ⊂ σ(P) ⊂ L0 ⊂ L

    e la tesi è dunque dimostrata

    Dimostriamo in dettaglio il punto 2. Dobbiamo mostrare che per ogni A,B ∈ L0 siha che A ∩B ∈ L0.Considerato un generico A ∈ L0, definiamo LA ⊂ L0 la famiglia di insiemi:

    LA := {E ∈ L0 : A ∩ E ∈ L0}

    2.1. LA è un λ-sistema. Lasciamo la dimostrazione di questa parte per esercizio.

    2.2. LA contiene P .

    2.2.a Dimostriamo prima di tutto che se A ∈ P allora L0 ⊂ LA. Infatti,se A ∈ P allora P ⊂ LA in quanto P è un π-sistema e, dal punto 1.,P ⊂ L0 ⊂ LA.

    2.2.b Dal punto 2.2.a possiamo dedurre che ∀A′ ∈ P e ∀A ∈ L0 si ha cheA ∩ A′ ∈ L0. Questo significa che per ogni A ∈ L0 si ha P ∈ LA.

    2.3 Dai punti 2.1 e 2.2 abbiamo che P ⊂ L0 ⊂ LA, cioè per ogni B ∈ L0 abbiamoche B∩A ∈ L0. Per la generalià con cui è stato scelto A ∈ L0 abbiamo quindidimostrato che L0 è un π-sistema.

    Un’applicazione immediata del teorema dia class Dynkin è il seguente teoremadi unicità dell’estensione di una misura da un’algebra A alla σ−algebra generataσ(A).

    Teorema 3 Siano P1 e P2 misure di probabilità sulla σ-algebra σ(P), con P unπ−sistema. Se P1 e P2 coincidono su P allora coincidono su σ(P).

    Dimostrazione: Sia L ⊂ σ(P) la famiglia di insiemi definita da

    L := {A ∈ σ(P) : P1(A) = P2(A)}

    Mostriamo che L è un λ−sistema, infatti:

    8

  • • Ω ∈ L in quanto P1(Ω) = P2(Ω) = 1;

    • se A ∈ L allora Ac ∈ L infatti P1(Ac) = 1− P1(A) = 1− P2(A) = P2(Ac);

    • se {An} ⊂ L famiglia numerabile di insiemi a due a due disgiunti si ha che∪nAn ∈ L, infatti P1(∪nAn) =

    ∑n P1(An) =

    ∑n P2(An) = P2(∪nAn)

    Inoltre abbiamo che P ⊂ L per l’ipotesi del teorema. Dal teorema di Dynkinpossiamo quindi concludere che σ(P) ⊂ L e quindi le misure P1 e P2 coincidono suσ(P).

    Dato che un’algebra A ⊂ P(Ω) è anche un π−sistema, il teorema precedenteassicura l’unicità dell’estensione di una misura di probabilità da un’algebra A allaσ-algebra generata σ(A).

    Esercizi

    1. Si dimostri che un λ-sistema L ⊂ P(Ω) possiede le seguenti proprietà

    λ4 Se A,B ∈ L e Ac ∩Bc = ∅, allora A ∩B ∈ Lλ5 Se {An}n∈N ⊂ L famiglia numerabile di insiemi in L tali che An ⊂ An+1,

    allora ∪nAn ∈ L.λ6 Se {An}n∈N ⊂ L famiglia numerabile di insiemi in L tali che An+1 ⊂ An,

    allora ∩nAn ∈ L.

    2. Si dimostri che L è un λ-sistema se e solo se soddisfa λ1, λ′2 e λ5 (in alcunitesti queste tre proprietà sono scelte come definizione di λ−sistema).

    3. Si consideri sulla retta reale al σ algebra di Borel,indicata con B(R) e definitacome la σ-algebra generata dagli insiemi aperti di R.Si considerino le seguenti famiglie di sottoinsiemi di R:

    I1 := {(a, b) ⊂ R : a ≤ b} (3)I2 := {(a, b] ⊂ R : a ≤ b} (4)I3 := {(−∞, b] ⊂ R : b ∈ R} (5)

    (6)

    Si dimostri che σ(I1) = σ(I2) = σ(I3) = B(R).

    4. Sia A ⊂ P(R) la famiglia di insiemi contenente ∅ e tutte le unioni finitedi intervalli disgiunti della forma (a, b] con −∞ ≤ a < b ≤ +∞) dove perconvenzione (a, b] ≡ (a,+∞) nel caso in cui b = +∞.

    9

  • Si dimostri che A è un’algebra ma non una σ-algebra (suggerimento: si mostriche, ad esempio, l’intervallo (0,1) non appartiene ad A ma può essere ottenutocome unione numerabile di elementi di A).Si dimostri che σ(A) = B(R).

    Funzioni misurabili

    Una coppia (Ω,F), dove F ⊂ P(Ω) è una σ-algebra di sottoinsiemi di Ω è dettospazio misurabile.Ricordiamo la definizione di funzione misurabile tra due spazi misurabili.

    Definizione 6 Una funzione T : Ω→ Ω′ tra due spazi misurabili (Ω,F) e (Ω′,F ′)è detta misurabile se per ogni E ∈ F ′ si ha che T−1(E) ∈ F , dove

    T−1(E) := {ω ∈ Ω: T (ω) ∈ E}

    Il seguente risultato fornisce un criterio utile per la misurabilità di una funzione.

    Teorema 4 Sia T : (Ω,F) → (Ω′,F ′) funzione tra due spazi misurabili e sia C ⊂P(Ω′) tale che σ(C) = F ′. Se per ogni E ∈ C si ha che T−1(E) ∈ F allora T èmisurabile.

    Dimostrazione:Data una generica famiglia C ⊂ P(Ω′) tale che σ(C) = F ′, andiamo ad introdurrela famiglia G ⊂ P(Ω′) definita da:

    G = {E ⊂ Ω′ : T−1(E) ∈ F}.

    Abbiamo che , per ipotesi, C ⊂ G. Inoltre G è una σ-algebra, infatti

    • Ω′ ∈ G in quanto T−1(Ω′) = Ω ∈ F .

    • Se E ∈ G allora Ec ∈ G infatti T−1(Ec) = (T−1(E))c.

    • Se {En}n famiglia numerabile di insiemi in G allora ∪nEn ∈ G in quantoT−1 (∪nEn) = ∪nT−1(En).

    Dato che σ(C) è , per definizione, l’intersezione di tutte le σ-algebre contenenti Cabbiamo σ(C) ⊂ G.

    10

  • Misura immagine

    Siano (X,FX) e (Y,FY ) due spazi misurabili e T : X → Y un’applicazione misura-bile. Sia µ : FX → R+ una misura su (X,FX).Si definisce la misura immagine di µ attraverso la mappa T e si indica con µT :FY → R+ la misura su (Y,FY ) definita da

    µT (E) := µ(T−1(E)), E ∈ FY , (7)

    doveT−1(E) = {x ∈ X : T (x) ∈ E}

    Non è complicato dimostrare che la (7) definisce una misura, di probabilità se µ loè . Inoltre vale il seguente risultato fondamentale.

    Teorema 5 (Formula di cambiamento di variabili) Una funzione misurabile f :Y → R è integrabile rispetto a µT se e solo se f ◦ T : X → R è integrabile rispettoa µ e, in questo caso, si ha:∫

    Y

    f(y)dµT (y) =

    ∫X

    f ◦ T (x)dµ(x). (8)

    Dimostrazione: La dimostrazione si articola in 4 passi.

    1. Se f = 1E è la funzione indicatrice di un insieme E ∈ FY allora abbiamo∫Y

    f(y)dµT (y) =

    ∫Y

    1E(y)dµT (y) = µT (E)

    = µ(T−1(E)) =

    ∫X

    1T−1(E)(x)dµ(x) =

    ∫X

    1E(T (x))dµ(x). (9)

    2. Se f è una funzione semplice, cioé una combinazione lineare finita di funzioniindicatrici di insiemi misurabili in FY , allora il risultato discende direttamentedal punto 1 e dalla linearità dell’integrale.

    3. Se f è una funzione misurabile non negativa, allora (si veda ad esempio [8])esiste una successione crescente {fn}n di funzioni misurabili semplici che con-verge puntualmente a f . Applicando il teorema della convergenza monotonaabbiamo dunque∫

    Y

    f(y)dµT (y) = limn→∞∫Yfn(y)dµT (y)

    = limn→∞∫Xfn(T (x))dµ(x)

    =∫Xfn(T (x))dµ(x)

    11

  • 4. Nel caso generale l’identità (8) si dimostra scrivendo la funzione misurabile fcome differenza fra la sua parte positiva e la parte negativa: f = f+ − f−,dove f+ = max{0, f} e f− = max{0,−f}.

    Variabili casuali

    Introduciamo ora il concetto di variabile casuale o variabile aleatoria, che rappre-senta di fatto la descrizione matematica di proprietà numeriche di esperimenti ilcui valore non è determinabile con certezza ma soggetto a un certo grado di alea-torietà . Dato un “esperimento” rappresentato matematicamente da uno spaziodi probabilità (Ω,F ,P), introduciamo una funzione X : Ω → R che associa adogni possibile esito dell’esperimento, cioé ad ogni elemento ω ∈ Ω, un numeroreale X(ω). Richiederemo inoltre che abbia senso calcolare la probabilità che Xassuma valori in un generico intervallo (a, b] ⊂ R. Questo equivale a chiedere cheX−1((a, b]) = {ω ∈ Ω: X(ω) ∈ (a, b]} sia un elemento della σ algebra F . Di fat-to, per il teorema 4 questo è equivalente a chiedere la misurabilità della mappaX : (Ω,F)→ (R,B(R)).

    Definizione 7 Dato uno spazio di probabilità (Ω,F ,P), si dice variabile casualeuna funzione X : Ω → R misurabile, cioè tale che per ogni Boreliano I ⊂ R si hache l’immagine inversa X−1(I) è un elemento di F .

    Notiamo che per il teorema 4, condizione necessaria e sufficiente per la misurabilitàdi X è che per ogni t ∈ R l’insieme X−1((−∞, t]) appartenga alla σ-algebra F ,in quanto la σ-algebra di Borel in R è generata dalla famiglia degli intervalli dellaforma (−∞, t], t ∈ R.Notiamo che per le proprietà delle funzioni misurabili 3 con operazioni elementari ecalcolo di limiti non si esce dalla classe delle variabili casuali.

    Distribuzione di probabilità

    Data una variabile casuale X possiamo introdurre la distribuzione di probabilitàdi X, indicata con µX , come quella misura di probabilità sulla sigma algebra di Borel

    3se f, g misurabili da (Ω,F) in (R,B(R)) e h : R2 → R misurabile, allora h(f, g) è misurabile.In particolare f + g, f − g, fg sono funzioni misurabili. Inotre se {fn}è una successione di funzionimisurabili da (Ω,F) in (R,B(R)) allora le funzioni inf fn, sup fn, lim inf fn e lim sup fn sonomisurabili. Si veda ad esempio [8].

    12

  • di R definita daµX(I) := P(X−1(I)), I ∈ B(R) (10)

    Di fatto µX è la misura immagine di P attraverso la funzionre misurabile X. Ap-plicando la formula di cambiamento di variabili Eq (8) otteniamo che l’integrale diuna funzione f : R→ R Boreliana limitata rispetto ad µX può essere ricondotto adun integrale su Ω rispetto a P, cioé che vale la formula∫

    Rf(x)dµX(x) =

    ∫Ω

    f ◦X(ω)dP(ω). (11)

    Integrazione

    In generale, data f : R→ R Boreliana, si definisce valore di aspettazione di f(X)e si indica con E[f(X))] l’integrale (se esiste finito):

    E[f(X))] :=∫Rf(x)dµX(x) =

    ∫Ω

    f(X(ω))dP(ω)

    In particolare, se∫R |x|dµX

  • F3. FX è continua a destra e ammette limite sinistro:∀t0 ∈ R ∃ lim

    t→t−0FX(t) e ∃ lim

    t→t+0FX(t) = FX(t0).

    La proprietà 1 deriva direttamente dalla relazione (12) e dalla monotonia dellamisura di probabilità µX . Le proprietà 2. e 3. derivano dalla relazione (12) e dallaσ−additività della misura di probabilità µX , in particolare dalla caratterizzazionecontenuta nel teorema 1. Dimostriamo a titolo di esempio l’ultima identità dellaproprietà 3 e lasciamo la dimostrazione delle altre per esercizio. Dato che F è unafunzione monotona, allora F ammette limite destro e sinistro in ogni punto del suodominio. In particolare limt→t+0 FX(t) = inf{F (t) : t > t0}. Per calcolare il valoredi tale limite consideriamo una generica successione {tn} tale che tn → t0, tn > t0e tn ≥ tn+1 ∀n. Consideriamo la succesione {En} di insiemi Boreliani definita daEn := (−∞, tn]. Abbiamo che tale successione verifica le condizioni del punto iii.del teorema 1. In particolare En+1 ⊂ En e ∩nEn = (−∞, t0]. Per il punto iii. delteorema 1 possiamo quindi concludere che

    limn→∞

    FX(tn) = limn→∞

    µX((−∞, tn]) = µX(∩n(−∞, tn]) = µX((−∞, t0]) = F (t0).

    Di fatto la funzione di distribuzione FX caratterizza completamente la misuradi probabilità µX . più precisamente, ogni funzione F : R → R che possegga leproprietà F1, F2 e F3 definisce un’unica misura µF di Borel su R tale che

    µF ((a, b]) = F (b)− F (a)

    La costruzione avviene secondo la seguente procedura.

    1. Si dimostra innanzitutto che la collezione di insiemi A ⊂ P(R) ottenuti comeunioni di un numero finito di intervalli disgiunti (a due a due) della forma(a, b], con −∞ ≤ a < b ≤ +∞ (con la convenzione (a, b] = (a, b) se b = +∞) èun’algebra. Inoltre la σ−algebra generata da A è la σ-algebra di Borel B(R).

    2. Si verifica che la funzione µ : A → [0, 1] definita da µ((a, b]) := F (b) − F (a)(con la convenzione µ((a,+∞) := 1−F (a) e µ((−∞, b]) := F (b)) è una misuradi probabilità finitamente additiva.

    3. Se si riesce a dimostrare che µ è anche σ-additiva su A allora, per la proceduradi estensione di Caratheodory ed il teorema 3, possiamo concludere che esisteed è unica una misura di probabilità σ−additiva µF su B(R) che coincide conµ su A, cioè tale che µF ((a, b]) := F (b)− F (a).

    14

  • I primi due passi sono relativamente semplici e vengono lasciati per esercizio. Trat-tiamo in dettaglio il terzo, ossia la dimostrazione della σ-additività di µ su A. Peril teorema 1, tale proprietà è equivalente alla continuità in ∅. Dobbiamo mostrareche per ogni successione {An} ⊂ A tale che An+1 ⊂ An e ∩nAn = ∅, si ha

    limn→∞

    µ(An) = 0

    La dimostrazione avviene in due passi:

    1. Supponiamo inizialmente che esista un intervallo limitato [−M,M ] tale cheAn ⊂ [−M,M ] per ogni n.Fissato un � > 0, costruiamo per ogni insieme An un corrispondente Bn ∈ Atale che

    B̄n ⊂ An, µ(An \Bn) < �/2n

    La costruzione di un Bn che soddisfa queste caratteristiche è possibile sfrut-tando la continuità a destra di F (proprietà F3). Infatti, se An = (a, b], perla continuità a destra di F esiste un δ > 0 tale che se F (a′)− F (a) < �/2n sea′ > a, |a′ − a| < δ. In tal caso, scegliendo Bn = (a′, b], otteniamo un insiemecon le caratteristiche richieste. Più in generale, se An = ∪Nk=1(ak, bk], ripetia-mo la procedura per ciascun degli intervalli (ak, bk], costruendo Bn della formaBn = ∪Nk=1(a′k, bk], dove gli estremi a′k > ak vengono scelti in modo tale cheF (a′k) − F (ak) < �/N2n. Notiamo che, dato che ∩nAn = ∅ allora ∩nB̄n = ∅.Da quest’ultima identità possiamo dedurre che

    [−M,M ] = ∪n[−M,M ] \ B̄n

    La famiglia di insiemi {[−M,M ]\B̄n} costitusce quindi un ricoprimento apertodi [−M,M ] e, per compattezza, possiamo estrarre un sottoricoprimento finito:

    [−M,M ] = ∪n0n=1[−M,M ] \ B̄n

    da questa identità deduciamo che ∩n0n=1B̄n = ∅.Considerato l’insieme An0 e tenendo conto del fatto che An0 ⊂ An per ognin < n0, possiamo stimare la misura µ(An0) come:

    µ(An0) = µ(An0 \ ∩n0n=1Bn) + µ(∩n0n=1Bn)= µ(An0 \ ∩n0n=1Bn)≤ µ(∪n0n=1An \Bn)≤

    ∑n

    2n= �

    15

  • Dato che se n > n0 allora An ⊂ An0 , dalla monotonia di µ possiamo dedurreche

    µ(An) < �, ∀n > n0.

    2. Consideriamo ora il caso generale in cui non esiste un intervallo limitato conte-nente tutti gli insieme An. In questo caso, dato � > 0, scegliamo un M ∈ R taleche µ((−M,M ]) > 1− �/2. Notiamo che tale M esiste per la proprietà F2 del-la funzione F . Data la successione {An}, definiamo la successione {Ãn} ⊂ Acome Ãn := An ∩ (−M,M ]. Abbiamo che, per costruzione Ãn ⊂ [−M,M ]∀n. Possiamo quindi ripetere la procedura del passo 1 e trovare un n0 tale cheµ(Ãn) < �/2 se n ≥ n0. Considerando ora gli insiemi An abbiamo:

    µ(An) = µ(An ∩ (−M,M ]) + µ(An ∩ (−M,M ]c)= µ(Ãn) + µ(An ∩ (−M,M ]c)≤ �/2 + �/2

    La misura µF su (R,B(R)) costruita a partire dalla funzione F è detta misuradi Lebesgue-Stieltjes associata a F .

    Esempio: Se

    F (x) =

    0 x < 0,x 0 ≤ x ≤ 1,1 x > 1

    allora µF è la misura di Lebesgue concentrata sull’intervallo [0, 1].

    Osservazione 1 É interessante osservare come le proprietà di regolarità di F ri-flettono alcune caratteristiche degli insiemi su cui si concentra la misura associataµF .

    1. F ha un punto di discontinuità in t0 se e solo se µF ({t0}) 6= 0, infatti

    µF ({t0}) = µF ((−∞, t0])− µF ((−∞, t0)),

    d’altra parte limt→t−0 F (t) = µF ((−∞, t0)) e limt→t+0 F (t) = µF ((−∞, t0]),quindi il valore di µF ({t0}) è pari al “salto” di F in t0, cioé alla differen-za limt→t+0 F (t)− limt→t−0 F (t).

    16

  • 2. Se F è costante su (a, b) allora µF (a, b) = 0 e, più in generale, µF (E) = 0 perogni E ∈ B(R), E ⊆ (a, b). Se inoltre F è continua possiamo dedurre che seF è costante su (a, b) allora F sarà costante anche su [a, b] e µF (E) = 0 perogni E ∈ B(R), E ⊆ [a, b].Per la σ-additività inoltre possiamo dedurre che se E = ∪nIn, con {In} ⊂ B(R)successione di intervalli tali per cui F (t) = cn ∀t ∈ In, allora µF (E) = 0.

    Definizione 8 Una misura di probabilità µ su (R,B(R)) è detta discreta se esisteun insieme discreto {ti} ⊂ R e dei valori p(ti) ∈ (0, 1] con

    ∑i p(ti) = 1 tale per cui

    µ è una combinazione convessa di misure δ concentrate4 in ti:

    µ =∑i

    p(ti)δti (13)

    La forma (13) implica che misura di un generico insieme I ∈ B(R) è data daµ(I) =

    ∑ti∈I p(ti). In particolare, dalla condizione di normalizzazione µ(R) = 1

    otteniamo la condizione∑

    tip(ti) = 1.

    Una funzione di distribuzione F associata ad una distribuzione discreta della forma(13) è detta discreta. In tal caso F è data da F (t) =

    ∑ti≤t p(ti). Di fatto è una

    funzione costante a tratti, costante sugli intervalli che non contengono i punti {ti}su cui è concentrata la misura µ. Inoltre l’insieme discreto {ti} ⊂ R coincide conl’insieme dei punti di discontinuità di F e nel generico punto ti la funzione F ha un”salto” dato da

    ∆F (ti) := limt→t+i

    F (t)− limt→t−i

    F (t) = µ((−∞, ti])− µ((−∞, ti)) = µ({ti}) = p(ti)

    La variabile casuale X che ha una distribuzione discreta viene detta variabile casualediscreta.

    Per una variabile casuale discreta vale P(X ∈ E) =∑

    ti∈E p(ti).

    Definizione 9 Una funzione di distribuzione F è detta assolutamente continua seesiste una funzione f ∈ L1(R), f ≥ 0 e

    ∫R f(u)du = 1 tale che

    F (t) =

    ∫ t−∞

    f(u)du, t ∈ R, (14)

    4Ricordiamo che per a ∈ R la misura δa detta δ di Dirac è definita da

    δa(I) :=

    {1 a ∈ I0 a /∈ I

    , I ∈ B(R)

    17

  • dove l’integrale è definito nel senso di Lebesgue. La misura associata a F è data da

    µF (E) =

    ∫E

    f(u)du =

    ∫RχE(u)f(u)du, E ∈ B(R) (15)

    Una variabile casuale X che ha una funzione di distribuzione della forma (14) vienedetta variabile casuale assolutamente continua.

    Si verifica facilmente che una funzione F della forma (14) è continua in ogni punto.Basta verificare che è continua a sinistra (perchè la continuità a destra è automati-camente verificata in quanto F è una funzione di distribuzione). Di fatto se t < t0abbiamo:

    |F (t)−F (t0)| = F (t0)−F (t) = µ((−∞, t0])−µ((−∞, t]) =∫ t0t

    f(u)du =

    ∫Rχ(t,t0)(u)f(u)du

    dato che per t → t0 abbiamo che χ(t,t0)(u)f(u) → 0 e |χ(t,t0)(u)f(u)| ≤ |f(u)|∀u ∈ R, per il teorema della convergenza dominata abbiamo

    limt→t0|F (t)− F (t0)| = lim

    t→t0

    ∫Rχ(t,t0)(u)f(u)du = 0

    Inoltre se E ∈ B(R) ha misura di Lebesgue nulla, allora dalla (15) deduciamoche µF (E) = 0.

    Di fatto le distribuzioni della forma (13) e ( 15) o le loro combinazioni convessenon esauriscono tutte le possibilità . In altre parole esistono funzioni di distribuzio-ne continue (che quindi non possono essere di tipo discreto) ma non assolutamentecontinue. Un esempio è dato dalla funzione di Cantor, funzione continua e mono-tona non decrescente sull’intervallo [0, 1], che può ad esempio essere costruita conil seguente procedimento iterativo. Si consideri la successione di funzioni continueFn : R→ R definita da Fn(t) = 0 se t ≤ 0 e Fn(t) = 1 se t ≥ 1, mentre nell’intervallo[0, 1] poniamo:

    F0(t) = t, Fn+1(t) =

    12Fn(3t) x ∈ [0, 1/3],

    1/2 x ∈ [1/3, 2/3],12

    + 12Fn(3t− 2) x ∈ [2/3, 1],

    É possibile dimostrare che Fn converge puntualmente e uniformemente ad una fun-zione F continua e monotona non decrescente. Inoltre la funzione Fn (ristrettaall’intervallo [0,1])è costante su un insieme Cn formato dall’unione di intervalli dilunghezza:

    L(Cn) =1

    3+

    2

    9+ ...+

    2n−1

    3n=

    1

    3

    n−1∑k=0

    (2

    3

    )k18

  • mentre l’insieme Nn formato dall’unione degli intervalli in cui F è crescente hamisura L(Nn) = 1 − L(Cn). Nel limite per n → ∞ abbiamo che F (ristrettaall’intervallo [0,1]) è costante su un insieme C di misura

    L(C) = limn→∞

    L(Cn) =1

    3

    ∞∑k=0

    (2

    3

    )k= 1

    Da quanto discusso nell’osservazione 1 possiamo concludere che µF (C) = 0 e quin-di µF (N) = 1 − µF (C) = 1, mentre L(C) = 1 e L(N) = 1 − L(C) = 0. Datoche abbiamo trovato un insieme che ha misura di Lebesgue nulla ma ha misura µFstrettamente positiva, possiamo dedurre che la funzione di distribuzione F è conti-nua ma non può essere assolutamente continua. F è detta funzione di distribuzionesingolare. La misura µF è detta singolare rispetto la misura di Lebesgue.

    Osservazione 2 5 La procedura illustrata mostra come siamo riusciti a costruireuna misura di probabilità concentrata sull’insieme di Cantor N (che ha misura diLebesgue 0).Di fatto possiamo dire in generale che per ogni insieme Boreliano B possiamo co-struire una misura µ concentrata in B (cioè tale che µ(A) = 0 se A ∩B = ∅).Se B è discreto il risultato è banale (è sufficiente considerare una combinazioneconvessa di misure δ di Dirac concentrate nei punti di B). Analogamente, se B hamisura di Lebesgue non nulla, allora è sufficiente definire µ(A) := L(A ∩B).Il caso non banale lo otteniamo se B è non numerabile e ha misura di Lebesgue 0.In questo caso abbiamo che B contiene un sottoinsieme B′ omeomorfo all’insieme diCantor N (si veda th 3.2.7 in S.M. Srivastava A course on Borel sets). In particolareB′ è non numerabile. A questo punto possiamo costruire una misura µ concentratain B′ come misura immagine della misura µF attraverso l’omeomorfismo che collegaB′ e N .

    É possibile dimostrare [8] che ogni funzione di distribuzione F : R → R di unavariabile casuale può essere rappresentata in modo unico come una combinazioneconvessa di una funzione di distribuzione discreta, di una assolutamente continua edi una singolare:

    F = λdFd + λacFac + λsFs

    con λd, λac, λs ∈ [0, 1] e λd + λac + λs = 1.5Si ringrazia uno degli studenti del corso per aver posto la questione ed il Prof. Gabriele H.

    Greco per aver fornito la risposta.

    19

  • σ-algebra generata da una variabile casuale

    Sia (Ω,F ,P) uno spazio di probabilità e X : Ω→ R una variabile casuale. Definiamola σ-algebra FX ⊂ P(Ω) generata da X come:

    FX := {E ⊂ Ω: E = X−1(I), I ∈ B(R)}

    Si dimostra che FX è di fatto una σ-algebra contenuta in F . Inoltre è la più piccolaσ-algebra su Ω che rende X misurabile nel senso che se X : (Ω,F ′) → (R,B(R) èun’applicazione misurabile, allora FX ⊆ F ′.

    Se g : R → R è una funzione Boreliana, allora g ◦X : Ω → R è un’applicazioneFX misurabile. Di fatto è vero anche il viceversa, vale cioè il seguente risultato.

    Teorema 6 Sia (Ω,F ,P) uno spazio di probabilità , X : Ω → R una variabilecasuale e Y : Ω→ R una variabile casuale FX misurabile. Allora esiste una funzioneBoreliana g : R→ R tale che Y = g ◦X.

    Dimostrazione:

    1. Dimostriamo innanzitutto la tesi nel caso in cui Y è funzione indicatrice di uninsieme E ∈ FX , cioé Y (ω) = 1E(ω). Dato che E ∈ FX , esiste I ∈ B(R) taleche E = X−1(I). Abbiamo quindi:

    Y (ω) = 1E(ω) = 1X−1(I)(ω) = 1I(X(ω))

    e otteniamo la tesi con g : R→ R data da g(x) = 1I(x).

    2. Se Y è un a funzione semplice, cioé della forma Y (ω) =∑n

    i=1 ci1Ei(ω), conc1, ..., cn ∈ R e I1, ..., In ∈ FX , allora la tesi segue dal punto precedente.

    3. Se ora consideriamo una generica variabile Y FX-misurabile, allora esiste unasuccessione {Yn} di funzioni semplici FX-misurabili convergenti puntualmentea Y . Per quanto dimostrato al punto 2, per ognuna di queste vale la tesie possiamo quindi costruire una successione gn di funzioni Boreliane tali cheYn = gn ◦X. Consideriamo ora l’insieme B ⊂ R definito da:

    B := {x ∈ R : ∃ limn→∞

    gn(x)}

    Di fatto B è un Boreliano in quanto, se indichiamo con ḡ : R→ R e g : R→ Rle funzioni Borel misurabili definite da ḡ := lim sup gn and g := lim inf gn

    20

  • abbiamo:

    B = {x ∈ R : ∃ limn→∞

    gn(x)}

    = {x ∈ R : ḡ(x) = g(x)}= (ḡ − g)−1(0).

    L’ultima riga mostra che B ∈ B(R) in quanto è l’immagine inversa dell’insieme{0} ∈ B(R) attraverso la funzione Boreliana ḡ − g.Se definiamo ora g : R→ R come g(x) = ḡ(x)1B(x), otteniamo che g è Borelmisurabile e può essere rappresentata come

    g(x) =

    {limn→∞ gn(x) se il limite esiste

    0 altrimenti

    da cui Y (ω) = g(X(ω)).

    Esercizi

    1. Si dimostri che una generica funzione di distribuzione F : R → R ha almassimo un insieme numerabile di punti di discontinuità . (Suggerimento:si sfruttino le proprietà delle funzioni monotone).

    2. Si dimostri che, data funzione di distribuzione F : R→ R continua e indicatacon µF la misura di Lebesgue-Stieltjes associata, se A ∈ B(R) è un insiemenumerabile allora µF (A) = 0. (Suggerimento: Si sfrutti la σ additività di µFe si scriva A come unione numerabile di singoletti).

    3. Si dimostri che data una variabile casuale X e una funzione Boreliana g : R→R allora Y : Ω → R definita da Y := g ◦X è FX-misurabile. (Suggerimento:si sfruttino le proprietà delle funzioni misurabili).

    4. Sia X una variabile casuale discreta con una distribuzione di probabilià µ dellaforma µ =

    ∑Ni=1 piδti . Si descriva la σ-algebra generata da X. Si descriva inol-

    tre la più generica funzione Y : Ω→ R che sia FX-misurabile. (Suggerimento:si mostri che FX è la sigma algebra generata daglla famiglia numerabile diinsiemi {Ei := X−1(ti)} e che tali insiemi formano una partizione di Ω. Simostri che Y è della forma Y (ω) =

    ∑i yiχEi(ω).

    5. Si dimostri che la σ-algebra generata da una variabile casuale X può essereequivalentemente definita come l’intersezione di tutte le σ algebre F ′ su Ω taliper cui X : (Ω,F ′)→ (R,B(R)) è misurabile.

    21

  • Funzione caratteristica di una variabile casuale

    Uno strumento particolarmente utile per lo studio e la caratterizzazione delle va-riabili casuali e delle loro distribuzioni è la funzione caratteristica. Sia X : Ω → Rvariabile casuale su uno spazio di probabilità (Ω,F ,P) e sia µ la sua distribuzione,misura di probabilità σ−additiva su (R,B(R)). Si definisce funzione caratteristicadi X e si indica con φX la funzione φX : R→ C definita da

    φX(t) := E[eitX ] =∫Reitxdµ(x) (16)

    Notiamo che φX è ben definita perchè l’integrale al secondo membro di (16) èassolutamente convergente dato che |eitx| ≤ 1 e µ è una misura di probabilità .

    Vediamo alcuni esempi.

    • Se X è uniformemente distribuita sull’intervallo [0, 1] allora φX(t) = eit−1it

    .

    • Se X è distribuita secondo legge di Poisson di parametro λ allora

    φ(t)∞∑n=0

    eitnλn

    n!e−λ = e−λeλe

    it

    • Se X assolutamente continua e f ∈ L1(R) è la sua densità rispetto alla misuradi Lebesgue, allora φ è la trasformata di Fourier di f :

    φ(t) =

    ∫eitxf(x)dx

    Di fatto, dalla forma (16) possiamo dedurre altre proprietà di φX . Premettiamo laseguente definizione.

    Definizione 10 Una funzione g : R→ C è detta semi-definita positiva se ∀N ≥ 1,∀t1, ...tN ∈ R e ∀z1, ...zN ∈ C si ha:

    N∑j,k=1

    g(tj − tk)zj z̄k ≥ 0 (17)

    Teorema 7 Sia φ : R → C funzione caratteristica di una variabile casuale X.Allora

    1. φ(0) = 1.

    22

  • 2. φ è semi-definita positiva.

    3. φ è uniformemente continua.

    Dimostrazione:

    1. Deriva direttamente dalla formula (16).

    2. Dobbiamo dimostrare che fissato N , scelti t1, ...tN ∈ R e z1, ...zN ∈ C si ha:N∑

    j,k=1

    φ(tj − tk)zj z̄k =N∑

    j,k=1

    ∫Reix(tj−tk)dµ(x)zj z̄k ≥ 0

    Notiamo che

    N∑j,k=1

    φ(tj − tk)zj z̄k =∫R

    N∑j,k=1

    zj z̄keix(tj−tk) dµ(x)

    =

    ∫R

    ∣∣∣∣∣N∑j=1

    zjeixtj

    ∣∣∣∣∣2

    dµ(x) ≥ 0

    3. La continuità di φ si dimostra facilmente utilizzando il teorema della conver-genza dominata, infatti

    |φ(t)− φ(t0)| ≤∫R|eixt − eixt0|dµ(x)

    Dato che eixt − eixt0 → 0 puntualmente per t → t0 e che |eixt − eixt0| ≤ 2possiamo dedurre che φ(t)→ φ(t0) per t→ t0.Di fatto però possiamo dimostrare una proprietà più forte: l’uniforme conti-nuità di φ, cioé che per ogni � > 0 esiste un δ > 0 per cui |φ(t) − φ(s)| < �se |t − s| < δ. Dato che µ è una misura di probabilità su R, allora esiste unM ∈ R+ tale che µ([−M,M ]c) < �/4. Inoltre:

    |φ(t)− φ(s)| ≤∫R|eixt − eixs|dµ(x)

    =

    ∫[−M,M ]

    |eixt − eixs|dµ(x) +∫

    [−M,M ]c|eixt − eixs|dµ(x)

    =

    ∫[−M,M ]

    |eix(t−s) − 1|dµ(x) +∫

    [−M,M ]c|eixt − eixs|dµ(x)

    23

  • Notiamo che

    |eix(t−s) − 1| =√

    (cos(x(t− s))− 1)2 + sin2(x(t− s)) =√

    2− 2 cos(x(t− s))

    = 2

    ∣∣∣∣sin(x(t− s)2)∣∣∣∣ ≤ |x(t− s)|

    abbiamo dunque che se |t− s| < �2M

    :

    |φ(t)− φ(s)| ≤∫

    [−M,M ]|x(t− s)|dµ(x) +

    ∫[−M,M ]c

    |eixt − eixs|dµ(x)

    ≤ M |t− s|∫

    [−M,M ]dµ(x) +

    ∫[−M,M ]c

    |eixt − eixs|dµ(x) ≤ �/2 + �/2

    Di fatto le proprietà 1,2, 3 del teorema precedente caratterizzano completamentele funzioni caratteristiche. Vale infatti il seguente teorema dovuto a S. Bochner

    Teorema 8 (Bochner) una funzione φ : R→ C è la funzione caratteristica di unavariabile casuale X se e solo se possiede le seguenti proprietà :

    1. φ(0) = 1.

    2. φ è semi-definita positiva.

    3. φ è continua in 0.

    Esercizi sulle funzioni semi-definite positive:

    1. Sia ϕ una funzione semi-definita positiva. Allora:

    (a) ϕ(0) ≥ 0,(b) ϕ(−t) = ϕ(t), ∀t ∈ R,(c) |ϕ(t)| ≤ ϕ(0), ∀t ∈ R.

    In particolare ϕ è limitata.Suggerimento. Si consideri (17) per N = 2 and t1 = 0, t2 = t, z1 = 1,z2 = c ∈ C. Then

    (1 + |c|2)ϕ(0) + cϕ(t) + c̄ϕ(−t) ≥ 0 . (18)

    (a) per c = 0, (18) implica ϕ(0) ≥ 0.

    24

  • (b) perr c = 1 (18) e (a) implicano ϕ(t) +ϕ(−t) reale; for c = i (18) iimplicai(ϕ(t)− ϕ(−t)) reale.

    (c) per ϕ(t) = 0 segue da (a). Per ϕ(t) 6= 0 scegliamo c = − |ϕ(t)|ϕ(t)

    , e

    sostituiamo in (18): usando (a),(b), otteniamo (c).

    2. Sia ϕ una funzione semi-definita positiva. Allora:

    |ϕ(x)− ϕ(y)|2 ≤ 2ϕ(0)Re (ϕ(0)− ϕ(x− y)) ,

    dove Re indica la parte reale. In particulare, se ϕ è continua nell’origine,allora ϕ è uniformemente continua.Suggerimento. Si noti che Re (ϕ(0)−ϕ(x−y)) = ϕ(0)−Reϕ(x−y), dato cheϕ(0) ≥ 0 per 1.(a). Inoltre Reϕ(x − y) ≤ |Reϕ(x− y)| ≤ |ϕ(x− y)| ≤ ϕ(0)da 1.(c). Se ϕ(x) = ϕ(y) l’identità è banalmente verificata. nel caso in cuiϕ(x) 6= ϕ(y) consideriamo (17) per N = 3 e t1 = 0, t2 = x, t3 = y, z1 = 1,z2 =

    λ|ϕ(x)−ϕ(y)|ϕ(x)−ϕ(y) , z3 = −z2, λ ∈ R. Otteniamo

    ϕ(0)(1 + 2λ2) + 2λ|ϕ(x)− ϕ(y)| − 2λ2Reϕ(x− y) ≥ 0 .

    Il discriminante della forma quadratica in λ deve essere negativo e da questacondizione otteniamo l’identità |ϕ(x)− ϕ(y)|2 ≤ 2ϕ(0)Re (ϕ(0)− ϕ(x− y)).

    Teorema 9 (di unicità ) Siano X e Y variabili casuali con distribuzione µ e νrispettivamente. Siano φX e φY le rispettive funzioni caratteristiche. Allora µ = νse e solo se φX = φY .

    Dimostrazione: ⇒ questa implicazione è banale.⇐ Per dimostrare questa implicazione, dato che due misure di Borel su R sono ugualise e solo se coincidono sugli intervalli della forma (a, b], a ≤ b, allora è sufficientemostrare che ∫

    Rχ(a,b](x)dµ(x) =

    ∫Rχ(a,b](x)dν(x) (19)

    1 passo per ogni � > 0, � < b − a, consideriamo la funzione continua f � : R → Rdefinita da:

    f �(x) =

    0 se x ≤ a(x−a)�

    se x ∈ [a, a+ �]1 se x ∈ [a+ �, b]− (x−b−�)

    �se x ∈ [b, b+ �]

    0 se x ≥ b+ �

    25

  • Dimostriamo che ∫Rf �(x)dµ(x) =

    ∫Rf �(x)dν(x) (20)

    Dato un arbitrario δ > 0 (con δ < 1) mostriamo che

    |∫Rf �(x)dµ(x)−

    ∫Rf �(x)dν(x)| < 6δ

    Si fissi un M > 0 tale che:[a− �, b+ �] ⊂ [−M,M ],µ([−M,M ]c) < δ,ν([−M,M ]c) < δ.Inoltre, consideriamo un polinomio trigonometrico P (x) =

    ∑Nk=0 ake

    ikπx/M

    tale chesup

    x∈[−M,M ]|f �(x)− P (x)| < δ.

    Notiamo che inoltre supx∈[−M,M ] |P (x)| < 2.Abbiamo dunque:

    |∫Rf �(x)dµ(x)−

    ∫Rf �(x)dν(x)| = |

    ∫[−M,M ]

    f �(x)dµ(x)−∫

    [−M,M ]f �(x)dν(x)|

    = |∫

    [−M,M ](f �(x)− P (x))dµ(x) +

    ∫RP (x)dµ(x)

    −∫RP (x)dν(x)−

    ∫[−M,M ]c

    P (x)dµ(x) +

    +

    ∫[−M,M ]c

    P (x)dν(x)−∫

    [−M,M ](f �(x)− P (x))dν(x)|

    ≤∫

    [−M,M ]|f �(x)− P (x)|dµ(x) + |

    ∫RP (x)dµ(x)

    −∫RP (x)dν(x)|+

    ∫[−M,M ]c

    |P (x)|dµ(x) +

    +

    ∫[−M,M ]c

    |P (x)|dν(x) +∫

    [−M,M ]|f �(x)− P (x)|dν(x)|

    ≤ δ + 0 + 2δ + 2δ + δ

    2 passo Dato che lim�↓0 f�(x) = χ(a,b](x) per ogni x ∈ R, e che |f �(x)| ≤ 1, per il

    teorema della convergenza dominata otteniamo (19).

    26

  • Il teorema mostra quindi che la funzione caratteristica individua in modo univo-co la distribuzione di una variabile casuale. in altre parole variabili casuali con lastessa funzione caratteristica sono equidistribuite.

    Esercizi

    1. Mostrare che la funzione caratteristica di una variabile casuale Gaussiana dimedia m e covarianza σ2 è data da

    φ(t) =

    ∫eitx

    e−(x−m)2

    2σ2

    √2πσ2

    dx = eimte−σ2t2

    2

    2. Mostrare che la funzione caratteristica di una variabile casuale distribuitasecondo la distribuzione di Cauchy è data da:

    φ(t) =

    ∫eitx

    1

    1 + x21

    πdx = e−|t|

    Ulteriori proprietà della funzione caratteristica

    1. La funzione caratteristica φ di una variabile casuale X soddisfa sempre l’iden-tità

    φ̄(t) = φ(−t), ∀t ∈ R.Infatti

    φ̄(t) =

    ∫Reitxdµ(x) =

    ∫Reitxdµ(x) =

    ∫Re−itxdµ(x) = φ(−t)

    2. Sia R : R→ R è la funzione definita da R(x) := −x, cioè la riflessione rispettoall’origine. Si verifica facilmente che R2 = I, cioé R = R−1.Data una misura di Borel µ su R, indicheremo con µR la sua misura immagineattraverso R, definita da

    µR(A) := µ(R−1(A)), A ∈ B(R)

    Per le proprietà di R, l’uguaglianza sopra è equivalente a µR(A) := µ(R(A)),∀A ∈ B(R).Una misura di Borel µ su R è detta simmetrica per riflessione se µ = µR, cioése per ogni insieme Boreliano I ∈ B(R) vale

    µ(I) = µ(R(I)) (21)

    27

  • doveR(I) = {x ∈ R : Rx ∈ I} = {−x : x ∈ I}.

    Consideriamo ora una variabile casuale X con distribuzione µ e funzionecaratteristica φ. Si ha che µ è simmetrica se e solo se φ è a valori reali:

    P(X ∈ I) = P(X ∈ R(I)) ⇔ φ(t) = φ̄(t)

    ⇒ Questa implicazione è semplice da dimostrare, infatti se µ = µR allora perogni f : R→ R Boreliana limitata abbiamo∫

    f(x)dµ(x) =

    ∫f(x)dµR(x) =

    ∫f(Rx)dµ(x) =

    ∫f(−x)dµ(x).

    Ponendo f(x) = eitx abbiamo che φ(t) = φ(−t). Dal punto 2 abbiamo cheφ(−t) = φ̄(t) e quindi possiamo concludere che φ̄(t) = φ(t).⇐ Supponiamo che φ sia a valori reali φ(t) = φ̄(t). Notiamo che questo implicaφ(t) = φ(−t). Inoltre la funzione φR(t) := φ(−t) è la funzione caratteristicadi µR. Dato che φ(t) = φR(t) ∀t ∈ R, per il teorema di unicità (teorema 9)abbiamo che µ = µR.

    3. Se X ∈ L1(Ω) allora la sua funzione caratteristica φ è derivabile e

    φ′(t) = i

    ∫Rxeitxdµ(x)

    In particolare φ′(0) = i∫R xdµ(x) = iE[X].

    Se X ∈ L2(Ω) allora la sua funzione caratteristica φ è derivabile due volte e

    φ′′(t) = −∫Rx2eitxdµ(x)

    In particolare φ′′(0) = −∫R x

    2dµ(x) = E[X2].In generale se E[|X|n] < +∞, allora φ è derivabile n volte e per ogni k ≤ n

    φ(k)(t) = (i)k∫xkeitxdµ(x),

    φ(k)(0) = (i)kE[Xk]

    Dimostriamo la prima identità , per le altre si procede in modo analogo.Abbiamo:

    φ′(t) = limh→0

    φ(t+ h)− φ(t)h

    = limh→0

    ∫Reitx

    eihx − 1h

    dµ(x).

    28

  • Dato che limh→0eihx−1h

    = ix, dobbiamo mostrare che è possibile passare illimite sotto il segno di integrale. Notiamo che la funzione integranda è limitataper ogni h ∈ R, da∣∣∣∣eitx eihx − 1h

    ∣∣∣∣ = |eihx − 1||h| =√

    2− 2 cos(hx)|h|

    = 2| sin(hx/2)||h|

    ≤ |x|

    e per il teorema della convergenza dominata, abbiamo:

    φ′(t) = limh→0

    φ(t+ h)− φ(t)h

    =

    ∫R(ix)eitxdµ(x).

    L’ultima proprietà dimostrata può essere applicata al problema dei momenti.Sia X variabile casuale con tutti i momenti finiti e sia mi = E[X i], con i ∈ N.La successione {mi}i∈N determina univocamente la distribuzione µ della variabilecasuale X? In altre parole, esiste un’alta misura di probabilità ν su B(R) con glistessi momenti, cioé mi =

    ∫xidν(x)?

    In generale i momenti non determinano la distribuzione in modo univoco. Ad esem-pio sia µ la misura su B(R) assolutamente continua rispetto alla misura di lebesgue,con densità f : R→ R definita da

    f(x) =

    {ke−x

    1/4x > 0

    0 x ≤ 0 (22)

    con k = (∫∞

    0e−x

    1/4dx)−1. Sia inoltre ν la misura su B(R) assolutamente continua

    rispetto alla misura di lebesgue, con densità g : R→ R definita da

    g(x) =

    {ke−x

    1/4(1 + � sin(βx1/4) x > 0

    0 x ≤ 0 (23)

    con |�| < 1 e β = tan(π/4). É possibile dimostrare (vedi es. 1) che per ogni i ∈ N∫xidµ(x) =

    ∫xidν(x)

    ma, evidentemente le due misure non coincidono.Le proprietà della funzione caratteristica forniscono delle condizioni sufficienti af-finchè data una successione {mi}i∈N sia unica la misura µ : B(R) → [0, 1] per cuimi =

    ∫xidµ.

    29

  • Teorema 10 Sia X variabile casuale con tutti i momenti finiti. Indichiamo conmi = E[X i] e ui = E[|X i|] < +∞. Se

    lim supn

    n√|un|n

    = 0 (24)

    allora i momenti {mn} determinano completamente la distribuzione di X.

    Dimostrazione: Per il teorema di unicità (teorema 9) è sufficiente mostrare che imomenti {mn}n∈N permettono di determinare univocamente la funzione caratteri-stica φ di X e quindi la sua distribuzione. Dato che φ(k)(0) = (i)kmk per ogni k ∈ Npossiamo costruire φ come serie di potenze centrata in t = 0 se φ è analitica (conraggio di convergenza infinito), cioé per ogni t ∈ R vale

    φ(t) =∞∑k=0

    φ(k)(0)

    k!tk =

    ∞∑k=0

    (i)kmkk!tk (25)

    Abbiamo infatti che

    φ(t) =

    ∫eitxdµ(x) =

    ∫ ∞∑k=0

    (itx)k

    k!dµ(x) =

    ∞∑k=0

    (it)k

    k!

    ∫xkdµ(x)

    Risulta possibile scambiare la serie con l’integrale nell’uguaglianza precedente inquanto

    ∞∑k=0

    ∫|tx|k

    k!dµ(x) =

    ∞∑k=0

    |t|k

    k!uk < +∞.

    Infatti, per il criterio di Cauchy-Hadamard 6 per la determinazione del raggio diconvergenza di una serie di potenze e per l’ipotesi (eq (24) abbiamo che la serie dipotenze

    ∑∞k=0

    ukk!tk converge assolutamente per ogni t ∈ R. Concludendo, otteniamo

    che φ(t) è univocamente determinata dal secondo membro di (25) per ogni t ∈ R.

    6Si consideri la serie di potenze∑

    n antn e si indichi con ρ il suo raggio di convergenza. Si

    consideri l := lim supnn√|an|.

    Si ha che:

    • ρ = 0 se l = +∞,

    • ρ = +∞ se l = 0,

    • ρ = 1/l se 0 < l < +∞.

    30

  • Accanto al problema dell’unicità , possiamo porci quello dell’esistenza. Datauna successione {mn}n ⊂ R, sotto quali condizioni esiste una misura µ tale chemn =

    ∫xndµ? Il seguente risultato fornisce una condizione necessaria.

    Teorema 11 Sia {mn}n ⊂ R tale che mn =∫xndµ per qualche misura positiva µ

    su (R,B(R)). Allora vale la seguente condizione:

    ∀N > 0,∀z1, ..., zn ∈ CN∑

    i,j=1

    ziz̄jmi+j ≥ 0. (26)

    Dimostrazione: Se mn =∫xndµ allora abbiamo:

    N∑i,j=1

    ziz̄jmi+j =N∑

    i,j=1

    ziz̄j

    ∫xi+jdµ =

    ∫|N∑i=1

    zixi|2dµ ≥ 0

    Osservazione 3 Di fatto la condizione (26) non è solamente necessaria, ma anchesufficiente per l’esistenza di µ. Per la dimostrazione della sufficienza si veda M.Reed, B. Simon, Methods of modern mathematical physics, Vol II.

    Esercizi

    1. Si dimostri che per ogni n ∈ N si ha che∫∞

    0xnf(x)dx =

    ∫∞0xng(x)dx, dove

    f, g sono le densità definite in (22) e (23) rispettivamente.Suggerimento: Si deve dimostrare che ∀n ∈ N si ha che∫ ∞

    0

    xne−x1/4

    sin(βx1/4)dx = Im

    (∫ ∞0

    xne−x1/4+iβx1/4dx

    )= 0

    si dimostri che l’integrale al secondo membro è uguale a :∫ ∞0

    xne−x1/4+iβx1/4dx =

    4

    (1− iβ)4n+4

    ∫ ∞0

    u4n+3du =4

    (1− iβ)4n+4Γ(4n+ 4)

    Si mostri infine che la parte immaginaria del secondo membro è nulla in quanto

    (1− iβ)4n+4 = (1− i tan(π/4))4n+4 =(

    cos(π/4)− i sin(π/4)cos(π/4)

    )4n+4=

    (e−iπ/4

    cos(π/4)

    )4n+4=

    eiπ(n+1)

    (cos(π/4))4n+4

    31

  • 2. Sia X variabile casuale con tutti i momenti finiti: mi = E[X i], E[|X i|] < +∞.Si ponga Mi := E[|X i|]. Si dimostri che se esiste finito lim supn

    n√|Mn|n

    = lallora vale la tesi del teorema 10 (Unicità in legge di X).Suggerimento. Ricalcando la dimostrazione del teorema 10 e utilizzando ilcriterio di Cauchy Hadamard si dimostri che la serie di potenze (25) ha raggiodi convergenza R finito. Scelto t0 ∈ R con |t0| < R (ad es t0 = R/2) si mostriche la serie di potenze per φ centrata in t0, cioè

    ∑∞k=0

    φ(k)(t0)k!

    (t− t0)k ha ancoraraggio di convergenza R. In questo modo è possibile estendere φ all’intervallo(−R,R) ∪ (t0 −R, t0 +R). Procedendo in questo modo è possibile ricostruireφ su tutta la retta reale.

    Variabili casuali n-dimensionali

    Definizione 11 Una variabile casuale n- dimensionale o un vettore casuale X èun’applicazione misurabile X : (Ω,F)→ (Rn,B(Rn))

    Ricordiamo che la σ-algebra di Borel in Rn è la σ-algebra generata fai pluriret-tangoli, cioé dagli insiemi E ⊂ Rn della forma

    E = I1 × ...× In (27)

    con I1, ..., In intervalli di Rn.Indicheremo con Xi : Ω → R l’i-esima componente del vettore X¡ definita da

    Xi(ω) = Πi ◦X(ω), dove Πi : Rn → R è la proiezione definita da Πi(x1, ..., xn) = xi.Abbiamo dunque

    X(ω) = (X1(ω), ..., Xn(ω)), Ω→ Ω.

    Inoltre, dato che Xi è composizione di applicazioni misurabili, è misurabile e pos-siamo concludere che ogni vettore casuale X individua un’n-upla di variabili casualireali.Viceversa, date n variabili casuali reali Xi : (Ω,F) → (R,B(R)), l’applicazioneX : (Ω,F)→ (Rn,B(Rn)) definita da X(ω) := (X1(ω), ..., Xn(ω)) è misurabile ed èquindi un vettore casuale. Per dimostrarlo è sufficiente mostrare che X−1(E) ∈ Fper ogni insieme E ∈ B(Rn) della forma (27). Dato che

    X−1(E) = X−1(I1 × ...× In)= {ω ∈ Ω: X1(ω) ∈ I1} ∩ ... ∩ {ω ∈ Ω: X1(ω) ∈ I1} = ∩nj=1{ω ∈ Ω: Xj(ω) ∈ Ij},

    dalla misurabilità di ognuna delle variabili casuali Xi, i = 1, ...n, possiamo conclu-dere che X−1(E) ∈ F in quanto intersezione di n insiemi misurabili.

    32

  • Distribuzione

    Dato un vettore casuale X : (Ω,F) → (Rn,B(Rn)) definiamo la distribuzione µ diX come quella misura di probabilità µ : B(Rn)→ [0, 1] definita da

    µ(E) := P[X ∈ E] = P({ω ∈ Ω: X(ω) ∈ E}). (28)

    Di fatto µ è la misura immagine di P attraverso la funzione misurabile X : (Ω,F)→(Rn,B(Rn)).

    Possiamo definire le marginali 1-dimensionali di µ, come quelle misure di pro-babilità µi, i = 1, ..., n su (R,B(R)) definite come misure immagine di µ attraversola funzione misurabile πi : Rn → R

    µi := µπi , i = 1, ..., n,

    dove con πi : Rn → R indichiamo la proiezione sull’i-esima componente:

    πi(x1, ..., xn) := xi, (x1, ..., xn) ∈ Rn

    Piu precisamente abbiamo, dato un Boreliano B ∈ B(R), abbiamo:

    µi(B) = µ(π−1i (B)) = µ({x ∈ Rn : πi(x) ∈ B})

    = µ(R× · · · ×B × · · ·R)= P({ω ∈ Ω: X(ω) ∈ R× · · · ×B × · · ·R})= P({ω ∈ Ω: Xi(ω) ∈ B})= P(Xi ∈ B)

    Quindi vediamo che µi è la distribuzione della variabile aleatoria Xi, l’i-esimacomponente del vettore aleatorio X.

    Analogamente, se n > 2, per ogni coppia di indici i, j = 1, ..., n definiamo lamisura marginale µij come la misura immagine di µ attraverso la proiezione πij :Rn → R2 definita da

    πij(x1, ..., xn) := (xi, xj), (x1, ..., xn) ∈ Rn.

    In particolare, per ogni Boreliano B ⊂ R2 della forma B = I × J , con I, J ∈ B(R)abbiamo:

    µij(I × J) = µ(π−1ij (I × J)) = µ({x ∈ Rn : xi ∈ I, xj ∈ J})= µ(R× · · · × I × · · · J × · · ·R)= P({ω ∈ Ω: X(ω) ∈ (R× · · · × I × · · · J × · · ·R})= P({ω ∈ Ω: Xi(ω) ∈ I,Xj(ω) ∈ J})= P((Xi, Xj) ∈ I × J)

    33

  • da cui deduciamo che µij è la distribuzione del vettore aleatorio (Xi, Xj).

    Più in generale, per ogni m < n e ogni m−pla di indici (i1, ..., im) possiamo co-striuire le misure marginali µi1,...,im su B(Rm) definite come le immagini di µ attra-verso la proiezione πi1,...,im : Rn → Rm, definita da πi1,...,im(x1, ..., xn) = (xi1 , ..., xim).Tali misure marginali identificano le distribuzioni dei vettori aleatori m-dimensionali(Xi1 , ..., Xim):

    µi1,...,im(Ii1 × ...× Iim) = µ({x ∈ Rn : xi1 ∈ I1, xim ∈ Im})= P({ω ∈ Ω: Xi1(ω) ∈ Ii1 , ..., Xim(ω) ∈ Iim})= P((Xi1 , ..., Xim) ∈ Ii1 × ...× Iim)

    Osserviamo che le marginali sono collegate fra loro da una relazione di compatibilità. Consideriamo infatti, a titolo di esempio, le marginali unidimensionali µi e lemarginali bidimensionali µij, i, j = 1, ..., n di una distribuzione µ. Abbiamo chequeste devono soddisfare per ogni i, j = 1, ..., n la seguente relazione di compatibilità

    µi = (µij)i,

    cioè 7

    µi(I) = µij(π−1i I) = µij({(xi, xj) ∈ R2 : xi ∈ I})

    Infatti, dalla definizione di µi e µij abbiamo:

    (µij)i(I) = µij(I × R)= P({ω ∈ Ω : Xi(ω) ∈ I,Xj(ω) ∈ R})= P({ω ∈ Ω : Xi(ω) ∈ I})= µi(I)

    Più in generale, indicato con J = {i1, ..., im} ⊂ {1, ..., n} un insieme di indici e conJ ′ ⊂ J un suo sottoinsieme, J ′ = {i′1, ..., i′k}, con k < m, indicata con πJJ ′ : Rm →Rk la proiezione πJJ ′ : Rm → Rk data da πJJ ′(xi1 , ..., xim) = (xi′1 , ..., xi′k), abbiamoche le misure marginali µJ ≡ µi1,...,im e µJ ′ ≡ µi′1,...,i′k soddisfano la relazione dicompatibilità

    µJ ′ = (µJ)J ′ .

    Vediamo alcuni esempi di misure di Borel su Rn.7qui con πi : R2 → R indichiamo la proiezione definita da πi(xi, xj) := xi.

    34

  • Misure prodotto

    Date n misure di probabilità µ1, µ2, ..., µn su B(R)

    µi : B(R)→ [0, 1], i = 1, ..., n,

    definiamo la misura µ : B(Rn → [0, 1] prodotto di µ1, µ2, ..., µn e indicata conµ ≡ µ1 × µ2 × ...× µn come

    µ(I1 × I2 × ...× In) := µ1(I1)µ2(I2) · · ·µn(In), I1, ..., In ∈ B(R). (29)

    Notiamo che la (29) definisce un’unica misura su B(Rn) in quanto gli insiemi E ⊂ Rndella forma E = I1× I2× ...× In, con I1, ..., In ∈ B(R), formano una famiglia chiusaper intersezioni finite che genera B(Rn).

    Misure Gaussiane

    Consideriamo un vettore m ∈ Rn e una matrice quadrata A n × n simmetrica edefinita positiva. Da tali proprietà , possiamo dedurre che A è diagonalizzabile eche tutti gli autovalori λ1, ..., λn di A sono strettamente positivi. Esiste quindi unamatrice n× n unitaria U (cioé tale che UT = U−1) tale per cui A = U−1DU , con Dmatrice diagonale n× n della forma

    D =

    λ1 · · · 0... . . . ...0 · · · λn

    Inoltre A è invertibile e A−1 = U−1D−1U , dove

    D−1 =

    1λ1· · · 0

    .... . .

    ...0 · · · 1

    λn

    35

  • Consideriamo la funzione f : Rn → R definita da f(x) = e− 12 〈x−m,A−1(x−m)〉. f èpositiva, inoltre abbiamo:∫

    Rnf(x)dx =

    ∫Rne−

    12〈x−m,A−1(x−m)〉dx

    =

    ∫Rne−

    12〈U(x−m),D−1U(x−m)〉dx

    =

    ∫Rne−

    12〈y,D−1y〉dy

    =

    ∫Rne−

    ∑nj=1

    y2j2λj dy

    = Πnj=1√

    2πλj = (2π)n/2√

    det (A)

    Possiamo quindi definire la misura µ su B(Rn) assolutamente continua rispetto allamisura di Lebesgue con densità g : Rn → R data da g(x) = (2π)−n/2(det (A))−1/2f(x).Tale misura viene detta Gaussiana su Rn con vettore media m e matrice di cova-rianza A.

    Funzione caratteristica

    Si definisce funzione caratteristica di X quell’applicazione φ : Rn → C definita da:

    φ(t) := E[e〈t,X〉] =∫Rnei〈t,x〉dµ(x), t ∈ Rn, (30)

    dove 〈 , 〉 indica il prodotto scalare in Rn. Analogamente al caso unidimensionale,la funzione caratteristica di una distribuzione µ associata ad un vettore casuale Xpossiede determinate proprietà . In particolare:

    1. φ(0) = 1

    2. φ è uniformemente continua.

    3. φ è semi-definita positiva, cioè ∀N ∈ N, ∀t1, ..., tn ∈ Rn e ∀z1, ..., zN ∈ C valela diseguaglianza

    N∑j,k=1

    φ(tj − tk)zj z̄k ≥ 0 (31)

    I teoremi fondamentali sulle funzioni caratteristiche valgono ancora nel caso unidi-mensionale. In particolare valgono

    36

  • Teorema 12 (Bochner) Una funzione φ : Rn → C, continua in 0, tale che φ(0) =1 e semi-definita positiva è la funzione caratteristica di una misura di probabilità µsu B(Rn), distribuzione di una variabile casuale vettoriale X.

    Teorema 13 (Unicità ) Siano µ1 e µ2 misure di probabilità su B(Rn) con funzionicaratteristica φ1 e φ2 rispettivamente. Allora µ1 = µ2 se e solo se φ1 = φ2.

    Calcoliamo, a titolo di esempio, la funzione caratteristica della misura Gaussiana µcon vettore media m e matrice di covarianza A. Questa infatti è data da:

    φ(t) =

    ∫Rnei〈t,x〉

    e−12〈x−m,A−1(x−m)〉

    (2π)n/2√

    det (A)dx = ei〈t,m〉

    ∫Rnei〈t,x〉

    e−12〈Ux,D−1Ux〉

    (2π)n/2√

    det (D)dx

    = ei〈t,m〉∫Rnei〈Ut,y〉

    e−12〈y,D−1y〉

    (2π)n/2√

    det (D)dy = ei〈t,m〉

    ∫Rnei

    ∑nj=1(Ut)jyj

    e−

    ∑nj=1

    y2j2λj

    (2π)n/2√

    Πjλjdy

    = ei〈t,m〉e−∑nj=1

    λj(Ut)2j

    2 = ei〈t,m〉e−〈Ut,DUt〉 = ei〈t,m〉e−12〈t,At〉.

    Inoltre, come nel caso di variabili aleatorie reali, il calcolo dei momenti di una varia-bile aleatoria vettoriale può essere ricondotto al calcolo delle derivate parziali dellafunzione caratteristica. In particolare data X ∈ L1(Ω) con funzione caratteristicaφ, avremo:

    E[Xj] = −i∂φ

    ∂tj|t=0, j = 1, ..., n.

    Analogamente, se Xj, Xk ∈ L2(Ω), abbiamo

    E[XjXk] = −∂2φ

    ∂tj∂tk|t=0

    Esercizi:

    1. Sia X è un vettore aleatorio Gaussiano con vettore media m e matrice dicovarianza A allora:

    (a) E[Xi] =∫Rn xig(x)dx = mi, i = 1, ..., n.

    (b) Indicato con ajk l’elemento della matrice A appartenente alla j-esima rigae alla k-esima colonna, si ha∫

    Rn(xj −mj)(xk −mk)g(x)dx = ajk

    37

  • 2. Notiamo che le marginali non permettono, in generale, di ricostruire la distri-buzione µ. Consideriamo a titolo di esempio le misure Gaussiane centrate µ eν su B(R2) con matrici di covarianza rispettivamente Aµ e Aν , con

    A−1µ =

    (3/2 00 3/2

    ), A−1ν =

    (2 11 2

    )Mostrare che µ e ν hanno le stesse misure marginali.

    Gaussiane generalizzate

    Consideriamo ora un vettore m ∈ Rn e una matrice quadrata A n × n simmetricae semidefinita positiva. A è quindi diagonalizzabile e tutti gli autovalori λ1, ..., λndi A sono positivi o nulli. Nel caso in cui almeno un autovalore si annulli, non èpiù possibile definire la matrice inversa A−1 e, conseguentemente, non è possibilecostruire la funzione g(x) = (2π)−n/2(det (A))−1/2e−

    12〈x−m,A−1(x−m)〉 densità della

    misura Gaussiana con media m e covarianza A. Tuttavia la funzione φ : Rn → Rdefinita da

    ei〈t,m〉e−12〈t,At〉, t ∈ Rn,

    è ben definita e, per il teorema di Bochner, è la funzione caratteristica di una misuradi probabilità µ su B(Rn). Osserviamo infatti che:• φ(0) = 1. Lo si verifica direttamente.

    • φ è continua in 0. Questo segue facilmente dalla forma esplicita di φ

    • φ è semidefinita positiva. Dobbiamo mostrare che ∀N ∈ N, ∀t1, ..., tn ∈ Rn e∀z1, ..., zN ∈ C vale la diseguaglianza

    N∑j,k=1

    φ(tj − tk)zj z̄k ≥ 0

    Dato � > 0 consideriamo la matrice A� := A + �I. Notiamo che A� è definitapositiva e che la funzione φ� : Rn → R definita da

    φ�(t) = ei〈t,m〉e−

    12〈t,A�t〉 = e−

    12‖t‖2φ(t)

    è la funzione caratteristica di una misura Gaussiana su Rn. Vale dunque,∀N ∈ N, ∀t1, ..., tn ∈ Rn e ∀z1, ..., zN ∈ C

    N∑j,k=1

    φ�(tj − tk)zj z̄k ≥ 0

    Mandando � ↓ 0 la diseguaglianza si preserva e otteniamo che φ è semidefinitapositiva.

    38

  • Trasformazioni di misure e delle rispettive funzioni caratte-ristiche sotto applicazioni lineari affini

    • Traslazioni. Fissato un vettore m ∈ Rn, si consideri l’applicazione τm :Rn → Rn definita da

    τm(x) := x+m, x ∈ Rn.

    Data una misura µ sui Boreliani di Rn, si consideri la misura µτm , immaginedi µ attraverso τm, definita da

    µτm(B) := µ(τ−1m (B)) = µ(B −m), B ∈ B(Rn), (32)

    doveτ−1m (B) = (B −m) := {x ∈ Rn : x+m ∈ B}.

    La funzione caratteristica di µτm è data da

    φτm(t) =

    ∫Rnei〈t,x〉dµτm(x)

    =

    ∫Rnei〈t,τm(x)〉dµ(x)

    =

    ∫Rnei〈t,x+m〉dµ(x)

    = ei〈t,m〉φ(t)

    dove φ è la funzione caratteristica di µ.

    • Applicazioni lineari. Sia L : Rn → Rm applicazione lineare associata aduna matrice B di dimensione m× n:

    L(x) := Bx, x ∈ Rn

    Data una misura µ sui Boreliani di Rn, si consideri la misura µL sui Borelianidi Rm, immagine di µ attraverso L, definita da

    µL(E) := µ(L−1(E)), E ∈ B(Rm),

    doveL−1(E) := {x ∈ Rn : L(x) ∈ E} = {x ∈ Rn : Bx ∈ E}

    39

  • La funzione caratteristica di µL è data da

    φL(t) =

    ∫Rm

    ei〈t,y〉dµL(y)

    =

    ∫Rnei〈t,L(x)〉dµ(x)

    =

    ∫Rnei〈t,Bx〉dµ(x)

    =

    ∫Rnei〈B

    T t,x〉dµ(x) = φ(BT t) (33)

    dove φ è la funzione caratteristica di µ.

    Esempi ed esercizi

    • Sia X vettore aleatorio n−dimensionale con media m e matrice di covarianzaA. Sia Y vettore aleatoriom−dimensionale definito da Y = BX con B matricem× n. Allora Y ha una distribuzione Gaussiana con media Bm e matrice dicovarianza BABT , infatti la funzione caratteristica di Y è data da

    φY (t) = φX(BT t) = ei〈m,B

    T t〉− 12〈BT t,ABT t〉 = ei〈Bm,t〉−

    12〈t,BABT t〉

    • Sia X vettore aleatorio n−dimensionale con media m e matrice di covarianzaA. allora ogni sua componente Xi, i = 1, ..., n è una variabile casuale Gaus-siana con media mi e covarianza Ai,i. Per dimostrarlo è sufficiente applicare ilrisultato precedente al caso in cui B sia l”i-esimo vettore riga di Rn.

    • Una misura di probabilità µ su R2 è detta invariante per rotazioni se per ogni

    matrice di rotazione U : R2 → R2 della forma U =(

    cos θ sin θ− sin θ cos θ

    )si ha

    che µU = µ. Equivalentemente una misura è invariante per rotazioni se la suafunzione caratteristica soddisfa per ogni matrice di rotazione U l’identità

    φ(t) = φ(U(t)),∀t ∈ R2

    Un esempio di misura di probabilità invariante per rotazione è la misura Gaus-siana centrata con matrice di covarianza l’identità I. Infatti in tal caso φ(t) =

    e−‖t‖22 . Un ulteriore esempio di misura di Borel in R2 invariante per rotazione è

    data dalla misura µ concentrata8 sulla circonferenza C = {x ∈ R2 : ‖x‖2 = 1},definita da

    µ(B) := H1(B ∩ C)/2π, B ∈ B(R2),8Si veda definizione 12

    40

  • Si calcoli per esercizio la funzione caratteristica di µ.

    Suggerimento:. ∀t = (t1, t2) ∈ R2, abbiamo φ(t) =∫R2 e

    it·xdµ(x), con x =(x1, x2) ∈ R2. Fissato il vettore t = (t1, t2), sostituiamo le coordinate carte-siane (x1, x2) con le coordinate polari (ρ, θ) ∈ R2, dove |ρ| = |x| =

    √x21 + x

    22,

    e θ ∈ [0, 2π) è l’angolo compreso fra i vettori t = (t1, t2) e x = (x1, x2). SiaA ∈ B(R2), abbiamo che

    ∫R2 χA(x1, x2)dµ(x1, x2) =

    ∫ 2π0χA(cos θ, sin θ)

    dθ2π

    . Ta-le relazione si estende al caso in cui χA è sostituita da una funzione semplicee, più in generale, se f : R2 → R è una funzione Boreliana limitata, appros-simando f con una successione di funzioni semplici equilimitate convergentipuntualmente a f . Si ottiene quindi

    ∫fdµ =

    ∫ 2π0f(cos θ, sin θ) dθ

    2π. La funzione

    caratteristica di µ è data da

    φ(t) =

    ∫R2eit·xdµ(x) =

    ∫ 2π0

    ei|t| cos θdθ

    2π=

    1

    π

    ∫ 1−1

    ei|t|u√1− u2

    du, t ∈ R2.

    L’integrale che appare al secondo membro non è esprimibile tramite funzionielementari. Di fatto φ(t) = J0(|t|), dove J0 è una funzione di Bessel del primotipo [6].

    Definizione 12 Sia (X,F) uno spazio misurabile. Una misura µ è detta concen-trata su un insieme B ∈ F se

    µ(E) = µ(E ∩B) ∀E ∈ F

    Un esempio semplice di misura concentrata è la δ di Dirac. Dato uno spazio misu-rabile (X,F) e un punto x̄ ∈ X, si definisce la misura δ di Dirac centrata in x̄ e siindica col simbolo δx̄, quella misura definita da

    δx̄(E) =

    {1 se x̄ ∈ E0 altrimenti

    (34)

    Si verifica facilmente che (34) definisce una misura σ additiva. Inoltre per ognif : X → R misurabile si ha

    ∫f(x)δx̄(x) = f(x̄)

    Consideriamo ora una misura Gaussiana generalizzata su Rn, definita da unafunzione caratteristica φ della forma φm,A(t) = e

    i〈m,t〉e−12〈t,At〉 con A matrice sim-

    metrica semi definita positiva. Senza perdita di generalità possiamo porre m = 0,perché se m 6= 0 allora la misura µm,A associata a φm,A è collegata alla misura µm,Aassociata a φm,A dalla relazione (32). Dalla diagonalizzabilità di A = U

    −1DU , conD diagonale e U unitaria, abbiamo:

    φ0,A(t) = e− 1

    2〈Ut,DUt〉 = φ0,D(Ut).

    41

  • Dall’equazione (33) e dal fatto che UT = U−1, ossiamo dedurre che la misura µAassociata a φ0,A è collegata alla misura µD associata a φ0,D dalla relazione:

    µA(B) = µD(UB), B ∈ B(Rn). (35)

    La misura µD è semplice da descrivere in quanto la matrice di covarianza è diagonale.Indichiamo con λ1, ..., λn gli autovalori di D. Supponiamo che λ1 = ... = λk = 0 eche i restanti n − k autovalori λk+1, ..., λn siano strettamente positivi. Dato che lafunzione caratteristica si fattorizza nella forma φD(t) = Π

    nj=1e

    −λj2t2j = Πnj=k+1e

    −λj2t2j ,

    possiamo dedurre che µD è una misura prodotto in cui i primi k fattori sono misuredelta di Dirac in 0, mentre i restanti n − k fattori sono misure Gaussiane centrateµλj con covarianza λj, j = k + 1, ...n. Abbiamo dunque, dato un generico insiemeBoreliano B ∈ B(Rn):

    µD(B) =

    ∫RnχB(x1, ..., xn)Π

    kj=1δ0(xj)Π

    nl=k+1dµλl(xl)

    =

    ∫Rn−k

    χB(0, . . . , 0, xk+1, . . . , xn)Πnl=k+1dµλl(xl)

    =

    ∫Rn−k

    χB̃(0, . . . , 0, xk+1, . . . , xn)Πnl=k+1dµλl(xl)

    Dove B̃ = B ∩ (kerD)⊥. In particolare possiamo dedurre che µD è concentrata su(kerD)⊥, il sottospazio vettoriale di Rn generato dagli ultimi n−k vettori ek+1, ..., endella base canonica di Rn.

    µD(B) = µD(B ∩ (kerD)⊥).

    Considerando ora la misura Gaussiana centrata µA su Rn con matrice di covarianzaA, dalla relazione (35) e dalle proprietà di µD otteniamo

    9

    µA(B) = µD(UB) = µD(UB ∩ (kerD)⊥)= µD(UB ∩ U(kerA)⊥)= µD(U(B ∩ (kerA)⊥))= µA(B ∩ (kerA)⊥)

    9Indicati con vk+1, . . . , vn gli n − k autovettori (ortonormali) di A relativi agli autovalori nonnulli λk+1, ..., λn, notiamo che vale la relazione vj = U

    −1ej , j = 1, ..., n, con ej vettori della basecanonica (e autovettori di D). equivalentemente ej = Uvj , j = 1, ..., n. Dato che (kerD)

    ⊥ =span{ek+1, ..., en} e (kerA)⊥ = span{vk+1, ..., vn}, si deduce che (kerD)⊥ = U(kerA)⊥.L’uguaglianza UB ∩ U(kerA)⊥ = U

    (B ∩ (kerA)⊥

    )segue dal fatto che U è un’applicazione

    invertibile.

    42

  • Indipendenza e correlazione

    Definizione 13 n σ-algebre F1, ...,Fn ⊂ F di uno spazio di probabilità (Ω,F ,P)sono dette indipendenti se ∀E1 ∈ F1, ..., En ∈ Fn si ha che:

    P(E1 ∩ ... ∩ En) = P(E1) · · · · · P(En)

    Notiamo che se fissiamo n eventi Ei, i = 1, .., n e indichiamo on Fi la σ-algebragenerata da Ei

    10, i = 1, .., n, allora gli eventi E1, ..., En sono indipendenti11 se e solo

    se lo sono le rispettive σ-algebre Fi.

    Definizione 14 n variabili aleatorie X1, ..., Xn su uno spazio di probabilità (Ω,F ,P)sono dette indipendenti se lo sono le rispettive σ algebre generate FXi, i = 1, ..n,cioé scelti arbitrari I1, ..., In ∈ B(R) si ha:

    P({X1 ∈ I1, ..., Xn ∈ In}) = P({X1 ∈ I1}) · · ·P({Xn ∈ In}). (36)

    Se indichiamo con µ la distribuzione del vettore aleatorio (X1, ..., Xn) e con µi,i = 1, .., n le sue distribuzioni marginali 1-dimensionali, dalla (36) deduciamo cheX1, ..., Xn sono indipendenti se e solo se la loro distribuzione congiunta soddisfa:

    µ(I1 × ...× In}) = µ1(I1) · · ·µn(In). (37)

    Dalla (37) deduciamo quindi che µ è misura prodotto delle marginali unidimensio-nali. In questo caso la funzione caratteristica del vettore aleatorio (X1, ..., Xn) èdata dal prodotto delle funzioni caratteristiche delle componenti Xi, i = 1, ...n:

    φ(t1, ..., tn) = E[ei∑j tjXj ] = ΠjφXj(tj)

    Esercizio Siano X, Y variabile aleatorie equidistribuite, con X ∼ N(0, 1) e Y ∼N(0, 1). Calcolare la distribuzione congiunta di X, Y , cioè la distribuzione delvettore aleatorio (X, Y ) nei due casi:

    1. X e Y sono indipendenti.

    2. Y = X.

    1. Nel primo caso, abbiamo visto che se X e Y sono indipendenti la distribuzioneµ del vettore (X, Y ) sarà la misura prodotto delle marginali µx e µy. Inparticolare la funzione caratteristica è data da:

    φ(t1, t2) =

    ∫R2eit1x+it2ydµx(x)dµy(y) =

    ∫Reit1x

    e−x2

    2

    √2πdx

    ∫Reit2y

    e−y2

    2

    √2πdy = e−

    12

    (t21+t22)

    10In particolare Fi = {Ω, ∅, Ei, Eci }11Cioé per ogni sottoinsieme {Ei′1 , ..., Ei′k} ⊂ {E1, ..En} si ha P(Ei′1∩...∩Ei′k) = P(Ei′1)·· · ··P(Ei′k)

    43

  • La funzione caratteristica ha dunque la forma e−12〈(t1,t2),A(t1,t2)〉, con A =(

    1 00 1

    ).

    2. Nel caso in cui Y = X, la distribuzione µ del vettore aleatorio (X, Y ) èdescritta dalla funzione caratteristica:

    φ(t1, t2) =

    ∫R2eit1x+it2ydµ(x, y) =

    ∫Reit1x+it2x

    e−x2

    2

    √2πdx = e−

    12

    (t1+t2)2

    La funzione caratteristica ha dunque la forma e−12〈(t1,t2),A(t1,t2)〉, con A =(

    1 11 1

    ). La matrice A è semidefinita positiva. Il nucleo di A è dato da

    Ker(A) = {(x, y) ∈ R2 : y = −x} mentre il sottospazio ker(A)⊥ su cui lamisura µ è concentrata è dato da Ker(A)⊥ = {(x, y) ∈ R2 : y = x}.

    Variabili aleatorie scorrelate

    Definizione 15 Siano X1, ..., Xn variabili casuali in L2(Ω). Si definisce covarianza

    di Xi e Xj il numero

    Cov(Xi, Xj) := E[(Xi − E[Xi])(Xj − E[Xj])],

    Se Cov(Xi, Xj) = 0 allora Xi e Xj sono dette scorrelate.

    Si verifica facilmente che Cov(Xi, Xj) = E[XiXj] − E[Xi]E[Xj]. In particolare, seXi, Xj ∈ L2(Ω) sono indipendenti, allora sono scorrelate. Abbiamo infatti

    E[XiXj] = E[Xi]E[Xj]

    Non è vero il viceversa, come mostra il seguente esempio.

    Esempio 2 Sia Ω = {1, 2, 3}, F = P(Ω) e P probabilità uniforme, cioè P({1}) =P({2}) = P({3}) = 1/3. SIano X, Y variabili casuali su Ω definite da

    X(1) = 1, X(2) = 0, X(3) = −1,

    Y (1) = 1, Y (2) = π, Y (3) = 1,

    Si verifica facilmente che X e Y sono scorrelate, infatti mX = 0, mY = 2/3 + π/3,e E[XY ] = 0, da cui Cov(X, Y ) = 0X e Y però non sono indipendenti, infatti consideriamo i due insiemi E1 ∈ FX1 eE2 ∈ FX2, definiti da:

    E1 = X−1(1) = {1}, E2 = Y −1(1) = {1, 3}.

    Abbiamo P(E1 ∩ E2) = 1/3, mentre P(E1)P(E2) = 2/9.

    44

  • Vedremo che nel caso in cui X e Y siano variabili casuali Gaussiane, dal fattoche Cov(X, Y ) = 0 è possibile dedurre che X, Y sono indipendenti.

    Vettore media e matrice di covarianza

    Date n variabili aleatorie X1, ..., Xn ∈ L2(Ω), definiamo la matrice di covarianzaC = (cij) come:

    cij := Cov(Xi, Xj) = E[(Xi −mi)(Xj −mj)]

    dove mi = E[Xi], mj = E[Xj].La matrice C è semi-definita positiva, infatti ∀z1, ..., zn ∈ C:

    n∑j,k=1

    zj z̄kcjk ≥ 0

    Infattin∑

    j,k=1

    zj z̄kcjk =n∑

    j,k=1

    zj z̄kcjkE[(Xj −mj)(Xk −mk)]

    = E

    [n∑

    j,k=1

    zj z̄kcjk(Xj −mj)(Xk −mk)

    ]

    = E

    [|

    n∑j=1

    zj(Xj −mj)|2]≥ 0

    Calcolo di vettore media e matrice di covarianza tramite la funzionecaratteristica

    Nota la funzione caratteristica φ di un vettore casuale (X1, ..., Xn), con Xi ∈ L2(Ω),possiamo calcolare il vettore media e la matrice di covarianza di X tramite le derivateparziali della funzione caratteristica.

    Il vettore media del vettore casuale (X1, ..., Xn) è quel vettore m ∈ Rn le cuicomponenti sono date da: mj := E[Xj], j = 1, ..., n. Se X ∈ L1(Ω), si verificafacilmente, come nel caso unidimensionale, che

    mj = −i∂φ

    ∂tj|t=0

    Analogamente, se Xj, Xk ∈ L2(Ω), abbiamo

    E[XjXk] = −∂2φ

    ∂tj∂tk|t=0

    45

  • E quindi Cov(Xj, Xk) = − ∂2φ

    ∂tj∂tk|t=0 + ∂φ∂tj |t=0

    ∂φ∂tk|t=0

    In particolare, se X, Y sono Gaussiane con funzione caratteristica

    φ(t1, t2) = ei〈(m1,m2),(t1,t2)〉− 12 〈(t1,t2),A(t−1,t2)〉

    allora è immediato verificare che:

    ∂φ

    ∂tj|t=0 = imj,

    ∂2φ

    ∂tj∂tk|t=0 = −ajk −mjmk,

    da cui cij = aij. In particolare, se X, Y sono Gaussiane e scorrelate, possiamodedurre che la matrice di covarianza A del vettore Gaussiano (X, Y ) è diagonale equindi le variabili X e Y sono indipendenti.

    Coefficiente di correlazione

    Siano X, Y ∈ L2(Ω) variabili aleatorie reali su uno spazio di probabilità Ω,F ,P)con σx 6= 0 e σy 6= 0. Si definisce icoefficiente di correlazione di X e Y il numero

    ρ(X, Y ) :=Cov(X, Y )

    σXσy. (38)

    Dalla definizione (38) possiamo dedurre facilmente le seguenti proprietà .

    • ρ(X, Y ) è invariante per dilatazione. Fissati α, β ∈ R+ e definite le variabilicasuali Xα := αX e Yβ := βY si ottiene ρ(X, Y ) = ρ(Xα, Yβ).

    • |ρ(X, Y )| ≤ 1 e |ρ(X, Y )| = 1 se e solo se X e Y sono legate da una relazionelineare affine della forma Y = aX + b, con a, b ∈ R, dove ρ = 1 se a > 0e ρ = −1 se a < 0. Dalla diseguaglianza di Cauchy-Schwartz applicata allospazio di Hilbert L2(Ω,P) abbiamo che

    |Cov(X, Y )| = |E[(X −mX)(Y −mY )]|≤ (E[(X −mX)2])1/2(E[(Y −mY )2])1/2 = σXσY

    e la diseguaglianza si riduce ad una uguaglianza se i vettori (X − mX) e(Y −mY ) di L2(Ω,P) sono linearmente dipendenti.

    Il coefficiente di correlazione ha un ruolo importante nella discussione degli sti-matori lineari. Si considerino due variabili aleatorie reali X, Y ∈ L2(Ω) su unospazio di probabilità (Ω,F ,P) con σx 6= 0 e σy 6= 0. Supponiamo di conoscereil valore della variabile X e di voler stimare il valore della variabile Y come fun-zione lineare affine di X. In altre parole calcoliamo la coppia di coefficienti reali

    46

  • a, b ∈ R per cui è minimo l’errore quadratico medio che si commette sostituendo Ycon aX + b. Cerchiamo dunque i valori (ā, b̄) che minimizzano la funzione di duevariabili ∆ : R2 → R definita da:

    ∆(a, b) := E[|Y − aX − b|2]

    Notiamo che la funzione ∆(a, b) esprime il quadrato della distanza in L2(Ω,P) traY e aX + b.Dalla soluzione di un semplice problema di estremizzazione di una funzione di duevariabili (che è di fatto un polinomio di secondo grado nelle variabili (a, b)) otteniamoche

    ā =Cov(X, Y )

    σ2X, b̄ = E[Y ]− āE[X]

    Inoltre l’errore quadratico medio che commettiamo sostrituendo Y con āX + b̄ èdato da ∆(ā, b̄) = σ2y(1− ρ2(X, Y ))

    Ulteriori esercizi sui vettori aleatori Gaussiani

    1. Sia (X, Y ) un vettore aleatorio Gaussiano. Dimostrare che la variabile aleato-ria X + Y è Gaussiana.

    2. Siano X, Y variabile aleatorie Gaussiane indipendenti. Allora il vettore alea-torio (X, Y ) è Gaussiano.

    3. L’ipotesi di indipendenza nell’esercizio 2 è importante e non può essere rilassa-ta, come mostra il seguente controesempio. SiaX variabile aleatoria Gaussianacon media 0 e varianza 1. Sia Z variabile aleatoria discreta indipendente daX con distribuzione P(Z = 1) = 1/2 e P(Z = −1) = 1/2.

    (a) Definita la variabile aleatoria Y := ZX, dimostrare che Y è variabilealeatoria Gaussiana con media 0 e varianza 1.

    (b) Calcolare la funzione di distribuzione della variabile aleatoria X + Y emostrare che X + Y non è Gaussiana.

    (c) Dal punto (b) e dall’esercizio 1, dedurre che il vettore aleatorio (X, Y )non è Gaussiano.

    Traccia della soluzione

    1. Notate che l’applicazione L : R2 → R data da L(x, y) = x+ y è lineare.

    47

  • 2. Per l’ipotesi di indipendenza, la distribuzione del vettore (X, Y ) è la mi-sura prodotto delle distribuzioni µx e µY delle variabile aleatorie X e Yrispettivamente.

    3. (a) FY (t) = P(Y ≤ t) = P(Y ≤ t|Z = 1)P(Z = 1) + P(Y ≤ t|Z = −1)P(Z =−1).

    (b) FX+Y (t) = P(X + Y ≤ t) = P(X + Y ≤ t|Z = 1)P(Z = 1) + P(X + Y ≤t|Z = −1)P(Z = −1).

    I lemmi di Borel-Cantelli

    In questa sezione introduciamo due importanti strumenti: i lemmi di Borel Cantelli.Dato uno spazio di probabilità (Ω,F ,P), si consideri una successione di eventi{An} ⊂ F . Definiamo l’evento B ≡ lim supAn := ∩n≥1 ∪k≥n Ak. Notiamo cheB rappresenta l’evento in cui si verificano infiniti eventi della successione An, infattinon è complicato dimostrare che

    ω ∈ lim supAn ⇔ #{j ∈ N : ω ∈ Aj} =∞

    I lemmi di Borel Cantelli mettono i relazione P(lim supAn) con∑

    n P(An).

    Lemma 2 (Primo lemma di Borel Cantelli) Sia {An} ⊂ F successione di even-ti in uno spazio di probabilità (Ω,F ,P). Se la serie

    ∑n P(An) è convergente, allora

    P(lim supAn) = 0.

    Dimostrazione: Per ogni n ∈ N si ha lim supAn = ∩n≥1 ∪k≥n Ak ⊂ ∪k≥nAk equindi P(lim supAn) ≤ P(∪k≥nAk) ≤

    ∑k≥n P(Ak). Dato che la serie

    ∑∞k=1 P(Ak) è

    convergente abbiamo che limn→∞∑

    k≥n P(Ak) = 0 e quindi P(lim supAn) = 0

    Lemma 3 (Secondo lemma di Borel Cantelli) Sia {An} ⊂ F successione dieventi indipendenti in uno spazio di probabilità (Ω,F ,P). Se la serie

    ∑n P(An) =

    +∞ allora P(lim supAn) = 1.

    Dimostrazione: Indicato con B ≡ lim supAn, dobbiamo dimostrare che P(Bc) = 0.Dato che Bc = ∪n≥1 ∩k≥n Ack, è sufficiente provare che per ogni n ∈ N si ha cheP(∩k≥nAck) = 0.Dato che ∩k≥nAck ⊂ ∩

    n+jk=nA

    ck per ogni j ∈ N abbiamo

    P(∩k≥nAck) ≤ P(∩n+jk=nA

    ck), ∀j ∈ N

    48

  • Per l’indipendenza degli eventi Ak e quindi di Ack abbiamo

    P(∩n+jk=nAck) = Π

    n+jk=nP(A

    ck) = Π

    n+jk=n(1− P(Ak))

    ≤ Πn+jk=n exp(−P(Ak)) = exp(−n+j∑k=n

    P(Ak))

    Dato che limj→+∞∑n+j

    k=n P(Ak) = +∞ (perché∑

    n P(An) = +∞) otteniamo P(∩k≥nAck) =0 e quindi P(Bc) = 0

    Vari tipi di convergenza di variabili casuali

    In questa sezione studiamo i diversi modi in cui una successione {Xn} di variabilialeatorie reali converge ad una variabile aleatoria X.

    Definizione 16 (Convergenza quasi certa) Siano {Xn} e X variabili casuali suuno spazio di probabilità (Ω,F ,P). La successione Xn converge quasi certamente aX se

    P({ω ∈ Ω: limn→∞

    |Xn(ω)−X(ω)| = 0}) = 1

    Tale convergenza si indica col simbolo Xnq.c.→ X.

    In analisi, riguardando Xn come una successione di funzioni misurabili, tale conver-genza è detta convergenza quasi ovunque.

    Definizione 17 (Convergenza in probabilità ) Siano {Xn} e X variabili ca-suali su uno spazio di probabilità (Ω,F ,P). La successione Xn converge in proba-bilità a X se

    ∀� > 0 limn→∞

    P({ω ∈ Ω: |Xn(ω)−X(ω)| > �}) = 0

    Tale convergenza si indica col simbolo XnP→ X.

    In analisi, riguardando Xn come una successione di funzioni misurabili, tale conver-genza è detta convergenza in misura.

    Definizione 18 (Convergenza in media Lp) Siano {Xn} e X v