F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci....

167
i UNIVERSITÀ DEGLI S TUDI DI PAVIA FACOLTÀ DI S CIENZE MM FF NN CORSO DI L AUREA IN MATEMATICA EUGENIO REGAZZINI E FEDERICO BASSETTI INTRODUZIONE ALLA PROBABILITA’ E ALLA STATISTICA APPUNTI PER LA LAUREA TRIENNALE IN MATEMATICA

Transcript of F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci....

Page 1: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

i

UNIVERSITÀ DEGLI STUDI DI PAVIA

FACOLTÀ DI SCIENZE MM FF NNCORSO DI LAUREA IN MATEMATICA

EUGENIO REGAZZINI E FEDERICO BASSETTI

INTRODUZIONE ALLA PROBABILITA’ E ALLA STATISTICA

APPUNTI PER LA LAUREA TRIENNALE IN MATEMATICA

Page 2: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

ii

Page 3: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

Indice

1 Definizione di probabilità 1

1.1 Esperimenti ed eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Definizione di probabilità su algebre di eventi . . . . . . . . . . . . . . . . . 4

1.3 Probabilità su spazi finiti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.3.1 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.4 Probabilità su spazi infiniti e definizione di probabilità su σ-algebre . . . . 14

2 Numeri aleatori - Distribuzioni di probabilità 19

2.1 Considerazioni introduttive al concetto di variabile aleatoria . . . . . . . . 19

2.2 Distribuzione di probabilità di una variabile aleatoria . . . . . . . . . . . . 21

2.2.1 Distribuzione di probabilità e funzione di ripartizione di un numero

aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.2.2 Perché la funzione di ripartizione merita attenzione . . . . . . . . . 24

2.2.3 Funzioni di ripartizione di numeri aleatori discreti . . . . . . . . . 26

2.2.4 Funzioni di ripartizione assolutamente continue . . . . . . . . . . . 29

2.2.5 Funzioni di ripartizione di natura qualunque. Cenni . . . . . . . . 34

2.3 Interpretazioni di una distribuzione sull’asse reale . . . . . . . . . . . . . . 37

3 Probabilità condizionata e indipendenza stocastica 39

3.1 Considerazioni introduttive . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.2 Principio delle probabilità composte e teorema di Bayes . . . . . . . . . . . 41

3.2.1 Alcuni esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.3 Correlazione fra eventi e indipendenza stocastica . . . . . . . . . . . . . . 46

3.3.1 Ancora la distribuzione binomiale . . . . . . . . . . . . . . . . . . . 48

3.3.2 Successioni di eventi indipendenti e, ancora, distribuzione binomi-

ale negativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.3.3 Indipendenza condizionata . . . . . . . . . . . . . . . . . . . . . . . . 49

iii

Page 4: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

iv INDICE

3.4 Osservazioni complementari . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4 Vettori aleatori 53

4.1 Generalità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

4.2 Distribuzione di un vettore aleatorio discreto . . . . . . . . . . . . . . . . . 54

4.3 Somma di variabili aleatorie indipendenti discrete . . . . . . . . . . . . . . 59

4.3.1 Somma di variabili bernoulliane . . . . . . . . . . . . . . . . . . . . 59

4.3.2 Passeggiate aleatorie, barriere assorbenti (problema della rovina

del giocatore) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

4.3.3 Somma di variabili di Poisson indipendenti . . . . . . . . . . . . . . 63

4.3.4 Tempi di attesa in una successione di prove bernoulliane . . . . . . 64

4.4 Distribuzioni condizionate (il caso discreto) . . . . . . . . . . . . . . . . . . 65

4.5 Distribuzione di vettore aleatorio in generale . . . . . . . . . . . . . . . . . 66

4.5.1 Variabili aleatorie indipendenti . . . . . . . . . . . . . . . . . . . . . 68

4.5.2 Distribuzioni assolutamente continue di vettore aleatorio . . . . . . 69

4.5.3 Caratterizzazione dell’indipendenza tramite fattorizzazione della

funzione di densità . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

4.5.4 Distribuzione di funzione di vettore aleatorio dotato di legge asso-

lutamente continua . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

4.6 Distribuzione condizionata quando il vettore aleatorio ha legge assoluta-

mente continua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5 Caratteristiche sintetiche di una distribuzione 77

5.1 Qualche considerazione generale . . . . . . . . . . . . . . . . . . . . . . . . 77

5.2 Valore atteso, o speranza matematica, di numero aleatorio discreto . . . . 78

5.2.1 Proprietà elementari del valore atteso . . . . . . . . . . . . . . . . . 79

5.3 Valore atteso di un numero aleatorio qualunque . . . . . . . . . . . . . . . 80

5.4 Valore atteso di una distribuzione condizionata . . . . . . . . . . . . . . . . 86

5.5 Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

5.5.1 Varianza di una somma di numeri aleatori . . . . . . . . . . . . . . 91

5.5.2 Esempi di momenti di distribuzioni notevoli . . . . . . . . . . . . . 92

5.6 Caratteristiche sintetiche di una distribuzione a più dimensioni . . . . . . 96

5.6.1 Concordanza, discordanza e covarianza . . . . . . . . . . . . . . . . 96

5.6.2 Correlazione lineare e coefficiente di correlazione lineare . . . . . . 98

5.6.3 Regressione di secondo tipo (regressione lineare) . . . . . . . . . . . 100

Page 5: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

INDICE v

6 Trasformazioni integrali di leggi di probabilità 105

6.1 Definizione di funzione caratteristica e di funzione generatrice dei momenti106

6.2 Proprietà della funzione caratteristica . . . . . . . . . . . . . . . . . . . . . 111

6.3 Estensione a vettori aleatori. . . . . . . . . . . . . . . . . . . . . . . . . . . 116

6.4 Applicazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

6.4.1 Proprietà della legge gaussiana d-dimensionale . . . . . . . . . . . 120

6.4.2 Legge di somma di numeri aleatori (esempi notevoli) . . . . . . . . 120

6.4.3 Applicazioni alla statistica . . . . . . . . . . . . . . . . . . . . . . . . 122

6.5 Funzione caratteristica e momenti . . . . . . . . . . . . . . . . . . . . . . . 125

7 Teoremi limite del calcolo delle probabilità. Brevi cenni 129

7.1 Qualche disuguaglianza notevole . . . . . . . . . . . . . . . . . . . . . . . . 130

7.2 Leggi (deboli) dei grandi numeri . . . . . . . . . . . . . . . . . . . . . . . . 131

7.3 Teorema centrale del limite . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

8 Elementi di inferenza statistica 137

8.1 Stime di massima verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . 141

8.2 Stime dei minimi quadrati . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

8.3 Stime per intervalli di confidenza . . . . . . . . . . . . . . . . . . . . . . . . 144

8.4 Cenno ai criteri di significatività . . . . . . . . . . . . . . . . . . . . . . . . 147

A Elementi di calcolo combinatorio 149

A.1 Campioni e urne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

A.1.1 Campioni ordinati con restituzione . . . . . . . . . . . . . . . . . . . 152

A.1.2 Campioni ordinati senza restituzione (n 6 M ) . . . . . . . . . . . . 152

A.1.3 Campioni non ordinati senza restituzione (n 6 M ) . . . . . . . . . . 153

A.1.4 Campioni non ordinati con restituzione . . . . . . . . . . . . . . . . 154

A.2 Problemi di occupazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

A.3 Formula di Tartaglia–Newton . . . . . . . . . . . . . . . . . . . . . . . . . . 155

A.3.1 Una conseguenza della formula di Tartaglia–Newton . . . . . . . . 156

B Funzioni generatrici 157

Page 6: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

vi INDICE

Page 7: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

Elenco delle figure

1.1 Incontro di I e II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2.1 Funzione di ripartizione di una distribuzione discreta . . . . . . . . . . . . 26

2.2 Densità uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.3 Funzione di ripartizione della densità uniforme . . . . . . . . . . . . . . . 31

2.4 Diagramma risarcimento–importo del sinistro . . . . . . . . . . . . . . . . 35

2.5 Funzione di ripartizione della densità di Pareto . . . . . . . . . . . . . . . . 36

3.1 Condizionamento di eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4.1 Passeggiata aleatoria (Random walk) . . . . . . . . . . . . . . . . . . . . . 61

4.2 La regione sfumata ha probabilità Q uguale a F (x, y). . . . . . . . . . . . 67

4.3 La regione sfumata a probabilità F (x + h, y + k) − F (x + h, y) − F (x, y +

k) + F (x, y) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

4.4 Distribuzione beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

5.1 Approssimazioni di una funzione assolutamente continua . . . . . . . . . . 81

5.2 Il valore di h(m) è dato dalla differenza dell’area con tratteggio obliquo

meno quella con tratteggio verticale . . . . . . . . . . . . . . . . . . . . . . . 85

5.3 Le crocette corrispondono alle determinazioni di (ξ1, ξ2). . . . . . . . . . . . 89

5.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

8.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

8.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

vii

Page 8: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

viii ELENCO DELLE FIGURE

Page 9: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

Capitolo 1

Definizione di probabilità

1.1 Esperimenti ed eventi

Il termine esperimento è qui usato per designare un qualunque processo il cui risultato

non sia generalmente noto a priori. Si assume, d’altro canto, che siano ben determinati

a priori i risultati possibili, i cosiddetti casi elementari. L’aggregato di tutti i casi ele-

mentari di un dato esperimento è detto spazio dei casi elementari di quell’esperimento.

È invalso l’uso di indicare con Ω quest’ultimo insieme e con ω il suo generico elemento,

ovvero il generico caso elementare. Diamo qualche esempio semplice di esperimento,

tratto dai giochi d’azzardo, il campo d’applicazione originario della probabilità ma non

il più importante oggidì.

Esempio 1.1.1. (a) Si lancia una moneta e la si lascia cadere sul pavimento. General-

mente le monete hanno un volto umano su un lato, che si dice Testa, e qualche altro

segno sul secondo lato, che si dice Croce. Il generico caso elementare del lancio è il nome

della faccia, o lato, della moneta rivolta verso l’alto: T,C. Quindi Ω = T,C.

(b) Si lancia un dado con sei facce regolari, numerate da 1 a 6. Per risultato del lancio

s’intende la faccia che il dado rivolge, una volta fermatosi, verso l’alto. Caratterizzando

la faccia col punteggio che essa porta, i casi elementari son dati dagli interi 1, 2, 3, 4, 5, 6

e Ω = 1, 2, 3, 4, 5, 6.

(c) Se uno stesso dado viene lanciato due volte, successivamente, allora lo spazio dei

casi elementari è dato daΩ = (1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 1), (2, 2), (2, 3), (2, 4),(2, 5), (2, 6), (3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6), (4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6), (5, 1),

(5, 2), (5, 3), (5, 4), (5, 5), (5, 6), (6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6). La cardinalità di Ω è

1

Page 10: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

2 CAPITOLO 1. DEFINIZIONE DI PROBABILITÀ

quindi il numero delle disposizioni con ripetizione di classe 2, di 6 oggetti. Cf. Sot-

tosezione A.1.1 dell’Appendice A.

z

Ogni sottoinsieme di Ω si dice evento. Si dice che un evento E si verifica quando il

risultato dell’esperimento è un qualunque caso elementare ω appartenente ad E. Ad

esempio, nel caso del lancio della moneta, la proposizione “la faccia rivolta verso l’alto

della moneta è Testa” designa l’evento T . Con riferimento al lancio successivo dei due

dadi, la proposizione “la somma dei (due) punteggi ottenuti è uguale a 9” corrisponde

all’evento (3, 6), (4, 5), (5, 4), (6, 3). Accolta la precedente definizione di evento, le op-

erazioni su eventi sono operazioni su insiemi descritte con un linguaggio adatto alla

situazione specifica.

Allora Ω si dice evento certo e l’insieme vuoto, indicato solitamente con ∅, si diceevento impossibile.

L’ unione di due o più eventi è l’evento che è verificato se e solo se almeno uno dei

riunendi è verificato; analogamente, l’intersezione di due o più eventi è l’evento che è

verificato se e solo se tutti gli intersecandi sono verificati. Se due eventi non possono

verificarsi simultaneamente, non hanno cioè casi elementari in comune, ovvero la loro

intersezione è l’evento impossibile, allora i due eventi si dicono incompatibili.

Data una classe Ei : i ∈ I di eventi, dove I è un certo insieme di indici, la loro

unione si indica – come al solito – con⋃

i∈I Ei e la loro intersezione con⋂

i∈I Ei. Il

complementare [rispetto a Ω] di un evento E – indicato con Ec – si dice evento contrario

di E.

Oltre alle operazioni principali, è utile accennare ad altre che dalle prime derivano

in modo semplice. Dati gli eventi A e B, la differenza di A meno B [in simboli A \ B] è

l’evento che si verifica se e solo se si verifica A e non B. Si noti che la differenza non è

commutativa. Verificare per esercizio che vale la relazione A\B = A∩Bc. La differenza

simmetrica di A e B, A B, è l’evento che è vero se e solo se tale risulta uno e uno solo

dei due eventi considerati: AB = (A \B) ∪ (B \A).Se A e B sono eventi tali che A ⊂ B si dice che l’evento A implica B.

Esempio 1.1.2. Due individui, I e II, hanno convenuto di incontrarsi, in un luogo ben

definito, fra mezzogiorno e l’una. L’accordo è stato stipulato nei termini seguenti: il pri-

mo che arriva aspetta l’altro per 20 minuti e, quindi, se ne va. Introdurre un opportuno

spazio di casi elementari in modo che il fatto “I e II riescono a incontrarsi” possa essere

Page 11: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

1.1. ESPERIMENTI ED EVENTI 3

rappresentato da un sottoinsieme di tale spazio. Assumiamo che entrambi arrivino al

luogo convenuto e che l’arrivo di ciascuno avvenga fra mezzogiorno e l’una. Sotto queste

condizioni, l’istante (aleatorio) dell’arrivo di I, x, e quello dell’arrivo di II, y, possono

essere rappresentati con la coppia (x, y) nel quadrato [0, 60]2; cf. Figura 1.1. Quindi,

Ω = [0, 60]2. Inoltre, I e II si incontrano se e solo se risulta |x− y| 6 20 e, perciò, l’evento

che ci interessa è rappresentato dalla parte ombreggiata della Figura 1.1. z

Figura 1.1: La parte di piano ombreggiata corrisponde all’evento ”I e II si incontrano”.

Esempio 1.1.3. Una moneta può essere lanciata un numero indefinitamente grande di

volte e, spesso, si considerano eventi come, ad esempio, “la frequenza di testa converge

al divergere del numero delle prove (lanci)”, che dipendono dai risultati lungo l’intera

successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la

comparsa di Testa, lo spazio Ω coincide con quello delle successioni (xn)n>1 a valori in

0, 1, ovvero: xn ∈ 0, 1, ∀n > 1. Con x indichiamo la generica di tali successioni.

La frequenza di testa nei primi n lanci, corrispondente alla specifica successione x, è

fn(x) =∑n

k=1 xk/n. Quindi, dato ε > 0,

En,m := x ∈ Ω : |fn(x)− fm(x)| 6 ε

è l’evento che si verifica se e solo se le frequenze di testa relative ai primi n e ai primi m

lanci non differiscono per più di ε. Fissato n0 in N,

L(n0, ε) :=⋂

n,m>n0

En,m

è l’evento che si verifica se tutte le frequenze di testa non differiscono per più di ε a

partire da un certo posto n0 in poi. Quindi, l’evento

M(ε) :=⋃

n0>1

L(n0, ε)

Page 12: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

4 CAPITOLO 1. DEFINIZIONE DI PROBABILITÀ

si verifica se e solo se esiste un posto n0 a partire dal quale le frequenze non differiscono

per più di ε e l’evento⋂

ε>0

M(ε)

risulta verificato se e solo se la frequenza converge. Ricordare, a questo proposito, il

criterio di convergenza delle successioni numeriche dovuto a Cauchy.

1.2 Definizione di probabilità su algebre di eventi

Il problema della definizione di probabilità è piuttosto delicato, soprattutto quando si

voglia coniugare rigore formale e aderenza ad un significato concreto del termine che

abbia riguardo per le applicazioni. Prova ne siano: (a) il ritardo con cui la probabi-

lità è stata accettata nella famiglia delle discipline matematiche; (b) gli innumerevoli

saggi e trattati scritti sui fondamenti della probabilità; (c) il persistere, con sempre

rinnovato vigore, del dibattito sul significato della probabilità nei suoi rapporti con la

scienza e la pratica. A partire dagli anni Trenta del secolo scorso, e segnatamente

dall’apparizione dei Grundbegriffe, nel 1933, di Andrei N. Kolmogorov (1903-1987), i

matematici hanno accettato una definizione assiomatica che assimila la probabilità a

una misura finita, in accordo con l’estensione, dovuta a Maurice Fréchet (1878-1973),

della teoria della misura e dell’integrazione di Henri Lebesgue (1875-1941), a spazi as-

tratti. L’eccezione più interessante al consenso quasi universale per la definizione di

Kolmogorov è rappresentata dalla teoria di Bruno de Finetti (1906-1985).

La definizione di Kolmogorov richiede che la probabilità sia definita sopra un’algebra

di eventi. Una classe A di sottoinsiemi di Ω è un’algebra se soddisfa i requisiti seguenti:

(a) Ω ∈ A;(b) A ∈ A ⇒ Ac ∈ A;(c) A1, ..., An ∈ A ⇒

⋃nk=1 Ak ∈ A (n < +∞).

Sarebbe un utile esercizio per lo studente verificare che (c) può essere sostituita con:

A1, . . . , An ∈ A ⇒ ∩nk=1Ak ∈ A (n < +∞).

Esempio 1.2.1. (a) Se A è un sottoinsieme di Ω, la classe A = ∅, A,Ac,Ω è un’algebra.(b)La classe P(Ω) di tutti i sottoinsiemi di Ω è un’algebra.

(c) Con riferimento all’Esempio 1.1.3, preso A ⊂ 0, 1n per qualche n ∈ N, si denoti

con C(A) il cilindro di base A, ovvero l’insieme di tutte le successioni x = (xn)n>1 le cui

prime n coordinate, prese nell’ordine, fissano un punto di A:

C(A) = x ∈ 0, 1∞ : (x1, . . . , xn) ∈ A.

Page 13: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

1.2. DEFINIZIONE DI PROBABILITÀ SU ALGEBRE DI EVENTI 5

Fissato n ∈ N, la classe di eventi (cilindri con base di dimensione n)

An := C(A) : A ⊂ 0, 1n

è un’algebra. Infatti, Ω = C(0, 1n); inoltre, se A ⊂ 0, 1n, allora C(A)c = x ∈ 0, 1∞ :

(x1, . . . , xn) ∈ Ac = x ∈ 0, 1∞ : (x1, . . . , xn) ∈ Ac = C(Ac) e quindi C(A)c è contenuto

inAn; infine, seA,B ⊂ 0, 1n, allora C(A)∪C(B) = x ∈ 0, 1∞ : (x1, . . . , xn) ∈ A∪x ∈0, 1∞ : (x1, . . . , xn) ∈ B = x ∈ 0, 1∞ : (x1, . . . , xn) ∈ A ∪ B = C(A ∪ B), e quindi

C(A) ∪ C(B) è contenuto in An. Naturalmente, An+1 ⊃ An, ∀n, e, quindi, è immediato

verificare che anche

A :=⋃

n>1

An

è un’algebra di sottoinsiemi di Ω = 0, 1∞. z

Per l’ultimo esempio di algebra di eventi che intendiamo presentare si rende nec-

essaria qualche premessa. Dati n eventi E1, . . . , En con Ek ⊂ Ω per k = 1, . . . , n, si

considerano le intersezioni del tipo

Ei1 ∩ · · · ∩Eik ∩ Ecj1 ∩ · · · ∩ Ec

jn−k

al variare del sottoinsieme i1, . . . , ik in 1, . . . , n, essendo j1, . . . , jn−k := 1, . . . , n \i1, . . . , ik. Sono le intersezioni di k eventi scelti fra gli n dati con i contrari dei rima-

nenti. Le intersezioni non vuote (in numero di s 6 2n) si dicono costituenti della classe

E = E1, . . . , En. Ogni costituente descrive una particolare realizzazione degli eventi

E1, . . . , En. Si noti che i costituenti sono a due a due incompatibili e la loro unione è

l’evento certo. Inoltre, un evento E ⊂ Ω si dice logicamente dipendente dalla classe Ese il suo valore logico (vero o falso) risulta essere determinato in corrispondenza ad og-

ni realizzazione possibile degli eventi E1, . . . , En. Quindi, la classe U degli eventi che

dipendono logicamente da E coinciderà con quella di tutte le unioni di costituenti. In

particolare, ogni Ei dipende logicamente da E in quanto unione dei costituenti nella cui

definizione E è affermato. Nell’esempio seguente si mostra che U è un algebra, anzi la

più piccola algebra che contiene E ; per questo si chiama l’algebra generata da E .

Esempio 1.2.2. La classe U delle unioni dei costituenti di E = E1, . . . , En è la più

piccola algebra di parti di Ω che contiene E . Per verificarlo, indichiamo con C(E) la

classe dei costituenti di E . Prima di tutto l’insieme vuoto appartiene a U e, come già

osservato, Ω appartiene a U in quanto esprimibile come unione di tutti i costituenti. Si

consideri, quindi, A in U ; in corrispondenza ad A gli elementi di C(E) vengono ripartiti

Page 14: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

6 CAPITOLO 1. DEFINIZIONE DI PROBABILITÀ

in due classi: nella prima si trovano quelli la cui unione coincide con A e, nella seconda,

si collocano quelli la cui unione coincide con Ac; pertanto Ac appartiene a U . Inoltre, seA,B appartengono a U , ricaviamo che A ∪ B è l’unione di tutti gli elementi di C(E) cheimplicano A oppure B e, di conseguenza: A ∪ B ∈ U . Perció U è un algebra. Ora, se

F è un’algebra contenente E , è immediato convincersi che E ∈ U , otteniamo che C(E)è contenuta in F (per la definizione di algebra e di costituente). Inoltre, ogni E ∈ U è

unione di particolari elementi di C(E), quindi E appartiene a F e, pertanto, U ⊂ F . z

Una funzione P , definita su un’algebra A di parti di Ω e a valori in R, si dice misura

di probabilità se

(a’) P (Ω) = 1;

(b’) P (A1 ∪ A2) = P (A1) + P (A2), ∀A1, A2 ∈ A tali che A1 ∩A2 = ∅;(c’) per ogni successione di eventi contenuti inA a due a due incompatibiliA1, . . . , An, . . . ,

tali che ∪k>1Ak ∈ A, si ha P (∪k>1Ak) =∑

k>1 P (Ak).

La proprietà (b’), detta di additività, si estende (per induzione matematica) a ogni

famiglia finita di elementi a due a due incompatibili di A. Infatti, se A1, . . . , An sono

elementi di A, allora A1 ∪ · · · ∪ An−1 ∈ A [per la (c)] e se A1, . . . , An sono a due a due

incompatibili, anche A1 ∪ · · · ∪ An−1 e An sono incompatibili; quindi, per (b’), vale

P (A1 ∪ · · · ∪An−1 ∪ An) = P (A1 ∪ · · · ∪An−1) + P (An).

Fatta l’ipotesi (induttiva) che la proprietà additiva valga per ogni famiglia disgiunta di

cardinalità 6 n− 1, otteniamo dalla precedente

P (A1 ∪ · · · ∪ An−1 ∪ An) = P (A1) + · · ·+ P (An−1) + P (An)

e, quindi, la tesi per induzione completa.

La stessa (b’) non si estende automaticamente a classi infinite di eventi a due a

due incompatibili. Perció, è necessario imporre la (c’), detta σ–additività o additività

completa, se si desidera che l’additività valga almeno nel caso di classi numerabilmente

infinite.

Da A∪Ac = Ω congiuntamente a (a’)-(b’) ricaviamo P (A)+P (Ac) = P (Ω) = 1 e quindi

P (Ac) = 1− P (A). (1.1)

In particolare, P (∅) + P (Ω) = 1, ovvero

P (∅) = 0.

Page 15: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

1.2. DEFINIZIONE DI PROBABILITÀ SU ALGEBRE DI EVENTI 7

Inoltre, se A,B ∈ A con A ⊂ B, si ha A ∩ (B \A) = ∅ e, quindi, P (B) = P (A) + P (B \A);poiché P (B \A) > 0, risulta dimostrata l’implicazione

A,B ∈ A tali che A ⊂ B ⇒ P (A) 6 P (B). (1.2)

Un’altra conseguenza degli assiomi, assai utile per il calcolo, è la formula della pro-

babilità di una unione finita di eventi (non necessariamente a due a due incompatibili).

Siano, dunque, A e B elementi qualunque di A; per essi vale

A ∪B = (AB) ∪ (A ∩B) = (A \ (A ∩B)) ∪ (B \ (A ∩B)) ∪ (A ∩B)

e, per (b’),

P (A ∪B) = P (A \ (A ∩B)) + P (B \ (A ∩B)) + P (A ∩B)

dove, sempre per (b’),

P (A \ (A ∩B)) = P (A)− P (A ∩B), P (B \ (A ∩B)) = P (B)− P (A ∩B).

Quindi,

P (A ∪B) = P (A) + P (B)− P (A ∩B). (1.3)

Anche questa notevole proprietà può essere estesa a un numero qualunque di eventi:

P (A1 ∪ · · · ∪ An) =

n∑

i=1

P (Ai)−∑

16i<j6n

P (Ai ∩ Aj)

+∑

16i<j<k6n

P (Ai ∩ Aj ∩ Ak)

+ · · ·+ (−1)n+1P (A1 ∩ · · · ∩ An).

(1.4)

Possiamo convincerci della validità di questa formula procedendo per induzionematem-

atica. Supponiamo, perciò, che essa sia vera per ogni n 6 ν e verifichiamola per

n = ν + 1.

P (A1 ∪ · · · ∪ Aν ∪ Aν+1) = P (A1 ∪ · · · ∪ Aν) + P (Aν+1)

− P (∪νk=1(Ak ∩ Aν+1)) [per la (1.3)]

=

ν+1∑

i=1

P (Ai)−∑

16i<j6ν

P (Ai ∩Aj)

+∑

16i<j<k6ν

P (Ai ∩ Aj ∩Ak) + · · ·+ (−1)ν+1P (A1 ∩ · · · ∩ Aν)

Page 16: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

8 CAPITOLO 1. DEFINIZIONE DI PROBABILITÀ

−ν∑

i=1

P (Ai ∩ Aν+1) +∑

16i<j6ν

P (Ai ∩ Aj ∩Aν+1)

−∑

16i<j<k6ν

P (Ai ∩ Ai ∩ Ak ∩ Aν+1) + · · ·+

+ (−1)ν+2P (A1 ∩ · · · ∩ Aν ∩ Aν+1) [per l’ipotesi induttiva]

=ν+1∑

i=1

P (Ai)−∑

16i<j6ν+1

P (Ai ∩ Aj)+

+∑

16i<j<k6ν+1

P (Ai ∩ Aj ∩ Ak) + · · ·+ (−1)ν+2P (A1 ∩ · · · ∩ Aν ∩ Aν+1).

1.3 Probabilità su spazi finiti

Le applicazioni più elementari della probabilità, e storicamente più antiche, riguardano

spazi finiti di casi elementari. Ad esempio, ricade in questo ambito la gran parte dei

problemi elementari posti dai giuochi di azzardo o dalla ripartizione (casuale), nelle

celle dello spazio delle fasi, di un certo numero di particelle. Si tratta, in definitiva, di

considerare Ω = ω1, . . . , ωN e A = P(Ω). Si vede facilmente che il numero degli ele-

menti di A [eventi] è, in questo caso, 2N . Infatti, per ogni k = 0, 1, . . .N , esistono(Nk

)

eventi contenenti esattamente k casi elementari; perciò, il numero degli elementi di Aè(N0

)+(N1

)+ · · · +

(NN

)= 2N ; cf. (A.1) in Appendice A con a = b = 1. La generica pro-

babilità su A si può caratterizzare a partire dall’assegnazione di N numeri non negativi

p1, . . . , pN a somma 1 (p1 + · · · + pN = 1), da interpretarsi come probabilità degli eventi

elementari

pk è la probabilità di ωk, per k = 1, . . . , N.

Quindi, per rispettare (b’), la probabilità di E in A deve coincidere con la somma delle

probabilità pk degli eventi elementari ωk inclusi in E.

Poniamo, quindi,

P (E) :=∑

k:ωk∈Epk (E ∈ A). (1.5)

Evidentemente, P (E) > 0 per ogni E; inoltre, P (E) 6∑N

k=1 pk = 1 per ogni E. Chiara-

mente, P (Ω) =∑N

k=1 pk = 1 e, se E1, E2 appartengono ad A con E1 ∩E2 = ∅, otteniamo

P (E1 ∪ E2) :=∑

k:ωk∈E1∪E2pk

=∑

k:ωk∈E1pk +

k:ωk∈E2pk [poiché E1, E2 sono disgiunti]

= P (E1) + P (E2).

Page 17: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

1.3. PROBABILITÀ SU SPAZI FINITI 9

In buona sostanza, si è dimostrato che ogni funzione P : A → [0, 1] definita da (1.5), con

p1 + · · · + pn = 1, è una probabilità su A [sotto la condizione che A sia l’insieme delle

parti di Ω = ω1, . . . , ωN].Un esempio notevolissimo di assegnazione di probabilità conforme a (1.5) è rappre-

sentato dalla posizione pk = 1/N , per ogni k = 1, . . . , N : tutti i casi elementari sono

considerati ugualmente probabili (valutazione simmetrica). Allora da (1.5) discende

P (E) =∑

k:ωk∈Epk =

|E|N

dove |E| denota la cardinalità di E: il numero dei casi elementari contenuti in E. In

questo esempio, la probabilità di E è dunque data dal rapporto fra il numero dei casi

favorevoli a E e quello totale dei casi possibili. Classicamente, alcuni autori pensarono

di far coincidere la definizione di probabilità col metodo di valutazione testé ricordato, il

quale, nella moderna teoria della probabilità, riguarda solo situazioni molto particolari

incui si ritiene ch i casi possibili siano ugualmente possibili. Comunque, una valu-

tazione siffatta riduce il calcolo a quello delle numerosità certi insiemi finiti. A tal fine

rivestono un ruolo particolarmente importante i primi elementi del calcolo combinatorio,

per i quali si rinvia all’ Appendice A.

1.3.1 Esempi

Esempio 1.3.1 (Lotto). Si giuochi su una sola ruota. Dei 90 numeri, compresi fra 1 e

90, ne vengono estratti 5 a caso. Con questo modo di dire si intende che le cinquine

possibili sono ritenute tutte ugualmente probabili. Il numero di tali cinquine è N =(905

), cf. Sottosezione A.1.3 in Appendice A, e, quindi, Ω = ω1, . . . , ωN, dove ωk è la

generica cinquina [=sottoinsieme, di 5 elementi, dell’insieme 1, . . . , 90]. L’ipotesi di

equiprobabilità dei casi elementari si traduce nel fatto che

P (ωk) =(90

5

)−1 (k = 1, . . . ,

(90

5

)).

Indichiamo conE2 l’evento “si vince giocando un ambo particolare”. E2 è un sottoinsieme

di Ω di cardinalità(883

)e, perciò,

P (E2) =

(88

3

)

(90

5

) ≃ 0, 00258.

Per l’evento E3 “si vince giocando un particolare terno” si ha

Page 18: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

10 CAPITOLO 1. DEFINIZIONE DI PROBABILITÀ

P (E3) =

(87

2

)

(90

5

) ≃ 0, 000085.

Si considerino 10 ruote, allora i casi possibili sono(905

)10. Si gioca uno stesso ambo

su tutte le ruote e si indica con E(10)2 l’evento “si vince almeno su una ruota”. Poiché

P(E

(10)2

)= 1− P

((E

(10)2 )c

), calcoliamo

P((E

(10)2 )c

)=

(90

5

)−(88

3

)10

(90

5

)10 =

1−

(88

3

)

(90

5

)

10

= (1− P (E2))10.

Quindi

P(E

(10)2

)= 1− (1 − P (E2))

10 = 1−10∑

k=0

(10

k

)(−1)kP (E2)

k cf. (A.1)

= 10P (E2)−(10

2

)P (E2)

2 + ... ≃ 10P (E2).

[(numero delle ruote)×(probabilità di vincere su ciascuna di esse)]. z

Esempio 1.3.2 (Testa e Croce). Si gettano n monete. I risultati possibili sono 2n, di cui(nk

)con k teste e (n − k) croci. La probabilità che, delle n monete, k mostrino testa è

(nk

)/2n. Poiché il rapporto (

n

k + 1

):

(n

k

)=

n− k

k + 1

è maggiore (minore, rispettivamente) di uno per k < n−12 (k > n−1

2 , rispettivamente),

il massimo della suddetta probabilità si ha per k = n2 se n è pari e per k = n−1

2 e per

k = n+12 se n è dispari.

Delle n monete, r pezzi siano da 1 euro e s pezzi da 2 euro (n = r+ s). La probabilità

di avere testa per h delle prime e k delle seconde è(r

h

)(s

k

)/2n

e la probabilità di avere testa lo stesso numero di volte fra le monete da 1 euro e da 2

euro è1

2n

i>0

(r

i

)(s

i

)=

1

2n

(r + s

r

)=

1

2n

(n

r

)=

1

2n

(n

s

).

Per calcolare la somma precedente, si può ricorrere al trucco che consiste nell’indicare

come faccia A sia la testa della moneta da 1 euro che la croce della moneta da 2 euro, e

come faccia B sia la testa della moneta da 2 euro che la croce della moneta da 1 euro.

Page 19: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

1.3. PROBABILITÀ SU SPAZI FINITI 11

Allora, avere lo stesso numero di teste nei due gruppi significa avere, nel complesso, s

volte la faccia A e r volte la faccia B. Quindi,∑

i>0

(ri

)(si

)=(r+sr

). Per una dimostrazione

più formale si veda l’Appendice A.

Ritrornando alla prima parte dell’esempio, valutiamo ora la probabilità di ottenere,

su n lanci, h volte consecutive testa. Indichiamo con An il numero delle successioni di

n lanci non contenenti alcuna sequenza di h teste consecutive. Per tale valutazione,

osserviamo che da ciascuna di queste successioni si ottengono due successioni di (n+ 1)

elementi, facendo seguire un’ulteriore prova: una termina con testa, l’altra con croce.

Quindi An+1 è uguale a 2An meno il numero delle successioni – chiamiamolo ν – che con

l’ulteriore prova vengono a contenere una sequenza di h teste consecutive. Ciascuna

delle ν successioni proviene da un elemento di An così caratterizzato: le ultime (h − 1)

prove presentano testa; queste sono precedute da una croce; questa croce è preceduta da

una qualunque successione di (n − h) prove non contenente alcuna sequenza di h teste

consecutive. Pertanto, ν = An−h e vale la relazione ricorrente

An+1 = 2An −An−h,

con le condizioni iniziali:

A0 = 1, Ak = 2k, per k < h, Ah = 2h − 1.

Ricaviamo An con h = 2. Intanto si osserva che, per h = 2, la relazione ricorrente si può

scrivere come

δn+1 = δn + δn−1

con δn := An −An−1, e che le condizioni iniziali si traducono nelle seguenti

δ1 = A1 −A0 = 1, δ2 = A2 −A1 = 1.

Perciò, la ricorrenza si può estendere a ogni n > 1,

δn+1 = δn + δn−1 con δ0 = 0, δ1 = 1.

La successione delle differenze coincide, quindi, con quella dei numeri di Fibonacci:

ciascuno è somma dei due precedenti. Ricorrendo al metodo delle funzioni generatrici,

esposto anche nell’Appendice B di queste dispense, si trova

δj =1√5

(1 +√5

2

)j

−(1−√5

2

)j , j > 1.

Page 20: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

12 CAPITOLO 1. DEFINIZIONE DI PROBABILITÀ

Combinando questo risultato con la definizione di An, si ha

An = A0 +

n∑

k=1

δk

= A0 +

n∑

k=1

1√5

(1 +√5

2

)k

−(1−√5

2

)k

= 1 +

n∑

k=1

1√5

(1 +√5

2

)k

−(1−√5

2

)k .

In conclusione, la probabilità di ottenere, su n lanci di una moneta, 2 volte consecu-

tive testa è:

1− |An|2n

= 1− 1

2n

1 +

n∑

k=1

1√5

(1 +√5

2

)k

−(1−√5

2

)k

.

z

Esempio 1.3.3. [Estrazioni da un’urna] Un’urna contiene N palle distinte, di cui R

bianche ed S nere. Si estraggono n palle in blocco. Si vuole calcolare la probabilità che

k di esse siano bianche e n − k nere. I casi possibili sono i sottoinsiemi, di n elementi,

estraibili da un insieme di N elementi; il loro numero è, perciò,(Nn

). Se assumiamo che

i sottoinsiemi in questione hanno la stessa probabilità di essere estratti, allora basta

determinare il numero di quei sottoinsiemi che contengono k bianche e n−k nere, ovvero(Rk

)(S

n−k

). Allora, la probabilità richiesta è uguale a

(R

k

)(S

n− k

)

(N

n

)

con la convenzione che tale rapporto è considerato nullo quando qualche coefficente bi-

nomiale perde di significato algebrico. Lo stesso vale se le n palle si estraggono una per

volta senza però reimbussolare quelle già estratte e se le n-uple ottenibili sono supposte

ugualmente probabili.

Si estraggono successivamente tutte le palle; qual è la probabilità che non si pre-

sentino mai due bianche di seguito? Tale evento è impossibile se R > S. I casi possibili

sono N ! successioni e, supposto R 6 S, il numero dei casi favorevoli si ottiene interca-

lando, in ciascuna delle S! permutazioni delle nere, le R bianche in R punti (compreso

il punto avanti la prima e il punto dopo l’ultima). Per ogni singola permutazione delle

nere, la suddetta operazione si può fare in R!(S+1R

)modi. Quindi, se ciascuna delle N !

Page 21: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

1.3. PROBABILITÀ SU SPAZI FINITI 13

permutazioni è giudicata con probabilità 1/N !, la probabilità che non si presentino mai

due bianche di seguito è:

R!S!

(S + 1

R

)

N !=

(S + 1

R

)

(N

R

) .

Invece se estraiamo dalla stessa urna con restituzione [registrato il colore della palla es-

tratta, la si rimette nell’urna e si procede all’estrazione successiva], i casi possibili sono

le disposizioni con ripetizione, di classe n, di oggetti da un insieme che ne contiene N .

Vogliamo ancora calcolare la probabilità di ottenere k bianche e (n − k) nere. Il primo

estratto può essere uno qualunque di questi oggetti, il secondo estratto, parimenti, può

essere uno qualunque degli N oggetti dati, ecc.; perciò, il numero delle suddette dispo-

sizioni èNn. Quelle favorevoli sono le disposizioni che contengono k bianche e n−k nere.

Ciascuno dei k posti può essere riempito in R modi possibili (numero delle bianche) e i

restanti n − k possono essere riempiti singolarmente in S modi possibili (numero delle

nere). Inoltre, poiché i k posti delle bianche sono tanti quanti i sottoinsiemi di k ele-

menti di un insieme di n elementi [=(nk

)], il numero dei casi favorevoli è

(nk

)RkSn−k.

Dunque, la probabilità di avere k bianche in n estrazioni è

(n

k

)RkSn−k

Nn=

(n

k

)(R

N

)k (1− R

N

)n−k

.

Si noti che R/N si può vedere come probabilità di osservare bianca in ogni singola

estrazione, e (1−R/N) come probabilità di nera. z

Esempio 1.3.4. Sia Ω l’insieme delle n! permutazioni di (1, . . . , n). Su Ω si consideri la

misura di probabilità uniforme, ossia Pω = 1/n! per ogni ω in Ω. Data una permu-

tazione ω = (σ1, . . . , σn) diciamo che tale permutazione è completamente disordinata se

σi 6= i per ogni i = 1, . . . , n, ossia se nessun numero resta fissato da ω. Calcoliamo la pro-

babilità dell’insieme E delle permutazioni completamente disordinate. Se indichiamo

con Ei l’insieme delle permutazioni che fissano i, ossia tali che σi = i, si ha

E = (∪ni=1Ei)c

e quindi

P (E) = 1− P (∪ni=1Ei).

Gli eventi Ei non sono a due a due incompatibili quindi per calcolare P (∪ni=1Ei) si può

applicare il principio di inclusione esclusione (1.4). Il numero delle permutazioni in cui

sono fissati i numeri (i1, . . . , ik) è (n − k)! e, per l’ipotesi di uniformità della probabilità

Page 22: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

14 CAPITOLO 1. DEFINIZIONE DI PROBABILITÀ

fissata, si ha P (Ei1 ∩ . . . ,∩Eik ) = (n−k)!/n!, per k = 1, . . . , n. Notando che questa proba-

bilità non dipende dalla scelta di (i1, . . . , ik) e che il numero di addendi in∑

16i1<···<ik6n

è(nk

), la (1.4) porge

P (∪ni=1Ei) =

(n

1

)(n− 1)!

n!− 13

(n

2

)(n− 2)!

n!+ · · ·+ (−1)n+1 1

n!=

n∑

k=1

(−1)k+1 1

k!.

Concludendo,

P (E) = 1−n∑

k=1

(−1)k+1 1

k!=

n∑

k=0

(−1)k 1

k!.

Se ne deduce che P (E) ∼ 1/e per n→ +∞.

1.4 Probabilità su spazi infiniti e definizione di pro-

babilità su σ-algebre

Non di rado si presentano situazioni nelle quali lo spazio dei casi elementari non è

finito o, più precisamente, conviene considerarlo come infinito. Ad esempio, il numero

(aleatorio) delle persone che si presentano a un certo posto di servizio durante una ben

determinata futura giornata lavorativa sarà certamente finito ma, non potendo essere

predetto in anticipo, sarà opportuno identificarne, almeno in una prima approsimazione,

tutte le realizzazioni possibili con l’insieme degli interi non negativi N0 := 0, 1, 2, . . ..Incominciamo, quindi, a trattare della probabilizzazione delle parti di un insieme Ω

numerabilmente infinito:

Ω = ω1, ω2, . . ..

Procediamo, imitando quanto si è fatto nel caso di Ω finito, col fissare una successione

di numeri non negativi pk (k = 1, 2, . . .) tali da soddisfare∑

k>1 pk = 1. Quindi,

proseguiamo definendo, per ogni evento A ⊂ Ω,

P (A) =∑

k:ωk∈Apk.

Si verifica facilmente che P soddisfa le condizioni (a’)-(b’) assegnate nel Paragrafo 1.3. Si

può altresì provare che P è σ–additiva, soddisfa cioè (c’). I Infatti, posto A0 =⋃

n>1 An,

Page 23: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

1.4. PROBABILITÀ SU SPAZI INFINITI E DEFINIZIONEDI PROBABILITÀ SU σ-ALGEBRE15

dalla definizione di P segue

P (⋃

n>1

An) =∑

k:ωk∈A0pk

=∑

n>1

k:ωk∈Anpk per l’incompatibilità a coppie degli eventi An

e le proprietà delle serie convergenti a termini > 0

=∑

n>1

P (An).

E’ interessante notare che si possono dare esempi di probabilità che soddisfano (a’)–(b’)

ma non (c’), come nel seguente .

Esempio 1.4.1. Si consideri come Ω l’insieme N degli interi positivi e si fissi la classe

A dei sottoinsiemi di N che sono finiti o cofiniti; quindi A ∈ A se e solo se A contiene

un numero finito di casi elementari oppure il complementare di A presenta la stessa

caratteristica. Lo studente può verificare, per esercizio, che A è un’algebra. Su A si

definisca la funzione

P (E) =

0 se E ⊂ N è finito

1 se E ⊂ N è cofinito.

Si controlla facilmente che questa P soddisfa (a’)-(b’) e che, dunque, è una probabilità.

Tuttavia, si ha 1 = P (Ω) > 0 =∑

n>0 P (n). z

Ritornando alle considerazioni generali svolte nel paragrafo 1.2, si deve notare che,

in numerose trattazioni, le misure di probabilità vengono presentate in modo (solo for-

malmente) diverso, coinvolgendo il concetto di σ-algebra di parti di Ω: un’algebra di

parti di Ω, S, che sia stabile per unione numerabile (se A1, A2, . . . appartengono a S,allora la loro unione appartiene a S) si dice σ-algebra. Pertanto, P : S → [0, 1] si dice

(misura di) probabilità su (Ω,S) se, oltre a doddisfare (a′) e (b′) della definizione di

Sezione 1.2, verifica la condizione

(c′′) P (∪n>1An) =∑

n>1 P (An) per ogni successione di eventi A1, A2, . . . in S a due a

due incompatibili.

Quest’ultima definizione di misura di probabilità non è più restrittiva di quella riferi-

ta, più genericamente, a un’algebra, e questo segue da un fondamentale teorema dovuto

a Carathéodory:

Teorema 1.4.2. Se A è un’algebra di parti di Ω e P è una misura di probabilità su A,allora esiste una e una sola misura di probabilità P ∗ sulla più piccola fra le σ-algebre

che contengono A, tale che P ∗(A) = P (A) per ogni A in A.

Page 24: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

16 CAPITOLO 1. DEFINIZIONE DI PROBABILITÀ

Il valore della condizione (c′′) rispetto a probabilità definite tramite (a′)− (b′) si può

apprezzare ricordando che la richiesta di (c′′) equivale ad una condizione di continuità

di P lungo successioni monotone di eventi. Se (An)n>1 è una successione di insiemi

tali che An ⊂ An+1 per ogni n > 1, allora si dirà che la successione è monotona non

decrescente; analogamente, la successione (Bn)n>1 per cui Bn ⊃ Bn+1, per ogni n > 1,

si dice monotona non crescente. Per tali successioni si definisce il limite come segue:

∪n>1An nel primo caso, ∩n>1Bn nel secondo; una probabilità P si dice continua lungo

(An)n>1, [(Bn)n>1, rispettivamente] se

limn→+∞

P (An) = P (∪n>1An)

[limn→+∞ P (Bn) = P (∩n>1Bn), rispettivamente]. La suddetta forma di continuità delle

misure di probabilità è completamente descritta dal

Teorema 1.4.3. Sia P una funzione da S in [0, 1] che soddisfa (a′)− (b′). Valgono allora

le due affermazioni seguenti:

(i) Se P è anche una misura di probabilità (soddisfa (c′′)), allora P è continua lungo

ogni successione monotona.

(ii) Se P è continua lungo le successioni monotone di eventi decrescenti verso l’evento

impossibile, allora P è una misura di probabilità.

Di particolare interesse, nel terorema testé enunciato, è il punto (ii) il quale fornisce

un criterio comodo, in certi casi, per controllare se una misura è, anche, una misura di

probabilità. Approfondimenti e applicazioni di questi aspetti saranno trattati in corsi

più avanzati del biennio magistrale.

Concludiamo con la dimostrazione della fondamentale proprietà di subattività, finita

e σ–finita.

Teorema 1.4.4. Sia P una misura di probabilità su (Ω,S), e E1, E2, . . . siano eventi

appartenenti a S. Allora

(i) P (E1 ∪ · · · ∪ En) 6∑n

k=1 P (Ek) per ogni n.

(ii) P (∪k>1Ek) 6∑

k>1 P (Ek).

Dimostrazione. (i) Scriviamo E1 ∪ · · · ∪ En come unione di eventi a due a due

incompatibili

E1 ∪ · · · ∪ En = E1 ∪ (E2 ∩ Ec1) ∪ (E3 ∩ Ec

1 ∩ Ec2) · · · ∪ (En ∩Ec

1 ∩ · · · ∩ Ecn−1).

Page 25: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

1.4. PROBABILITÀ SU SPAZI INFINITI E DEFINIZIONEDI PROBABILITÀ SU σ-ALGEBRE17

Allora, dalla (b′) della definizione di probabilità,

P (E1 ∪ · · · ∪ En) = P (E1) + P (E2 ∩ Ec1) + P (E3 ∩ Ec

1 ∩ Ec2) + · · ·+ P (En ∩ Ec

1 ∩ · · · ∩ Ecn−1)

6 P (E1) + . . . P (En) (per la (1.2)).

Page 26: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

18 CAPITOLO 1. DEFINIZIONE DI PROBABILITÀ

Page 27: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

Capitolo 2

Numeri aleatori - Distribuzioni

di probabilità

2.1 Considerazioni introduttive al concetto di vari-

abile aleatoria

Supponiamo che un tiratore punti a un bersaglio circolare di raggio 3, e riceva punteg-

gio 3,2,1 rispettivamente nei casi in cui colpisca il cerchio più interno di raggio 1, la

corona circolare di raggio non minore di 1 e minore di 2, la restante corona circolare. Il

tiratore non riceve alcun punto se non colpisce il cerchio di raggio 3. Si pone il proble-

ma di descrivere adeguatamente il guadagno del tiratore che, ovviamente, è di entità

aleatoria. Molti problemi concreti si presentano nella forma di quello testé descritto.

L’avverbio adeguatamente si riferisce alla proposta di un modello matematico aderente

alle situazioni concrete del tipo di quella considerata e, contemporaneamente, abbas-

tanza generale. A questo fine, nella teoria delle probabilità moderna si procede fissan-

do, dapprima, un opportuno spazio di casi elementari, tale che la grandezza aleatoria

in esame [punteggio, nel caso del tiratore] sia riprodotta da una conveniente funzione

definita sullo spazio dei casi elementari predisposto in partenza. Allora, nell’esempio

del tiratore possiamo identificare lo spazio dei casi elementari Ω con R2.

Posto ciò, il punteggio si può scrivere come funzione X da Ω in R nel modo seguente. Si

pone ω = (x, y) e, quindi,

X = X(ω) = 112<‖ω‖63(ω) + 2 · 111<‖ω‖62(ω) + 3 · 11‖ω‖61(ω),

19

Page 28: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

20 CAPITOLO 2. NUMERI ALEATORI - DISTRIBUZIONI DI PROBABILITÀ

dove con ‖(x, y)‖ si denota la radice quadrata, in senso aritmetico, di (x2+y2) e 11A indica

la funzione indicatrice di A, ossia la funzione definita da 11A(ω) = 1 se ω appartiene ad

A e 11A(ω) = 0 se ω non appartiene ad A.

Si prenda in considerazione un altro esempio, più realistico del precedente, concer-

nente l’affidabilità di un sistema. Si esamina, per l’appunto, il funzionamento di un sis-

tema costituito da n elementi detti componenti. Ciascuno di questi ultimi, in un certo is-

tante, può risultare efficiente [situazione che si designa, convenzionalmente, con la cifra

1] oppure guasto [circostanza che si indica con la cifra 0]. Allora, lo stato del sistema si

può identificare , con riferimento a un dato istante, con un vettore ω = (x1, . . . , xn) con

componenti in 0, 1: xi = 0 oppure 1 a seconda che l’i-esimo elemento del sistema sia,

all’epoca considerata, guasto oppure efficiente. Possiamo dunque riguardare l’insieme

Ω = 0, 1n di tutti questi vettori come spazio dei casi elementari quando si voglia esam-

inare lo stato del sistema, che è generalmente aleatorio se riferito ad un istante futuro

come avviene, del resto, nelle applicazioni più interessanti della teoria e delle tecniche

dell’affidabilità. Si noti che Ω contiene 2n elementi. Dunque, per descrivere lo stato

del sistema alla data futura fissata, si introduce una variabile aleatoria detta, nel caso

specifico, funzione struttura del sistema, che vale 1 in corrispondenza agli elementi di Ω

per i quali il sistema è efficiente e vale 0 in corrispondenza ai restanti. Si possono citare

diversi tipi di funzione struttura. Ad esempio, per un sistema che funziona in serie [il

sistema è efficiente solo se tutti gli elementi sono efficienti], la funzione struttura sarà

definita come

ϕs = ϕs(ω) = minnx1, . . . , xn =

n∏

k=1

xk per ω = (x1, . . . , xn) ∈ 0, 1n.

Invece, per un sistema funzionante in parallelo [il sistema è efficiente se almeno un suo

componente è tale], la funzione struttura è data da

ϕp = ϕp(ω) = maxnx1, . . . , xn, per ω = (x1, . . . , xn) ∈ 0, 1n.

Venendo alla presentazione generale, si dice elemento aleatorio o variabile aleatoria

ogni funzione definita su uno spazio di casi elementari. Se la funzione è costante, la

variabile non è, di fatto, aleatoria, e, per comodità espositiva, non si conia un apposito

simbolo per indicarla e si continua ad usare il simbolo della costante. Concretamente

ogni variabile aleatoria corrisponde a un fenomeno (aleatorio) osservabile del quale non

è generalmente possibile – per carenza d’informazione – predire la vera determinazione.

Tale determinazione è però fissata in corrispondenza a ogni caso elementare contenuto

in Ω.

Page 29: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

2.2. DISTRIBUZIONE DI PROBABILITÀ DI UNA VARIABILE ALEATORIA 21

2.2 Distribuzione di probabilità di una variabile aleato-

ria

Un fenomeno osservabile diviene rilevante dal punto di vista probabilistico quando se

ne fissi una legge di probabilità, ovvero, in parole molto povere, si stabiliscano dei gradi

di probabilità per le determinazioni possibili del fenomeno stesso. Quando il fenomeno

viene rappresentato nella forma di un elemento aleatorio, diciamo ξ, la sua legge di pro-

babilità – indichiamola con Pξ – viene generalmente detta distribuzione di probabilità

di ξ. Essa si esprime per mezzo di una probabilità sopra una classe di parti del codo-

minio di ξ. In particolare, se è fissata una probabilità P sopra una classe di parti di Ω –

tipicamente una σ-algebra S – la distribuzione di ξ viene a dipendere significativamente

da P .

Più precisamente, se C è una classe di sottoinsiemi del codominio – o di un insieme C

che contiene il codominio – di ξ, e se ω ∈ Ω : ξ(ω) ∈ A è un elemento di S per ogni A in

C [in questo caso, la funzione ξ è detta misurabile rispetto a S/C], allora la probabilità

che la variabile aleatoria ξ prenda una determinazione contenuta in A è pari al valore

di P in corrispondenza all’evento ω ∈ Ω : ξ(ω) ∈ A. Quindi vale

Pξ(A) = Pω ∈ Ω : ξ(ω) ∈ A, (A ∈ C). (2.1)

Conviene far notare subito che nelle applicazioni concrete della probabilità l’asseg-

nazione di Pξ precede, generalmente, quella di P . Può darsi il caso che vengano fissate

le leggi di probabilità di k variabili aleatorie, con k > 2, prima comunque che venga

precisata una probabilità P su una classe di parti di Ω. Quindi, se per esigenze di es-

posizione matematica si presentasse la necessità di ricondurre ciascuna della Pξ a una

medesima P sopra una classe di parti di Ω, allora si procederebbe – ove possibile – a

definire convenzionalmente sia S sia P in modo che la suddetta condizione di misurabil-

ità e la (2.1) valgano – con riferimento a tali S e P – per ogni ξ. Ora ci limitiamo a dare

qualche dettaglio della procedura indicata nel caso in cui C è un sottoinsieme di R e ξ,

perciò, è un numero aleatorio. Si tratta di una situazione particolarmente significativa

in vista delle applicazioni che se ne fanno. Prima di procedere, avvertiamo, una volta

per tutte, che le probabilità di cui si tratterà d’ora in poi sono da considerare misure

di probabilità, ovvero probabilità σ-additive, e le variabili aleatorie sono da supporre

funzioni misurabili.

Page 30: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

22 CAPITOLO 2. NUMERI ALEATORI - DISTRIBUZIONI DI PROBABILITÀ

2.2.1 Distribuzione di probabilità e funzione di ripartizione di

un numero aleatorio

Senza ledere seriamente la generalità del discorso, consideriamo ξ con C = R. In questo

caso, si usa fissare C coincidente con la più piccola σ-algebra (di parti di R) contenente

tutti i sottoinsiemi aperti di R. Essa è nota come σ-algebra di Borel su R e viene indicata

con B(R). E’ evidente che intervalli come (−∞, a) appartengono a B(R); inoltre poiché

(−∞, a] = ∩n>1(−∞, a + 1n ], anche le semirette semichiuse (−∞, a] sono contenute in

B(R). Di conseguenza si scopre che tutti gli intervalli sono insiemi boreliani. Dati un

numero aleatorio ξ e la sua distribuzione Pξ, si considera la restrizione di Pξ all’insieme

delle semirette (−∞, a] : a ∈ R: (−∞, a]→ Pξ((−∞, a]) con a variabile in R. Si nota che

questa restrizione si può interpretare come funzione della variabile reale a e scrivere

Fξ(a) := Pξ((−∞, a]) (a ∈ R).

La funzione di variabile reale a 7→ Fξ(a) si dice funzione di ripartizione di ξ. Essa gode

di talune proprietà che conviene porre in evidenza. La prima concerne la monotonia

di Fξ e, cioè, il fatto che Fξ è monotona non decrescente. Ciò è dovuto all’implicazione

(−∞, a] ⊂ (∞, a+ h] se h > 0, la quale, unitamente alla monotonia della probabilità (cf.

1.2), implica

Fξ(a) = Pξ((−∞, a]) 6 Pξ((−∞, a+ h]) = Fξ(a+ h)

per ogni a in R e h > 0. In conseguenza della monotonia, gli eventuali punti di dis-

continuità di Fξ costituiscono un insieme numerabile (finito o numerabilmente infinito).

Fra le proprietà di Fξ vanno senz’altro annoverate quelle relative al comportamento ai

limiti:

limx→−∞

Fξ(x) = 0, limx→+∞

Fξ(x) = 1, (2.2)

e alla continuità da destra in eventuali punti a di discontinuità:

limx→a+

Fξ(x) = Fξ(a). (2.3)

Le (2.2), (2.3) sono conseguenza della continuità delle misure di probabilità (cf. Teorema

1.4.3) e della monotonia di Fξ. Infatti ∅ si può vedere come limite della successione

(−∞,−n], n = 1, 2, . . . , per n→ +∞. Quindi,

0 = Pξ(∅) = limn→+∞

Pξ((−∞,−n]) = limn→+∞

= Fξ(−n).

Per stabilire che vale la prima delle (2.2), basta ricordare che Fξ è monotona non decres-

cente, condizione che implica l’esistenza di limx→−∞ Fξ(x). Analogamente, si dimostra

Page 31: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

2.2. DISTRIBUZIONE DI PROBABILITÀ DI UNA VARIABILE ALEATORIA 23

la seconda delle (2.2) osservando che R si può vedere come limite della successione

crescente (−∞, n], n = 1, 2, . . . . Pertanto, per continuità,

1 = Pξ(R) = limn→+∞

Pξ((−∞, n]) = limn→+∞

= Fξ(n)

e la tesi segue, ancora una volta, dalla monotonia di Fξ. Finalmente, per dimostrare

(2.3), si applica la continuità delle misure di probabilità onde ricavare

Fξ(a) = Pξ((−∞, a]) = limn→+∞

Pξ((−∞, a+1

n]) = lim

n→+∞Fξ(a+

1

n);

allora, poiché limx→a+ Fξ(x) esiste in virtù della monotonia di Fξ, ricaviamo

Fξ(a) = limn→+∞

Fξ(a+1

n) = lim

x→a+Fξ(x).

Si ha

Pξ(a, b] = Fξ(b)− Fξ(a)

purché si convenga di porre Fξ(−∞) = 0. Inoltre,

Pξ(a,+∞) = 1− Fξ(a)

per −∞ 6 a < +∞.

In definitiva, data una funzione di ripartizione, si possono fissare immediatamente

le probabilità degli intervalli aperti a sinistra e chiusi a destra. D’altro canto, per la

continuità di Pξ (cfr. Paragrafo 1.4), poiché (a, b) = limn→+∞(a, b − 1/n] vale per ogni a,

b per cui −∞ 6 a < b < +∞, si ha Pξ(a, b) = limn→+∞ Pξ(a, b− 1/n], ovvero

Pξ(a, b) = Fξ(b−)− Fξ(a) (2.4)

dove f(x−0 ) indica limx→x−

0f(x) (purché il limite esista). Infatti, ((a, b− 1/n])n>1 costitu-

isce una successione crescente di insiemi verso l’aperto (a, b) e, pertanto, in virtù della

(i) del Teorema 1.4.3 si ha Fξ(b − 1/n)− Fξ(a) = Pξ((a, b − 1/n])→ Pξ(a, b) per n → +∞e, inoltre, essendo Fξ monotona non decrescente, limn Fξ(b − 1/n) = Fξ(b

−). Vale anche

Pξ[a, b] = Fξ(b)− Fξ(a−) e, in particolare, per a = b = x0

Fξ(x0)− Fξ(x−0 ) = Pξx0.

Ciò chiarisce che l’eventuale salto di Fξ in x0 coincide con la probabilità concentrata nel

singoletto x0. Chiaramente, Pξx0 = 0 se e solo se x0 è un punto di continuità per Fξ.

D’ora in poi caratterizzeremo spesso la distribuzione di probabilità di una variabile

aleatoria mediante la sua funzione di ripartizione.

Page 32: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

24 CAPITOLO 2. NUMERI ALEATORI - DISTRIBUZIONI DI PROBABILITÀ

2.2.2 Perché la funzione di ripartizione merita attenzione

L’importanza della funzione di ripartizione è legata ad un teorema in base al quale una

distribuzione di probabilità su (R,B(R)) (o, equivalentemente, la distribuzione di pro-

babilità di un numero aleatorio) è completamente determinata dalla conoscenza della

relativa funzione di ripartizione. Una formulazione precisa si ottiene introducendo la

definizione di funzione di ripartizione astraendo da quella di un numero aleatorio: si

dice funzione di ripartizione su R una qualunque funzione F : R → R monotona non

decrescente che soddisfa (2.2) e (2.3) con F al posto di Fξ. Allora, il risultato annunciato

si puó formulare come segue

Teorema 2.2.1. Data una funzione di ripartizione su R, F, esiste una ed una sola misura

di probabilità µ∗ su B(R) tale che µ∗(−∞, x] = F (x) valga per ogni x ∈ R.

In preparazione alla dimostrazione consideriamo la classe di intervalli

I := (a, b], (c,+∞) : −∞ 6 a < b < +∞, x > −∞

e mostriamo che la classe U di tutte le unioni finite e disgiunte di tali intervalli è l’al-

gebra generata da I. Poiché ogni algebra contenente I deve contenere anche U , bastadimostrare che U è un’algebra. Infatti, se A =

⊎nk=1 Ik

1 è una unione finita e disgiun-

ta di elementi di I, è evidente che Ac è dello stesso tipo e, quindi, è un elemento di

U . Se anche B =⊎n′

k=1 I′k è una unione finita e disgiunta di elementi di I, si verifica

facilemnte che tale rimane A ∩ B. Infine, R = (−∞,+∞) ∈ I ⊂ U e, con questo, si può

concludere che U è un’algebra. L’algebra U genera, a sua volta, la classe di Borel. Per

questo, basta dimostrare che ogni σ-algebra contenente U contiene tutti gli intervalli

aperti (a, b). A tal fine, si osserva che ogni σ-algebra siffatta deve contenere le unioni

∪n>1(a, b− 1/n] = (a, b) essendo (a, b− 1/n] elementi di I ⊂ U per n = 1, 2, . . . .

Dimostrazione del Teorema 2.2.1. Per ogni elemento di I, poniamo µ((c,+∞)) =

1− F (c), µ((a, b]) = F (b)− F (a) con F (−∞) := 0 e, per A =⊎n

k=1 Ik, µ(A) =∑n

k=1 µ(Ik).

Verifichiamo che µ è una misura di probabilità su U . In primo luogo ci accertiamo che µ

è una funzione su U . Infatti, ogni elemento di U ammette più di una rappresentazione

– dovuta al fatto che ogni elemento di I può a sua volta essere decomposto nella unione

di due intervalli disgiunti – e noi dobbiamo verificare che µ è insensibile alle diverse

rappresentazioni di uno stesso elemento di U . A questo fine, basta appurare che tale

“insensibilità” sussiste se si considera (a, α] ∪ (α, b] al posto di (a, b] e (c, α] ∪ (α,+∞) al

posto di (c,+∞), con α in (a, b] nel primo caso e α in (c,+∞) nel secondo. In effetti, si ha

1⊎ denota l’unione di insiemi disgiunti a dua a due

Page 33: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

2.2. DISTRIBUZIONE DI PROBABILITÀ DI UNA VARIABILE ALEATORIA 25

µ((a, α]∪(α, b]) = µ((a, α])+µ((α, b]) = F (α)−F (a)+F (b)−F (α) = F (b)−F (a) = µ((a, b])

e µ((c, α] ∪ (α,+∞)) = µ((c, α]) + µ((α,+∞)) = F (α) − F (c) + 1 − F (α) = µ((c,+∞)).

Ora, è immediato verificare che µ(R) = 1 e che µ è (grazie alla sua costruzione) fini-

tamente additiva. Per completare la verifica, sarebbe sufficiente mostrare che per og-

ni (Ak)k>1 ⊂ U tale che Ak ց ∅ si ha µ(Ak) ց 0 per k → +∞, cfr. Teorema 1.4.3

(ii). Il fatto che (µ(Ak))k>1 sia monotona non crescente segue dall’addidività finita e

da (1.2). Verifichiamo subito che per ogni ε > 0 si può trovare un sottoinsieme limi-

tato e non vuoto di A′k di Ak tale che Ak ⊃ A′

k (chiusura di A′k) e µ(Ak \ A′

k) 6 ǫ/2k

per k = 1, 2, . . . . Poiché ogni Ak è unione finita e disgiunta di elementi di I, possi-amo limitarci a mostrare che la suddetta proprietà di approssimazione sussiste per

ogni singolo elemento di I. In effetti dati ε, (a, b], (c,+∞) si ha [α, b] ⊂ (a, b] per og-

ni a < α 6 b e [β, γ] ⊂ (c,+∞) per ogni c < β < γ < +∞. Quindi sfruttando

la continuità da destra della funzione di ripartizione F , possiamo fissare α abbastan-

za vicino ad a in modo che µ((a, b] \ (α, b]) = F (α) − F (a) sia minore di ε; inoltre, da

µ((c,+∞) \ (β, γ]) = µ((c, β]) + µ((γ,+∞)) = F (β) − F (c) + 1 − F (γ) vediamo che pos-

siamo fissare β sufficientemente vicino a c (rispettivamente, γ abbastanza grande) in

modo che F (β) − F (c) 6 ε/2 (rispettivamente, 1 − F (γ) 6 ε/2, ricordando che F (γ) ր 1

se γ → +∞). Segue l’esistenza della successione (A′k)k>1 con la disiderata proprietà

di approssimazione. Ora, posto Ck = ∩kj=1A′j per k = 1, 2, . . . , si ha che (Ck)k>1 è una

successione decrescente di compatti con Ck ⊂overlineA′

k ⊂ Ak e, quindi, Ck ց ∅ per k → +∞, ovvero ∩k>1Ck = ∅. Per un classico

teorema (di Cantor) deve allora esistere un intero positivo N per il quali ∩Nk=1Ck = ∅.Ciò implica ∩Nk=1A

′k = ∅ e, per n > N , si ha

µ(An) = µ(An \ ∩nk=1A′k) = µ(An ∩ (∪nj=1(A

′j)

c))

= µ(∪nj=1(An \A′j)) 6 µ(∪nj=1(Aj \A′

j)) (perché An ⊃ Aj se j 6 n)

6

n∑

j=1

µ(Aj \A′j) (subadditività implicata dalla additività finita di µ su U)

6

n∑

j=1

ε

2j6 ε.

Data l’arbitrarietà di ε, la precedente implica µ(An) → 0, come restava da dimostrare

per concludere che µ è misura di probabilità su U . Ricorrendo al teorema di Carathéodory

(cfr. Teorema 1.4.2) si può allora affermare che esiste una ed una sola misura di proba-

bilità µ∗ sulla σ-algebra generata da U , ovvero B(R), per la quale µ∗(A) = µ(A) su ogni

A in U e, in particolare µ∗((−∞, x]) = F (x) per ogni x in R. z

Page 34: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

26 CAPITOLO 2. NUMERI ALEATORI - DISTRIBUZIONI DI PROBABILITÀ

Come conseguenza del teorema si ottiene che, data una funzione di ripartizione F ,

esiste (almeno) un numero aleatorio ξ la cui funzione di ripartizione Fξ coincide con F

su R.

2.2.3 Funzioni di ripartizione di numeri aleatori discreti

Iniziamo con la caratterizzazione delle cosiddette distribuzioni discrete. Sia S un sot-

toinsieme numerabile di R e sia ξ un numero aleatorio il cui codominio è contenuto in

S. Allora, indicata come al solito la distribuzione di ξ con Pξ, risultano soddisfatte le

relazioni seguenti

Pξ(Sc) = 0, Pξs > 0 per ogni s ∈ S,

s∈S

Pξs = 1.

La distribuzione, come pure la funzione di ripartizione di ξ e, a volte, la ξ stessa, in

questo caso viene detta, con leggero abuso di linguaggio, discreta.

Conviene osservare che il grafico di una funzione di ripartizione discreta in cui l’in-

sieme s ∈ S : Pξs > 0 è formato da punti isolati, si presenta come un diagramma a

gradini; ovvero, se con xi si denotano gli elementi di S in ordine crescente, lo stralcio del-

la funzione di ripartizione attorno agli elementi consecutivi xi−1 < xi < xi+1 apparirà

come nella Figura 2.1 dove pi := Fξ(xi)− Fξ(xi−1) rappresenta Pξxi.

Figura 2.1: Funzione di ripartizione di una distribuzione discreta.

Diamo ora alcuni notevoli esempi di distribuzioni discrete.

Distribuzione binomiale

Siano n un intero positivo e θ un elemento fissato dell’intervallo [0, 1], ξ un numero

aleatorio che prende valori in S = 0, 1, 2, . . . n. La distribuzione di ξ si dice binomiale

con parametro (n, θ) [in simboli Bn,θ] se

Pξk =(n

k

)θk(1− θ)n−k per k = 0, 1, 2, . . . , n.

Page 35: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

2.2. DISTRIBUZIONE DI PROBABILITÀ DI UNA VARIABILE ALEATORIA 27

Si osserva immediatamente che(nk

)θk(1−θ)n−k è non negativo. (Si faccia la convenzione

di assumere(nk

)θk(1− θ)n−k = 1 se θ = 0 e k = 0 oppure se θ = 1 e k = n.) Inoltre, per la

formula dello sviluppo del binomio, cf. (A.1), vale

n∑

k=0

Pξk =n∑

k=0

(n

k

)θk(1− θ)n−k = [θ + (1 − θ)]n = 1.

Confrontando Pξk con la parte finale dell’Esempio 1.3.3, si vede che per θ = R/N , Bn,θ

è la distribuzione del numero aleatorio ξ =′′numero di bianche estratte in n estrazioni

con restituzione′′. L’interpretazione di Bn,θ si arricchirà di nuovi elementi interessan-

ti dopo aver introdotto, nel Capitolo 3, la nozione di indipendenza stocastica; cf. la

Sottosezione 3.3.1.

Distribuzione ipergeometrica

Consideriamo ancora un numero aleatorio ξ con n ed S come nel paragrafo precedente.

Per quanto concerne θ si assume che esso coincide con R/N . La distribuzione di ξ si dice

ipergeometrica se

Pξk =

(nk

)Nθ(Nθ−1)...(Nθ−k+1)(N−Nθ)(N−Nθ−1)...(N−Nθ−n+k+1)N(N−1)...(N−n+1)

se n 6 N , Nθ + n−N 6 k 6 Nθ

0 altrove.

In seguito indicheremo tale distribuzione con H(k; θ,N, n). Si vede facilmente, con-

frontandola con la probabilità ottenuta nella prima parte dell’Esempio 1.3.3 che Pξkè la probabilità di avere k palline bianche in n estrazioni senza restituzione da un’urna

che contiene N palline di cui Nθ = R bianche, quando tutte le n–uple estraibili siano

ritenute ugualmente probabili. Si può mostrare che la probabilità ipergeometrica si

avvicina uniformemente a quella binomiale al divergere a all’infinito del rapporto N/n.

In altre parole, se il numero delle palline contenute nell’urna è grande rispetto a quello

delle estratte, allora la probabilità ipergeometrica si può ben approssimare con quella

binomiale; l’approssimazione migliora uniformemente se il divario fra i due numeri n

ed N aumenta divergendo all’infinito. La validità di queste affermazioni segue dalle

seguenti disuguaglianze

H(k; θ,N, n) >

(n

k

)NθN(θ − 1

N ) . . . N(θ − k−1N )N(1− θ)N(1 − θ − 1

N ) . . . N(1− θ − n−k−1N )

Nn

=

(n

k

)θ(θ − 1

N) . . . (θ − k − 1

N)(1− θ)(1 − θ − 1

N) . . . (1− θ − n− k − 1

N)

>

(n

k

)(θ − k

N

)k (1− θ − n− k

N

)n−k

;

Page 36: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

28 CAPITOLO 2. NUMERI ALEATORI - DISTRIBUZIONI DI PROBABILITÀ

H(k; θ,N, n) =

(n

k

)θk(1− θ)n−k Nn

N(N − 1) . . . (N − n+ 1)

Nθ . . . (Nθ − k + 1)(N −Nθ) . . . (N −Nθ − (n− k) + 1)

(Nθ)k(N −Nθ)n−k

<

(n

k

)θk(1− θ)n−k Nn

N(N − 1) . . . (N − n+ 1)<

(n

k

)θk(1 − θ)n−k 1

(1− n/N)n.

Distribuzione di Poisson

Sia ξ una variabile aleatoria tale che

Pξk =λke−λ

k!

valga per ogni k intero non negativo con λ parametro strettamente positivo assegna-

to. La funzione k 7→ Pξk genera una distribuzione di probabilità su B(R) in quanto

Pξk > 0 per ogni k = 0, 1, 2, . . . e, inoltre,

k>0

Pξk =∑

k>0

λke−λ

k!= e−λeλ = 1.

Tale distribuzione si dice di Poisson. Essa viene spesso utilizzata come legge del numero

aleatorio degli arrivi in una coda, o di un numero aleatorio di nascite in un’unità di

tempo. È interessante osservare che la si può leggere come limite di una successione di

distribuzioni binomiali. Più precisamente, per ogni n > 1 si definisca la distribuzione

binomiale Bn,θn con θn = λn + o(1/n), n→ +∞:

Bn,θnk =(n

k

)θkn(1− θn)

n−k.

Quindi, per k = 0, 1, . . . , n,

Bn,θnk =1

k!n(n− 1) · · · (n− k + 1)

n+ o

(1

n

))k (1− λ

n+ o

(1

n

))n−k

=

=1

k!1

(1− 1

n

)· · ·(1− k − 1

n

)(λ+ n · o

(1

n

))k (1− λ

n+ o

(1

n

))n−kn→+∞−−−−−→ 1

k!λke−λ.

Distribuzione binomiale negativa

I numeri (n+ r − 1

r

)θn(1 − θ)r, r = 0, 1, . . .

Page 37: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

2.2. DISTRIBUZIONE DI PROBABILITÀ DI UNA VARIABILE ALEATORIA 29

sono ovviamente strettamente positivi quando n è un intero fissato maggiore di zero e θ

è un numero qualunque in (0, 1). Inoltre, sotto queste medesime condizioni,

r>0

(n+ r − 1

r

)θn(1− θ)r =

r>0

(n+ r − 1) · · ·nr!

θn(1− θ)r

=∑

r>0

(−1)r (−n)(−n− 1) · · · (−n− r + 1)

r!θn(1− θ)r

=∑

r>0

(−1)r(−n

r

)θn(1− θ)r

= θn[1− (1− θ)]−n = 1.

Quindi,

Pξr =(n+ r − 1

r

)θn(1− θ)r r = 0, 1, . . .

definisce una distribuzione di probabilità discreta che è nota come legge binomiale neg-

ativa. Vedremo che nello schema di eventi indipendenti con probabilità fissa θ, descritto

nel prossimo capitolo,(n+r−1

r

)· ·θn(1 − θ)r fornisce la probabilità che l’n-esimo successo

si verifichi nella (n+ r)-esima prova. Quando n = 1, la distribuzione è detta geometrica

o di Pascal; legge del tempo in cui si verifica il primo successo. z

2.2.4 Funzioni di ripartizione assolutamente continue

Consideriamo ora una funzione non negativa f : R → R+, integrabile su R e tale che∫ +∞−∞ f(x) dx = 1, ovvero lima→−∞,b→+∞

∫ b

af(x) dx = 1. A tale f associamo la funzione

integrale

F (x) =

∫ x

−∞f(t) dt (x ∈ R).

Si dimostra facilmente che F è monotona non decrescente, con limx→−∞ F (x) = 0 e

limx→+∞ F (x) = 1. Inoltre, F è continua ovunque e, da questo punto di vista, presenta

una forma di continuità speciale che si chiama assoluta continuità: F è derivabile quasi

ovunque e vale F ′(x) = f(x) quasi ovunque. (Una proprietà si dice valida quasi ovunque

su R se l’eventuale insieme su cui non vale è ricopribile per ogni ε > 0 con una classe

numerabile di intervalli la somma delle cui lunghezze non supera ε.)

La funzione f è nota come funzione di densità della funzione di ripartizione F .

Proseguiamo con qualche esempio notevole di funzione di ripartizione assolutamente

continua.

Page 38: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

30 CAPITOLO 2. NUMERI ALEATORI - DISTRIBUZIONI DI PROBABILITÀ

Distribuzione uniforme

Fissato l’intervallo non vuoto e limitato (a, b) si consideri la funzione

f(x) =1

b − a11(a,b)(x)

che, ovviamente, vale 1b−a su (a, b) ed è nulla altrove. Tale funzione è non negativa e

∫ +∞

+∞f(x) dx =

∫ b

a

1

b− adx = 1.

Quindi, f è una funzione di densità [cf. Figura 2.2] che, per la sua forma, è detta uni-

forme su (a, b).

a b

1/(b−a)

Figura 2.2: Densità uniforme

La corrispondente funzione di ripartizione [cf. Figura 2.3] è data da

F (x) =

∫ x

−∞

1

b− a11(a,b)(t) dt =

0 se x 6 ax− a

b− ase a < x 6 b

1 se x > b

.

Distribuzione esponenziale negativa e, più in generale, gamma

Si suddivida l’asse dei tempi nella successione d’intervalli contigui: [0,∆], (∆, 2∆],

(2∆, 3∆], . . .. Al j-esimo di tali intervalli sia associato l’evento Ej,∆ “si verifica almeno un

Page 39: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

2.2. DISTRIBUZIONE DI PROBABILITÀ DI UNA VARIABILE ALEATORIA 31

Figura 2.3: Funzione di ripartizione con densità uniforme

guasto, in un certo impianto, nel j-esimo intervallo temporale”, j = 1, 2, . . . La probabilità

di ciascun Ej,∆ sia

λ∆+ o(∆) (∆→ 0),

dove λ è un parametro positivo. Anticipando argomenti trattati nei Capitoli 3 e 4, se si

fa l’ipotesi che i numeri (aleatori) di eventi, che si verificano in intervalli disgiunti, sono

stocasticamente indipendenti con probabilità che dipendono solo dalle lunghezze degli

intervalli, allora l’espressione

(1− λ∆+ o(∆))k

dà la probabilità che il primo evento (guasto) si manifesti dopo l’istante k∆. Fissiamo

t > 0 e consideriamo l’evento

At = ”nessun guasto si verifichi prima di t ”.

Considerato che la parte intera del rapporto (t/∆), [t/∆], corrisponde al numero di

intervalli completi contenuti in [0, t], si ha

A([t/∆]+1)∆ ⊂ At ⊂ A([t/∆])∆

e, per la monotonia della probabilità [vedi (1.2)]

ProbA([t/∆]+1)∆ 6 ProbAt 6 ProbA([t/∆])∆.

Si osservi ora che valgono

ProbA([t/∆])∆ = (1− λ∆+ o(∆))[t/∆],

P robA([t/∆]+1)∆ = (1− λ∆+ o(∆))[t/∆]+1,(2.5)

Page 40: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

32 CAPITOLO 2. NUMERI ALEATORI - DISTRIBUZIONI DI PROBABILITÀ

e che, per il limite notevole che definisce la base dei logaritmi neperiani, le (2.5), con-

vergono, per ∆ tendente a 0, a e−λt. Quindi per il teorema del confronto, se ξ denota

l’istante in cui si verifica il primo guasto nel modello a tempo continuo, il valore sopra

determinato rappresenta Pξ(t,+∞). In altri termini Pξ(−∞, t] = 1 − e−λt fornisce, per

ogni t > 0, la probabilità che il primo guasto si verifichi non oltre t. Si vede agevolmente

che la funzione

F (t) =

0 t 6 0

1− e−λt t > 0

è di ripartizione. Inoltre, poiché

F (x) =

∫ x

−∞λe−λt11(0,+∞)(t) dt

vale per ogni x, ricaviamo che F è assolutamente continua con densità λe−λt11(0,+∞)(t).

Essa è detta distribuzione esponenziale negativa.

Sotto le stesse condizioni d’indipendenza stocastica, ma con calcoli necessariamente

più elaborati, si trova che la probabilità di avere un numero di guasti non superiore a

(m− 1), nell’intervallo [0, t) è data da

1− λm

(m− 1)!

∫ t

0

ym−1e−λy.

Denotato allora con ξm l’istante aleatorio in cui si verifica l’m-esimo guasto, risulterà

Pξn(t,+∞) = 1− λm

(m− 1)!

∫ t

0

ym−1e−λy dy.

Nella teoria delle funzioni speciali si chiama funzione gamma la seguente

z 7→ Γ(z) :=

∫ +∞

0

xz−1e−x dx (z > 0).

Integrando per parti, si scopre che essa soddisfa la relazione

Γ(z + 1) = zΓ(z) (z > 0)

e, quindi, se z = m intero positivo, si ricava

Γ(m+ 1) = m!.

Per quanto detto,

f(x) =

0 se x < 0λm

Γ(m)xm−1e−λx se x > 0

è una funzione di densità di probabilità la cui corrispondente funzione di ripartizione

(assolutamente continua)

F (x) =

∫ x

−∞

λm

Γ(m)um−1e−λu11(0,+∞)(u) du (x ∈ R)

Page 41: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

2.2. DISTRIBUZIONE DI PROBABILITÀ DI UNA VARIABILE ALEATORIA 33

si chiama funzione di ripartizione gamma, come la distribuzione di probabilità che essa

genera. Si è visto, dunque, che essa rappresenta, sotto opportune condizioni, la legge

dell’istante di accadimento dell’m-esimo di una successione di eventi. Notiamo che la

distribuzione esponenziale negativa è un caso particolare di distribuzione gamma (con

m = 1).

Completiamo le informazioni sulla funzione gamma aggiungendo che vale Γ(1/2) =√π. Infatti,

Γ(1/2) =

∫ +∞

0

x−1/2e−x dx = 2

∫ +∞

0

e−t2 dt (per il cambiamento di variabile t =√x).

Ora, posto I :=∫ +∞0 e−t2 dt, si ottiene

I2 =

∫ +∞

0

∫ +∞

0

e−(x2+y2) dxdy

e, passando a coordinate polari,

I2 =

∫ π/2

0

∫ +∞

0

e−ρ2

ρ dρdθ =

∫ π/2

0

1

2dθ =

π

4.

Pertanto, I =√π/2 e Γ(1/2) = 2I =

√π.

Distribuzione gaussiana

Si tratta di una distribuzione assolutamente continua avente densità

f(x) =1

σ√2π

exp

− (x−m)2

2σ2

(x ∈ R)

con m, σ parametri: m ∈ R, σ > 0. Per convincersi che f è una densità basta osservare

che essa è strettamente positiva su R e che

∫ +∞

−∞f(x) dx =

∫ +∞

−∞

1√πexp(−y2) dy (col cambiamento di variabile y = (x−m)/σ

√2 )

=2√π

∫ +∞

0

e−y2

dy (per simmetria)

= 1 (cf. la fine della sottosezione precedente).

La corrispondente funzione di ripartizione è data da

F (x) =1

σ√2π

∫ x

−∞e−

(y−m)2

2σ2 dy =1√2π

∫ (x−m)/σ

−∞e−

ξ2

2 dξ. (2.6)

La funzione di densità di probabilità

x 7→ 1√2π

exp

(−x2

2

)(x ∈ R)

Page 42: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

34 CAPITOLO 2. NUMERI ALEATORI - DISTRIBUZIONI DI PROBABILITÀ

è la cosiddetta densità gaussiana standard la cui funzione di ripartizione si denota,

usualmente, con Φ. Allora, in virtù di (2.6), si ha

F (x) = Φ

(x−m

σ

)(x ∈ R).

L’importanza della distribuzione gaussiana è legata al teorema centrale del limite, teo-

rema al quale accenneremo in una delle prossime lezioni. Cf. Capitolo 7. z

2.2.5 Funzioni di ripartizione di natura qualunque. Cenni

Un teorema di Lebesgue permette di stabilire che ogni funzione di ripartizione si de-

compone, in un unico modo, nella combinazione convessa di funzioni di ripartizione di

tre tipi: discreta, assolutamente continua, continua–singolare. Più precisamente, data

una funzione di ripartizione F , esistono una terna di numeri non negativi c1, c2, c3

con c1 + c2 + c3 = 1 e una terna di funzioni di ripartizione Fd (discreta), Fac (assoluta-

mente continua), Fcs (continua–singolare) tali che F = c1Fd + c2Fac + c3Fcs. Qualche ci

potrebbe essere nulla; finora, ad esempio, ci siamo occupati di funzioni di ripartizione

con c2 = c3 = 0 oppure con c1 = c3 = 0. Illustriamo il significato del teorema di Lebesgue

ricorrendo a qualche esempio.

Esempio di funzione di ripartizione con componente discreta e componente

assolutamente continua

Si considera una tariffa adottata da una compagnia di assicurazione in base alla quale

se l’importo del sinistro (assicurato) è minore di un valore prestabilito, m, la compagnia

non effettua alcun risarcimento; se l’importo supera il valore M > m, allora la com-

pagnia risarcisce M ; la compagnia rimborsa l’importo del sinistro se questo è compreso

nell’intervallo [m,M ]. Ai fini della determinazione del premio – da pagarsi all’atto della

stipulazione del contratto di assicurazione – la compagnia deve fissare la distribuzione

del numero aleatorio associato al risarcimento. In base all’esperienza ed alle caratteris-

tiche specifiche dei contraenti e del sinistro assicurato, la compagnia può determinare la

distribuzione dell’importo del sinistro (si badi, non ancora quella del risarcimento). Sup-

poniamo che la funzione di ripartizione di tale importo (x) sia assolutamente continua

con la cosiddetta densità di Pareto

p(s) =βαβ

sβ+111(α,+∞)(s)

Page 43: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

2.2. DISTRIBUZIONE DI PROBABILITÀ DI UNA VARIABILE ALEATORIA 35

dove α, β sono parametri positivi noti, con α < m. Da essa si può dedurre la legge del

risarcimento (r) tenendo presente che vale

r = x11[m,M ](x) +M11(M,+∞)(x).

Cf. Figura 2.4.

Figura 2.4: Diagramma del risarcimento in funzione dell’importo del sinistro.

Allora, indicata con F la funzione di ripartizione del risarcimento, F (z) = Pr 6 z,si ha

F (z) =

0 se z < 0∫ m

0

βαβ

xβ+111(α,+∞)(x)dx se 0 6 z < m

∫ z

0

βαβ

xβ+111(α,+∞)(x)dx se m 6 z 6 M

1 se z > M

=

0 se x < 0

1− (α/m)β se 0 6 x < m

1− (α/x)β se m 6 x 6 M

1 se x > M

.

Il diagramma di questa funzione di ripartizione è visualizzata nella Fig. 2.5

Esso pone in evidenza l’esistenza di due masse concentrate in 0 e in M , esse valgono,

rispettivamente, 1− (α/m)β e (α/M)β . Consideriamo quindi la funzione di ripartizione

discreta ottenuta normalizzando queste masse, ossia

Fd(x) =1

1− (α/m)β + (α/M)β

11[0,M)(x)

[1−

( α

m

)β]+ 11[M,+∞)(x)

[1−

( α

m

)β+( α

M

)β].

Page 44: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

36 CAPITOLO 2. NUMERI ALEATORI - DISTRIBUZIONI DI PROBABILITÀ

Figura 2.5: Funzione di ripartizione del risarcimento.

Quindi, si osservi che vale

F (x)− 11[0,M)(x)

[1−

( α

m

)β]− 11[M,+∞)(x)

[1−

( α

m

)β+( α

M

)β]=

= 11[m,M)(x)

[( α

m

)β−(αx

)β]+ 11[M,+∞)(x)

[( α

m

)β−( α

M

)β]=

=

∫ x

−∞βαβu−β−111(m,M)(u) du =

[( α

m

)β−( α

M

)β]Fac(x)

e, pertanto, per ogni x in R si ha

F (x) =

[1−

( α

m

)β+( α

M

)β]Fd(x) +

[( α

m

)β−( α

M

)β]Fac(x)

con Fac =[(

αm

)β −(

αM

)β]−1 ∫ x

−∞ βαβu−β−111(m,M)(u) du. z

Esempio di funzione di ripartizione continua singolare.

Si dá un esempio di funzione di ripartizione su R che è ovunque continua ma (come nel

caso di funzioni di ripartizione discrete) ha derivata nulla quasi ovunque.

Una tale funzione di ripartizione non può allora essere assolutamente continua percheé,

in tal caso, essa coinciderebbe con l’integrale della propria derivata su (−∞, x] per ogni

x e, dunque, la derivata non potrebbe essere nulla quasi ovunque.

L’esempio viene costruito per mezzo di un passaggio al limite, per n → +∞, dopo

aver eseguito n “passi” come segue.

Al passo 1, si suddivide l’intervallo unitario in tre parti e si considera una qualunque

funzione F monotona non decrescente che sull’intervallo centrale [1/3, 2/3) prende val-

ore costante = 1/2. Al passo 2, ciascuna delle parti restanti viene suddivisa in tre parti

Page 45: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

2.3. INTERPRETAZIONI DI UNA DISTRIBUZIONE SULL’ASSE REALE 37

di uguale lunghezza e, fra le funzioni individuate nel passo 1 si considerano quelle che

sugli intervalli centrali [1/9, 2/9),[7/9, 8/9) prendono valore costante uguale, rispettiva-

mente a 1/4 e 3/4. Al passo 3, ciascuna delle 4 parti rimanenti viene suddivisa in 3

parti uguali e, fra le sunzioni individuate al passo 2 si considerano soltanto quelle che,

sui tratti centrali [1/27, 2/27), [7/27, 8/27),[19/27, 20/27), [25/27, 26/27), prendono valore

costante uguale, rispettivamente, a 1/8, 3/8, 5/8, 7/8. Procedendo così, dopo n passi,

si considerano quelle funzioni monotone non decrescenti che prendono valore costante

uguale a 1/2n, 3/2n, . . . , (2n− 1)/2n, sugli intervalli centrali (in numero di 2n−1) di quelli

lasciati liberi dopo il passo (n − 1), ciascuno di luneghezza 1/3n. Pertanto le funzioni

da considerare prima del passo successivo hanno derivata nulla sull’unione di tutti gli

intervalli centrali definiti fino al passo n, unione che ha lunghezza

Ln =1

3+

2

9+ · · ·+ 2n−1

3n;

inoltre, le funzioni non continue, fra quelle considerate, hanno salti di ampiezza mas-

sima αn 6 1/2n. Allora, mandando il numero dei passi a +∞, si viene ad isolare una

funzione non decrescente (passa da 0 a 1) F definita su [0, 1), che è continua (perché

αn → 0) e ha derivata nulla su un insieme unione di intervalli di lunghezza complessiva

L = limn

Ln = 1

che è anche la lunghezza di [0, 1). Pertanto, prolungando F in una funzione G co-

incidendte con F su [0, 1), e che vale 0 su (−∞, 0) e 1 su [1,+∞), si ricava che G

è una funzione di ripartizione continua su R con derivata quasi ovunque nulla su R

e, di conseguenza, non assolutamente continua. Essa è crescente su un insieme (dei

“buchi” lasciati liberi dagli intervalli su cui è costante) di misura (di Lebesgue) nulla o

–equivalemntemente – distribuisce la massa unitaria in tale insieme di misura nulla.

Per questo, costituisce un esempio di funzione di ripartizione singolare (rispetto alla

misura di Lebesgue).

2.3 Interpretazioni di una distribuzione sull’asse reale

Abbiamo finora trattato di distribuzioni di probabilità. Nel caso più elementare, si è

considerato un numero aleatorio che può assumere un numero finito di determinazioni,

e , quindi, la sua distribuzione fissa le probabilità con cui esso prende le determinazioni

possibili.

Un concetto analogo si incontra in statistica. Dati N individui, da suddividere a

seconda di una certa caratteristica che ammette k modalità: µ1, . . . , µk, si ottengono k

Page 46: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

38 CAPITOLO 2. NUMERI ALEATORI - DISTRIBUZIONI DI PROBABILITÀ

gruppi contenentiN1, . . . , Nk individui, rispettivamente: N1+ · · ·+Nk = N . Ad esempio,

nella “Relazione del Nucleo di Valutazione dell’Università di Pavia” per il 1998 si legge

che, per certi fini, i 1134 ricercatori vengono suddivisi per comitato; esistono 9 comitati

[01: Scienze matematiche, informatiche, Ingegneria elettrica, elettronica e meccani-

ca (128); 02: Scienze fisiche (81); . . . ; 09: Scienze economiche e statistiche (107)]. Le

frazioni ϕk = Nk/N [nel caso dei ricercatori: ϕ1 = 0, 1129, ϕ2 = 0, 0714, . . .] si dicono

frequenze ed è evidente che esse danno luogo ad una distribuzione che ha le stesse pro-

prietà di una distribuzione di probabilità. Essa si chiama distribuzione statistica perché

ha frequenze al posto di probabilità. Una distribuzione statistica ha comunque una in-

terpretazione come distribuzione di probabilità: se scelgo a caso uno degli N individui

(ogni individuo può uscire con probabilità 1/N ), allora la probabilità che possegga la

modalità µi è ϕi.

Le probabilità o le frequenze ϕ1, . . . , ϕk sulle ascisse µ1, . . . , µk possono essere viste,

inoltre, come masse materiali, nel senso della meccanica, e la distribuzione si può allora

interpretare come suddivisione della massa unitaria fra i punti µ1, . . . , µk.

Page 47: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

Capitolo 3

Probabilità condizionata e

indipendenza stocastica

3.1 Considerazioni introduttive

Abbiamo trattato, finora, soltanto di probabilità di eventi che possono risultare Veri o

Falsi. Tuttavia, il calcolo delle probabilità si occupa, per soddisfare esigenze applica-

tive concrete, anche di eventi il cui campo di possibilità è limitato da qualche specifica

condizione. Si parla, allora, di eventi condizionati o subordinati. Per esempio, relativa-

mente a una partita di calcio che vedrà impegnate le squadre A e B, si può scommettere

sulla vittoria di A [ricevendo una somma di denaro prestabilita se A vince e perdendo la

posta se A non vince: perde o pareggia], ma si può scommettere sulla vittoria di A nel-

l’ipotesi che la partita si chiuda con la vittoria di una delle squadre in campo. Dunque

l’evento “vittoria di A” viene subordinato alla condizione che una delle due squadre vin-

ca. Di conseguenza, lo scommettitore incassa se A vince, perde se vince B, mentre vede

annullata la scommessa nel caso la partita non termini con la vittoria di una delle due

squadre. Si noti la differenza rispetto alla situazione precedente della scommessa sulla

vittoria di A.

Una situazione concettualmente analoga si presenta – con riferimento al cosiddetto

processo di apprendimento dall’esperienza – quando si debba valutare la probabilità di

una certa ipotesiH subordinatamente al fatto che un determinato esperimento abbia un

certo esito, fatto espresso a sua volta da un evento E. Si tratta di valutare la probabilità

di H condizionatamente a un ipotetico incremento d’informazione espresso dall’evento

39

Page 48: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

40CAPITOLO 3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA STOCASTICA

E.

Siano E, H , con E 6= ∅, eventi contenuti in una classe C di parti di Ω che includa an-

che l’intersezione E ∩H . Ciò è automaticamente soddisfatto se C è un’algebra. L’evento

“H condizionato da E” (detto anche evento “H subordinato a E”) si può rappresentare,

come nella Figura 3.1, restringendo (come accennato all’inizio del paragrafo) le possibil-

ità all’insieme dei casi elementari che costituiscono E e, quindi, considerando successo

[rispettivamente, insuccesso] il presentarsi di un caso elementare contenuto in H ∩ E

[rispettivamente, il presentarsi di un caso elementare contenuto in E \H].

Si usa indicare l’evento “H condizionato da E” col simbolo H |E.

Si noti che vale H |E = H ∩ E|E ovvero, il generico evento condizionato H |E si può

scrivere in forma irriducibile come H ∩ E|E.

Figura 3.1: L’evento “H condizionato da E” è vero nella zona punteggiata, falso in quella

sfumata, indeterminato nella zona bianca.

Veniamo a fare qualche osservazione preliminare sulla valutazione della probabilità

di H |E. Supponiamo che un individuo giudichi P (E) = 0, 90 la probabilità che si ver-

ifichi E e P (H |E) = 0, 60 la probabilità che si verifichi H nell’ipotesi che E sia vero.

Possiamo reinterpretare questo sistema di valutazione così: l’individuo in questione si

impegna a pagare 0,60 euro nel caso si verifichi E, per ricevere 1 euro se si verifica

H ∩E; per vincere 0,60 euro nel caso si verifichi E si impegna a pagare 0,60 · 0,90=0,54euro. In definitiva, pagando 0,54 euro, il nostro giocatore acquista il diritto a ricevere 1

euro se si verificano simultaneamente H ed E; quindi, 0,54 si può riguardare come una

valutazione della probabilità di H ∩ E coerente con i valori di P (H |E) e P (E). Questo

punto di vista sarebbe in accordo con quanto suggerito dalla precedente immagine ge-

ometrica. Poiché, considerare H |E significa concentrare l’attenzione ai punti contenuti

in E (zona sfumata per l’insuccesso, punteggiata per il successo), allora la probabilità di

Page 49: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

3.2. PRINCIPIO DELLE PROBABILITÀ COMPOSTE E TEOREMA DI BAYES 41

E va vista come nuova unità di misura, ovvero: P (H |E) = P (H ∩ E)/P (E), equivalente

a 0, 60 = P (H ∩ E)/0, 90.

3.2 Principio delle probabilità composte e teorema di

Bayes

Nell’impostazione assiomatica di Kolmogorov, la probabilità di H |E [nelle condizioni

dichiarate nella sezione precedente] viene definita, coerentemente alle osservazioni già

svolte, come un numero P (H |E) che soddisfa la relazione

P (H |E)P (E) = P (H ∩ E) (3.1)

ossia il principio delle probabilità composte. Quando P (E) 6= 0, (3.1) determina la

probabilità di P (H |E),

P (H |E) = P (H ∩E)/P (E),

prolungando P da C a C ∪ H |E.A questo punto si pone in evidenza che, per un evento E fissato in un’algebra C con

P (E) > 0, la funzione

H 7→ P (H |E) (H ∈ C)

è una misura di probabilità su C. Infatti, (1) P (H |E) = P (H ∩ E)/P (E) > 0; (2) se H

appartiene a C e contiene E, allora P (H |E) = P (H ∩E)/P (E) = P (E)/P (E) = 1, da cui,

in particolare P (Ω|E) = 1; (3) se A1, A2, . . . e ∪n>1An appartengono a C, con gli Ai a due

a due incompatibili, allora

P (∪n>1An|E) =1

P (E)P (E ∩ (∪n>1An))

=1

P (E)P (∪n>1(E ∩ An)) =

1

P (E)

n>1

P (E ∩ An)

=∑

n>1

1

P (E)P (E ∩ An) =

n>1

P (An|E)

In molti casi, praticamente significativi come quello dei procedimenti di apprendimento

(l’induzione statistica ne sarebbe esempio tipico), si suppongono assegnate le probabili-

tà:

– P (E|H) del risultato sperimentale data l’ipotesi H , P (E|Hc) del risultato speri-

mentale data Hc,

– P (H) dell’ipotesi (probabilità iniziale)

Page 50: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

42CAPITOLO 3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA STOCASTICA

e si procede alla determinazione di P (H |E) (probabilità finale). Allora, dalla definizione

di P (E|H), cioè

P (E|H)P (H) = P (H ∩ E),

segue

P (E|H)P (H) = P (H |E)P (E)

ovvero

P (H |E) =P (E|H)P (H)

P (E)se P (E) 6= 0 (3.2)

che fornisce l’espressione più elementare del teorema di Bayes.

Infatti, con considerazioni semplici è possibile generalizzare questo teorema a par-

tizioni numerabili di ipotesi. Si dice che la famiglia di eventi Hn : n > 1 è una

partizione dello spazio Ω dei casi elementari se Hn 6= ∅ per ogni n, Hn ∩ Hm = ∅ se

n 6= m,⋃

n>1 Hn = Ω. Quindi, per ogni (misura di ) probabilità P , vale

1 = P (Ω) = P

n>1

Hn

=

n>1

P (Hn).

Inoltre, per ogni evento E vale

E = E ∩

n>1

Hn

=

n>1

(E ∩Hn) (proprietà distributiva).

Quindi, risultando gli eventi E ∩ Hn, n > 1, a due a due incompatibili, si ha [disinte-

grazione della probabilità di E su (Hn)n>1]

P (E) =∑

n>1

P (E ∩Hn). (3.3)

Se in un problema sono assegnate le probabilità

– P (E|Hn), n > 1 [n 7→ P (E|Hn) è detta verosimiglianza delle ipotesi Hn, dato E],

– P (Hn), n > 1 [n 7→ P (Hn) è detta distribuzione iniziale],

si può determinare P (E) notando che (3.3) e il principio delle probabilità composte

implicano

P (E) =∑

n>1

P (E|Hn)P (Hn)

e, per il teorema “ristretto′′ di Bayes (3.2), a patto che P (E) sia strettamente positiva, si

perviene alla forma classica dello stesso teorema

P (Hn|E) =P (E|Hn)P (Hn)∑n>1 P (E|Hn)P (Hn)

(n > 1). (3.4)

Page 51: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

3.2. PRINCIPIO DELLE PROBABILITÀ COMPOSTE E TEOREMA DI BAYES 43

3.2.1 Alcuni esempi

Concludiamo il paragrafo con qualche esempio nel quale si applicano i concetti e le

regole di calcolo esposti in precedenza.

Poker Si calcoli la probabilità di realizzare, in una data mano di poker, una scala reale

[la mano che comprende 10, J, Q, K, A dello stesso seme], nell’ipotesi che tutte le

mani possibili abbiano la stessa probabilità. Il numero delle mani possibili è(525

);

quindi denotato con Ω l’insieme delle mani possibili e con ω la mano generica, si

ha

P (ω) = 1/

(52

5

).

Indicato con R l’evento “la mano è una scala reale”, si vede che R è formato da 4

elementi di Ω e, quindi,

P (R) = 4/

(52

5

).

Poniamo ora che il mazziere scopra l’ultima carta della tua mano (la quinta); va-

luta la probabilità di realizzare scala reale accettando la carta scoperta che, sup-

poniamo, è l’asso di cuori. Se denotiamo con C l’evento “la quinta carta che ti si

distribuisce è l’asso di cuori”, l’evento di cui si chiede di valutare la probabilità è

l’evento condizionatoR|C. Il numero delle mani con la caratteristica di avere l’asso

di cuori in quinta posizione (o una carta qualunque fissata in una data posizione)

è(514

)e, pertanto,

P (C) =

(51

4

)/

(52

5

)

e, perciò,

P (R|C) =P (R ∩ C)

P (C)=

(P (R ∩C)/

(51

4

))(52

5

).

Inoltre, R ∩ C contiene un solo caso elementare: la scala reale di cuori. Pertanto,

P (R ∩ C) =(525

)−1e, di conseguenza,

P (R|C) = 1/

(51

4

)=

13

5P (R).

Page 52: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

44CAPITOLO 3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA STOCASTICA

Probabilità di essere imbrogliati Un’industria automobilistica fabbrica uno stesso

modello in tre diversi stabilimenti: A, B, C. Si stima che A produce NA mod-

elli, B produce NB modelli e C produce NC modelli, rispettivamente con una

frazione pA, pB, pC di difettosi. Se acquisti, presso un concessionario, un esem-

plare del modello, qual è la probabilità di trovarlo difettoso? Si possono formula-

re tre ipotesi, circa la provenienza dell’esemplare, che formano una partizione di

Ω: H1=“l’esemplare proviene dallo stabilimento A”; H2=“l’esemplare proviene dallo

stabilimento B”; H3=“l’esemplare proviene dallo stabilimento C”. Indicato con D

l’evento “l’esemplare acquistato è difettoso”, si ha

P (D|H1) = pA, P (D|H2) = pB, P (D|H3) = pC .

Inoltre, è ragionevole valutare le P (Hi) nel modo seguente

P (H1) =NA

N, P (H2) =

NB

N, P (H3) =

NC

N, (N := NA +NB +NC)

Quindi,

P (D) = P (D ∩H1) + P (D ∩H2) + P (D ∩H3) = pANA

N+ pB

NB

N+ pC

NC

N.

Ora, nell’ipotesi che il modello acquistato sia difettoso, calcola la probabilità che

provenga, rispettivamente, da A, B, C:

P (Hi|D) =1

P (D)P (Hi ∩D) =

1

P (D)×

pANA

Nper i = 1

pBNB

Nper i = 2

pCNC

Nper i = 3

.

Test clinico Si considera un test clinico ideato per rivelare una malattia rara che si

presenta in un caso su 100.000. Il test è abbastanza affidabile: per un individuo

affetto rivela la presenza della malattia con probabilità 0,95; per un individuo non

affetto segnala la malattia (sbagliando, dunque) con probabilità 0,005. Calcolare la

probabilità che un individuo, per il quale il test è positivo, sia affetto dalla malattia

in questione. Consideriamo gli eventi: M=“l’individuo è affetto dalla malattia”;

R=“il test è positivo”; dobbiamo valutare P (M |R), sapendo che P (R|M) = 0.95,

P (R|M c) = 0, 005, P (M) = 0, 00001. Allora

P (M |R) =P (R|M)P (M)

P (R|M)P (M) + P (R|M c)P (M c)

=0, 95 · 0, 00001

0, 95 · 0, 00001+ 0, 005 · 0.99999 = 0, 0018964.

Page 53: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

3.2. PRINCIPIO DELLE PROBABILITÀ COMPOSTE E TEOREMA DI BAYES 45

Ancora i dadi. . . Una coppia di dadi equilibrati viene lanciata in aria. Nell’ipotesi che

la faccia presentata dal primo dado sia 3, qual è la probabilità che il punteggio

totale superi 6? Detto Ω lo spazio dei casi elementari (l’insieme delle coppie or-

dinate (i, j) con i=punteggio del primo dado e j=punteggio del secondo dado), si

ha |Ω| = 36. Indichiamo con E l’evento che si verifica se i = 3 e con F l’evento

(i, j) ∈ Ω : 3 + j > 6. La probabilità richiesta è

P (F |E) = P (F ∩E)/P (E).

Mettendo a frutto la condizione espressa sui dadi, sarà ragionevole ritenere uguale

a 1/36 la probabilità di ogni caso elementare. Quindi: P (E) = 6/36, P (F∩E) = 3/36

e, di conseguenza,

P (F |E) = 3/6 = 1/2.

Sesso dei figli Si considerano le famiglie con due figli. Questi ultimi, classificati in or-

dine di nascita e in base al sesso, danno luogo alle possibilità seguenti: MM,MF,

FM,FF. Nell’ipotesi che le quattro possibilità siano ugualmente probabili, si

chiede di calcolare la probabilità che i figli siano entrambi maschi, nell’ipotesi che

almeno uno sia maschio. Si ha

P (MM |MM ∨MF ∨ FM) =1/4

3/4=

1

3.

[Si badi, non 1/2] Calcolare la probabilità che i figli siano entrambi maschi nel-

l’ipotesi che il più giovane sia maschio:

P (MM |MM ∨MF ) =1/4

2/4=

1

2.

Urne Si considerano due urne contenenti palline colorate. La prima contiene 3 palline

bianche e 2 rosse, la seconda contiene 3 palline bianche e 4 rosse. Si estrae una

pallina a caso dalla prima urna e la si ripone nella seconda; quindi si estrae una

pallina a caso dalla seconda urna e si chiede di valutare che essa sia rossa. In-

dichiamo con R2 quest’ultimo evento, e con B1 e R1, rispettivamente, l’estrazione

di bianca e di rossa dalla prima urna. Allora,

P (R2) = P (R2∩B1)+P (R2∩R1) = P (R2|B1)P (B1)+P (R2|R1)P (R1) =4

8

3

5+5

8

2

5=

22

40.

Page 54: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

46CAPITOLO 3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA STOCASTICA

3.3 Correlazione fra eventi e indipendenza stocastica

Nel confronto fra P (H |E) e P (H) potrebbe presentarsi una delle circostanze seguenti:

(i) P (H |E) > P (H), (ii) P (H |E) < P (H), (iii) P (H |E) = P (H).

La (iii) dice che assumere la verità di E non ha alcuna influenza sulla probabilità

di H ; si dice allora che H non dipende stocasticamente da E. Analogamente, la (i)

[rispettivamente, la (ii)] dice che assumere la verità di E fa aumentare [rispettiva-

mente, fa diminuire] la probabilità di H ; quindi, si dice che H dipende positivamente

[rispettivemente, negativamente] da E. Ricordando le relazioni fondamentali

P (E ∩H) = P (E|H)P (H) = P (H |E)P (E) (3.5)

si scopre che la validità di (iii) implica

P (E ∩H) = P (H)P (E) (3.6)

e, se P (H) 6= 0, anche la validità di

P (E|H) = P (E) (3.7)

(E non dipende stocasticamente da H). Da (3.6) segue (iii) quando P (E) > 0. Gli eventi

E,H si dicono (mutuamente o reciprocamente) stocasticamente indipendenti quando vale

(3.6). Questa è una delle proprietà più interessanti per gli sviluppi della teoria delle

probabilità. Si noti che si tratta di una proprietà di P , non degli eventi, a dispetto della

dizione. [N.B.: Non si confonda l’indipendenza stocastica di E edH con la loro eventuale

incompatibilità. Gli eventiE,H possono essere indipendenti e non incompatibili, quando

P (E∩H) = P (E)P (H) con P (E∩H) > 0. Al contrario, gli eventiE edH incompatibili con

P (E) > 0 e P (H) > 0 non possono, ovviamente, essere indipendenti, perché P (E ∩H) =

0.]

Se E e H sono stocasticamente indipendenti, allora anche E e Hc sono stocastica-

mente indipendenti (quindi, anche (Ec, Hc) e (Ec, H)). Infatti,

P (E ∩Hc) = P (E)− P (E ∩H)

= P (E)− P (E)P (H) [per la (3.6)]

= P (E)1− P (H)

= P (E)P (Hc).

Quando si hanno n eventi E1, . . . , En, con n > 2, essi si dicono stocasticamente in-

dipendenti se lo sono a due a due, a tre a tre, ecc.; più precisamente, quando per ogni

Page 55: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

3.3. CORRELAZIONE FRA EVENTI E INDIPENDENZA STOCASTICA 47

k = 2, . . . , n e per ogni sottoinsieme j1, . . . , jk di 1, . . . , n vale

P (Ej1 ∩ · · · ∩ Ejk) = P (Ej1 ) · · ·P (Ejk ).

Si dimostra facilmente che se E1, . . . , En sono indipendenti, risultano indipendenti an-

che gli eventiEci1, . . . , Ec

ik, Ei1 , . . . , Ein−k

per ogni i1, . . . , ik ⊂ 1, . . . , n e j1, . . . , jn−k =1, . . . , n \ i1, . . . , ik.

Come mostra il caso seguente, non basta l’indipendenza a due a due per avere, ad

esempio, quella a tre a tre. Si estrae una pallina da un’urna che ne contiene 4: una

bianca, una rossa, una verde, una bleu. Si scommette avendo diritto a scegliere due

colori, e tre individui scommettono scegliendo: il primo bianco o rosso (E1), il secondo

bianco o verde (E2), il terzo bianco o bleu (E3). Se la probabilità di ciascun colore è 1/4,

allora:

P (E1) = P (E2) = P (E3) = 1/2,

P (E1 ∩ E2) = P (E1 ∩ E3) = P (E2 ∩ E3) = 1/4 = P (Ei)P (Ej) (i 6= j).

Così gli eventi E1, E2, E3 sono a due a due indipendenti: la probabilità che una fissata

coppia di scommettitori vinca è data dal prodotto delle probabilità che il singolo vinca.

Invece

P (E1 ∩E2 ∩ E3) = 1/4 6= P (E1)P (E2)P (E3).

È interessante notare il fatto seguente:

Data la probabilità di ciascuno di n eventi indipendenti, si può determinare la proba-

bilità di ogni altro evento che ne dipenda logicamente. (Per la nozione di dipendenza

logica, vedere Sezione 1.2 ed Esempio 1.2.2)

Infatti, si può incominciare con l’osservazione che se E1, . . . , En sono gli n eventi dati,

allora ogni evento E che ne dipenda logicamente è unione dei costituenti Ei1 ∩· · ·∩Eik ∩Ec

j1∩· · ·∩Ec

jn−k. Allora, sfruttando l’additività della probabilità e il fatto che i costituenti

sono a due a due incompatibili, si ha

P (E) =∑

∗P (Ei1 ∩ · · · ∩ Eik ∩Ec

j1 ∩ · · · ∩ Ecjn−k

)

con la somma estesa agli indici i1, . . . , ik ⊂ 1, . . . , n per cui Ei1 ∩ · · · ∩Eik ∩Ecj1∩ · · · ∩

Ecjn−k

⊂ E.

Se vale l’ipotesi di indipendenza, posto

pj = P (Ej), qj = P (Ecj ) = 1− pj (j = 1, . . . , n),

Page 56: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

48CAPITOLO 3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA STOCASTICA

si ha, in più,

P (Ei1 ∩ · · · ∩ Eik ∩Ecj1 ∩ · · · ∩ Ec

jn−k) = pi1 · · · pik · qj1 · · · qjn−k

e anche la probabilità di E dipende soltanto dai valori di pj e qj assegnati. Ad esempio,

la probabilità che nessuno degli eventi Ei si verifichi è

ω0 = q1 · · · qn

La probabilità che se ne verifichi esattamente uno è

ω1 =∑

i

q1 · · · qi−1 · pi · qi+1 · · · qn = ω0

i

piqi

(se qi > 0 per ogni i)

come si può dedurre anche dalla formula generale (1.4) quando si assuma l’indipendenza

stocastica degli Ai.

La probabilità che se ne verifichino esattamente due è

ω2 =∑

16i<j6n

q1 · · · qi−1 · pi · qi+1 · · · qj−1 · pj · qj+1 · · · qn

= ω0

16i<j6n

pipjqiqj

(se ogni qi 6= 0)

e la probabilità che se ne verifichino esattamente k è

ωk =∑

16i1<···<ik6n

q1 · · · qi1−1 · pi1 · qi1+1 · · · qik−1 · pik · qik+1 · · · qn (3.8)

= ω0

16i1<···<ik6n

pi1 · · · pikqi1 · · · qik

(3.9)

se ogni qi 6= 0.

3.3.1 Ancora la distribuzione binomiale

Se gli eventi E1, . . . , En, oltre ad essere stocasticamente indipendenti, sono ugualmente

probabili [P (Ei) = p e qi = 1− p per ogni i], allora la probabilità ωk che se ne verifichino

esattamente k si deduce da (3.8) come segue

ωk =∑

16i1<···<ik6n

pkqn−k =

(n

k

)pkqn−k

perché il numero degli addendi è uguale a quello dei sottoinsiemi, di k elementi, del-

l’insieme 1, . . . , n. Confrontando questo risultato con la definizione di distribuzione

binomiale data nel Sottoparagrafo 2.2.3, si conclude che per n eventi indipendenti e con

probabilità costante p, il numero aleatorio di quelli che si verificano ha distribuzione

binomiale di parametro (n, p).

Page 57: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

3.3. CORRELAZIONE FRA EVENTI E INDIPENDENZA STOCASTICA 49

3.3.2 Successioni di eventi indipendenti e, ancora, distribuzione

binomiale negativa

Gli eventi di una successione E1, E2, . . . si dicono indipendenti se, per ogni n, E1, . . . , En

formano una n-upla di eventi stocasticamente indipendenti. Sia dunque (En)n>1 una

successione di eventi indipendenti, di probabilità costante uguale a p. Qual è la proba-

bilità che l’n-esimo successo si verifichi in corrispondenza alla prova (n+ r)-esima? Tale

probabilità è nulla se r < 0. Per r > 0, l’evento che interessa si verifica se e solo se si

verifica En+r, e fra i primi (n+ r− 1) eventi se ne verificano esattamente (n− 1) [evento

che denotiamo con G(n + r − 1, n− 1)]. Allora, dall’indipendenza supposta segue che la

probabilità richiesta è P (G(n+ r − 1, n− 1))P (En+r) con P (En+r) = p e, per il risultato

contenuto nel precedente sottoparagrafo, P (G(n+r−1, n−1)) =(n+r−1n−1

)pn−1qr. Quindi,

indicando con ξ l’istante (intero) in cui si ha l’n-esimo successo, si ottiene

Pξ = n+ r =(n+ r − 1

r

)pn(1− p)r (r = 0, 1, 2, . . .)

ovvero, ξ ha la distribuzione binomiale negativa. Cf., ancora una volta, il Sottoparagrafo

2.2.3.

3.3.3 Indipendenza condizionata

Dati gli eventi A, B, C, si dice che A e B sono condizionatamente indipendenti dato C

se

P (A ∩B|C) = P (A|C)P (B|C).

Più in generale, considerata la probabilità A 7→ P (A|C), con A variabile in una algebra

di eventi e C contenuto nella stessa algebra, se gli eventi H1, . . . , Hn (appartenenti alla

stessa algebra) sono indipendenti rispetto alla distribuzione P (•|C), allora si dicono con-

dizionatamente indipendenti dato C. Presentiamo una semplice applicazione di questo

concetto.

Testimonianza

Si considera un tribunale che sta indagando sopra un evento E [per esempio, l’eventu-

alità che un certo delitto accaduto sia stato commesso da una certa specifica persona].

La corte si avvale della testimonianza di due individui, diciamo I e II, le cui testimo-

nianze essa ritiene indipendenti condizionatamente sia a E sia a Ec. La corte è anche

in grado di valutare la probabilità della veridicità delle due testimonianze; diciamo p1 e

Page 58: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

50CAPITOLO 3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA STOCASTICA

p2, rispettivamente per I e II. Indicata con p la probabilità che la corte assegna a E, si

calcolino la probabilità:

– di E subordinatamente al fatto che I e II accusino l’indagato;

– di E subordinatamente al fatto che I accusi e II non accusi l’indagato.

Per rispondere, indichiamo con E1 [rispettivamente, E2] l’evento corrispondente alla

affermazione da parte di I [rispettivamente, II] che E è accaduto. Si tratta di calcolare

P (E|E1 ∩ E2) e P (E|E1 ∩ Ec2). Si ha:

P (E ∩ E1 ∩E2) = P (E1 ∩E2|E)P (E)

= P (E1|E)P (E2|E)P (E) [per l’indipendenza condizionata delle testimonianze]

= p1 · p2 · p

P (E ∩ E1 ∩Ec2) = P (E1 ∩ Ec

2|E)P (E)

= P (E1|E)P (Ec2|E)P (E)

= p1 · (1− p2) · p

P (E1 ∩ E2) = P (E1 ∩ E2 ∩ E) + P (E1 ∩ E2 ∩Ec)

= p1 · p2 · p+ P (E1 ∩ E2|Ec) · (1− p)

= p1 · p2 · p+ (1 − p1)(1− p2)(1 − p)

P (E1 ∩ Ec2) = P (E1 ∩Ec

2 ∩ E) + P (E1 ∩Ec2 ∩Ec)

= p1 · (1− p2) · p+ P (E1 ∩ Ec2|Ec)P (Ec)

= p1 · (1− p2) · p+ (1 − p1) · p2 · (1− p)

e

P (E|E1 ∩ E2) =p1 · p2 · p

p1 · p2 · p+ (1− p1)(1− p2)(1 − p)

P (E|E1 ∩ Ec2) =

p1 · (1− p2) · pp1 · (1− p2) · p+ (1 − p1) · p2 · (1− p)

.

3.4 Osservazioni complementari

In molti libri di probabilità, passa sotto il nome di paradosso del progioniero il seguente

problema. Tre individui sono stati imprigionati senza processo. Tenuto presente che ci

troviamo in un paese governato da un signore spietato, il carceriere comunica loro la

notizia che questo signore ha deciso, in modo del tutto arbitrario, di liberarne uno e di

mandare a morte gli altri due. Aggiunge, inoltre, che gli è fatto divieto di rivelare a

chiunque la fine, determinata dal signore. Indicati con A, B e C i tre prigionieri, si sa

che A chiede al carceriere di indicargli – in segreto dagli altri – uno dei due condannati

Page 59: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

3.4. OSSERVAZIONI COMPLEMENTARI 51

(diverso da A, per la regola testé richiamata), e che il carceriere gli risponde B. Si chiede

di esprimere la probabilità che A attribuisce alla propria condanna a morte.

A ben guardare, qui non ci troviamo di fronte a un problema di probabilità condizion-

ata. Infatti, A è in possesso dell’informazione che B è condannato. Il significato di un

qualunque evento condizionato a tale eventualità (la condanna di B) sarebbe invece,

come più volte specificato, quello di un evento esaminato sotto l’ipotesi che B sia con-

dannato quando l’ipotesi è ancora incerta. Ora, dopo che A ha avuto l’informazione del

carceriere, lo spazio degli eventi elementari è: HB ∩ HA ∩ HcC , HB ∩ Hc

A ∩ HC, doveHI denota che l’individuo I è condannato a morte. A questo punto, si vede che A è con-

dannato se e solo se si verifica la prima eventualità. Quindi, la probabilità richiesta è

esattamente la probabilità di detta eventualità e, quindi, un qualunque numero com-

preso tra 0 e 1; fissata la valutazione α, il suo complemento a 1, 1 − α, è la probabilità

di HB ∩HcA ∩HC . La probabilità richiesta è 1/2, in condizioni di simmetria.

Invece, se A intende valutare la probabilità di essere condannato nell’ipotesi che B

sia condannato [ma non gli è noto se questo sia Vero o Falso], allora deve apprestarsi a

calcolare P (HA|HB). Lo spazio dei casi elementari è: HB∩HA∩HcC , HB∩Hc

A∩HC , HcB∩

HA ∩ HC e supponiamo che essi abbiano rispettivamente probabilità p1, p2, p3 con

pi > 0 (i = 1, 2, 3) e p1 + p2 + p3 = 1. Si ha:

P (HA ∩HB) = P (HA ∩HB ∩HcC) = p1 [perché HA ∩HB ∩HC è impossibile]

P (HB) = P (HA ∩HB) + P (HcA ∩HB) = p1 + P (Hc

A ∩HB ∩HC) = p1 + p2

e quindi, se p1 + p2 > 0 (p3 6= 1) otteniamo

P (HA|HB) =p1

p1 + p2

[=1/2 se p1 = p2; 2/3 se p1 = 2p2, ecc.].

A questo punto del discorso, la situazione dovrebbe apparire paradossale solo a coloro

che, mischiando un po’ i ragionamenti, che (come si doveva) abbiamo tenuti distinti, non

sanno farsi una ragione del fatto che siano ammissibili valutazioni diverse. La risposta

è univoca, nella prima impostazione, se si fissa α e, nella seconda, se si fissano p1 e

p2. Corrispondendo a stati di informazione diversi, non si può escludere (anzi, sarebbe

naturale attendersi) un divario fra α e p1 o 1− α e p2.

Page 60: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

52CAPITOLO 3. PROBABILITÀ CONDIZIONATA E INDIPENDENZA STOCASTICA

Concludiamo con una osservazione sulla valutazione di probabilità in spazi finiti, con

casi elementari ugualmente probabili (simmetria), in relazione all’ipotesi di indipen-

denza stocastica. Ritorniamo al Paragrafo 1.4 (Estrazioni da un’urna) considerando la

famiglia di eventi E1, . . . , Em, dove Ei è l’evento che è Vero se e solo se nella i-esima

estrazione si osserva pallina bianca (i = 1, . . . ,m). Ci si sofferma sul caso in cui le

estrazioni sono con restituzione. Se gli eventi hanno probabilità costante= r/n [perché

l’urna contiene r palle bianche e n−r = s palle nere] e sono considerati come indipenden-

ti [perché la composizione dell’urna è nota in corrispondenza a ogni estrazione], allora

possiamo applicare la formula di ωk, nel Sottoparagrafo 3.3.1, per ottenere la probabilità

che si verifichino h di detti eventi [in altre parole: si estraggono h palle bianche]:(m

h

)( rn

)h (1− r

n

)m−h

la stessa espressione trovata nel Capitolo I, sulla base di considerazioni di simmetria

e a prescindere da considerazioni di indipendenza stocastica. Lo studente mediti sul

guadagno, sul piano concettuale e dal punto di vista delle applicazioni, conseguito con

l’introduzione del concetto di indipendenza stocastica.

Page 61: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

Capitolo 4

Vettori aleatori

4.1 Generalità

Il vettore aleatorio ξ = (ξ1, ξ2) o, più in generale, (ξ1, . . . , ξk), essendo k un qualunque

intero maggiore o uguale a 2, è un particolare elemento aleatorio che ad ogni caso ele-

mentare associa una coppia ordinata o, più in generale, una k-upla ordinata, di numeri

reali. Noi ci limitiamo a considerare, quasi esclusivamente, vettori a due componen-

ti reali; in altri termini, le determinazioni di ciascun ξi sono elementi di R, e ξi è un

numero aleatorio. Concretamente, l’opportunità di considerare vettori aleatori si pre-

senta quando un dato fenomeno viene analizzato osservando congiuntamente le deter-

minazioni possibili di due o più numeri aleatori, che, generalmente, presenteranno fra

loro un’ associazione più o meno stretta. Ad esempio, lo stato di salute di un individ-

uo, secondo un certo protocollo, potrebbe essere descritto dalle determinazioni di una

k-upla di indicatori clinici (pressione, altezza, peso,. . . ). Analogamente, in economia,

si fa spesso riferimento ad una k-upla ordinata di indicatori economici (i fondamentali

dell’economia) per stabilire se una certa situazione economica sia da considerarsi sana,

florida, debole, scassata, ecc. . . . Di fatto abbiamo già avuto modo di considerare vet-

tori aleatori in situazioni molto più semplici della precedente, quando, ad esempio, il

lancio di due dadi è stato caratterizzato con la coppia ordinata dei punteggi riportati,

rispettivamente, dal primo e dal secondo dado. Questo esempio suggerisce di procedere

trattando dapprima dei cosiddetti vettori aleatori discreti.

53

Page 62: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

54 CAPITOLO 4. VETTORI ALEATORI

4.2 Distribuzione di un vettore aleatorio discreto

Sia ξ = (ξ1, ξ2) un vettore aleatorio definito su (Ω,S), con S σ-algebra di parti di Ω. Sia

P una misura di probabilità su (Ω,S). Se esiste un insieme numerabileC di coppie (x, y)

tale che P(ξ1, ξ2) ∈ C = 1, diciamo che ξ è un vettore aleatorio discreto. Posto

f(x, y) = Pξ1 = x, ξ2 = y,

si può assumere che risulti

f(x, y) > 0 su C

congiuntamente a∑

(x,y)∈C

f(x, y) = 1.

Le distribuzioni delle singole componenti si ottengono, sfruttando l’additivita’ completa

della probabilità, nel modo seguente

f1(x) := Pξ1 = x =∑

y:(x,y)∈CPξ1 = x, ξ2 = y =

y:(x,y)∈Cf(x, y)

f2(y) := Pξ2 = y =∑

x:(x,y)∈CPξ1 = x, ξ2 = y =

x:(x,y)∈Cf(x, y).

Le distribuzioni di ξ1 e ξ2 sono dette leggi marginali, rispetto alla legge, detta con-

giunta, del vettore ξ. La terminologia risente del fatto che un modo comodo per rappre-

sentare f è quello di ricorrere alla cosiddetta tabella a doppia entrata:

ξ1\ξ2 · · · · · · yj · · ·...

......

...

xi · · · · · · f(xi, yj) · · ·...

...

Si deve notare che la rappresentazione della legge congiunta mediante tabella a

doppia entrata presuppone che C venga riscritto, se possibile, oppure, più generalmente,

immerso in un prodotto cartesiano (xi, yj) : i > 1, j > 1.La tabella ha le righe intestate con le determinazioni di ξ1 e le colonne intestate con

le determinazioni di ξ2, e all’incrocio della riga xi-esima con la colonna yj-esima riporta

la probabilità di (ξ1, ξ2) = (xi, yj) che, ovviamente, può anche essere nulla. Essa con-

sente la visualizzazione dell’associazione determinata fra i caratteri dalla distribuzione

congiunta. Ad esempio, se i caratteri sono ordinati (xi > xi−1 ∀i, yj > yj−1 ∀j),

Page 63: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

4.2. DISTRIBUZIONE DI UN VETTORE ALEATORIO DISCRETO 55

allora elevati valori di f attorno alla diagonale principale denotano una forte concor-

danza (a valori grandi di ξ1 tendono ad associarsi valori grandi di ξ2). Non si potrebbero

trarre simili informazioni dall’esame delle sole distribuzioni marginali. A titolo esem-

plificativo, siano ξ1 e ξ2 variabili aleatorie che prendono i valori 20, 25, 30 secondo le

distribuzioni di probabilità

Pξ1 = 20 = 0, 05, Pξ1 = 25 = 0, 80, Pξ1 = 30 = 0, 15,

Pξ2 = 20 = 0, 04, Pξ2 = 25 = 0, 70, Pξ2 = 30 = 0, 26.

Molte (infinite) sono le distribuzioni congiunte di (ξ1, ξ2) che sono compatibili con tali

distribuzioni marginali. Ne presentiamo 3 casi particolarmente significativi. Incom-

inciamo da quello di massima concordanza, in cui, compatibilmente con le marginali

assegnate, viene realizzata la massima associazione fra i valori di ξ1 e i valori di ξ2. Si

scrive la tabella con le marginali desiderate e nella casella in alto a sinistra si collo-

ca la probabilità più elevata consentita dai valori marginali (0,04); quindi, sulla prima

colonna le caselle ancora vuote ricevono il valore 0 (entrambe); la seconda casella della

prima riga riceve la massa mancante per completare la probabilità di ξ1 = 20; e così

di seguito.

ξ1\ξ2 20 25 30

20 0,04 0,01 0 0,05

25 0 0,69 0,11 0,80

30 0 0 0,15 0,15

0,04 0,70 0,26

La situazione di massima discordanza si ottiene incominciando dall’ultima casella

nella prima riga e riempiendola col più grande valore consentito dalle marginali; quindi,

si procede associando il più grande valore di ξ2 col più piccolo di ξ1 diverso da 20, e così

via.

ξ1\ξ2 20 25 30

20 0 0 0,05 0,05

25 0 0,59 0,21 0,80

30 0,04 0,11 0 0,15

0,04 0,70 0,26

A queste situazioni estreme si contrappone quella di indipendenza stocastica di ξ1

e ξ2. Estendendo la definizione di eventi indipendenti (cf. (3.3)), diciamo che i numeri

Page 64: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

56 CAPITOLO 4. VETTORI ALEATORI

aleatori discreti ξ1 e ξ2 sono stocasticamente indipendenti quando

f(x, y) = f1(x)f2(y) ((x, y) ∈ C). (4.1)

ξ1\ξ2 20 25 30

20 0,002 0,035 0,013 0,05

25 0,032 0,560 0,208 0,80

30 0,006 0,105 0,039 0,15

0,04 0,70 0,26

Più in generale, n numeri aleatori discreti ξ1, . . . , ξn si dicono stocasticamente in-

dipendenti se

Pξ1 = x1, . . . , ξn = xn = Pξ1 = x1 . . . Pξn = xn (4.2)

per ogni determinazione (x1, . . . , xn) del vettore aleatorio (ξ1, . . . , ξn). Infine, si par-

la di successione di numeri aleatori indipendenti, ξ1, . . . , ξn, . . . , quando per ogni n le

componenti di (ξ1, . . . , ξn) sono indipendenti secondo la definizione precedente.

Riprendiamo le considerazioni svolte per la determinazione delle marginali f1, f2 a

partire dalla congiunta f . Si tratta, a ben vedere, di un caso particolare del problema

seguente. Si considera una funzione g : C 7→ C1 e si vuole calcolare Pg(ξ1, ξ2) = σ.Allora, per σ ∈ C1, si ha

g(ξ1, ξ2) = σ = (x, y) ∈ C : g(x, y) = σ

e, quindi,

Pg(ξ1, ξ2) = σ =∑

(x,y)∈C : g(x,y)=σf(x, y). (4.3)

La determinazione delle leggi marginali si ottiene con g1(x, y) = x e g2(x, y) = y,

rispettivamente, per ogni (x, y) in C.

Esempio 4.2.1. . Due giocatori, 1 e 2, per decidere a chi tocchi distribuire le carte, pro-

cedono nel modo seguente: 1 estrae una carta a caso e 2 ne estrae una delle rimanenti.

Sapendo che si tratta di un mazzo di 40 carte ordinate come 1,2,. . . , fante, donna, re, si

stabilisce che il mazzo spetti al giocatore che ha estratto la carta più alta, e a 1 in caso

di pareggio. Si risponda alle seguenti domande:

(a) Indicato con ξi il punteggio ottenuto da i, trovare la distribuzione [in condizioni

di perfetta simmetria] del vettore (ξ1, ξ2);

(b) Determinare le leggi di ξ1 e di ξ2;

Page 65: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

4.2. DISTRIBUZIONE DI UN VETTORE ALEATORIO DISCRETO 57

(c) Detti V e W rispettivamente i punteggi minimo e massimo, dare le leggi del

vettore (V,W ), di V e di W ;

(d) Stabilire la distribuzione di W − V ;

(e) Qual è la probabilità che le carte vengano distribuite da 1 (rispettivamente da 2)?

(a,b) 1 può estrarre un uno, oppure un due,. . . . La probabilità di uno qualunque di tali

eventi è Pξ1 = k = 1/10 per k = 1, 2, . . . , 7, fante, donna, re. Inoltre:

Pξ1 = k, ξ2 = j = 16

40 · 39 se k 6= j

Pξ1 = k, ξ2 = j = 12

40 · 39 se k = j.

Si ricava

Pξ2 = j = 1

10per ogni j.

(c)

PV = v,W = w = Pξ1 = v, ξ2 = w + Pξ1 = w, ξ2 = v se v < w

= Pξ1 = v, ξ2 = v se v = w

=

4/195

1/130

se v < w

se v = w

(d) Per z = 0, . . . , 9, si ha

PW − V = z = 1

13z = 0

= (10− z)4

195z = 1, . . . , 9.

.

(e) Le carte vengono distribuite da 1 se ξ1 > ξ2, ovvero con probabilità Pξ1 > ξ2 =

1240·39 · 10 + 16

40·39 (1 + 2 + · · ·+ 9) = 713 . z

Diamo ora un esempio notevole di legge di vettore aleatorio discreto che estende in

modo naturale la nozione di legge binomiale.

Esempio 4.2.2 (Distribuzione multinomiale). Siano ξ1, ξ2, . . . , ξn variabili aleatorie in-

dipendenti ed identicamente distribuite caratterizzate dalla legge [che, per l’identità in

distribuzione, si precisa solo per ξ1]

Pξ1 = j = pj

Page 66: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

58 CAPITOLO 4. VETTORI ALEATORI

(j = 1, . . . , d), pj > 0 per ogni j e p1 + · · · + pd = 1. Si vuole determinare la probabilità

che ni di queste variabili prendano il valore i per i = 1, . . . , d; quindi, ni ∈ 0, 1, . . . , nper i = 1, . . . , d, n1 + · · ·+ nd = n. Indichiamo con (N1, . . . , Nd) il vettore aleatorio la cui

i-esima componente Ni rappresenta il numero (aleatorio) di variabili ξ1, ξ2, . . . , ξn che

prendono il valore i. Sfruttando l’ipotesi d’indipendenza e l’identità in distribuzione, la

probabilità che la suddetta attesa si verifichi secondo un ordine prestabilito è∏d

j=1 pnj

j ;

ciò mostra che la probabilità in questione non dipende dall’ordine prescelto. Poiché il

numero di tali ordini è quello delle disposizioni (con ripetizione) delle n variabili, con ni

termini uguali a i per i = 1, . . . , d, si ottiene

PN1 = n1, . . . , Nd = nd =n!

n1! · · ·nd!pn11 · · · pnd

d

dove n1, . . . , nd rispettano i vincoli sopra definiti. La distribuzione del vettore aleato-

rio (N1, . . . , Nd) così ottenuta si chiama multinomiale. Si noti che la si può scrivere

“risparmiando una dimensione” nella forma ridotta

PN1 = n1, . . . , Nd−1 = nd−1 =n!

n1! · · ·nd−1!(n− n1 − · · · − nd−1)!·

·pn11 · · · pnd−1

d−1 (1− p1 − · · · − pd−1)nd (4.4)

con p1, . . . , pd−1 > 0, 1− p1 − · · · − pd−1 > 0 e per n1, . . . , nd−1 interi non negativi per i

quali n1 + · · ·+ nd−1 6 n.

Per d = 2, la precedente si riduce alla già nota distribuzione binomiale. Inoltre, per

ogni i = 1, 2, . . . , Ni ha distribuzione binomiale con parametri n, pi. Verifichiamo questo

fatto importante per i = 1, assumendo nei passaggi seguenti che gli addendi privi di

significato algebrico valgano 0. Allora

PN1 = n1 =∑

n2,...,nd−1

n!

n1! · · ·nd−1!(n− n1 − · · · − nd−1)!·

·pn11 · · · pnd−1

d−1 (1− p1 − · · · − pd−1)nd

=n!pn1

1

n1!(n− n1)!

n2,...,nd−1

(n− n1)!

n2! · · ·nd−1!(n− n1 − · · · − nd−1)!·

·pn22 · · · pnd−1

d−1 (1− p1 − · · · − pd−1)nd

=n!

n1!(n− n1)!pn11 [1− p1 − · · · − pd−1 + p2 + · · ·+ pd−1]

n−n1

=

(n

n1

)pn11 (1− p1)

n−n1 .

dove la penultima uguaglianza si ricava dall’espressione di Leibniz per la potenza nat-

urale del polinomio.

Page 67: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

4.3. SOMMA DI VARIABILI ALEATORIE INDIPENDENTI DISCRETE 59

4.3 Somma di variabili aleatorie indipendenti discrete

Un caso notevolissimo di applicazione della (4.3) riguarda la distribuzione della somma

di due variabili ξ1, ξ2:

Pξ1 + ξ2 = σ =∑

(x,y) :x+y=σ

f(x, y) =∑

x

f(x, σ − x).

Nel caso particolare in cui ξ1 e ξ2 siano indipendenti, la precedente si riduce a

Pξ1 + ξ2 = σ =∑

(x,y) :x+y=σ

f1(x)f2(y) =∑

x

f1(x)f2(σ − x) =∑

y

f1(σ − y)f2(y). (4.5)

4.3.1 Somma di variabili bernoulliane

Una successione ξ1, ξ2, . . . di variabili aleatorie indipendenti ed identicamente distribuite

con

p = Pξ1 = 1 = 1− Pξ1 = 0 = 1− q

si dice successione bernoulliana. Si pensi, equivalentemente, ad una successione di

eventi indipendenti di probabilità costante p. Allora Sn = ξ1 + . . . + ξn rappresenta il

numero dei successi fra i primi n eventi. Determiniamo la distribuzione di probabilità

di Sn. Preso σ in 0, 1, 2 e posto f(0) = q, f(1) = p, f(x) = 0 per x 6= 0, 1, (4.5) porge

Pξ1 + ξ2 = σ =∑

x

f(x)f(σ − x) = qf(σ) + pf(σ − 1) =

q2 σ = 0

2pq σ = 1

p2 σ = 2

=

(2

σ

)pσq2−σ.

Quindi, per σ in 0, 1, 2, 3, vale

PS3 = σ = PS2+ξ3 = σ =∑

x

f(x)PS2 = σ−x = q

(2

σ

)pσq2−σ+p

(2

σ − 1

)pσ−1q3−σ =

=

(2

σ

)pσq3−σ +

(2

σ − 1

)pσq3−σ =

(3

σ

)pσq3−σ.

Procedendo per induzionematematica, formuliamo l’ipotesi (induttiva) in base alla quale

vale

PSk = σ =(k

σ

)pσqk−σ

Page 68: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

60 CAPITOLO 4. VETTORI ALEATORI

per ogni σ = 0, 1, . . . , k e per ogni k = 1, 2, . . . , n − 1. Quindi, per σ in 0, 1, . . . , n,otteniamo

PSn = σ = PSn−1 + ξn = σ

=1∑

x=0

f(x)PSn−1 = σ − x

=1∑

x=0

f(x)

(n− 1

σ − x

)pσ−xqn+x−σ−1

=

(n− 1

σ

)pσqn−σ +

(n− 1

σ − 1

)pσqn−σ

=

(n

σ

)pσqn−σ

che si ricava direttamente dall’ipotesi induttiva cambiando n− 1 in n. Pertanto,

PSn = σ =(n

σ

)pσqn−σ (σ = 0, 1, . . . , n)

vale per ogni n = 0, 1, 2, . . ., e con questa si ha una nuova interessante interpretazione

della legge binomiale, in questo caso come legge di somma di numeri aleatori.

4.3.2 Passeggiate aleatorie, barriere assorbenti (problema della

rovina del giocatore)

Consideriamo un altro esempio significativo di somma di variabili aleatorie indipenden-

ti. Si prenda una successione di Testa e Croce. Ad essa è associabile una successione di

eventi E1, E2, . . . dove Ek è da ritenersi vero se il k-esimo lancio dà Testa. Il risultato di

una tale successione ammette svariate e suggestive rappresentazioni geometriche. Qui

faremo uso di quella basata sull’eccedenza di successi: eccedenza, a un istante generico,

del numero di Teste su quello delle Croci fino a quell’istante ottenute. L’eccedenza Vn

all’istante n (n = 1, 2, . . .) si può rappresentare come numero aleatorio assegnando a

ogni Ek il numero aleatorio ξk che vale 1 se Ek si verifica (appare Testa) e (−1) se Ek

non si verifica (appare Croce). Con ciò si ha:

Vn = ξ1 + · · ·+ ξn (n = 1, 2, . . .).

Per comodità si pone, anche, V0 ≡ 0. Vn può essere visto anche come il guadagno (aleato-

rio) in n colpi di Testa e Croce per colui che – nel generico colpo – riceve o perde 1 a sec-

onda che Ek sia Vero o Falso (k = 1, 2, . . .). L’andamento di (Vn)n>0 si può visualizzare,

come detto sopra, facendo riferimento alla Figura 4.1.

Formuliamo le ipotesi seguenti: gli eventi Ek sono indipendenti e hanno probabilità

costante p. Si suol dire, allora, che la nostra successione Vn è una passeggiata aleatoria

Page 69: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

4.3. SOMMA DI VARIABILI ALEATORIE INDIPENDENTI DISCRETE 61

Figura 4.1: Traiettoria che passa per (16, 2), che ritorna in 0 per la prima volta all’istante

8, per la seconda volta all’istante 12. . .

ed è facile calcolare PVn = k, ovvero la probabilità che nei primi n colpi si realizzi un

guadagno uguale a k. La condizione è soddisfatta se e solo se la differenza tra il numero

dei tratti ascendenti (a) e il numero dei tratti discendenti (d) è uguale a k, essendo

a+ d = n. Quindi,

a =n+ k

2, d =

n− k

2

e, ragionando come nel Sottoparagrafo 4.3.1,

PVn = k =(

nn+k2

)p

n+k2 q

n−k2

col membro di destra che, per la solita convenzione, vale 0 se n+k2 non è intero non

negativo oppure se n+k2 > n.

Si noti che la variabile aleatoria Vn può essere interpretata come la posizione, dopo n

passi, di una particella sulla retta reale che parte da 0 e ad ogni istante (intero) si muove

a caso: un passo avanti con probabilità p, un passo indietro con probabilità q = 1 − p.

Ecco il motivo per cui si denomina la successione (Vn)n>0 passeggiata aleatoria.

Consideriamo ora due giocatori che ingaggiano una successione di colpi a Testa e

Croce. Il giocatore 1 ha un capitale iniziale pari all’intero positivo a e il giocatore 2

ha un capitale iniziale pari all’intero positivo b; inoltre, in ogni colpo, 1 riceve (versa)

una unità da (a) 2 se si verifica Testa (Croce). Vn rappresenta, perciò, il guadagno di

1, dopo n colpi, nell’ipotesi che la passeggiata sia priva di vincoli. In realtà, si può

supporre che se il guadagno di 1 raggiunge b, prima che sia passato da (−a), allora il

giuoco non possa proseguire per rovina di 2. Analogamente, se il guadagno in questione

raggiunge (−a) prima che sia passato da b, il giuoco non può proseguire a causa della

rovina di 1. L’insieme delle traiettorie con quest’ultima proprietà corrisponde all’evento

Page 70: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

62 CAPITOLO 4. VETTORI ALEATORI

R1 :=“il giocatore 1 prima o poi cade in rovina”. Denotiamo con pk la probabilità dello

stesso evento, con la variante che sia V0 = k, k essendo un intero dell’intervallo [−a, b].Assumiamo che valga pb = 0, p−a = 1. (È ragionevole questo?) Quindi, per −a < k < b,

possiamo argomentare nel modo seguente: nel primo colpo, il guadagno può passare a

k + 1 oppure a k − 1. In ogni caso, dal nuovo punto di arrivo, la passeggiata riparte con

le stesse caratteristiche che possedeva all’epoca 0; unica variante è la posizione iniziale

(k + 1) o (k − 1) invece di k. La conservazione delle caratteristiche è dovuta al fatto che

i colpi sono indipendenti con probabilità costante. Si ottiene

pk = p · pk+1 + q · pk−1 (k = −a+ 1, . . . , b− 1)

Siamo in presenza di una equazione alle differenze del secondo ordine, nell’incognita pk.

Riscriviamola come

p(pk+1 − pk) = q(pk − pk−1)

e poniamo pk − pk−1 = δk (k = −a + 1, . . . , b − 1); allora la precedente equazione alle

differenze diviene

pδk+1 = qδk (k = −a+ 1, . . . , b− 1)

da cui

δk =

(q

p

)k+a−1

δ−a+1 (k = −a+ 2, . . . , b− 1)

Se q = p = 1/2 (passeggiata simmetrica, gioco equo), otteniamo

pk − pk−1 = δ−a+1 = p−a+1 − p−a = p−a+1 − 1.

Quindi,

p−a+j = jp−a+1 − (j − 1) (j = 1, . . . , b+ a)

con

0 = pb = (b + a)p−a+1 − (b + a− 1)

ovvero

p−a+1 =b+ a− 1

b+ a

e, per conseguenza,

p−a+j = jb+ a− 1

b+ a− (j − 1).

In particolare, la probabilità di rovina richiesta sarà, nel caso di passeggiata simmetrica

(p = q = 1/2),

P (R1) = p0 = ab+ a− 1

b+ a− (a− 1) =

b

a+ b.

Page 71: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

4.3. SOMMA DI VARIABILI ALEATORIE INDIPENDENTI DISCRETE 63

Si scopre che la probabilità di rovina di 1 è vicina ad uno se il capitale iniziale (b)

dell’avversario è infinitamente più grande del suo (a). Se p 6= q con q/p = ρ 6= 1, vale

pk − pk−1 = ρk+a−1δ−a+1

ovvero

p−a+j = p−a+1(1 + ρ+ · · ·+ ρj−1)− (ρ+ · · ·+ ρj−1).

Per j = a+ b si ha

0 = pb = p−a+1(1 + ρ+ · · ·+ ρa+b−1)− (ρ+ · · ·+ ρa+b−1)

e quindi

p−a+1 =ρ− ρa+b

1− ρa+b

e, ponendo j = a,

P (R1) = p0 =ρ− ρa+b

1− ρa+b

1− ρa

1− ρ− ρ

1− ρa−1

1− ρ=

ρa − ρa+b

1− ρa+b.

E’ interessante notare che la probabilità di rovina di 1 resta minore di uno (≈ ρα) se

il capitale iniziale di 2 è infinitamente più grande di a, purché il gioco sia favorevole

a 1 (ρ < 1). Invece se ρ > 1 (gioco favorevole a 2), il comportamento della probabilità

di rovina è simile a quello che si ha nel caso di gioco equo, quando b/a è infinitamente

grande. Se, invece, è a/b ad essere grande e ρ > 1 si ha che P (R1) ≈ 1 − ρ−b, mentre

P (R1) ≈ 0 nel caso di gioco equo.

4.3.3 Somma di variabili di Poisson indipendenti

Siano ξ1, ξ2 variabili aleatorie indipendenti tali che

Pξi = k = e−λiλki

k!(k = 0, 1, . . .)

λi essendo un parametro positivo per i = 1, 2. Allora, per x = 0, 1, . . .,

Pξ1 + ξ2 = x =x∑

k=0

Pξ1 = kPξ2 = x− k

=

x∑

k=0

e−λ1λk1

k!

e−λ2λx−k2

(x− k)!

= e−(λ1+λ2)1

x!

x∑

k=0

(x

k

)λk1λ

x−k2

= e−(λ1+λ2)1

x!(λ1 + λ2)

x

che è ancora una distribuzione di Poisson con parametro λ1 + λ2.

Page 72: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

64 CAPITOLO 4. VETTORI ALEATORI

4.3.4 Tempi di attesa in una successione di prove bernoulliane

Ritorniamo alla situazione descritta nel Sottoparagrafo 4.3.1 indicando con Ti l’indice

della prova in cui compare l’i-esimo successo (1). Si ha Ti ∈ i, i+ 1, . . ., 1 6 T1 < T2 <

. . .. Indichiamo, poi, con τ1, τ2, . . . i tempi intercorrenti

τ1 = T1, τ2 = T2 − T1, τ3 = T3 − T2, . . .

e calcoliamo la distribuzione congiunta di (τ1, . . . , τn). Per ogni x1, . . . , xn in 1, . . . , n, . . . si ha

Pτ1 = x1, . . . , τn = xn

= Pξ1 = . . . = ξx1−1 = 0, ξx1 = 1, ξx1+1 =

. . . = ξx1+x2−1 = 0, ξx1+x2 = 1, . . . , ξx1+···+xn= 1

= qx1−1pqx2−1p · · · qxn−1p =

n∏

k=1

pqxk−1.

Quindi, preso j ∈ 1, . . . , n, si ricava

Pτj = xj =∑

x1>1

· · ·∑

xj−1>1

xj+1>1

· · ·∑

xn>1

n∏

k=1

pqxk−1 = pqxj−1. (4.6)

e, perciò,

Pτ1 = x1, . . . , τn = xn =n∏

k=1

pqxk−1 =

n∏

k=1

Pτk = xk.

Ne discende che τ1, τ2, . . . sono variabili aleatorie indipendenti con uguale distribuzione.

Determiniamo la distribuzione di Ti = τ1 + · · ·+ τi. Per x = 2, 4, . . . vale

PT2 = x

=∑

σ>1

Pτ1 = σPτ2 = x− σ =x−1∑

σ=1

pqσ−1pqx−σ−1 = p2qx−2(x− 1) = p2qx−2

(x− 1

1

).

e per = 2, 3, . . .

PT3 = x

=∑

σ>1

Pτ3 = σPT2 = x− σ =x−2∑

σ=1

pqσ−1p2qx−σ−2(x− σ − 1)

= p3qx−3x−2∑

σ=1

(x− σ − 1) = p3qx−3x−2∑

j=1

j = p3qx−3 (x − 2)(x− 1)

2= p3qx−3

(x− 1

2

).

Formuliamo l’ipotesi induttiva

PTk = x = pkqx−k

(x− 1

k − 1

)x = k, k + 1, . . .

Page 73: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

4.4. DISTRIBUZIONI CONDIZIONATE (IL CASO DISCRETO) 65

per ogni k 6 n− 1, allora

PTn = x =∑

σ>1

Pτn = σPTn−1 = x− σ

=

x+1−n∑

σ=1

pqσ−1pn−1qx−σ+1−n

(x− σ − 1

n− 2

)

= pnqx−nx+1−n∑

σ=1

(x− σ − 1

n− 2

)

=x−n∑

k=0

(k + n− 2

n− 2

)pnqx−n

=

(x− 1

n− 1

)pnqx−n

=

(x− 1

x− n

)pnqx−n

come si doveva dimostrare, e dove la penultima uguaglianza deriva dalla nota identità∑m

k=0

(n+kn

)=(n+m+1n+1

), che si dimostra ponendo sn =

∑mk=0

(n+kn

)e osservando che

sn =

m∑

k=0

[(n+ k − 1

n− 1

)+

(n+ k − 1

n

)]= sn−1 +

m−1∑

j=−1

(n+ j

n

)= sn−1 + sn −

(n+m

n

)

implica sn−1 =(n+mn

).

Si noti che per x = n + r, PTn = x ha l’espressione della distribuzione binomiale

negativa; cf. 2.2.3.

4.4 Distribuzioni condizionate (il caso discreto)

Riprendiamo la generica distribuzione discreta del Paragrafo 4.2. Per ogni x tale che

f1(x) > 0 si avrà (definizione di probabilità di evento condizionato)

f2|1(y|x) := P (ξ2 = y|ξ1 = x) =f(x, y)

f1(x).

Si vede facilmente che y 7→ f2|1(y|x), per ogni x per cui f1(x) > 0, è una distribuzione di

probabilità sulle determinazioni di ξ2. Infatti, f(x, y)/f1(x) > 0 e

y

f(x, y)

f1(x)=

f1(x)

f1(x)= 1.

La distribuzione in questione si chiama, naturalmente, distribuzione condizionata di ξ2

dato ξ1 = x. Inoltre la funzione

y 7→ F2|1(y) :=∑

t6y

f2|1(t|x)

Page 74: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

66 CAPITOLO 4. VETTORI ALEATORI

si dice funzione di ripartizione di ξ2 condizionato da ξ1 = x. In modo del tutto analogo

si definisce la distribuzione condizionata di ξ1 dato ξ2 = y, f1|2.Ad esempio, la distribuzione f2|1 nella tabella di massima concordanza con ξ1 = 20

è data da

f2|1(20|20) =4

5f2|1(25|20) =

1

5f2|1(30|20) = 0;

con ξ1 = 25 si ha

f2|1(20|25) = 0, f2|1(25|25) =69

80f2|1(30|25) =

11

80;

e per ξ1 = 30,

f2|1(20|30) = f2|1(25|30) = 0 f2|1(30|30) = 1.

4.5 Distribuzione di vettore aleatorio in generale

Quando ξ = (ξ1, ξ2) è un generico vettore aleatorio a componenti reali, definito su

(Ω,S, P ), la sua distribuzione di probabilità Pξ è definita da

Pξ(B) = P (ξ−1(B)) (B ∈ B(R2)

essendo B(R2) la classe di Borel su R2: la σ-algebra generata dagli aperti di R2. La

restrizione di Pξ ai rettangoli (−∞, x]× (−∞, y], intesa come funzione calcolata in (x, y)

per ogni (x, y) in R2, si dice funzione di ripartizione di ξ:

Fξ(x, y) = Pξ((−∞, x]× (−∞, y]) ((x, y) ∈ R2).

Si vede facilmente che la funzione di ripartizione F (si omette ξ nel simbolo, più com-

pleto, Fξ) ha le seguenti proprietà

limx→−∞

F (x, y) = limy→−∞

F (x, y) = 0, limx→+∞y→+∞

F (x, y) = 1, (4.7)

limx→x+

0

y→y+0

F (x, y) = F (x0, y0) per ogni (x0, y0) in R2, (4.8)

F (x+ h, y + k)− F (x+ h, y)− F (x, y + k) + F (x, y) > 0

per ogni h, k > 0 e per ogni (x, y) ∈ R2.

(4.9)

Si dimostra che una data funzione di ripartizione di ripartizione – intesa come funzione

reale su R2 che soddisfa (4.7)-(4.9) – determina una (ed una sola) distribuzione di pro-

babilità su (R2,B(R2)); più precisamente: assegnata una funzione di ripartizione F su

R2, esiste una ed una sola misura di probabilità Q sui boreliani di R2 tale che

P ((−∞, x]× (−∞, y]) = F (x, y) per ogni (x, y) ∈ R2.

Page 75: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

4.5. DISTRIBUZIONE DI VETTORE ALEATORIO IN GENERALE 67

Omettiamo la dimostrazione di questo importante teorema. Esso implica che F (x, y) è la

probabilità Q concentrata nel rettangolo corrispondente alla zona sfumata della Figura

4.2.

Figura 4.2: La regione sfumata ha probabilità Q uguale a F (x, y).

Per quanto concerne il significato del membro di sinistra di (4.9) si noti che esso

rappresenta la probabilità del rettangolo sfumato della Fig. 4.3. Infatti, per additività,

la probabilità in questione è data da: Q((−∞, x + h] × (−∞, y + k]) − Q((−∞, x + h] ×(−∞, y])−Q((−∞, x]× (−∞, y + k]) + P ((−∞, x]× (−∞, y]).

La probabilità concentrata nel punto (x0, y0) è data da

limh→0+

k→0+

[F (x0 + h, y0 + k)− F (x0 − h, y0 + k)− F (x0 + h, y0 − k) + F (x0 − h, y0 − k)]

(4.10)

quando il limite in questione è strettamente positivo.

Si noti che F è discreta se e solo se esiste un insieme numerabile C+ ⊂ R2 tale che

limh→0+

k→0+

[F (x0 + h, y0 + k)− F (x0 − h, y0 + k)− F (x0 + h, y0 − k) + F (x0 − h, y0 − k)] = f(x0, y0) > 0

per ogni (x0, y0) in C+ e, inoltre,

(x0,y0)∈C+

f(x0, y0) = 1.

Page 76: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

68 CAPITOLO 4. VETTORI ALEATORI

Figura 4.3: Probabilità del rettangolo.

Ritornando al caso generale, si può osservare che, data la funzione di ripartizione Fξ

del vettore aleatorio ξ, si ha

Pξ1 6 x = Pξ1 6 x, ξ2 < +∞ = limy→+∞

Pξ1 6 x, ξ2 6 y

Pξ2 6 y = Pξ1 < +∞x, ξ2 6 y = limx→+∞

Pξ1 6 x, ξ2 6 y(4.11)

dove la seconda uguaglianza è valida in virtù della continuità delle probabilità σ–additive.

Perciò, indicata con Fξi la funzione di ripartizione di ξi, per i = 1, 2, si avrà

Fξ1(x) = limy→+∞

Fξ(x, y) (x ∈ R)

e

Fξ2 (y) = limx→+∞

Fξ(x, y) (y ∈ R).

4.5.1 Variabili aleatorie indipendenti

Siano ξ1 e ξ2 variabili aleatorie a valori, rispettivamente, in C1 e C2 e supponiamo che

C1, C2 siano σ-algebre di sottoinsiemi di C1 e C2 rispettivamente. Posto ξ = (ξ1, ξ2), la

distribuzione di ξ, Pξ, si suppone definita sulla classe di parti di C1×C2 che corrisponde

alla più piccola σ-algebra C che contiene tutti i rettangoli A × B con A in C1 e B in

C2. Perciò, Pξ(A × B) dà la probabilità che ξ1 appartenga ad A e ξ2 appartenga a B;

più in generale, per ogni D in C, Pξ(D) è la probabilità che la coppia (ξ1, ξ2) cada in D.

In questo ambito, le variabili aleatorie ξ1, ξ2 si dicono stocasticamente indipendenti se

Pξ(A×B) = Pξ1(A) ·Pξ2 (B) per ogni A ∈ C1 e B ∈ C2. Tale nozione si estende in maniera

facilmente intuibile a un numero qualunque di variabili aleatorie. È un fatto di grande

Page 77: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

4.5. DISTRIBUZIONE DI VETTORE ALEATORIO IN GENERALE 69

importanza che nel caso di numeri aleatori, ovvero C1 = C2 = R e C1 = C2 = B(R),

l’indipendenza stocastica di ξ1 e ξ2 equivale alla condizione

Pξ((−∞, x]× (−∞, y]) = Fξ1(x)Fξ2 (y) ∀ (x, y) ∈ R2 (4.12)

dove Fξi è la funzione di ripartizione di ξi (i = 1, 2). In altri termini, basta che la

funzione di ripartizione bidimensionale si possa scrivere come prodotto delle funzioni

di ripartizione marginali. Anche la dimostrazione di questo fatto viene omessa in-

queste lezioni. E’ comunque facile verificare che, per ξ1 e ξ2 numeri aleatori discreti,

la condizione (4.12) equivale a (4.1).

4.5.2 Distribuzioni assolutamente continue di vettore aleatorio

Fra le distribuzioni bidimensionale non discrete meritano particolare attenzione quelle

note come assolutamente continue. [Si veda il caso analogo per numeri aleatori nel

Capitolo 2.] Sia data una funzione f : R2 7→ [0,+∞) tale che∫ +∞

−∞

∫ +∞

−∞f(x, y) dxdy = 1.

Si verifica, piuttosto facilmente, che la funzione

(x, y) 7→∫ x

−∞

∫ y

−∞f(u, v) dudv

gode delle proprietà da (4.7) a (4.9) e, pertanto,

F (x, y) =

∫ x

−∞

∫ y

−∞f(u, v) dudv (x, y) ∈ R

2

è una funzione di ripartizione su R2; essa viene detta assolutamente continua (perché F

è assolutamente continua nel senso usuale dell’Analisi generale). La funzione f prende

il nome di funzione di densità di probabilità. Se F è assolutamente continua, allora per

ogni punto (x, y) in cui f è continua, vale

f(x, y) =∂2

∂x∂yF (x, y).

In effetti, questa relazione sussiste quasi ovunque. Coerentemente col caso monodimen-

sionale trattato nel Sottoparagrafo 2.2.4, una proprietà si dice valida quasi ovunque su

Rk se l’eventuale insieme N su cui non vale è tale che ad ogni ε > 0 si può associare una

classe numerabile di sfere k–dimensionali la somma dei cui diametri non supera ε e la

cui unione contiene N .

Inoltre, dalle (4.11) si deduce

Fξ1 (x) = limy→+∞

∫ x

−∞

∫ y

−∞f(u, v) dudv =

∫ x

−∞

(∫ +∞

−∞f(u, v) dv

)du (x ∈ R)

Page 78: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

70 CAPITOLO 4. VETTORI ALEATORI

Fξ2(y) = limx→+∞

∫ x

−∞

∫ y

−∞f(u, v) dudv

=

(∫ +∞

−∞

∫ y

−∞f(u, v) du

)dv =

∫ y

−∞

(∫ +∞

−∞f(u, v) du

)dv (y ∈ R)

e si deduce la proprietà notevole:

Se F è assolutamente continua, allora Fξ1 e Fξ2 sono assolutamente continue e le loro

densità sono date, rispettivamente, da

fξ1(•) =∫ +∞

−∞f(•, v) dv, fξ2(•) =

∫ +∞

−∞f(u, •) du. (4.13)

Illustriamo con due esempi le nozioni generali presentate in questo paragrafo.

Esempio 4.5.1. (a) Si consideri un vettore aleatorio bidimensionale (ξ1, ξ2) con dis-

tribuzione di probabilità assolutamente continua caratterizzata da una densità

f(x, y) = 211T (x, y)

dove

T := (x, y) ∈ R2 : 0 6 y 6 x 6 1.

Per calcolare la densità di ξ2 è sufficiente osservare che

f2(y) = 11(0,1)(y)2

∫ 1

y

dt = 2(1− y)11(0,1)(y).

(b) Si consideri un vettore aleatorio bidimensionale (ξ1, ξ2) con distribuzione di pro-

babilità assolutamente continua caratterizzata da una densità

f(x, y) =1

(x+ y)2ye−y11(0,+∞)×(0,+∞)(x, y).

In questo caso la densità di ξ2 è data da

f2(y) = 11(0,+∞)(y)

∫ +∞

0

1

(x+ y)2ye−ydx = e−y11(0,+∞)(y).

(c)Distribuzione gaussiana d-dimensionale. Siano µ un vettore in Rd e V una matrice

(d× d) simmetrica definita positiva. Allora, la funzione

f(x) =1

(2π)d/2 detVexp

−1

2t(x− µ)V −1(x− µ)

(x ∈ R

d)

è una funzione di densità di probabilità su Rd. Si scopre che la i-esima distribuzione

marginale è gaussiana con media µi e varianza uguale all’i-esimo elemento della diago-

nale principale di V . In effetti, la densità d-dimensionale in esame è nota come densità

gaussiana d-dimensionale di parametro (µ, V ). Per maggiori informazioni, cf. la Sezione

6.4.1.

Page 79: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

4.5. DISTRIBUZIONE DI VETTORE ALEATORIO IN GENERALE 71

4.5.3 Caratterizzazione dell’indipendenza tramite fattorizzazione

della funzione di densità

Se (ξ1, . . . , ξd) ha distribuzione assolutamente continua rispetto alla quale ξ1, . . . , ξd sono

stocasticamente indipendenti, indicate con f la densità del vettore e con fξ1 , . . . , fξd le

densità marginali delle singole componenti, la relazione

f(x1, . . . , xd) = fξ1(x1) · · · fξd(xd)

vale quasi ovunque. Si riveda la (4.2) per l’analoga caratterizzazione nel caso discre-

to. Ne discende, ad esempio, che le componenti di un vettore (ξ1, . . . , ξd) avente legge

gaussiana sono indipendenti se V è matrice diagonale, e solo in quel caso.

4.5.4 Distribuzione di funzione di vettore aleatorio dotato di legge

assolutamente continua

Riprendiamo il problema della determinazione della distribuzione del numero aleatorio

X = g(ξ1, ξ2) quando ξ := (ξ1, ξ2) ha distribuzione assolutamente continua. Cf. (4.3) e

Paragrafo 4.4 per il caso discreto. Se la legge di (ξ1, ξ2) ha densità f , allora per ogni

insieme (di Borel) B contenuto in R vale

PX(B) := PX ∈ B =∫

(x,y): g(x,y)∈Bf(x, y) dxdy.

In particolare per X = ξ1 + ξ2, si ha

PX 6 σ =∫

x+y6σf(x, y) dxdy =

∫ +∞

−∞

(∫ σ−x

−∞f(x, y) dy

)dx,

=

∫ +∞

−∞(

∫ σ

−∞f(v, u− v) du) dv cambio di variabile y = u− v, x = v

=

∫ σ

−∞(

∫ +∞

−∞f(v, u− v) dv) du,

la quale implica che

fX(σ) =

∫ +∞

−∞f(x, σ − x) dx (4.14)

è una funzione di densità della distribuzione di X = ξ1 + ξ2 quando (ξ1, ξ2) ha legge

assolutamente continua con densità f . In particolare, se ξ1 e ξ2 sono stocasticamente

indipendenti, rispettivamente con densità fξ1 e fξ2 , si ottiene

fX(σ) =

∫ +∞

−∞fξ1(x)fξ2 (σ − x) dx (σ ∈ R), (4.15)

che costituisce, dal punto di vista matematico, un esempio d’integrale di convoluzione.

Page 80: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

72 CAPITOLO 4. VETTORI ALEATORI

Esempio 4.5.2. Siano ξ1, ξ2 indipendenti con distribuzioni gaussiane di parametri,

rispettivamente, (µ1, σ21) e (µ2, σ

22). Ci si propone di determinare la legge di X = ξ1 + ξ2.

Si risolve il problema col calcolo della densità tramite la (4.15):

fX(x) =

∫ +∞

−∞

1

σ1

√2π

exp

− (u− µ1)

2

2σ21

1

σ2

√2π

exp

− (x− u− µ2)

2

2σ22

du

=

∫ +∞

−∞

1

σ1

√2π

exp

−σ22

(ξ − −x+µ1+µ2

σ2

)2

2σ21

1√2π

exp

−ξ2

2

[ottenuto col cambiamento di variabile ξ =u+ µ2 − x

σ2]

=1√2π

exp

−v2σ2

2

σ21

σ21 + σ2

2

∫ +∞

−∞

1

σ1

√2π

exp

−σ2

1 + σ22

2σ21

(ξ − vσ2

2

σ21 + σ2

2

)2

[ottenuto col cambiamento si variabile v :=µ1 + µ2 − x

σ2]

=1√

2π(σ21 + σ2

2)exp

− (x− (µ1 + µ2))

2

2(σ21 + σ2

2)

(x ∈ R).

Questa è ancora una densità gaussiana di parametri µ1 + µ2, σ21 + σ2

2 [somma dei

parametri delle distribuzioni gaussiane di ξ1 e ξ2]. z

Esempio 4.5.3. Siano ξ1, ξ2 indipendenti con distribuzione di tipo gamma

fξi(x) =1

Γ(ai)xai−1e−x11(0,+∞)(x) (x ∈ R)

per i = 1, 2. La densità di X = ξ1 + ξ2 in x > 0 si ottiene per mezzo di (4.15):

fX(x) =

∫ +∞

−∞

1

Γ(a1)ua1−1e−u11(0,+∞)(u)

1

Γ(a2)(x− u)a2−1e−(x−u)11(0,+∞)(x− u) du

=

∫ x

0

1

Γ(a1)ua1−1e−u 1

Γ(a2)(x− u)a2−1e−(x−u) du

=e−x

Γ(a1)Γ(a2)

∫ x

0

ua1−1(x− u)a2−1 du

=e−xxa2−1

Γ(a1)Γ(a2)

∫ x

0

ua1−1(1− u

x

)a2−1

du

=e−xxa2−1

Γ(a1)Γ(a2)xa1

∫ 1

0

ξa1−1(1 − ξ)a2−1 dξ.

Dovendo risultare∫ +∞0

fX(x) dx = 1, ricaviamo

1 =

∫ +∞

0

e−xxa2−1

Γ(a1)Γ(a2)xa1

∫ 1

0

ξa1−1(1− ξ)a2−1 dξdx

=1

Γ(a1)Γ(a2)

∫ 1

0

ξa1−1(1− ξ)a2−1 dξ

∫ +∞

0

e−xxa1+a2−1 dx

=Γ(a1 + a2)

Γ(a1)Γ(a2)

∫ 1

0

ξa1−1(1− ξ)a2−1 dξ

Page 81: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

4.5. DISTRIBUZIONE DI VETTORE ALEATORIO IN GENERALE 73

e, quindi, l’identità notevole

∫ 1

0

ξa1−1(1− ξ)a2−1 dξ =Γ(a1)Γ(a2)

Γ(a1 + a2)=: B(a1, a2)

da cui

fX(x) =1

Γ(a1 + a2)e−xxa1+a2−111(0,+∞)(x).

Dunque, X ha distribuzione gamma di parametri a1 + a2, 1. Nella teoria delle funzioni

speciali, la funzione (a1, a2) 7→ B(a1, a2), con a1, a2 > 0 è nota come funzione beta. Ad

essa è associata una legge di probabilità notevole che porta lo stesso nome. z

Esempio 4.5.4 (Distribuzione beta). Abbiano ξ1, ξ2 distribuzioni gamma come nell’e-

sempio precedente. Proponiamo di determinare la distribuzione di ρ := ξ1/(ξ1 + ξ2). Si

noti che ρ ∈ (0, 1) con probabilità 1.

Figura 4.4: Distribuzione beta.

Quindi per x in (0, 1) si ha

Pρ 6 x = Pξ1 6x

1− xξ2, ξ1 > 0, ξ2 > 0

=

∫ +∞

0

(∫ x1−x

v

0

1

Γ(a1)ua1−1e−u du

)1

Γ(a2)va2−1e−v dv.

∫ +∞

0

(∫ x

0

1

Γ(a1)

(z

1− zt

)a1−1

e−zt/(1−z) t

(1− z)2dz

)1

Γ(a2)ta2−1e−tdt

∫ x

0

(∫ +∞

0

1

Γ(a2)ta2−1e−t 1

Γ(a1)

(z

1− zt

)a1−1

e−zt/(1−z) t

(1− z)2dt

)dz

Page 82: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

74 CAPITOLO 4. VETTORI ALEATORI

ottenuto operando il cambiamento di variabili t = v, z = u/(u+ v). Pertanto

fρ(x) =

∫ +∞

0

1

Γ(a2)va2−1e−v 1

Γ(a1)

(x

1− xv

)a1−1

e−vx/(1−x) v

(1− x)2dv

=xa1−1

Γ(a1)Γ(a2)(1− x)a1+1

∫ +∞

0

e−v(1+ x1−x )va1+a2−1 dv

=xa1−1

Γ(a1)Γ(a2)(1− x)a1+1

Γ(a1 + a2)(1 + x

1−x

)a1+a2

=Γ(a1 + a2)

Γ(a1)Γ(a2)xa1−1(1− x)a2−1

è una funzione di densità per il numero aleatorio ρ.

La funzione di densità testé trovata

Γ(a1 + a2)

Γ(a1)Γ(a2)xa1−1(1− x)a2−111(0,1)(x)

si dice beta di parametri a1, a2. z

4.6 Distribuzione condizionata quando il vettore aleato-

rio ha legge assolutamente continua

Vogliamo ora estendere la nozione di distribuzione condizionata (vista, per il caso dis-

creto, nel Paragrafo 4.4) a vettori (ξ1, ξ2) dotati di legge assolutamente continua. Per ori-

entarci, incominciamo col dare risalto ad alcune importanti conseguenze della definizione

data nel Paragrafo 4.4. Intanto, se C1 e C2 sono insiemi che rispettivamente racchiudono

le determinazioni di ξ1 e ξ2, per A ⊂ C2 si ha

Pξ2 ∈ A|ξ1 = x =∑

y∈A

f(x, y)

f1(x)[f(x, y)/f1(x) = f2|1(y|x)]

e, quindi, per ogni fissato A, questa probabilità resta determinata quando sia nota la

realizzazione di ξ1. Inoltre, per B ⊂ C1,

Pξ1 ∈ B, ξ2 ∈ A =∑

x∈B

P (ξ2 ∈ A|ξ1 = x)f1(x). (4.16)

Se F è una funzione di ripartizione assolutamente continua di vettore aleatorio

(ξ1, ξ2), avente densità f e densità marginali f1, f2, ci proponiamo di definire la funzione

di ripartizione di ξ2 condizionata da ξ1 = x : F2|1(•|x). Imitando ciò che si è trovato

nel caso discreto, si impone che essa soddisfi una relazione del tipo (4.16), ovvero

F (x, y) = Pξ1 6 x, ξ2 6 y =∫

(t6x)

F2|1(y|t)f1(t) dt (∀x ∈ R)

Page 83: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

4.6. DISTRIBUZIONECONDIZIONATAQUANDO IL VETTOREALEATORIOHA LEGGEASSOLUTAMENTECONTINU

ovvero ∫ x

−∞

∫ y

−∞f(t, u) dudt =

∫ x

−∞F2|1(y|t)f1(t) dt

Poiché quest’ultima relazione deve valere per ogni x, derivando rispetto ad x (operazione

lecita quasi ovunque), ricaviamo

F2|1(y|x) =∫ y

−∞ f(x, u) du

f1(x)(quando f1(x) 6= 0) (4.17)

ovvero l’espressione per la funzione di ripartizione condizionata di ξ2 calcolata in y, dato

ξ1 = x. Quindi,

y 7→ f2|1(y|x) :=f(x, y)

f1(x)(quando f1(x) 6= 0) (4.18)

è una densità condizionata (calcolata in y) di ξ2 dato ξ1 = x. Analogamente

F1|2(x|y) =∫ x

−∞ f(u, y) du

f2(y)(quando f2(y) 6= 0) (4.19)

è la funzione di ripartizione condizionata calcolata in x, di ξ1 dato ξ2 = y e

x 7→ f1|2(x|y) :=f(x, y)

f2(y)(quando f2(y) 6= 0) (4.20)

è una densità condizionata (calcolata in x) di ξ1 dato ξ2 = y. Le (4.17) e (4.18) non

possono estendersi al caso in cui f1(x) = 0; analogamente le (4.19) e (4.20) quando

f2(y) = 0. Poniamo allora Ni := x ∈ R : fi(x) = 0 (i = 1, 2). Va notato che Pξi ∈ Ni =0 per i = 1, 2; infatti

Pξi ∈ Ni =∫

Ni

fi(x)dx = 0 (i = 1, 2).

Questo autorizza a definire arbitrariamente le funzioni di ripartizione F1|2(·|y) F2|1(·|x)quando x e y sono rispettivamente in N1 e N2; ad esempio, ponendo F2|1(·|x) = F2(·) eF1|2(·|y) = F1(·).

Esempio 4.6.1. Riprendiamo la distribuzione gaussiana d-dimensionale con d = 2

(legge gaussiana bidimensionale)

f(x, y) =

exp

− 1

2(1−ρ2)

[(x−µ1

σ1

)2− 2ρ

(x−µ1

σ1

)(y−µ2

σ2

)+(

y−µ2

σ2

)2]

2π(1− ρ)1/2σ1σ2

((x, y) ∈ R2), dove µ1, µ2 sono reali, σ1, σ2 costanti strettamente positive e ρ un numero

in (−1, 1). Sappiamo che la densità marginale di ξi, fi, è data da

fi(u) =1

σi

√2π

exp

− (u− µi)

2

2σ2i

(u ∈ R) i = 1, 2.

Page 84: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

76 CAPITOLO 4. VETTORI ALEATORI

Con calcoli elementari, e un po’ noiosi, si trova dall’applicazione di (4.18) la densità

condizionata di ξ2 (calcolata in y) dato ξ1 = x:

f2|1(y|x) =1

σ2

√2π(1 − ρ2)

exp

− 1

2σ22(1− ρ2)

[y −

(µ2 + ρ

σ2

σ1(x− µ1)

)]2(y ∈ R)

che, per ogni x fissata in R, è ancora di tipo gaussiano con parametri(µ2 + ρσ2

σ1(x− µ1)

),

σ22(1 − ρ2). z

Esempio 4.6.2. Con riferimento alla densità dell’esempio 4.5.1 (a)

f(x, y) = 211T (x, y)

con T := (x, y) ∈ R2 : 0 6 y 6 x 6 1, si ottiene

f1|2(x|y) = 1106y6x61f(x, y)

f2(y)=

1

1− y1106y6x61.

Page 85: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

Capitolo 5

Caratteristiche sintetiche di

una distribuzione

5.1 Qualche considerazione generale

Capita spesso che, in relazione a scopi specifici, non sia necessario conoscere la forma

completa della distribuzione. Ad esempio, in molti problemi di meccanica non serve

conoscere come è distribuita la massa e basta disporre del baricentro della massa.

Analogamente, in statistica, per determinare l’accrescimento di una popolazione su un

certo numero di unità di tempo non è necessario avere la distribuzione degli accresci-

menti nelle unità di tempo considerate, ma basta un accrescimento medio e il numero

delle unità temporali. In argomento più chiaramente probabilistico, si potrebbe dire che

per sapere se, vendendo il diritto ad acquisire un guadagno aleatorio, ad un certo prezzo,

ho guadagnato o perso, dovrò confrontare tale prezzo col prezzo ideale in base al quale

sarei disposto sia a comprare sia a vendere una scommessa, d’importo qualunque, su

tale guadagno. In queste lezioni ci occupiamo del problema di come sintetizzare, medi-

ante opportune caratteristiche numeriche, una distribuzione e, quindi, di determinare

espressioni di tali caratteristiche date, tipicamente, come funzioni della distribuzione

stessa.

77

Page 86: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

78 CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE

5.2 Valore atteso, o speranza matematica, di numero

aleatorio discreto

Si pensi ad una distribuzione che ripartisce la massa unitaria fra i punti di ascissa

x1, . . . , xN in modo che pi sia la massa concentrata in xi (i = 1, . . . , N). Se l’asse è

supposto rigido e sospeso nell’origine, per calcolare le forze occorrenti ad equilibrare la

distribuzione si può considerare che la massa sia concentrata nel baricentro, ovvero in

x =

N∑

k=1

xkpk.

Se x1, . . . , xN sono le realizzazioni possibili del guadagno derivante da una certa oper-

azione economica (dall’esito aleatorio) e p1, . . . , pN sono le probabilità da attribuire a

tali realizzazioni, x prende un nuovo significato in relazione al problema seguente. Sup-

poni di essere obbligato ad esprimere una valutazione certa (un prezzo) del guadagno in

questione. Per evitare di tirare un numero a casaccio ma, al contrario, per garantire un

fondamento alla valutazione che ti appresti a formulare, immagina di essere penalizza-

to per eventuali errori. Più precisamente, indicati con ξ il guadagno aleatorio e con v la

valutazione certa di ξ, supponi di dover pagare

c(xk − v)2

quando xk è la realizzazione effettiva di ξ, essendo c una costante positiva. Un indice

della bontà di v come previsore è dato da

s2(v) = c

N∑

k=1

(xk − v)2pk (5.1)

nel senso che valori piccoli di s2(v) segnalano che v ben rappresenta, sia pure rias-

suntivamente, il valore che ξ può concretamente assumere. Quindi, una valutazione

accettabile dovrebbe rendere minima la funzione v 7→ s2(v). Si ha

s2(v) = c

n∑

k=1

[x2k + v2 − 2vxk

]pk = c

n∑

k=1

x2kpk + cv2 − 2cvx

e, dunque, l’equazione di una parabola con concavità rivolta verso l’alto. Perciò, v 7→s2(v) ha minimo assoluto nell’ascissa del vertice della parabola

v =2cx

2c= x.

Lo stesso punto di vista si potrebbe adottare per concludere che x è una buona valu-

tazione per un numero aleatorio di natura qualunque, purché discreto. Quindi nel cal-

colo delle probabilità, dato un numero aleatorio discreto ξ che prenda i valori x1, x2, . . .

Page 87: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

5.2. VALOREATTESO, O SPERANZAMATEMATICA, DI NUMEROALEATORIODISCRETO79

con rispettive probabilità p1, p2, . . . (pk > 0 per k = 1, 2, . . . ,∑

k>1 pk = 1), tale che∑

k>1 |xk|pk < +∞, il numero∑

k>1

xkpk

è detto valore atteso o speranza matematica di ξ e viene denotato con E(ξ).

Da questa definizione si ricava che se g è una funzione reale definita su R tale che∑

k>1 |g(xk)|pk < +∞, il numero∑

k>1

g(xk)pk

rappresenta il valore atteso del numero aleatorio g(ξ), ovvero

E(g(ξ)) =∑

k>1

g(xk)pk. (5.2)

Infatti, indicati con gj i valori distinti di g(ξ), si ponga p∗j = Pg(ξ) = gj e si ricorra

alla definizione di speranza matematica per ottenere

E(g(ξ)) =∑

gjp∗j =

∑gj

i: g(xi)=gjpi =

i

pi∑

j: gj=g(xi)gj =

i

pig(xi).

In particolare, per ogni evento A si ha E(11A) = P (A).

Analogamente, data una coppia di numeri aleatori (ξ1, ξ2) che assuma valori (x, y) in

un insieme numerabile C con probabilità f(x, y) = Pξ1 = x, ξ2 = y, se g è una funzione

reale definita su R2 tale che

∑i,j>1 f(x, y)|g(x, y)| < +∞, si ha

E(g(ξ1, ξ2)) =∑

(x,y)

g(x, y)f(x, y). (5.3)

Infatti, indicati con gk i valori distinti di g(ξ1, ξ2), e ponendo p∗k = Pg(ξ1, ξ2) = gk,ragionando come prima si ottiene

E(g(ξ1, ξ2)) =∑

k

gkp∗k =

k

gk∑

(x,y): g(x,y)=gkf(x, y)

=∑

(x,y)

f(x, y)∑

k: gk=g(x,y)gk =

(x,y)

f(x, y)g(x, y).

5.2.1 Proprietà elementari del valore atteso

In vista del largo uso che faremo della speranza matematica, conviene porne in evidenza

alcune proprietà utili ad evitare calcoli spesso noiosi. Fermo restando (per il momento)

la natura discreta dei numeri aleatori di cui si tratta, valgono le seguenti proposizioni:

(a) Se la speranza matematica di ξ esiste, allora per ogni a e b in R si ha:

E(aξ + b) = aE(ξ) + b;

Page 88: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

80 CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE

(b) Pξ = a = 1 =⇒ E(ξ) = a;

(c) Pa < ξ 6 b = 1 =⇒ a < E(ξ) 6 b;

(d) Se ξ1 e ξ2 hanno speranza matematica finita anche aξ1 + bξ2 ha speranza finita, (per

ogni a, b in R) e vale E(aξ1 + bξ2) = aE(ξ1) + bE(ξ2).

Dimostrazioni

(a) Da (5.2), E(aξ + b) =∑

(axi + b)pi = a∑

xipi + b = aE(ξ) + b;

(b) Se Pξ = a = 1 allora E(ξ) = a · Pξ = a = a;

(c) Se Pa < ξ 6 b = 1 si ha E(ξ) 6 b∑

pi = b, E(ξ) > a∑

pj = a;

(d) Da (5.3) ponendo f(x, y) = Pξ1 = x, ξ2 = y si ha, supposto b 6= 0,

E(|aξ1 + bξ2|) =∑

(x,y)

|ax+ by|f(x, y)

6 |a|∑

(x,y)

|x|f(x, y) + |b|∑

(x,y)

|y|f(x, y)

= |a|∑

x

|x|∑

y

f(x, y) + |b|∑

y

|y|∑

x

f(x, y)

= |a|∑

x

|x|Pξ1 = x+ |b|∑

y

|y|Pξ2 = y

= |a|E(|ξ1|) + |b|E(|ξ2|) < +∞ per ipotesi.

Quindi esiste finita la speranza matematica di aξ1 + bξ2 e, con calcoli analoghi a

quelli testé eseguiti, si ottiene E(aξ1 + bξ2) = aE(ξ1) + bE(ξ2).

Se per k intero positivo si ha∑ |xi|kpi < +∞, allora E(ξk) si dice momento di ordine

k, o momento k-esimo, di ξ.

5.3 Valore atteso di un numero aleatorio qualunque

Sia ξ un numero aleatorio con funzione di ripartizione F , non necessariamente discreta;

si veda la definizione di funzione di ripartizione su R nel Capitolo 2. Per arrivare ad

una definizione del valore atteso di ξ, che conservi le proprietà già rilevate nel caso

discreto, si può partire da una successione di approssimazioni discrete di ξ che converga

a ξ stesso, ed estendere la nozione di valore atteso per continuità. Incominciamo col

supporre che il codominio di ξ sia limitato e, per fissare le idee, risulti

−∞ < a < ξ 6 b < +∞.

Page 89: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

5.3. VALORE ATTESO DI UN NUMERO ALEATORIO QUALUNQUE 81

Per ogni intero positivo n, suddividiamo (a, b] in intervallini(x(n)i−1, x

(n)i

]con i = 1, . . . , n

e x(n)0 ≡ a, x(n)

n ≡ b e maxi

(x(n)i − x

(n)i−1

)↓ 0 per n→ +∞.

Figura 5.1: Suddivisione dell’intervallo (a, b]

La funzione ξnche vale x

(n)i−1 quando ξ è contenuto in

(x(n)i−1, x

(n)i

], per i = 1, . . . , n,

è un numero aleatorio che approssima per difetto ξ. Analogamente, la funzione ξn che

vale x(n)i sullo stesso intervallo

(x(n)i−1, x

(n)i

]approssima per eccesso ξ. Allora ξ

ne ξn sono

numeri aleatori discreti. Cf. Figura 5.1. Posto

pi,n = F(x(n)i

)− F

(x(n)i−1

)(i = 1, . . . , n)

si ottiene

Pξn= x

(n)i−1

= P

ξn = x

(n)i

= pi,n

n∑

i=1

pi,n = 1

e, quindi,

E

(ξn

)=

n∑

i=1

x(n)i−1pi,n, E

(ξn)=

n∑

i=1

x(n)i pi,n.

Page 90: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

82 CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE

Inoltre

0 6 E(ξn − ξn) [ da (c)]

6 E(ξn)− E

(ξn

)[da (d)]

=n∑

i=1

pi,n(x(n)i − x

(n)i−1)

6 maxi

(x(n)i − x

(n)i−1)

n∑

i=1

pi,n

= maxi

(x(n)i − x

(n)i−1) ↓ 0 (n→ +∞).

(5.4)

Da questa relazione deduciamo che (E(ξn))n>1, (E(ξn))n>1 sono successioni contigue e

separate di numeri; l’elemento (numero) separatore ha, ovviamente, la proprietà carat-

teristica di non essere inferiore a nessun E(ξn) e non essere superiore ad alcun E(ξn).

Ora, poiché le disuguaglianze ξn6 ξ 6 ξn valgono per ogni n, un’estensione di E(·) a ξ

che conservi la proprietà di monotonia (verificata nel caso discreto combinando (d) e (c),

ovvero, se ξ1 e ξ2 soddisfano ξ1 6 ξ2, allora E(ξ1) 6 E(ξ2)) dovrà coincidere col suddetto

elemento separatore in corrispondenza a ξ. E’ dunque lecito proporre di definire il valore

atteso, o speranza matematica, di ξ come limite di E(ξn) [oppure, indifferentemente, di

E(ξn)]. Tale limite è noto, nell’Analisi generale, come integrale di Stieltjes e lo si denota

con∫[a,b]

xdF (x).

La rimozione del vincolo di limitatezza potrebbe realizzarsi ricorrendo all’integrale

improprio, ponendo

E(ξ) := lima→−∞,b→+∞

[a,b]

xdF (x) = lima→−∞,b→+∞

E(ξ11[a,b](ξ)) (5.5)

purché sia soddisfatta la condizione

lima→−∞,b→+∞

[a,b]

|x|dF (x) < +∞.

Si scriverà, in tal caso, E(ξ) =∫ +∞−∞ xdF (x) o, anche,

∫RxdF (x).

L’ammissibilità della definizione (5.5) si può far risalire, essenzialmente, alle propri-

età dell’integrale improprio di Stieltjes [cf., ad esempio, Gilardi (2001) e il Capitolo 6 di

Burkill e Burkill (1970)] che, fra molte altre cose, implicano che E definita come in (5.5),

continua a soddisfare le proprietà da (a) a (d) del Paragrafo 5.2.1.

E’ importante notare che la speranza matematica di una funzione di numero aleato-

rio può essere determinata direttamente sulla base della funzione di ripartizione di ξ.

Se g : R → R è tale che∫R|g(x)|dF (x) < +∞, essendo F la funzione di ripartizione del

Page 91: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

5.3. VALORE ATTESO DI UN NUMERO ALEATORIO QUALUNQUE 83

numero aleatorio ξ, allora vale

E(g(ξ)) =

R

g(x)dF (x). (5.6)

In particolare, la speranza matematica (supposta esistente) di ξk, con k intero positivo,

mk := E(ξk) =

R

xkdF (x)

continua ad essere detta momento di ordine k (della funzione di ripartizione F ) di ξ.

Perció, il valore atteso di ξ coincide con il momento primo della funzione di ripartizione

di ξ. Come vedremo in seguito, la conoscenza di certi momenti può bastare, in cir-

costanze particolari, a gettare luce su importanti aspetti di una intera distribuzione di

probabilità.

A proposito dei momenti conviene ricordare la seguente disuguaglianza (detta di

Lyapunov): Se 0 < k < m e se E(|ξ|m) < +∞ allora

E[|ξ|k]1/k 6 E[|ξ|m]1/m.

Discende da essa che se ilmomento secondo è finito, allora anche il momento primo

(valore atteso) è finito.

Concludiamo il paragrafo precisando come la definizione (5.5) possa essere tradotta

in formule utili per il calcolo. Anche tali formule sono diretta conseguenza di proprietà

notevoli dell’integrale di Stieltjes. La prima si riferisce al calcolo (peraltro già ben noto)

del valore atteso di un numero aleatorio discreto.

(C1) Sia ξ un numero aleatorio discreto con funzione di ripartizione F tale che F (xj)−F (xj − 0) = pj per j = 1, . . . , k, . . . e

∑j pj = 1; allora, se

∑j |xj |pj < +∞, si ha

R

xdF (x) =∑

j

xjpj . (5.7)

Un altro vantaggio della definizione proposta è nel fatto che essa consente il calcolo

esplicito del valore atteso quando F è assolutamente continua.

(C2) Se ξ è un numero aleatorio con funzione di ripartizione F assolutamente con-

tinua, e funzione di densità di probabilità f , tale che∫R|x|f(x)dx < +∞, allora

E(ξ) =

R

xf(x)dx. (5.8)

Per quanto riguarda il numero aleatorio ξ con funzione di ripartizione F che sia

combinazione convessa di una discreta (Fd) e di una assolutamente continua (Fac), come

F (x) = λFd(x) + (1− λ)Fac(x)

Page 92: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

84 CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE

con λ in (0, 1), dalle proprietà dell’integrale di Stieltjes discende

E(ξ) =∑

j>1

yjpj +

Rxf(x)dx

dove y1, y2, . . . sono le ascisse dei punti di salto di F con pj = F (yj) − F (yj − 0) e f è la

funzione derivata (con le precisazioni ben note sulla sua esistenza) di (1 − λ)Fac(x). Ad

esempio, con riferimento alla funzione di ripartizione della Figura 2.4, il valore atteso è

dato da

0 · (1− α

m)β +M(

α

M)β +

∫ M

m

xβαβx−β−1dx = (M − 1)(α

M)β + (

α

m)β .

Per numeri aleatori ξ con funzione di ripartizione qualunque (anche se non combi-

nazione convessa di discreta e di assolutamente continua), conviene ricordare la seguente

rappresentazione del valore atteso. Si nota, intanto che il valore atteso di ξ è finito se e

solo se∫ +∞0 (1− F (x))dx < +∞ e

∫ 0

−∞ F (x)dx < +∞; in tal caso

E(ξ) =

∫ +∞

0

(1− F (x))dx −∫ 0

−∞F (x)dx. (5.9)

Se il valore atteso di ξ è finito, si verifica la precedente con questi calcoli

E(ξ) =

[0,+∞)

xdF (x) +

(−∞,0)

xdF (x)

=

[0,+∞)

∫ x

0

dtdF (x) −∫

(−∞,0)

∫ 0

x

dtdF (x)

=

∫ +∞

0

(t,+∞)

dF (x)dt −∫ 0

−∞

(−∞,t]

dF (x)dt

=

∫ +∞

0

(1− F (x))dx −∫ 0

−∞F (x)dx

nei quali si fa uso del teorema di Fubini; viceversa, se i due integrali che figurano in (5.9)

sono finiti, si può partire da ciascuno di essi per ricavare, rispettivamente, le espressioni∫[0,+∞) xdF (x) e

∫(−∞,0) xdF (x) . L’espressione (5.9) ha un’interessante interpretazione

geometrica. Infatti, posto

h(m) :=

∫ +∞

m

(1 − F (x))dx −∫ m

−∞F (x)dx

si vede facilmente chem 7→ h(m) è continua e strettamente decrescente, con limm→+∞ h(m) =

−∞, limm→−∞ h(m) = +∞. Nel punto m0 in cui h si annulla (cfr. Figura 5.2) si ha

Um0 :=

∫ +∞

m0

(1 − F (x))dx =

∫ m0

−∞F (x)dx := Lm0

con

Um0 =

∫ +∞

0

(1 − F (x))dx −∫ m0

0

(1− F (x))dx

Page 93: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

5.3. VALORE ATTESO DI UN NUMERO ALEATORIO QUALUNQUE 85

m

Figura 5.2: Il valore di h(m) è dato dalla differenza dell’area con tratteggio obliquo meno

quella con tratteggio verticale

Lm0 =

∫ 0

−∞F (x)dx −

∫ 0

m0

F (x)dx

e, quindi,

0 = Um0 − Lm0 =

∫ +∞

0

(1− F (x))dx −m0 +

∫ m0

0

F (x)dx −∫ 0

−∞F (x)dx +

∫ 0

m0

F (x)dx

= E(ξ) −m0.

Perció il valore atteso E(ξ) è l’ascissa del punto nel quale si ottiene il bilanciamento delle

due aree a tratteggio obliquo e a tratteggio verticale.

La formula 5.9 può essere utilizzata, ad esempio, per il calcolo di E(ξ) quando ξ ha

la funzione di ripartizione descritta nell’esempio (b) di distribuzione continua discussa

nella Sottosezione 2.2.5. Infatti, da E(ξ) =∫ 1

0(1 − FS∗(x))dx (poiché S∗ ha supporto

incluso in [0, 1]), segue

E(ξ) =1

2(3

4− 1

4) +

1

4(3

16− 1

16) + · · · = 1

2.

Completiamo le considerazioni svolte a proposito di (5.6) in relazione ad una fun-

zione h(ξ1, ξ2) di vettore aleatorio (ξ1, ξ2), dotato di funzione di ripartizione F , essendo h

definita su R2 (misurabile) e a valori reali. Allora, se

∫R2 |h(x, y)|dF (x, y) < +∞, si trova

dalle proprietà dell’integrale di Stieltjes

E(h(ξ1, ξ2)) =

R2

h(x, y)dF (x, y) (5.10)

che, nel caso discreto, si riduce a (5.3). Se F è assolutamente continua con funzione di

densità f si ha

E(h(ξ1, ξ2)) =

R2

h(x, y)f(x, y)dxdy.

Un caso particolarmente interessante si ha quando ξ1 e ξ2 sono stocasticamente indipen-

denti e h(ξ1, ξ2) = ξ1ξ2.

Page 94: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

86 CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE

Conviene, a questo proposito, premettere che dalla ovvia disuguaglianza 2|ab| 6a2 + b2 segue che se vale E[ξ2i ] < +∞ per i = 1, 2, allora sono ben definite le speranze

matematiche E[|ξ1ξ2|] e E[ξ1ξ2].

Ritornando al caso dell’indipendenza di ξ1 e ξ2, si ha

Proposizione 5.3.1. Se ξ1 e ξ2 sono stocasticamente indipendenti ed hanno speranza

matematica finita, allora E(ξ1 · ξ2) = E(ξ1)E(ξ2).

Dimostrazione. (cenno euristico) Per ipotesi

Pξ1 6 x, ξ2 6 y = Fξ1(x)Fξ2 (y) ((x, y) ∈ R2).

Quindi, se E(|ξi|) < +∞ per i = 1, 2,

E(ξ1ξ2) =

R2

xydFξ1(x)dFξ2 (y)

=

R

xdFξ1(x)

R

ydFξ2(y) = E(ξ1)E(ξ2).

z

E’ importante osservare che la tesi della Proposizione 5.3.1 potrebbe valere anche

in assenza della condizione di indipendenza stocastica, come nell’Esempio 5.5.4 che

vedremo fra poco.

5.4 Valore atteso di una distribuzione condizionata

Nei Paragrafi 4 e 6 del quarto capitolo abbiamo introdotto ed esemplificato la nozione di

distribuzione condizionata, caratterizzata con

y 7→ f2|1(y|x)

da intendersi, nel caso discreto, come probabilità condizionata di ξ2 = y dato ξ1 = xe, nel caso assolutamente continuo, come densità condizionata, calcolata in y, di ξ2 dato

ξ1 = x. Se la corrispondente distribuzione risultasse molto concentrata attorno ad

un valore (dipendente, chiaramente, da x) potremmo usare eventuali osservazioni su ξ1

per prevedere il valore di ξ2. Si noti, a questo proposito, che ξ1 e ξ2 potrebbero essere il

risultato di due osservazioni sullo stesso fenomeno effettuate in tempi diversi. Poincaré,

nel 1902, scriveva

“I fatti previsti. . . non possono che essere probabili. Per quanto una previ-

sione possa apparirci solidamente fondata, non siamo mai assolutamente

certi che l’esperienza non la smentirà. Ma la probabilità è spesso sufficiente-

mente grande perché noi possiamo, praticamente, contentarcene.”

Page 95: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

5.4. VALORE ATTESO DI UNA DISTRIBUZIONE CONDIZIONATA 87

Ad esempio, se ripetessimomisurazioni sulla differenza di potenziali (ξ1) agli estremi

di un tratto di conduttore e, congiuntamente, sull’intensità di corrente (ξ2) difficilmente

troveremmo, sia pure in condizioni ideali, perfettamente rispettata la legge di Ohm. Più

realisticamente, si troverebbe una nuvola di punti nel piano, realizzazioni di (ξ1, ξ2),

molto concentrati attorno al grafico che esprime la legge suddetta. Quindi, un modello

soddisfacente per situazioni analoghe a quella descritta e, a maggior ragione, per altre

in cui le quantità oggetto di osservazione non sono assoggettabili a leggi determinis-

tiche, dovrebbe essere costituito da una distribuzione o legge di probabilità a due o più

dimensioni che specificasse i valori di probabilità assegnati ai varî accoppiamenti, o alle

varie combinazioni, delle determinazioni delle quantità osservabili. La maggiore o mi-

nore concentrazione delle varie leggi condizionali servirebbe ad indicare la maggiore o

minore tendenza di una quantità a dipendere da altre. Più precisamente, con riferi-

mento a vettori bidimensionali, il problema si può porre nei termini seguenti: fissare

un modo efficiente per prevedere ξ2 sulla base dei valori di ξ1, in relazione ad un cer-

to sistema di penalizzazione associato all’errore di previsione commesso. Indicato con

ξ2 = g(ξ1) il previsore, si tratta, quindi, di fissare g in modo che risulti minima una pre-

fissata penalizzazione. Qui ci limitiamo a considerare la penalizzazione che corrisponde

al quadrato dello scarto fra ξ2 e g(ξ1). In altri termini, cerchiamo g in modo che risulti

minimo il valore atteso

E[(ξ2 − g(ξ1))2] (5.11)

al variare di g in un’opportuna classe. Sussiste, a questo proposito, la fondamentale

Proposizione 5.4.1. Si denoti con G la classe dei numeri aleatori g : R → R, che sono

funzioni di ξ1 tali che E(g2(ξ1)) < +∞. Allora, se anche per ξ2 vale E(ξ22) < +∞, si ha

ming∈G

E[(ξ2 − g(ξ1))2] = E[(ξ2 − E(ξ2|ξ1))2]

dove

E(ξ2|ξ1) =∫

R

ydF2|1(y|ξ1). (5.12)

Prima di procedere alla dimostrazione, rileviamo che l’espressione E(ξ2|ξ1) si ricavada

E(ξ2|ξ1 = x) =1

f1(x)

y

yf(y, x)

nel caso discreto, per ogni determinazione x di ξ1 con probabilità positiva, e da

E(ξ2|ξ1 = x) =1

f1(x)

R

yf(y, x)dy

Page 96: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

88 CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE

nel caso assolutamente continuo, per ogni x tale che f1(x) > 0.

Inoltre, ricordiamo che la funzione

x 7→ r2(x) = E(ξ2|ξ1 = x),

definita per ogni x tale che f1(x) > 0, prende il nome di funzione di regressione di ξ2 su

ξ1.

Dimostrazione della Proposizione 5.4.1. Per dimostrare la proposizione si osser-

va che E[(ξ2−g(ξ1))2] = E[(ξ2−r2(ξ1))2]+E[(r2(ξ1)−g(ξ1))2]+2E[(ξ2−r2(ξ1))(r2(ξ1)−g(ξ1))],con

E[(ξ2 − r2(ξ1))(r2(ξ1)− g(ξ1))] =

∫ ∫(y − r2(x))(r2(x)− g(x))dF2|1(y|x)dF1(x)

=

∫[r2(x) − g(x)]

( ∫[y − r2(x)]dF2|1(y|x)

)dF1(x)

=

∫[r2(x) − g(x)]

( ∫ydF2|1(y|x)− r2(x)

)dF1(x) = 0

dal momento che∫ydF2|1(y|x)− r2(x) = 0. Pertanto,

E[(ξ2 − g(ξ1))2] = E[(ξ2 − r2(ξ1))

2] + E[(r2(ξ1)− g(ξ1))2]

> E[(ξ2 − r2(ξ1))2]

e l’uguaglianza vale se e solo se g(ξ1) = r2(ξ1) con probabilità uno. z

Quindi il miglior previsore – rispetto alla penalizzazione quadratica – è la funzione di

regressione a cui corrisponde un danno medio uguale a E[(ξ2 − r2(ξ1))2]. Come misurare

l’intensità di dipendenza di ξ2 da ξ1, ovvero la bontà della regressione quale previsore?

A questo proposito, seguendo Karl Pearson si può notare che vale

σ22 :=

R

(x−m2)2dF2(x) = E[(ξ2 − r2(ξ1)) + (r2(ξ1)−m2)2]

= E[(ξ2 − r2(ξ1))2] + E[(r2(ξ1)−m2)

2]

dove si è posto mi := E(ξi) per i = 1, 2. Per verificare l’ultima uguaglianza si può

procedere come nella dimostrazione della Proposizione 5.4.1. Quindi,

η22|1 :=E[(r2(ξ1)−m2)

2]

σ22

= 1− E[(ξ2 − r2(ξ1))2]

σ22

.

La costante η22|1 – nota come rapporto di correlazione – è stata proposta da K.Pearson

per misurare, appunto, l’intensità della dipendenza di ξ2 da ξ1. Essa varia in [0, 1] e

assume il valore uno se e solo se ξ2 = r2(ξ1) con probabilità uno, ovvero ξ2 dipende da ξ1;

per contro, prende il valore zero se e solo se r2(ξ1) è con probabilità uno costante (= m2),

ovvero si presenta la situazione di indipendenza regressiva: la regressione non varia al

Page 97: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

5.4. VALORE ATTESO DI UNA DISTRIBUZIONE CONDIZIONATA 89

variare di ξ1. Si noti che quest’ultima circostanza sussiste, ad esempio, nel caso in cui

ξ1 e ξ2 sono stocasticamente indipendenti (ma anche in altri casi). Infatti se ξ1 e ξ2 sono

stocasticamente indipendenti, si ha

r2(ξ1) = E(ξ2|ξ1) = E(ξ2) = m2.

Lasciamo allo studente di riformulare tutte le considerazioni che precedono per la

regressione r1(ξ2) di ξ1 su ξ2, dopo aver posto σ21 =

∫R(x−m1)

2dF1(x).

Esempio 5.4.2. Sia (ξ1, ξ2) un vettore aleatorio con la legge rappresentata nella seguente

tabella:

ξ1\ξ2 4 6 8 10

1 0,1 0,5 0 0 0,6

2 0 0 0,1 0,1 0,2

3 0 0 0 0,1 0,1

4 0 0 0 0,1 0,1

0,1 0,5 0,1 0,3

Si ha E(ξ1) = 1.7,Var(ξ1) = 1.01,E(ξ2) = 7.2,Var(ξ2) = 4.16. Nella Figura 5.3 vengono

rappresentate con crocette le determinazioni di (ξ1, ξ2).

Figura 5.3: Le crocette corrispondono alle determinazioni di (ξ1, ξ2).

Direttamente dalla tabella segue

Pξ1 = 1|ξ2 = 4 = 1

Pξ1 = 1|ξ2 = 6 = 1

Pξ1 = 2|ξ2 = 8 = 1

Pξ1 = 2|ξ2 = 10 = Pξ1 = 3|ξ2 = 10 = Pξ1 = 4|ξ2 = 10 = 1/3.

Page 98: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

90 CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE

Quindi,

r1(4) = 1, r1(6) = 1, r1(8) = 2, r1(10) = 9/3.

Per calcolare η21|2, organizziamo i calcoli come segue

r1(·) (r1(·)−m1)p· (r1(·)−m1)2p·

1 -0.7 0.049

1 -0.7 0.245

2 0.3 0.009

9/3 1,3 0.507

0.81

da cui segue η21|2 = 0.81/1.01 = 0.801....

5.5 Varianza

Il valore atteso è stato introdotto come caratteristica numerica di una distribuzione atta

a fornire una buona previsione di un numero aleatorio dotato di quella distribuzione. In-

fatti, E(ξ) rende minimo l’indice (5.1). Il valore minimo di tale indice si chiama varianza

di ξ, in simboli Var(ξ), e la sua espressione è

Var(ξ) =∑

k

(xk − E(ξ))2pk.

Facendo uso dell’operatore E, si può scrivere

k

(xk − E(ξ))2pk = E[(ξ − E(ξ))2]

e, sapendo che E è definito anche per numeri aleatori non discreti, possiamo estendere

la nozione di varianza a un numero aleatorio ξ qualunque (anche non discreto) ponendo

Var(ξ) = E[(ξ −m)2] (m := E(ξ)) (5.13)

purché risulti E(ξ2) < +∞. Ricordando la rappresentazione di E come integrale, da

(5.13) segue

Var(ξ) =

R

(x−m)2dF (x)

dove F è la funzione di ripartizione di ξ.

Dalle proprietà dell’integrale, si ricava che, se F è discreta con salti p1, p2, . . . in

x1, x2, . . . , vale

Var(ξ) =∑

k

(xk −m)2pk.

Page 99: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

5.5. VARIANZA 91

purché riesca∑

k x2kpk < +∞. Invece, se F è assolutamente continua con densità f , si

avrà

Var(ξ) =

R

(x−m)2f(x)dx

a patto che valga la condizione∫Rx2f(x)dx < +∞. In ogni caso se la varianza è finita,

vale la

Proposizione 5.5.1. Se E(ξ2) < +∞, allora

Var(ξ) = E(ξ2)− E2(ξ), Var(aξ + b) = a2Var(ξ) (a, b) ∈ R

2. (5.14)

Dimostrazione.

Var(ξ) = E[ξ2 + E2(ξ) − 2ξE(ξ)] = E(ξ2) + E(E2(ξ)) − 2E(ξ)E(ξ) = E(ξ2)− E

2(ξ).

Var(aξ + b) = E((aξ − aE(ξ))2) = E(a2ξ2)− E2(aξ) = a2(E(ξ) − E

2(ξ)) = a2Var(ξ).z

La varianza è un indice della maggiore o minore variabilità (dispersione) di una

distribuzione attorno al valore atteso. Si vede facilmente che essa vale 0 se e solo se

esiste una costante a tale che Pξ = a = 1.

Esempio 5.5.2. Considero un numero aleatorio ξ con distribuzione Pξ = −A = (1 −β)/2 = Pξ = A, Pξ = 0 = β, con β in [0, 1], A > 0. Allora E(ξ) = 0 e

Var(ξ) = A2(1− β).

La varianza è dunque nulla se β = 1 e, per A fissato, massima se β = 0. Lo studente

potrebbe spiegare perché questa conclusione è intuitiva.

5.5.1 Varianza di una somma di numeri aleatori

Passiamo a problemi di secondo grado, consistenti nel determinare la varianza di (aξ1+

bξ2) nell’ipotesi che valga E(ξ2i ) < +∞ per i = 1, 2. Per comodità di notazione, si continui

a scrivere mi = E(ξi) e σ2i = Var(ξi) per i = 1, 2. Si vede facilmente che per ogni terna di

numeri reali a, b, c vale la seguente

Proposizione 5.5.3. Se ξ1 e ξ2 sono due variabili aleatorie con E(ξ2i ) < +∞, per i = 1, 2,

allora

Var(aξ1 + bξ2 + c) = Var(aξ1 + bξ2) = a2σ21 + b2σ2

2 + 2abCov(ξ1, ξ2). (5.15)

dove

Cov(ξ1, ξ2) := E[(ξ1 −m1)(ξ2 −m2)] = E(ξ1ξ2)−m1m2 (5.16)

Page 100: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

92 CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE

Dimostrazione.

Var(aξ1 + bξ2 + c) = E[(aξ1 + bξ2 − (am1 + bm2))

2]= E

[(a(ξ1 −m1) + b(ξ2 −m2))

2]

= E[a2(ξ1 −m1)

2 + b2(ξ2 −m2)2 + 2ab(ξ1 −m1)(ξ2 −m2)

]

= a2Var(ξ1) + b2Var(ξ2) + 2abE[(ξ1 −m1)(ξ2 −m2)]. z

(5.17)

Il numero Cov(ξ1, ξ2) è detto covarianza di (ξ1, ξ2) e rappresenta una delle carat-

teristiche sintetiche più rilevanti di una distribuzione di vettore aleatorio. Se µ è la

distribuzione di probabilità di (ξ1, ξ2) scriveremo anche Cov(µ) al posto di Cov(ξ1, ξ2).

L’espressione della varianza della somma si semplifica sensibilimente quando ξ1 e

ξ2 sono stocasticamente indipendenti. Infatti in questo caso si ha, per la Proposizione

5.3.1,

Cov(ξ1, ξ2) = E(ξ1 −m1)E(ξ2 −m2) = 0

e, pertanto,

Var(aξ1 + bξ2) = a2Var(ξ1) + b2Var(ξ2). (5.18)

Si noti però che la covarianza si può annullare anche se ξ1 e ξ2 non sono stocasticamente

indipendenti. Diremo in tal caso che i numeri aleatori ξ1 e ξ2 sono ortogonali o non

correlati.

Esempio 5.5.4. La legge di ξ1 sia data da

Pξ1 = −1 = 1− β

2= Pξ1 = 1, Pξ1 = 0 = β.

Inoltre, ξ2 sia uguale al quadrato di ξ1: ξ2 = ξ21 . Allora,

E(ξ1) = 0,E(ξ1ξ2) = E(ξ31) = 0

e ciò implica Cov(ξ1, ξ2) = 0, pur essendo ξ2 perfettamente dipendente da ξ1 (η22|1 =

1). L’esempio offre anche un caso concreto in cui E[ξ1ξ2] = E[ξ1]E[ξ2], pur non essendo

stocasticamente indipendenti i numeri aleatori ξ1 e ξ2.

5.5.2 Esempi di momenti di distribuzioni notevoli

Esempio 5.5.5 (Valore atteso e varianza di una distribuzione binomiale). Vogliamo de-

terminare valore atteso e varianza di un numero aleatorio Sn dotato di legge binomiale

PSn = k =(n

k

)pkqn−k (k = 0, 1, . . . , n).

Page 101: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

5.5. VARIANZA 93

Lo studente faccia riferimento al Paragrafo 4.3.1, in cui Sn è visto come somma di

numeri aleatori ξ1, . . . , ξn indipendenti con legge comune

p = Pξ1 = 1 = 1− Pξ1 = 0 = 1− q.

Allora, dalla (d) del Paragrafo 5.2.1 segue

E(Sn) = E(ξ1) + · · ·+ E(ξn) = np

poiché

E(ξ1) = 0 · q + 1 · p.

Inoltre, da (5.18),

Var(Sn) = Var(ξ1) + · · ·+Var(ξn) = npq

poiché

E(ξ21) = 0 · q + 1 · p = p

e, quindi,

Var(ξ1) = E(ξ21)− E2(ξ1) = p− p2 = p(1− p).

Esempio 5.5.6 (Valore atteso e varianza di una distribuzione di Poisson). Supponiamo

che il numero aleatorio ξ abbia distribuzione di Poisson, ovvero

Pξ = k = e−θθk

k!(k = 0, 1, . . .)

in cui θ è un parametro positivo. Allora

E(ξ) =

∞∑

k=0

ke−θθk

k!=∑

k>1

e−θθk

(k − 1)!= θe−θ

k>1

θk−1

(k − 1)!= θe−θ

k>0

θk

k!= θ

Inoltre,

E(ξ2) =∑

k>0

k2e−θθk

k!=∑

k>0

[k(k − 1) + k]e−θθk

k!=∑

k>2

e−θθk

(k − 2)!+ θ

= e−θθ2∑

k>2

θk−2

(k − 2)!+ θ = θ2 + θ

e quindi

Var(ξ) = E(ξ2)− E2(ξ) = θ2 + θ − θ2 = θ.

Allora, Var(ξ) = E(ξ) quando ξ ha distribuzione di Poisson.

Esempio 5.5.7 (Valore atteso e varianza di una distribuzione geometrica). Sia

Pξ = r = θ(1 − θ)r (r = 0, 1, . . .)

Page 102: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

94 CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE

con θ parametro in (0, 1). Allora,

E(ξ) =∑

r>1

rθ(1 − θ)r = θ(1 − θ)∑

r>1

r(1 − θ)r−1.

La somma∑

r>1 r(1− θ)r−1, come si vede facilmente, è la derivata calcolata in (1− θ) di

x 7→∑r>0 x

r = (1 − x)−1 (x ∈ (0, 1)). Pertanto,

E(ξ) = θ(1 − θ)d

dx

1

1− x

∣∣∣∣x=1−θ

= θ(1− θ)1

(1− x)2

∣∣∣∣x=1−θ

=θ(1− θ)

(1 − 1 + θ)2=

θ(1 − θ)

θ2=

1− θ

θ.

Ricordando che la distribuzione di (ξ+1) fornisce la legge del tempo di attesa del primo

successo in termini di numero di prove, nel caso di prove bernoulliane, si può asserire

che il valore atteso di questo tempo è uguale al reciproco della probabilità di successo.

[Risultato abbastanza naturale.] Con calcoli analoghi, si ottiene Var(ξ) = Var(ξ + 1) =

(1− θ)/θ2.

Esempio 5.5.8 (Valore atteso e varianza di distribuzione binomiale negativa). Nella

Sezione 4.3.4 abbiamo visto che la distribuzione binomiale negativa, presentata nella

Sezione 2.2.3, coincide con la legge di probabilità di un numero aleatorio ξ = Tn−n dove

Tn è somma dei primi tempi intercorrenti τ1, . . . , τn, ivi descritti. Quindi

E(ξ) :=∑

r>1

(n+ r − 2

r

)θn(1− θ)r

= E(Tn)− n

=n∑

i=1

E(τi)− n per la (d) della Sezione 5.2.1.

D’altra parte da (4.6) si vede che (τi − 1) è una variabile aleatoria con distribuzione

geometrica e, quindi, dall’Esempio 5.5.7 si ricava

E(τi) = E(τi − 1) + 1 =1− θ

θ+ 1 =

1

θ,

e, dunque,

E(ξ) = n1

θ− n = n

1− θ

θ.

Infine, per l’indipendenza dei tempi τi,

Var(ξ) = Var(Tn − n) = Var(Tn)

=

n∑

i=1

Var(τi) = n1− θ

θ2.

Page 103: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

5.5. VARIANZA 95

Infatti, sempre dall’Esempio 5.5.7

Var(τi) = Var(τi − 1) =1− θ

θ2.

Esempio 5.5.9 (Valore atteso e varianza di distribuzione gaussiana). In questo esempio

si danno alcuni elementi ulteriori alla conoscenza della legge gaussiana. La legge di ξ

sia dunque assolutamente continua con densità

f(x) =1

σ√2π

exp

− (x−m)2

2σ2

(x ∈ R).

Dimostriamo che valgono le fondamentali relazioni: E(ξ − m) = 0, ovvero E(ξ) = m,

Var(ξ −m) = Var(ξ) = σ2. Infatti:

E(ξ −m) =

∫ +∞

−∞(x−m)

1

σ√2π

exp

− (x−m)2

2σ2

dx

=σ√2√π

∫ +∞

−∞ve−v2

dv [col cambiamento di variabile v =x−m

σ√2]

= 0 [l’integranda è dispari];

Var(ξ −m) = E((ξ −m)2) =

∫ +∞

−∞(x−m)2

1

σ√2π

exp

− (x−m)2

2σ2

dx

=2σ2

√π

∫ +∞

−∞v2e−v2

dv

=4σ2

√π

∫ +∞

0

v2e−v2

dv

=2σ2

√π

∫ +∞

0

e−xx32−1 dx [col cambiamento di variabile x = v2]

=2σ2

√πΓ(3/2) = σ2.

Resta così chiarito il significato dei parametri m, σ2. z

Esempio 5.5.10 (Momenti della distribuzione gamma e beta). Sia ξ un numero aleato-

rio con legge assolutamente continua di densità gamma

f(x) =ab

Γ(b)e−axxb−111(0,+∞)(x) (x ∈ R)

con a, b parametri positivi. Allora, per ogni intero k > 0,

E(ξk) =ab

Γ(b)

∫ +∞

0

xke−axxb−1dx

=ab

Γ(b)

Γ(b+ k)

ab+k=

1

ak(b+ k − 1) · · · b.

Quindi,

E(ξ) =b

a, E(ξ2) =

(b+ 1)b

a2, Var(ξ) =

b

a2.

Page 104: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

96 CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE

Sia X un numero aleatorio con legge assolutamente continua di densità (beta)

g(x) =Γ(a+ b)

Γ(a)Γ(b)xa−1(1− x)b−111(0,1)(x) (x ∈ R).

Allora,

E(Xk) =Γ(a+ b)

Γ(a)Γ(b)

∫ 1

0

xkxa−1(1− x)b−1dx

=Γ(a+ b)

Γ(a)Γ(b)

Γ(k + b)Γ(b)

Γ(a+ b+ k)

=(k + a− 1) . . . a

(a+ b+ k − 1) . . . (a+ b)

da cui

E(X) =a

a+ b, E(X2) =

a(a+ 1)

(a+ b + 1)(a+ b), Var(X) =

ab

(a+ b)2(a+ b+ 1).

5.6 Caratteristiche sintetiche di una distribuzione a

più dimensioni

5.6.1 Concordanza, discordanza e covarianza

Aspetto assai interessante di una generica distribuzione di probabilità di vettore aleato-

rio è la concordanza: al crescere di una componente anche l’altra presenta una propen-

sione a crescere. Si ritorni a vedere anche il Paragrafo 4.2. Come misurare questa pro-

prietà tramite un’opportuna costante caratteristica? In un articolo del 1937, de Finetti

propone di procedere nel modo seguente. Indicata con µ una distribuzione di probabilità

su B(R2), si prendono due vettori aleatori (X1, Y1) e (X2, Y2) indipendenti e ciascuno di

essi distribuito con legge µ.

Si guarda ai due vettori come a due punti presi a caso sul piano (cf. Figura 5.4) e

si considera l’evento C := (X1 − X2)(Y1 − Y2) > 0 che corrisponde alla condizione di

concordanza, contro l’evento D := (X1 − X2)(Y1 − Y2) < 0 che segnala la condizione

opposta, di discordanza. Per (X1, Y1) fissato, la regione di concordanza è determinata

dal fatto che (X2, Y2) appartenga alla regione ombreggiata; la parte restante del piano

è di indifferenza o di discordanza. Quindi, la concordanza – discordanza di µ si può

misurare considerando il valore atteso del segno di (X1 − X2)(Y1 − Y2), vale a dire il

valore atteso di

sign((X1 −X2)(Y1 − Y2)) =

1 se (X1 −X2)(Y1 − Y2) > 0

−1 se (X1 −X2)(Y1 − Y2) < 0.

Page 105: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

5.6. CARATTERISTICHE SINTETICHEDIUNADISTRIBUZIONEAPIÙ DIMENSIONI97

(X_1,Y_1)

Figura 5.4:

Ovviamente, si ha

E(sign((X1 −X2)(Y1 − Y2))) =

∫11(x1−x2)(y1−y2)>0µ(dx1dy1)µ(dx2dy2)

−∫

11(x1−x2)(y1−y2)<0µ(dx1dy1)µ(dx2dy2)

e questo indice varia fra −1 e 1 e sarà tanto più prossimo a 1 (−1, rispettivamente)

quanto maggiore è la concordanza (la discordanza, rispettivamente); la sua eventuale

prossimità a zero indicherebbe sostanzialmente indifferenza tra i due caratteri. Un

altro modo per cogliere il grado di concordanza è quello di valutare, anziché il segno di

(X1 −X2)(Y1 − Y2), il valore di tale prodotto e, quindi, il valore atteso

E[(X1 −X2)(Y1 − Y2)]

purché quest’ultimo esista. In tal caso, ricordando che (X1, Y1) e (X2, Y2) sono indipen-

denti e e che (X1, Y1) ha la stessa legge di (X2, Y2), si ha

E[(X1 −X2)(Y1 − Y2)] = E[X1Y1 −X1Y2 −X2Y1 +X2Y2]

= Cov(X1, Y1) + E(X1)E(Y1)− E(X1)E(Y2)− E(X2)E(Y1)

+ Cov(X2, Y2) + E(X2)E(Y2)

= 2Cov(X1, Y1).

Perció, Cov(µ) coincide con la metà del valore atteso di (X1 −X2)(Y1 − Y2) e, per il fatto

che le determinazioni di questo prodotto segnalano la concordanza–discordanza delle

Page 106: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

98 CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE

componenti del vettore (ξ1, ξ2) distribuito secondo µ, ne discende che Cov(µ) fornisce

una misura della concordaza–discordanza in µ.

5.6.2 Correlazione lineare e coefficiente di correlazione lineare

Altra caratteristica interessante di una distribuzione µ di vettore aleatorio (ξ1, ξ2) è

l’eventuale tendenza a concentrarsi attorno ad una retta. Se una simile circostanza si

presentasse sarebbe lecito, avendo determinato la retta, prevedere la determinazione

di ξi a partitre dalla determinazione di ξj , per i 6= j. Come misurare l’intensità del-

la tendenza summenzionata che, in statistica, è consuetudine chiamare correlazione

lineare?

Si parte dal membro di destra dell’espressione (5.15) e si osserva che, essendo la

varianza di un numero aleatorio, deve soddisfare la disuguaglianza

Q(a, b) := a2σ21 + b2σ2

2 + 2abCov(ξ1, ξ2) > 0 (a, b) ∈ R2.

Q è dunque una forma quadratica [in (a, b)] semidefinita positiva. Quindi, essendo

Var(ξi) > 0 (i = 1, 2), il determinante di Var(ξ1) Cov(ξ1, ξ2)

Cov(ξ1, ξ2) Var(ξ2)

deve essere non negativo, ossia

Var(ξ1)Var(ξ2) > Cov2(ξ1, ξ2), (5.19)

che è una versione probabilistica della disuguaglianza di Cauchy–Schwarz.

Va inoltre osservato che Var(a0ξ1 + b0ξ2) = 0 per una opportuna coppia di (a0, b0) 6=(0, 0) se e solo se la suddetta matrice non è definita positiva, ovvero

Cov2(ξ1, ξ2) = Var(ξ1)Var(ξ2). (5.20)

Poiché Var(a0ξ1 + b0ξ2) = 0 se e solo se esiste una costante c0 per cui

Pa0ξ1 + b0ξ2 = c0 = 1, (5.21)

possiamo stabilire la seguente

Proposizione 5.6.1. Se E(ξ2i ) < +∞ (i = 1, 2), allora

Cov2(ξ1, ξ2) 6 Var(ξ1)Var(ξ2) (5.22)

e l’uguaglianza vale se e solo se le determinazioni del vettore aleatorio (ξ1, ξ2) apparten-

gono con probabilità 1 ad una retta ax+ by = c. In tal caso, se σi > 0 per i = 1, 2, la retta

è crescente se e solo se Cov(ξ1, ξ2) > 0.

Page 107: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

5.6. CARATTERISTICHE SINTETICHEDIUNADISTRIBUZIONEAPIÙ DIMENSIONI99

Dimostrazione. Resta solo da dimostrare l’ultima affermazione sul segno diCov(ξ1, ξ2).

Se vale (5.21) con σi > 0 per i = 1, 2, allora

0 = a20σ21 + b20σ

22 + 2a0b0Cov(ξ1, ξ2)

con |Cov(ξ1, ξ2)| = σ1σ2; perció,

0 = (a0σ1 + b0σ2sign(Cov(ξ1, ξ2)))2

ovvero

a0σ1 = −b0σ2sign(Cov(ξ1, ξ2)).

Pertanto, valendo la (5.21), il segno di Cov(ξ1, ξ2) è opposto a quello di a0b0. z

Nel caso particolare in cui σ2i > 0 per i = 1, 2, possiamo considerare il rapporto

ρ(ξ1, ξ2) =Cov(ξ1, ξ2)

σ1σ2

noto come coefficiente di correlazione lineare (detto anche coefficiente di Bravais–Pearson).

In virtù della Proposizione 5.6.1, si ha

|ρ(ξ1, ξ2)| 6 1

e l’uguaglianza sussiste se e solo se vale (5.21), con a0b0 < 0 (retta crescente) se e solo se

ρ(ξ1, ξ2) = 1.

Ripetiamo che i numeri aleatorî ξ1, ξ2 si dicono non correlati quando ρ(ξ1, ξ2) = 0.

Possiamo raccogliere le considerazioni precedenti nella seguente proposizione che

precisa l’ufficio di ρ come misura della correlazione lineare fra le componenti di un

vettore aleatorio bidimensionale.

Proposizione 5.6.2. Se 0 < σi < +∞ per i = 1, 2, si ha

|ρ(ξ1, ξ2)| 6 1

e l’uguaglianza vale se e solo le determinazioni del vettore aleatorio (ξ1, ξ2) appartengono

con probabilità 1 ad una retta ax + by = c. In tal caso, inoltre, la retta è crescente se e

solo se ρ(ξ1, ξ2) = 1.

Si deve osservare che la legge di (ξ1, ξ2) potrebbe segnalare una forte dipendenza

di ξ2 da ξ1 ad esempio, o di ξ1 da ξ2, ma debole correlazione lineare; in altri termini,

la forma di tale dipendenza non sarebbe lineare. A questo fine, conviene mettere in

luce una notevole disuguaglianza esistente fra rapporti di correlazione e coefficente di

correlazione lineare.

Page 108: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

100 CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE

Ricordiamo che con r2(ξ1) abbiamo denotato la regressione di ξ2 su ξ1. Allora, con la

stessa notazione della Sezione 5.4

η22|1 = 1− E[(ξ2 − r2(ξ1))2]

σ22

> 1− E[(ξ2 − g(ξ1))2]

σ22

per ogni funzione g e, in particolare, per g(ξ1) = m2 + ρσ2(ξ1 − m1)/σ1 (=retta di

regressione II tipo; cf. 5.6.3), si ottiene

η22|1 > 1− 1 + ρ2 − 2ρ2 = ρ2.

Abbiamo già visto che η22|1 può assumere il valore massimo (1) mentre ρ2 prende quello

minimo (0); cf. Esempio 5.5.4. Se η2 = 0 (indipendenza in regressione) anche ρ2 deve

valere 0. Più in generale, l’uguaglianza tra η22|1 e ρ2 sussiste se e solo se la regressione

di ξ2 su ξ1 è lineare (affine).

Esempio 5.6.3. Riprendendo l’Esempio 5.4.2, si ha E(ξ1 · ξ2) = 0, 1 · 4+0, 5 · 6+0, 1 · 16+0, 1 · 20 + 0, 1 · 30 + 0, 1 · 40 = 14, 0 e Cov(ξ1, ξ2) = 14, 0− 1, 7 · 7, 2 = 1, 76. Allora

ρ =1, 76√4, 2016

≃ 0, 86,

che è un valore piuttosto elevato per ρ; in effetti, la retta g(ξ1) = m2 + ρσ2(ξ1 −m1)/σ1,

tratteggiata in Figura 5.3, sembra adattarsi piuttosto bene ai dati (crocette). z

5.6.3 Regressione di secondo tipo (regressione lineare)

Quando il modulo del coefficiente di correlazione ρ(ξ1, ξ2) è abbastanza vicino ad uno vi

è buon motivo per ritenere che le realizzazioni di (ξ1, ξ2) tendano a concentrarsi attorno

ad una retta. E’ quindi interessante cercare l’equazione di una retta che, rispetto ad un

ben determinato criterio, si adatti bene alle realizzazioni di (ξ1, ξ2). Come già in altre

circostanze, adotteremo il criterio della minimizzazione dell’errore quadratico medio.

Il problema può allora essere affrontato cercando la coppia (a, b) per cui

E[(ξ2 − aξ1 − b)2] = mina,b

E[(ξ2 − aξ1 − b)2]. (5.23)

Quindi, il numero aleatorio ξ∗2 = aξ1 + b rende minimo il valore atteso del quadrato

dell’errore |ξ2−ξ∗2 |, con ξ∗2 = aξ1+b al variare di (a, b). Per retta di regressione di secondo

tipo si intende la retta cha ha equazione ξ∗2 = aξ1 + b. Essa corrisponde, nel campo

dell’approssimazione numerica, alla retta dei minimi quadrati (Legendre-Gauss).

Proposizione 5.6.4. Sotto la solita ipotesi E(ξ2i ) < +∞ e σi > 0 per i = 1, 2, il problema

(5.23) ammette un’unica soluzione, caratterizzata da

a = ρσ2

σ1, b = m2 − ρm1

σ2

σ1.

Page 109: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

5.6. CARATTERISTICHE SINTETICHEDIUNADISTRIBUZIONEAPIÙ DIMENSIONI101

Dimostrazione. Posto

R := E[(ξ2 − aξ1 − b)2] = E[(ξ2 −m2)− a(ξ1 −m1)− (m2 − am1 − b)]2

= σ22 + a2σ2

1 + (m2 − am1 − b)2 − 2aCov(ξ1, ξ2),

il problema può essere risolto ricorrendo al metodo classico:

∂R

∂a= 2aσ2

1 − 2(m2 − am1 − b)m1 − 2Cov(ξ1, ξ2) = 0

∂R

∂b= −2(m2 − am1 − b) = 0

che porge

a =Cov(ξ1, ξ2)

Var(ξ1)= ρ

σ2

σ1, b = m2 − ρ

σ2

σ1m1. z

Nell’Esempio 5.4.2, la regressione lineare di ξ1 su ξ2 è data da ξ∗1 = 1, 7+0, 86√0, 243(ξ2−

7, 2) ed è rappresentata nel grafico di figura 5.3.

Esempio 5.6.5. Per la distribuzione multinomiale con d = 3 (Cf. Esempio 4.2.2) si ha

Pξ2 = n2|ξ1 = n1 =(n− n1)!

n2!(n− n1 − n2)!

(p2

1− p1

)n2(1− p2

1− p1

)n−n1−n2

purché sia 0 < p1 < 1 e 0 6 n1 + n2 6 n. Allora,

E(ξ2|ξ1 = n1) =∑

n2

n2Pξ2 = n2|ξ1 = n1

=

n−n1∑

n2=0

(n− n1

n2

)(p2

1− p1

)n2(1− p2

1− p1

)n−n2

A questo punto, si vede che il valore atteso condizionato cercato coincide con quello

relativo alla legge binomiale (cf. Esempio 5.5.5) con n − n1, al posto di n, p2/(1 − p1) al

posto di p. Perciò,

n1 7→ E(ξ2|ξ1 = n1) = (n− n1)p2

1− p1= n

p21− p1

− n1p2

1− p1n1 = 0, . . . , n

è la funzione di regressione di ξ2 su ξ1. Questo mostra che la funzione di regressione

di ξ2 su ξ1 (ma lo stesso vale per la regressione di ξ1 su ξ2) è lineare e, di conseguenza,

dovrà coincidere con la regressione di secondo tipo con a = ρσ2/σ1 = −p2/(1 − p1),

b = m2 − ρm1σ2/σ1 = np2/(1 − p1). Poiché σ1 e σ2 valgono np1(1 − p1) e np2(1 − p2)

in virtù del fatto che le leggi marginali sono binomiali di parametri npi (i = 1, 2) –cfr

Esempio 4.2.2– si ottiene l’espressione del coefficente di correlazione dall’espressione

ρ

√np2(1− p2)√np1(1− p1)

= − p21− p1

,

Page 110: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

102 CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE

ossia

ρ = −√p1p2√

(1− p1)(1 − p2)

e, di conseguenza,

Cov(ξ1, ξ2) = −n√p1p2.

Esempio 5.6.6 (Gaussiana). Per quanto concerne la legge gaussiana bidimensionale di

densità

f(x, y) =

exp

− 1

2(1−ρ2)

[(x−µ1

σ1

)2− 2ρ

(x−µ1

σ1

)(y−µ2

σ2

)+(

y−µ2

σ2

)2]

2π(1− ρ2)1/2σ1σ2

con (x, y) ∈ R2), poiché le leggi marginali sono ancora gaussiane di parametri (µ1, σ1),

(µ2, σ2), si ha

E(ξi) = µi, Var(ξi) = σ2i (i = 1, 2).

Inoltre,

Cov(ξ1, ξ2) =

∫ +∞

−∞

∫ +∞

−∞(x− µ1)(y − µ2)

1

2π(1 − ρ2)1/2σ1σ2

exp

−1

2(1− ρ2)

[(x− µ1

σ1

)2

− 2ρ

(x− µ1

σ1

)(y − µ2

σ2

)+

(y − µ2

σ2

)2]

dxdy

=1

2π(1− ρ2)1/2σ1σ2

∫ +∞

−∞

∫ +∞

−∞x1x2 exp

−12(1− ρ2)

[x21

σ21

− 2ρx1x2

σ1σ2+

x22

σ22

]dx1dx2.

Posto

y1 =1√

1− ρ2

(x1

σ1− ρx2

σ2

)

y2 =x2

σ2

si trova

x1 = σ1

√1− ρ2y1 + ρσ1y2

x2 = σ2y2

a cui corrisponde la matrice jacobiana

J =

σ1

√1− ρ2 ρσ1

0 σ2

, |J | = σ1σ2

√1− ρ2.

Page 111: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

5.6. CARATTERISTICHE SINTETICHEDIUNADISTRIBUZIONEAPIÙ DIMENSIONI103

Perciò, col cambiamento di variabile indicato, si ottiene

Cov(ξ1, ξ2) =1

∫ +∞

−∞

∫ +∞

−∞σ2y2(σ1

√1− ρ2y1 + ρσ1y2) exp

−12(1− ρ2)

·

·[1

σ21

(σ1

√1− ρ2y1 + ρσ1y2)

2 + 2ρσ2y2(σ1

√1− ρ2y1 + ρσ1y2)

σ1σ2+ y22

]dy1dy2

=σ1σ2

∫ +∞

−∞

∫ +∞

−∞y2(√1− ρ2y1 + ρy2) ·

· exp −12(1− ρ2)

[−(1− ρ2)y21 − (1− ρ2)y22

]dy1dy2

= σ1σ2E

[ξ′2(√

1− ρ2ξ′1 + ρξ′2)]= σ1σ2ρE(ξ

′2) = σ1σ2ρ.

(dove ξ′1 e ξ′2 sono variabili aleatorie indipendenti, di media nulla e varianza 1)

Si scopre, così, che il parametro ρ rappresenta il coefficiente di correlazione lineare

fra ξ1 e ξ2.

Guardando all’espressione della densità condizionale, presentata nell’Esempio 4.6.1,

e all’interpretazione del parametro di una legge gaussiana unidimensionale, si trova

l’espressione della regressione di ξ1 su ξ2, immediatamente; cioè,

x 7→ E(ξ2|ξ1 = x) = µ2 + ρσ2

σ1(x − µ1) (x ∈ R)

che, come per la legge multinomiale, coincide con la regressione lineare di secondo tipo.

Inoltre,

Var(ξ2|ξ1 = x) = σ22(1− ρ2).

La variabilità della legge condizionata di ξ2, dato ξ1 = x, è dunque tanto più piccola

– fermo restando la varianza marginale σ22 – quanto più prossimo a 1 è ρ2 (Risultato

intuitivo!). z

Page 112: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

104 CAPITOLO 5. CARATTERISTICHE SINTETICHE DI UNA DISTRIBUZIONE

Page 113: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

Capitolo 6

Trasformazioni integrali di

leggi di probabilità

Nel Capitolo 4 abbiamo considerato il problema della determinazione della distribuzione

di probabilità di funzioni di un dato vettore aleatorio del quale fosse nota la legge di pro-

babilità. In generale è arduo riuscire ad ottenere forme esplicite di tali distribuzioni, a

causa delle difficoltà che presenta il calcolo di integrali o somme multipli, anche nel ca-

so di vettori con componenti stocasticamente indipendenti. A volte, le difficoltà che si

incontrano nel calcolo diretto si possono evitare ricorrendo ad opportune trasformazioni

delle distribuzioni di probabilità coinvolte nel calcolo. Particolarmente interessante, in

questo senso, appare la caratterizzazione della distribuzione di una somma di numeri

aleatori indipendenti per mezzo della loro funzione caratteristica o, quando può essere

definita, della loro funzione generatrice dei momenti. La somma di numeri aleatori

si presenta come operazione cruciale negli sviluppi teorici della probabilità (ad esem-

pio, per lo studio dei processi ad incrementi indipendenti) e, parimenti, in applicazioni

statistiche.

In questo capitolo, con un occhio di riguardo alle applicazioni accennate e al carattere

introduttivo del corso, vengono presentati alcuni aspetti elementari relativi a definizioni,

proprietà e uso delle trasformazioni sopra accennate.

105

Page 114: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

106 CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ

6.1 Definizione di funzione caratteristica e di funzione

generatrice dei momenti

Il numero aleatorio ξ, definito in (Ω,S, P ), abbia funzione di ripartizione F . Ricordando

la ben nota forma trigonometrica di un numero complesso, per ogni ω in Ω e per ogni

reale t si scriva

eitξ(ω) = cos(tξ(ω)) + i sin(tξ(ω)). (6.1)

Per t fissata, quella che abbiamo scritto è una funzione di ω interpretabile come numero

aleatorio a valori complessi. Essendo ξ 7→ cos(tξ) e ξ 7→ sin(tξ) funzioni continue e

limitate (di ξ), per ogni t in R, i valori attesi

E[cos(tξ)], E[sin(tξ)]

sono ben definiti (cfr. Sezione 5.3 ) e quindi si definisce anche il valore atteso di exp(itξ)

come

E[eitξ] := E[cos(tξ)] + iE[sin(tξ)]

per ogni t fissata. In virtù di (6.1) e (5.6), si può porre

E(eitξ) :=

R

cos(tx)dF (x) + i

R

sin(tx)dF (x)

=

R

(cos(tx) + i sin(tx))dF (x)

=

R

eitxdF (x).

La funzione φ che ad ogni reale t associa il numero complesso E[eitξ] prende il nome di

funzione caratteristica di ξ. Nel linguaggio dell’Analisi A, essa corrisponde alla trasfor-

mata di Fourier-Stieltjes della funzione di ripartizione di F . Ricordando (5.7) e (5.8), si

ottiene

φ(t) =∑

j

eitxjpj (t ∈ R)

quando ξ è discreto con pj := F (xj)− F (xj − 0) per j = 1, 2, . . . e∑

j pj = 1, e

φ(t) =

R

eitxf(x)dx (t ∈ R)

quando F è assolutamente continua con funzione di densità di probabilità f . L’ultima

rappresentazione di φ si dice, col linguaggio dell’Analisi, trasformata di Fourier della

funzione di densità f .

Page 115: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

6.1. DEFINIZIONEDI FUNZIONECARATTERISTICAEDI FUNZIONEGENERATRICEDEIMOMENTI107

Esempi di funzioni caratteristiche di leggi notevoli

1. Legge degenere. Dato x0 in R sia δx0 la distribuzione di probabilità degenere, che

concentra la massa unitaria su x0. Indicatane con Dx0 la funzione di ripartizione,

per la corrispondente funzione caratteristica si ha

φ(t) =

R

eitxdDx0(x) = eitx0 = cos(tx0) + i sin(tx0).

2. Legge di Bernoulli. Sia ξ un numero aleatorio che prende i valori 0 e 1, rispettiva-

mente con probabilità (1− p) e p, essendo p un punto dell’intervallo [0, 1]. Allora la

funzione caratteristica di ξ è

φ(t) = (1− p)eit·0 + peit·1 = 1− p+ peit.

3. Legge binomiale. In accordo alla definizione data nella Sottosezione 2.2.2, la legge

binomiale è quella per cui un dato numero aleatorio prende uno dei valori 0, 1, . . . , n,diciamo k, con probabilità

(nk

)θk(1−θ)n−k, essendo θ un reale fissato in [0, 1]. Allora

la corrispondente funzione caratteristica è

φ(t) =

n∑

k=0

eitk(n

k

)θk(1− θ)n−k

=

n∑

k=0

(n

k

)(eitθ)k(1− θ)n−k

= (1− θ + θeit)n

(sviluppo di Tartaglia-Newton della potenza intera del binomio).

4. Distribuzione di Poisson. Si tratta di un altro esempio di distribuzione discre-

ta, definita sempre nella succitata Sottosezione 2.2.2. Un numero aleatorio ξ

possiede la legge in questione se, per k in 0, 1, 2, . . ., la probabilità che ξ prenda

il valore k è λke−λ/k!, con λ parametro strettamente positivo. Allora la funzione

caratteristica è

φ(t) = e−λ∑

k>0

eitkλk

k!= e−λ

k>0

(eitλ)k

k!= e−λ(1−eit).

5. Come visto nelle Sottosezioni 2.2.2 e 3.3.2, la distribuzione binomiale negativa gio-

ca un ruolo importante come legge di tempi d’attesa: in una successione bernoul-

liana di eventi, la probabilità che l’n-esimo successo si verifichi nella prova (n +

r)-esima è data da(n+ r − 1

r

)θn(1− θ)r r = 0, 1, 2, . . .

Page 116: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

108 CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ

con θ come nei precedenti punti 2 e 3. La corrispondente funzione caratteristica è

φ(t) =∑

r>0

(n+ r − 1

r

)θn(1− θ)reitr

=∑

r>0

(−n)(−n− 1) · · · (−n+ r + 1)

r!(−1)r[(1 − θ)eit]r

= θn∑

r>0

(−nr

)(−1)r[(1− θ)eit]r

=( θ

1− (1− θ)eit

)n.

La caratteristica di un numero aleatorio con legge geometrica (di Pascal), ovvero

con legge binomiale negativa in cui n = 1, è data da

φ(t) =θ

1− (1− θ)eit.

6. Distribuzione uniforme su (a, b). Si ricorda che è la legge assolutamente continua

con densità

f(x) =1

b− aI(a,b)(x).

La funzione caratteristica è allora data da

φ(t) =1

b− a

∫ b

a

eitxdx =1

b− a

eitb − eita

it(t 6= 0).

Nel caso di a = 0 e b = 1 riesce

φ(t) =eit − 1

it(t 6= 0).

In entrambi i casi si definisce φ(0) = 1.

Altri esempi notevoli di funzioni caratteristiche verranno presentati nel seguito,

dopo aver discusso alcune proprietà generali della funzione caratteristica. Concentri-

amo ora l’attenzione sulla nozione di funzione generatrice dei momenti. Si tratta di una

trasformazione integrale che si può definire solo per le funzioni di ripartizione F dotate

della seguente proprietà: esiste un numero strettamente positivo ρ tale che∫

R

etxdF (x) < +∞ per ogni t in (−ρ, ρ).

In tal caso, la funzione

t 7→∫

R

etxdF (x)

definita per t in (−ρ, ρ) si dice funzione generatrice dei momenti associata alla funzione

di ripartizione F . La denominazione scende dal fatto che, se F ha funzione generatrice

Page 117: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

6.1. DEFINIZIONEDI FUNZIONECARATTERISTICAEDI FUNZIONEGENERATRICEDEIMOMENTI109

dei momenti, allora F possiede finiti i momenti di ogni ordine e, inoltre, risulta

g(t) :=

R

etxdF (x) =∑

j>0

mjtj

j!− ρ < t < ρ

con mj :=∫RxjdF (x) (=momento di ordine j), j = 0, 1, 2, . . . . Non dimostriamo questo

risultato, ma facciamo ulteriormente notare che esso implica

mj = g(j)(0)

per ogni j, e ciò chiarisce come la funzione g generi i momenti: tramite le sue derivate

successive calcolate in 0. Per gli studenti in possesso di qualche nozione di ′′teoria delle

funzioni complesse′′, notiamo che la condizione di esistenza della funzione generatrice

dei momenti equivale a quella di ρ-analiticità della funzione caratteristica. In altri

termini: la funzione di ripartizione F ammette generatrice dei momenti se e solo se

esiste ρ > 0 tale che la funzione caratteristica φ risulti sviluppabile in serie di potenze su

(−ρ, ρ): φ(ξ) =∑j>0 βjξj , ξ ∈ (−ρ, ρ). In questo caso, φ può essere estesa analiticamente

al cerchio |z| < ρ del piano complesso e la restrizione di questa estensione al segmento

−it : −ρ < t < ρ coincide con la generatrice dei momenti.

Esempi notevoli di funzione generatrice dei momenti e calcolo dei momenti

1. Distribuzione gaussiana. Si scrive

exptx− (x −m)2

2σ2 = exp 1

2σ2(2σ2tx− x2 −m2 + 2mx)

= exp−m2

2σ2− 1

2σ2(x2 − 2x(m+ tσ2))

= exp−m2

2σ2− 1

2σ2[x− (m+ tσ2)]2 +

(m+ tσ2)2

2σ2.

Allora

g(t) =1

σ√2π

R

etx−1

2σ2 (x−m)2dx

= e−m2

2σ2 + (m+tσ2)2

2σ21

σ√2π

R

e−1

2σ2 [x−(m+tσ2)]2dx

= e−m2

2σ2 + (m+tσ2)2

2σ2 (cfr. Sottosezione 2.2.3)

= exptm+t2

2σ2

valido per ogni reale t. Ricorrendo alla succitata relazione fra caratteristiche

analitiche e generatrice dei momenti, dalla generatrice gaussiana si passa alla

caratteristica gaussiana ponendo

φ(ξ) = g(iξ) = expiξm− ξ2

2σ2 (ξ ∈ R).

Page 118: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

110 CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ

2. Distribuzione gamma. Dalla definizione data nella Sottosezione 2.2.3, la funzione

generatrice dei momenti associata alla distribuzione gamma è definita dall’inte-

grale

g(t) =

∫ +∞

0

etxλm

Γ(m)xm−1e−λxdx =

λm

Γ(m)

∫ +∞

0

xm−1e−(λ−t)xdx

che è finito solo se t < λ. Quindi, la generatrice è ben definita anche in questo caso

e si ha

g(t) =λm

Γ(m)

Γ(m)

(λ− t)m=

1

(1− t/λ)m(t < λ).

La funzione caratteristica sarà

φ(ξ) =1

(1− iξ/λ)m(ξ ∈ R).

Dallo sviluppo binomiale,

g(t) = (1− t/λ)−m =∑

k>0

(−mk

)(−1)k

( t

λ

)kt < λ

=∑

k>0

tk

k!

m(m+ 1) · · · (m+ k − 1)

λk.

Si evince che il momento k-esimo della legge gamma è dato da

Γ(m+ k)

λkΓ(m)

Un po’ più elaborato sarà il calcolo per il momento k–esimo della precedente legge

di Gauss. Si può procedere interpretando g come prodotto delle funzioni

etm =∑

r>0

tr

r!mr, et

2σ2/2 =∑

j>0

t2j

j!(σ2

2)j

e, quindi, il coefficiente di tν nella serie prodotto è

2j+r=ν

mr(σ2/2)j

r!j!=∑

j6[ ν2 ]

(σ2/2)jmν−2j

(ν − 2j)!j!

ovvero

exptm+t2

2σ2 =

ν>0

ν!mν

con

mν = ν!∑

j6[ ν2 ]

σ2jmν−2j

(ν − 2j)!j!2j.

Quando il valore atteso (m) è nullo, dalla precedente ricaviamo le formule

m2n = (2n)!σ2n

n!2n

m2n+1 = 0.

Page 119: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

6.2. PROPRIETÀ DELLA FUNZIONE CARATTERISTICA 111

A differenza della funzione caratteristica, che può essere definita indistintamente

per ogni legge di probabilità su R, la funzione generatrice dei momenti potrebbe non

esistere per certe funzioni di ripartizione. Ad esempio, prendiamo la densità

f(x) = aba

xa+1I(b,+∞)(x)

con a, b parametri strettamente positivi, ben nota perché proposta dall’economista Vil-

fredo Pareto come distribuzione dei redditi individuali, cfr. anche 2.2.4. Per ogni t

positivo si ha

aba∫ +∞

b

1

xa+1etxdx = +∞

e, quindi, la legge di Pareto non ha funzione generatrice dei momenti. Controllare, per

esercizio, che ha momenti infiniti a partire da un certo ordine, stabilendo di quale ordine

si tratta.

6.2 Proprietà della funzione caratteristica

Iniziamo il paragrafo con una proprietà di sicuro valore operativo, in grado, da sola, di

far apprezzare l’utilità della funzione caratteristica. Con questo fine, si rifletta sulla

difficoltà che generalmente s’incontra nel calcolo della distribuzione della somma di

numeri aleatori: cfr le Sezioni 4.2 e 4.3 per il caso discreto e la Sottosezione 4.5.4 per

il caso di leggi assolutamente continue. Difficoltà che sussiste anche in caso di numeri

aleatori indipendenti (calcolo di integrali di convoluzione) ove, invece, risulti semplice il

calcolo della funzione caratteristica.

Proposizione 6.2.1. Se X1, . . . , Xn sono numeri aleatori indipendenti, con funzioni

caratteristiche date rispettivamente da φX1 , . . . , φXn, allora la funzione caratteristica φSn

della somma Sn := X1 + · · · +Xn è uguale al prodotto delle funzioni caratteristiche dei

singoli addendi, ovvero

φSn(t) =

n∏

k=1

φXk(t) (t ∈ R).

Dimostrazione. Per definizione di funzione caratteristica si ha

φSn(t) = E[eitSn ] = E[

n∏

k=1

eitXk ]

speranza matematica del prodotto di n numeri aleatori a valori complessi, stocastica-

mente indipendenti. 1 Allora, dalla Proposizione 5.3.1, estesa facilmente al caso di

1Questa affermazione riguardante l’indipendenza va spiegata alla luce della definizione data all’inizio della

Sottosezione 4.5.1, finora mai usata. Limitandoci al caso di n = 2, nella notazione di quella definizione,

Page 120: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

112 CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ

numeri aleatori complessi, si ha

E[

n∏

k=1

eitXk ] =

n∏

k=1

E[eitXk ] =

n∏

k=1

φXk(t).

z

Questo risultato sarebbe però di scarso valore se, a questo punto, non si avesse la

garanzia che alla funzione caratteristica rappresentata come prodotto corrisponde una

sola legge di probabilità, quella di Sn. In effetti la corrispondenza uno ad uno fra legge

di probabilità e funzione caratteristica vale, e questo assicura che la conoscenza della

prima equivale a quella della seconda.

Teorema 6.2.2 (di corrispondenza). Dette φXi, rispettivamente FXi

, funzione carat-

teristica e funzione di ripartizione di Xi per i = 1, 2, allora φX1 = φX2 se e solo se

FX1 = FX2 .

Non dimostriamo il teorema, noto anche sotto il nome di teorema di unicità. Lo

studente che fosse interessato a prendere visione della dimostrazione, sia del teorema

precedente, sia dei molti qui presentati senza dimostrazione, può consultare il libro di

Chow e Teicher: Probability Theory (Springer), 1997.

Un celebere teorema di Lévy, detto d’inversione, permette di scrivere la funzione di

ripartizione, corrispondente ad una data funzione caratteristica, in funzione di quest’ul-

tima.

Teorema 6.2.3 (formula d’inversione di Lévy). Se X è un numero aleatorio con funzione

caratteristica φ, allora per ogni coppia di reali a, b con a < b si ha

limC→+∞

1

∫ +C

−C

e−ita − e−itb

itφ(t)dt = Pa < X 6 b+ PX = a+ PX = b

2.

Se b è un punto di continuità della funzione di ripartizione F di X , dalla precedente

si ottiene

F (b) = lima→−∞

limC→+∞

1

∫ +C

−C

e−ita − e−itb

itφ(t)dt.

Particolarmente istruttivo si presenta il caso in cui esiste finito l’integrale su R della

funzione t 7→ |φ(t)|, in quanto vale il

abbiamo ξ1 = eitX1 , ξ2 = eitX2 , C1 = C2 =piano complesso; quindi ξr = (cos(tXr), sin(tXr)) con r =

1, 2. Fissati due elementi qualunque della σ-algebra di Borel di R2, A1 e A2, l’insieme A′

r = ω ∈ Ω :

(cos(tXr(ω)), sin(tXr(ω))) ∈ Ar, con r ∈ 1, 2, si riduce per r e t, fissati rispettivamente in 1, 2 e R, ad

un insieme del tipo A′

r = ω ∈ Ω : Xr(ω) ∈ Rr,t con Rr,t nella S–algebra di Borel di R. Combinando queste

rappresentazioni con l’ipotesi di indipendenza di X1 e X2, si deduce l’indipendenza di A′

1e A′

2, e, quindi, di

ξ1 e ξ2.

Page 121: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

6.2. PROPRIETÀ DELLA FUNZIONE CARATTERISTICA 113

Corollario 6.2.4. Se∫R|φ(t)|dt < +∞, allora per a < b si ha

F (b)− F (a) =1

R

e−ita − e−itb

itφ(t)dt

e, inoltre, F è assolutamente continua, con una densità continua e limitata f esprimibile

come

f(x) = F ′(x) =1

R

e−itxφ(t)dt (x ∈ R).

Avremo occasione di ritornare su queste proposizioni. Procediamo ora alla presen-

tazione di qualche proprietà elementare della funzione caratteristica.

Proposizione 6.2.5. Sia φ la funzione caratteristica di un numero aleatorio ξ. Allora

(i) φ(0) = 1;

(ii) t 7→ φ(t) è uniformemente continua su R;

(iii) la funzione caratteristica di aξ + b, con a, b costanti reali, è data da eitbφ(at).

(iv) la funzione caratteristica di −ξ è uguale a φ(−t) = φ(t).

Dimostrazione. (i) cos(tξ) + i sin(tξ) = 1 se t = 0 e, quindi, φ(0) = 1. (ii) |φ(t + h) −φ(t)| = |E[ei(t+h)ξ− eitξ]| 6 E(|eihξ− 1|). Poiché |eihξ− 1| 6 2, la funzione h 7→ E(|eihξ − 1|)converge a zero per h che tende a zero e, quindi, fissato ε > 0, esiste δ > 0, indipendente

da t, tale che

|φ(t+ h)− φ(t)| 6 E(|eihξ − 1|) 6 ε

per ogni h tale che |h| 6 δ. (iii) E[ei(aξ+b)t] = E[eibteiaξt] = eibtE[eiaξt] = eibtφ(at). (iv) Vale

E[ei(−ξ)t] = E[cos(−tξ) + i sin(−tξ)] = φ(t)

e, inoltre, E[ei(−ξ)t] = φ(−t). z

Ricordiamo che la legge di probabilità di un numero aleatorio ξ si dice simmetrica

quando (−ξ) ha la stessa legge di ξ. Indicata con F la funzione di ripartizione di ξ, si ha

simmetria se e solo se, per ogni x nell’insieme di continuità di F , si ha

F (x) := Pξ 6 x = P−ξ 6 x = Pξ > −x =: 1− F (−x).

Inoltre, se ξ ha la legge simmetrica e funzione caratteristica φ, allora φ è anche caratter-

istica di −ξ, ovveroφ(t) = φ(−t) = φ(t)

per la (iv). Pertanto,

Reφ(t) =φ(t) + φ(t)

2= φ(t)

Page 122: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

114 CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ

e dunque φ è a valori reali. Si dimostra che questo fatto è caratteristico delle leggi

simmetriche.

Proposizione 6.2.6. La funzione caratteristica di ξ è reale se e solo se la legge di ξ è

simmetrica.

Dimostrazione. Basta dimostrare che la condizione di simmetria è necessaria. Se

φ è reale, allora φ(t) = φ(t) = φ(−t) e questo stabilisce, per mezzo del teorema di

corrispondenza, che la legge di ξ coincide con quella di (−ξ). z

Abbiamo incontrato vari esempi di leggi simmetriche. Il primo è quello della legge

degenere in 0 (φ(t) ≡ 1). Come secondo esempio possiamo citare quello della legge

uniforme su (a, b) con a = −b < 0. In tal caso, la funzione caratteristica è

1

2b

eitb − e−itb

it=

1

2b

2i sin(tb)

it=

sin(tb)

bt.

Classico è l’esempio della legge gaussiana di valore atteso nullo: φ(t) = exp−t2σ2/2.Possiamo trovare altri esempi notevoli ricorrendo ad una osservazione che si rivela utile

per la determinazione di altre funzioni caratteristiche.

Una utile osservazione sul riconoscimento di funzioni caratteristiche

Si presenta un criterio per il riconoscimento di funzioni caratteristiche fondato sul

Corollario 6.2.4 e sulla Proposizione 6.2.6.

Supponiamo che f sia una funzione di densità continua, con corrispondente fun-

zione caratteristica reale, non negativa e integrabile φ. Allora, per il Corollario 6.2.4, f

coincide con F ′ dove

F ′(t) =1

R

e−itxφ(x)dx (t ∈ R).

Avendo supposto che φ è non negativa e integrabile, esiste una costante k > 0 tale che

kφ viene ad essere densità di probabilità a sua volta. La costante k si determina subito,

ponendo t = 0 nella precedente e imponendo che valga

kF ′(0) =k

R

φ(x)dx =1

2π.

Allora k = 1/2πF ′(0) e la funzione (in t) definita da∫

R

eitxkφ(x)dx =F ′(−t)F ′(0)

si può leggere come funzione caratteristica associata alla densità φ(x)/2πF ′(0). Per laProposizione 6.2.6, essendo φ reale, deve sussistere la relazione F ′(t) = F ′(−t) e, quindi,f(t)/F ′(0) è una funzione caratteristica e, più specificatamente, la funzione caratteristica

coincidente con la trasformata di Fourier di φ(x)/2πF ′(0).Passiamo a qualche utile applicazione del criterio precedente.

Page 123: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

6.2. PROPRIETÀ DELLA FUNZIONE CARATTERISTICA 115

(a) Legge di Cauchy e sua caratteristica. Data la costante positiva a, la funzione

t 7→ e−a|t| è una funzione caratteristica? In vista dell’applicazione del criterio

precedente, si parte dall’osservazione che la funzione

f(t) =a

2e−a|t| (t ∈ R)

è una funzione di densità di probabilità, alla quale corrisponde la funzione carat-

teristica

φ(x) =

R

eitxf(t)dt =

R

a

2e−a|t| cos(tx)dt (per simmetria)

= a

∫ +∞

0

e−at cos(tx)dt

=a2

a2 + x2(integrare per parti due volte, considerando

e−at come fattore differenziale).

Questa funzione φ è reale, non negativa e integrabile su R. Applicando la conclu-

sione sopra raggiunta, kφ è una densità cui corrisponde la funzione caratteristica

(ae−a|t|/2)/F ′(0) = e−a|t|. Si scopre così che e−a|t| è funzione caratteristica e si

dimostra, inoltre, che ad essa corrisponde la densità

1

2

a

a2

a2 + x2=

1

π

a

a2 + x2,

x ∈ R, nota come densità della legge di Cauchy, spesso portata ad esempio di legge

per la quale non esiste il valore atteso. Non ammette, a maggior ragione, funzione

generatrice dei momenti.

(b) Legge triangolare inversa. Per α > 0 fissata, si considera la funzione t 7→ (1 −|t|/α)I[0,α)(|t|) e ci si chiede se è funzione caratteristica. Poiché non negativa e

soddisfacendo ∫ α

−α

(1− |t|/α)dt = 2

∫ α

0

(1− t/α)dt = α

si conclude che

f(t) =1

α(1− |t|

α)I|t| < α

è funzione di densità di probabilità con corrispondente funzione caratteristica

φ(x) =

∫ α

−α

eitxf(t)dt = 2

∫ α

0

cos(tx)1

α(1− t

α)dt (per simmetria)

=2

α

∫ α

0

cos(tx)dt − 2

α2

∫ α

0

t cos(tx)dt

=2

xαsin(αx) − 2

α2[sin(αx)

xα−

∫ α

0

sin(tx)

xdt]

=2

x2α2(1− cos(αx)) (x ∈ R).

Page 124: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

116 CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ

Poiché φ è reale, non negativa e integrabile su R, si può concludere che t 7→ (1 −|t|α )I|t| < α è funzione caratteristica, che corrisponde alla densità

1

2πF ′(0)

2

α2x2(1 − cos(αx)) =

α

2

α2

1− cos(αx)

x2(x ∈ R)

=1

απ

1− cos(αx)

x2

detta triangolare inversa, in quanto la densità f(t) è comunemente nota come tri-

angolare, in ragione della forma del suo grafico. Un’ultima osservazione comple-

mentare: se ξ1 e ξ2 sono numeri aleatori indipendenti, ciascuno con legge uniforme

su (0, α), e quindi con funzione caratteristica

φ1(t) =1

α

eitα − 1

it

(cfr. (5) della Sezione 6.1), la funzione caratteristica φ di ξ1 − ξ2 si ottiene tramite

la (iii) della Proposizione 6.2.5 e la Proposizione 6.2.1:

φ(t) = φ1(t)φ1(−t) =1

α2t2(eitα − 1)(e−itα − 1)

=2

(αt)2(1 − cos(tα)).

Pertanto x 7→ 1α (1−

|x|α )I|x| < α) è densità della differenza di due numeri aleatori

indipendenti, ciascuno con densità uniforme su (0, α).

6.3 Estensione a vettori aleatori.

Le definizioni e i teoremi presentati nelle prime due sezioni si possono estendere a vet-

tori aleatori con accorgimenti piuttosto ovvi. Sia dunque ξ = (ξ1, . . . , ξd) un vettore

aleatorio, d intero maggiore o uguale a due, con funzione di ripartizione F . Presi gli

indici i1, . . . , ik con 1 6 i1 < · · · < ik 6 d, k potendo essere uguale a uno, denoteremo con

Fi1,...,ik la funzione di ripartizione marginale di (ξi1 , . . . , ξik):

Fi1,...,ik(xi1 , . . . , xik ) = lim

xj → +∞per ogni j 6∈ i1, . . . , ik

F (x1, . . . , xd).

Si chiama funzione caratteristica di (ξ1, . . . , ξd) la funzione di (t1, . . . , td) ∈ Rd definita

da

φ(t1, . . . , td) = E[ei∑d

j=1 tjξj ] = E[cos(d∑

j=1

tjξj)] + iE[sin(d∑

j=1

tjξj)].

Page 125: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

6.3. ESTENSIONE A VETTORI ALEATORI. 117

E’ utile notare che la funzione caratteristica si può interpretare come classe delle fun-

zioni caratteristiche, calcolate in 1, dei numeri aleatori∑d

j=1 tjξj ottenuti al variare di

(t1, . . . , td) in Rd.

E’ da notare come sia facile determinare la funzione caratteristica corrispondente

alla distribuzione marginale Fi1,...,ik : basta porre uguali a zero, in φ(t1, . . . , td), tutte le tj

con j ∈ 1, . . . , d \ i1, . . . , ik. E’ anche interessante notare che

φ(t, . . . , t) = E[eitSd ]

con Sd :=∑d

j=1 ξj : φ(t, . . . , t) coincide con la funzione caratteristica di Sd.

Si deve ricordare che continua a valere il teorema di corrispondenza (unicità): Se

X1 e X2 sono vettori aleatori, allora affinché abbiano la stessa legge di probabilità è

necessario e sufficiente che posseggano la stessa funzione caratteristica.

Si ottiene, come applicazione diretta dell’unicità, la seguente importante caratteriz-

zazione dell’indipendenza stocastica.

Proposizione 6.3.1. I numeri aleatori ξ1, . . . , ξd sono stocasticamente indipendenti se

e solo se la funzione caratteristica φ del vettore (ξ1, . . . , ξd) si scrive come prodotto delle

funzioni caratteristiche φj (j = 1, . . . , d) dei singoli numeri aleatori ξ1, . . . , ξd:

φ(t1, . . . , td) =

d∏

j=1

φj(tj)((t1, . . . , td) ∈ R

d).

Dimostrazione. Dimostriamo dapprima che la fattorizzazione della funzione carat-

teristica è condizione necessaria. Infatti, se ξ1, . . . , ξd sono indipendenti, per ogni (t1, . . . , td)

in Rd si ottiene

φ(t1, . . . , td) = E[expid∑

j=1

tjξj] = E[

d∏

j=1

eitjξj ]

=d∏

j=1

E[eitjξj ] (per l’indipendenza stocastica)

=

d∏

j=1

φ(tj).

Assumiamo che valga la fattorizzazione della funzione caratteristica. Allora, per ogni

(t1, . . . , td) in Rd si ha, indicando con Fj la funzione di ripartizione di ξj ,

φ(t1, . . . , td) =

d∏

j=1

φ(tj). =

d∏

j=1

R

eitjxdFj(x)

=

Rd

ei∑d

j=1 tjxjd(d∏

j=1

Fj(xj)).

Page 126: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

118 CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ

Da quest’ultima uguaglianza e dal teorema di unicità segue che la funzione di ripar-

tizione F di (ξ1, . . . , ξd) si scrive come

F (x1, . . . , xd) =d∏

j=1

Fj(xj)

per ogni (x1, . . . , xd) in Rd, il che equivale all’indipendenza stocastica dei numeri aleatori

(ξ1, . . . , ξd). z

Per quanto concerne il calcolo effettivo della funzione caratteristica di un vettore

aleatorio ξ = (ξ1, . . . , ξd) con funzione di ripartizione F , si ha

φ(t1, . . . , td) =

Rd

ei∑d

j=1 tjxjdF (x1, . . . , xd)((t1, . . . , td) ∈ R

d)

che si può ulteriormente precisare nei casi in cui:

(a) F è discreta e concentra la massa unitaria sui punti x(j) = (x(j)1 , . . . , x

(j)d ) per

j = 1, 2, . . . ; se pj denota la massa concentrata su x(j), allora

φ(t1, . . . , td) =∑

j

pjei∑d

k=1 tkx(j)k .

(b) F è assolutamente continua con funzione di densità f ; allora

φ(t1, . . . , td) =

Rd

ei∑d

j=1 tjxjf(x1, . . . , xd)dx1 . . . dxd.

Due esempi notevoli di funzione caratteristica di vettore aleatorio. La for-

mula (4.4) rappresenta la probabilità multinomiale di un vettore (N1, . . . , Nd−1) sull’in-

sieme delle (d−1)–uple di interi non negativi (n1, . . . , nd−1) per i quali n1+· · ·+nd−1 6 n.

La funzione caratteristica φ è data da

φ(t1, . . . , td−1) =∑ n!

n1! . . . nd−1!nd!pn11 . . . p

nd−1

d−1 pnd

d ei∑d−1

m=1 tmnm

(nd := n− n1 · · · − nd−1, pd := 1− (p1 + · · ·+ pd−1),∑

denota la somma estesa alle suddette (d− 1)-uple)

=∑ n!

n1! . . . nd−1!nd!

d−1∏

k=1

(pke

itk)nk

pnd

d

=( d−1∑

k=1

pkeitk + pd

)n,

(6.2)

l’ultima uguaglianza ottenuta dalla formula di Leibnitz della potenza naturale del poli-

nomio. Nel punto (b) dell’Esempio 4.5.1 è stata definita la densità gaussiana d-dimensionale

come

f(x) =1

(2π)d/2(detV )1/2exp−1

2(x− µ)′V −1(x− µ) (x ∈ R

d) (6.3)

Page 127: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

6.4. APPLICAZIONI 119

essendo V una matrice simmetrica definita positiva e µ un punto di Rd. La funzione

caratteristica corrispondente è data da

φ(t1, . . . , td) =1

(2π)d/2(detV )1/2

Rd

eit′x exp−1

2(x− µ)′V −1(x− µ)dx

=eit

′µ

(2π)d/2(detV )1/2

Rd

eit′y exp−1

2y′V −1ydy.

Sappiamo che esiste una matrice ortogonale O tale che

O′V O = D :=

σ21 0 0 . . .

0 σ22 0 . . .

. . . . . . . . . . . .

0 . . . . . . σ2d

.

Operando con la trasformazione u = Oy si ottiene

φ(t1, . . . , td) =eit

′µ

(2π)d/2(∏d

j=1 σ2j )

1/2

Rd

eit′O′u exp−1

2

d∑

j=1

u2j

σ2j

du

=eit

′µ

(2π)d/2(∏d

j=1 σ2j )

1/2

Rd

ei∑d

j=1 τjuj exp−1

2

d∑

j=1

u2j

σ2j

du

(τ ′ = t′O′)

= eit′µ

d∏

j=1

R

1√2πσj

eiτjuj− 1

2

u2j

σ2j duj

= eit′µ

d∏

j=1

e−12 τ

2j σ

2j = eit

′µ− 12

∑dj=1 τ2

j σ2j

= eit′µ− 1

2 τ′Dτ = eit

′µ− 12 t

′V t.

Riassumendo, la funzione caratteristica associata alla distribuzione multinomiale è

φ(t1, . . . , td−1) =( d−1∑

k=1

pkeitk + (1− p1 − · · · − pd−1)

)n

e quella associata alla densità gaussiana (6.3) è

φ(t1, . . . , td) = eit′µ− 1

2 t′V t.

6.4 Applicazioni

In questo paragrafo presentiamo alcune applicazioni che, in parte, restituiranno risul-

tati già noti. In questo caso potremo constatare come l’uso della funzione caratteristica

ne faciliti la deduzione rispetto ad altri metodi.

Page 128: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

120 CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ

6.4.1 Proprietà della legge gaussiana d-dimensionale

Si è visto che la funzione caratteristica di un generico vettore gaussiano è

φ(t1, . . . , t1) = expit′µ− 1

2t′V t (t ∈ R

d)

con µ = (µ1, . . . , µd)′ vettore fissato in R

d e V matrice simmetrica definita positiva.

Indicato con (ξ1, . . . , ξd)′ il vettore aleatorio corrispondente, per ogni k ∈ 1, . . . , d la

funzione caratteristica di ξk si ottiene della precedente ponendo t1 = · · · = tk−1 = tk+1 =

· · · = td = 0, ovvero

φξk(tk) = φ(0, . . . , 0, tk, 0, . . . , 0) = expitkµk −1

2t2kσkk.

Quindi, la leggemarginale di posto k è gaussiana di valore atteso µk e varianza σ2k = σkk.

Allora, affinchè ξ1, . . . , ξk siano indipendenti è necessario e sufficiente che riesca

expit′µ− 1

2t′V t =

d∏

k=1

expitkµk −1

2t2kσkk (∀t ∈ R

d)

ovvero t′V t = t′Dt per ogni t con D = [σij ]16i,j6d e σij = 0 se i 6= j. Si ricava im-

mediatamente che, nel caso gaussiano, l’indipendenza si ha se e solo se la matrice V

è diagonale. Nel prossimo paragrafo, sui rapporti fra momenti e derivate di funzioni

caratteristiche, otterremo una interessante interpretazione di questo ultimo risultato

in termini di correlazione.

Ritornando alla forma delle marginali della legge gaussiana d-dimensionale, vale

che per ogni k e 1 6 i1 < · · · < ik 6 d, la legge di (ξi1 , . . . , ξik) è gaussiana con funzione

caratteristica

expiτ ′µ(k) − 1

2τ ′V (k)τ (τ ∈ R

k)

essendo µ(k) = (µi1 , . . . , µik)′, V (k) la sottomatrice di V che ha per righe e colonne quelle

ottenuto ”incrociando” le righe e le colonne di posto i1, . . . ik di V . Per verificare ciò, basta

porre uguali a zero tutti gli (n− k) elementi di t di posto diverso da i1, . . . , ik.

6.4.2 Legge di somma di numeri aleatori (esempi notevoli)

Dato un vettore aleatorio (ξ1, . . . , ξd) con funzione caratteristica φ, è immediato deter-

minare la funzione caratteristica della somma di certe sue componenti. Ad esempio, se

interessa la funzione caratteristica di Sk = ξ1 + · · ·+ ξk, φSk, con k 6 d, si ha

φSk(t) = E[eitSk ] = φ( t, . . . , t︸ ︷︷ ︸

k componenti

, 0, . . . , 0) (t ∈ R).

Page 129: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

6.4. APPLICAZIONI 121

(a) Nel caso che (N1, . . . , Nd−1) abbia distribuzionemultinomiale, preso k in 1, . . . , d−1, si definisca∑k

j=1 Nj =: Sk. Allora la funzione caratteristica di Sk, calcolata in t, sarà

φSk(t) =

( k∑

m=1

pmeit +

d−1∑

m=k+1

pm + pd

)n=(( k∑

m=1

pm)eit + (1−

k∑

m=1

pm))n

ovvero la funzione caratteristica di un numero aleatorio avente distribuzione binomiale

come la seguente

PSk = j =(n

j

)(

k∑

m=1

pm)j(1−k∑

m=1

pm)n−j (j = 0, . . . , n).

(b) Passando al caso in cui (ξ1, . . . , ξd) ha legge gaussiana d-dimensionale come nella

Sottosezione 6.4.1, la somma Sk := ξ1 + · · ·+ ξk ha funzione caratteristica

φSk(t) = expit

k∑

j=1

µj −1

2M(t)

con

M(t) = (t, . . . , t)

σ11 . . . σ1k

. . . . . . . . .

. . . . . . . . .

σk1 . . . σkk

t

. . .

t

= t2

k∑

m=1

k∑

l=1

σl,m

ovvero la funzione caratteristica di un numero aleatorio gaussiano di valore atteso∑k

j=1 µj e varianza∑k

m=1

∑kl=1 σl,m.

(c) Determiniamo la legge di ξ1 + · · · + ξd quando ξ1, . . . , ξd sono stocasticamente

indipendenti e la legge di ξk è gamma di densità

λmk

Γ(mk)xmk−1e−λx

Ix > 0

per k = 1, . . . , d. Combinando la Proposizione 6.2.1 con la ormai ben nota espressione

φξk(t) =1

(1− itλ )

mk(t ∈ R),

si ottiene

φSd(t) =

d∏

k=1

φSk(t) =

1

(1 − itλ )

mm :=

d∑

k=1

mk.

Ne discende che Sd ha funzione di densità gamma data da

λm

Γ(m)xm−1e−λx

Ix > 0 m :=

d∑

k=1

mk.

Page 130: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

122 CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ

6.4.3 Applicazioni alla statistica

Capita, in certi problemi statistici, come quelli contenuti nell’ultimo capitolo di questi

appunti, di dover considerare la legge di probabilità di specifiche funzioni (statistiche)

di vettori aleatori (ξ1, . . . , ξn) sotto l’ipotesi

(h) (ξ1, . . . , ξn) sono numeri aleatori indipendenti ed identicamente distribuiti con

legge gaussiana di media µ e varianza σ2.

Incominciamo con lo studio della distribuzione del vettore aleatorio

Vn := (ξn, ξ1 − ξn, ξ2 − ξn, . . . , ξn − ξn)

dove

ξn :=1

n

n∑

i=1

ξk.

Ricorrendo alla funzione caratteristica, si ha

φVn(t, t1, . . . , tn) = E[expitξn + i

n∑

k=1

tk(ξk − ξn)]

dove

itξn+i

n∑

k=1

tk(ξk − ξn) = i

n∑

k=1

tkξk +i

nt

n∑

j=1

ξj −i

n

n∑

k=1

tk

n∑

j=1

ξj

= in∑

j=1

ξjtj +t

n− 1

n

n∑

k=1

tk

Quindi, per l’indipendenza stocastica delle ξj e la Proposizione 6.3.1,

φVn(t, t1, . . . , tn) =

n∏

j=1

expiµ[ tn+ tj ]−

1

2σ2[

t

n+ tj ]

2

con

tj := tj −1

n

n∑

k=1

tk

per j = 1, . . . , n. Di conseguenza, valendo∑n

k=1 tk = 0,

φVn(t, t1, . . . , tn) = expi

n∑

j=1

(t

n+ tj)µ−

σ2

2

n∑

j=1

(t2

n2+ t2j)

= expitµ− σ2

2nt2 − σ2

2

n∑

j=1

(tj −1

n

n∑

k=1

tk)2

= expitµ− σ2

2nt2 exp−σ2

2

n∑

j=1

(tj −1

n

n∑

k=1

tk)2

= expitµ− σ2

2nt2 exp−σ2

2[

n∑

j=1

t2j −1

n

n∑

j=1

t2j −1

n

16j<k6n

tjtk]

=expitµ− σ2

2nt2 exp−σ2

2(t1, . . . , tn)Λn(t1, . . . , tn)

Page 131: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

6.4. APPLICAZIONI 123

dove

Λn :=

1− 1n − 1

n . . . − 1n

− 1n 1− 1

n . . . − 1n

. . . . . . . . . . . .

− 1n − 1

n . . . 1− 1n .

Allora,

φξn(t) = φVn(t, 0, . . . , 0) = expitµ− σ2

2nt2

φ(ξ1−ξn,...,ξn−ξn)(t1, . . . , tn) = φVn(0, t1, . . . , tn)

= exp−σ2

2(t1, . . . , tn)Λn(t1, . . . , tn)

′(6.4)

e ciò può essere riassunto nei punti seguenti:

ξn e (ξ1 − ξn, . . . , ξn − ξn) sono stocasticamente indipendenti. (6.5)

La legge di ξn è gaussiana con valore atteso µ e varianza σ2/n. (6.6)

La funzione caratteristica di (ξ1 − ξn, . . . , ξn − ξn) è data da (6.4) e, (6.7)

quindi, è di tipo gaussiano.

Occupiamoci ora della legge di:

Sn :=1

σ

n∑

j=1

(ξj − µ).

Posto

ξ∗k :=ξk − µ

σ

si ha

φξ∗k(t) = e−itµ/σφξk(

t

σ) = e−itµ/σe+itµ/σ− t2

2σ2 σ2

= e−t2

2

e, quindi,

φSn(t) = e−

t2n2

che equivale ad affermare che

La distribuzione di Sn è gaussiana con valore atteso nullo e varianza n. (6.8)

Passiamo all’esame della legge di

Q2n :=

1

σ2

n∑

k=1

(ξk − µ)2.

Per quanto concerne la funzione di ripartizione di (ξk − µ)2/σ2, si ha

P(ξk − µ)2/σ2 6 s = 0

Page 132: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

124 CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ

per s < 0, e

P(ξk − µ)2/σ2 6 s = P−√s 6 (ξk − µ)/σ 6√s

per s > 0, dove, più esplicitamente,

P−√s 6 (ξk − µ)/σ 6√s = 2√

∫ √s

0

e−x2/2dx

=1

21/2Γ(12 )

∫ s

0

e−t2 t

12−1dt.

Quindi, (ξk − µ)2/σ2 ha legge assolutamente continua con funzione di densità di proba-

bilità gamma con parametri m = λ = 1/2

1

21/2Γ(12 )e−s/2s

12−1

I(s > 0)

che è nota come densità χ quadrato (χ2) con un grado di libertà. I numeri aleatori

(ξk − µ)2/σ2, k = 1, . . . , n, sono indipendenti ed identicamente distribuiti e, quindi,

φQ2n(t) =

n∏

k=1

φ (ξk−µ)2

σ2

(t) =

n∏

k=1

1

(1 − 2it)1/2=

1

(1− 2it)n/2

funzione caratteristica della legge gamma con parametri m = n/2, λ = 1/2. Perció,

Q2n ha funzione di densità gamma definita da

fQ2n(x) =

(12 )n/2

Γ(n2 )e−

12xx

n2 −1

I(0,+∞)(x)(6.9)

denominata, comunemente, densità χ quadrato con n gradi di libertà.

In statistica (cfr. l’ultimo capitolo di queste dispense) riveste un certo interesse il

numero aleatorio

Q2n :=

1

σ2

n∑

k=1

(ξk − ξn)2.

Della sua distribuzione ci occupiamo ora. Si nota che valgono le ovvie uguaglianze

Q2n =

1

σ2

n∑

k=1

(ξk − µ)2 =1

σ2

n∑

k=1

[(ξk − ξn) + (ξn − µ)]2 =1

σ2

n∑

k=1

(ξk − ξn)2 +

n

σ2(ξn − µ)2

che, per la (6.5), si può vedere come somma di due numeri aleatori indipendenti: il primo

uguale a Q2n è funzione di (ξ1 − ξn, . . . , ξn − ξn), mentre il secondo è funzione di ξn e ha

legge χ2 con 1 grado di libertà (infatti la legge ξn è gaussiana di valore atteso µ e di

varianza σ2/n). Allora

φQ2n(t) = φQ2

n(t)

1

(1 − 2it)1/2

e quindi

φQ2n(t) = (1 − 2it)1/2

1

(1− 2it)n/2=

1

(1− 2it)(n−1)/2

Page 133: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

6.5. FUNZIONE CARATTERISTICA E MOMENTI 125

la quale, combinata col teorema di unicità, dice che

La legge di Q2n è χ2 con (n − 1) gradi di libertà o, equivalemtemente, Q2

n ha funzione

di densità di probabilità

fQ2n(x) =

(12 )(n−1)/2

Γ(n−12 )

e−12xx

n−12 −1

I(0,+∞)(x). (6.10)

Anche il numero aleatorio

Tn−1 :=√n(n− 1)

ξn − µ√∑nj=1(ξj − ξn)2

gioca un ruolo rilevante in statistica. La sua legge, che ci apprestiamo a determinare,

è nota come legge t di Student con (n − 1) gradi di libertà. Si può scrivere Tn−1 come

rapporto dei due numeri aleatori indipendenti

ν :=ξn − µ

σ/√n, ∆n :=

√1

n− 1Q2

n

ν avendo legge gaussiana standard e Q2n la legge χ-quadrato con (n− 1) gradi di libertà.

Quindi, per ogni t in R, si ha

PTn−1 6 t = Pν 6 t

√1

n− 1Q2

n

=

R

∫ t√

xn−1

−∞

1√2π

e−y2/2dy1

2n−12 Γ(n−1

2 )e−x/2x

n−12 −1dx

la cui derivata rispetto a t fornisce la funzione di densità di Tn−1 (densità t di Student

con (n− 1) gradi di libertà), fTn−1 :

fTn−1(t) =

R

√x

n− 1

1√2π

e−t2

2x

n−11

2n−12 Γ(n−1

2 )e−x/2x

n−12 −1dx

=1√

2π(n− 1)2n−12 Γ(n−1

2 )

R

e−x2 (1+

t2

n−1 )xn2 −1dx

=1√

2π(n− 1)2n−12 Γ(n−1

2 )

Γ(n2 )

[ 12 (1 +t2

n−1 )]n2

=Γ(n2 )√

π(n− 1)Γ(n−12 )

1

[1 + t2

n−1 ]n2

.

Ovvero,

fTn−1(t) =1√

n− 1B(12 ,n−12 )

1

(1 + t2

n−1 )n2

(t ∈ R). (6.11)

6.5 Funzione caratteristica e momenti

Del calcolo dei momenti di un numero aleatorio per mezzo della funzione generatrice

si è già detto. Si tratta di una possibilità che soffre della non trascurabile limitazione

Page 134: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

126 CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ

derivante dal fatto che la funzione generatrice dei momenti, a differenza della carat-

teristica, non è definita per tutte le leggi di probabilità. E’ quindi utile accennare an-

che a come si possano dedurre i momenti dalla funzione caratteristica e agli sviluppi,

di quest’ultima, deducibili dall’ipotesi di esistenza di un dato numero di momenti. A

questo proposito, si enuncia (ma qui non si dimostra) il

Teorema 6.5.1. Se ξ è un numero aleatorio con funzione caratteristica φ e E(|ξ|n+δ) <

+∞ per qualche intero n non negativo e per qualche δ in [0, 1], allora φ è di classe Cn(R)

[ classe delle funzioni definite su R e che posseggono continue tutte le derivate di ordine

k 6 n]. Inoltre

φ(k)(t) = ikE[ξkeitξ], φ(k)(0) = ikE[ξk], 1 6 k 6 n,

φ(t) =

n∑

j=0

(it)jE[ξj ]

j!+O(|t|n+δ)

con

O(|t|n+δ) 6 21−δ |t|n+δE|ξ|n+δ

(1 + δ) · · · (n+ δ)

φ(t) =

n∑

j=0

(it)jE[ξj ]

j!+ o(|t|n) (t→ 0).

Si deve osservare che l’esistenza della derivata di un certo ordine nell’origine non

implica, in generale, l’esistenza del momento di tale ordine. Però, se l’ordine in ques-

tione è pari, ad esempio, se φ(2k)(0) esiste finita per qualche intero k positivo, allora

E(ξ2k) < +∞.

Il precedente teorema si estende a vettori aleatori ξ := (ξ1, . . . , ξd) di dimensione

d > 2.

Ricordiamo che, dato il vettore aleatorio ξ := (ξ1, . . . , ξd), il suo momento misto di

ordine (ν1, . . . , νd), con ν1, . . . , νd interi non negativi, è definito dal valore atteso

E(ξν11 · · · ξνdd )

purché sia finito il valore atteso del prodotto dei moduli (E(|ξν11 | · · · |ξνdd |) < +∞). Se

esistono tutti i momenti di ordine (ν1, . . . , νd) con ν1 + · · · + νd 6 n per qualche intero

n > 1, si può sviluppare la funzione caratteristica φ di ξ nel modo seguente

φ(t1, . . . , td) =∑

ν1 + · · ·+ νd 6 n

νj > 0, j = 1, . . . , d

iν1+···+νd

ν1! . . . νd!E[ξν11 · · · ξνdd ]tν11 · · · tνdd + o(‖t‖n) (‖t‖ → 0)

Page 135: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

6.5. FUNZIONE CARATTERISTICA E MOMENTI 127

dove ‖t‖ := (∑d

k=1 t2k)

1/2; inoltre,

iν1+...νdE[ξν11 · · · ξνdd ] =∂ν1+...νd

∂tν11 · · · ∂tνddφ(t1, . . . , td)

∣∣∣t1=0,...,td=0

.

Una semplice applicazione di quest’ultima affermazione consente di completare le

considerazioni sul significato degli elementi di µ e V , caratterizzanti la legge gaussiana

d-dimensionale della Sottosezione 6.4.1. Ponendo, dapprima, νk = 0 per ogni k 6= j e

νj = 1, si ottiene

iE(ξj) =∂

∂tjφ(t1, . . . , td)

∣∣∣t1=0,...,td=0

= iµj (j-esima componente di µ).

Quindi, µj è la j–esima componente del vettore µ corrispondente al valore atteso di ξj

per j = 1, . . . , d. Ancora, ponendo νj = νl = 1 per j 6= l e νk = 0 per k diverso da j e l, si

ricava

i2E[ξjξl] =∂2

∂tj∂tlφ(t1, . . . , td)

∣∣∣t1=0,...,td=0

= i2(σjl + µjµl)

con σjl = σlj elemento che si trova all’incrocio della j–esima riga con la l–esima colonna

di V ; si ha allora che

σjl = E[ξjξl]− µjµl = Cov(ξj , ξl).

Analogamente, ponendo νj = 2 e νk = 0 per k diverso da j, si ricava

i2E[ξ2j ] =∂2

∂t2jφ(t1, . . . , td)

∣∣∣t1=0,...,td=0

= i2(σ2j + µ2

j )

con σ2j = σjj ; perció,

σ2j = V ar(ξj).

Si può quindi completare il discorso lasciato in sospeso nella Sottosezione 6.4.1, di-

cendo che, nel caso di vettori aleatori gaussiani, l’indipendenza equivale all’assenza di

correlazione. Fatto che non vale, però, in generale.

Il calcolo delle derivate di φ (di I e II ordine) sopra indicate è lasciato, per esercizio,

allo studente.

Page 136: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

128 CAPITOLO 6. TRASFORMAZIONI INTEGRALI DI LEGGI DI PROBABILITÀ

Page 137: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

Capitolo 7

Teoremi limite del calcolo

delle probabilità. Brevi cenni

I teoremi limite costituiscono un punto di arrivo per il calcolo delle probabilità classi-

co. Sia per rispondere a problemi concreti, sia per esigenze di speculazione scientifica,

i probabilisti sono stati indotti a ricercare regolarità nei fenomeni aleatori soprattutto

nell’ambito di gruppi numerosi di prove. Ad esempio, si sono preoccupati di vedere in

che senso si può dire che la frequenza di successo in una successione di eventi equiprob-

abili converge verso la probabilità (costante) di successo. Analogamente, in una suc-

cessione di misurazioni di una stessa grandezza fisica, è legittimo attendersi che la

media delle prime n letture ”converge”, all’aumentare del numero delle misurazioni,

verso la grandezza oggetto di studio? Ancora, se si considera la media dei guadagni

aleatori relativi ad un gruppo numeroso di contratti assicurativi fra loro ”disparati”,

possiamo ragionevolmente attenderci, qualora i guadagni vengano valutati in base a

premi ′′puri′′, che il portafoglio sia prossimo all’equilibrio (media nulla dei guadagni)?

E come interpretare correttamente un’eventuale risposta positiva?

Si possono porre altri quesiti, di natura differente, che conducono a risolvere ′′problemi

limite′′ che si traducono nella ricerca di una distribuzione di equilibrio per grandezze

concepibili come somma di effetti, singolarmente trascurabili, di una miriade di cause

indipendenti. E’ il caso della distribuzione degli errori di misurazione o degli scarti ac-

cidentali da un valore programmato in una produzione di massa di un certo manufatto.

Il primo gruppo di esempi si ricollega alle leggi dei grandi numeri, mentre il secondo

al teorema centrale del limite del calcolo delle probabilità. A questi temi dedicheremo

soltanto brevi cenni. Uno studio più approfondito potrebbe essere fatto in un secondo

129

Page 138: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

130CAPITOLO 7. TEOREMI LIMITE DELCALCOLODELLE PROBABILITÀ. BREVI CENNI

corso sulla probabilità. Utilizzeremo alcune disuguaglianze notevoli che prensentiamo

immediatamente.

7.1 Qualche disuguaglianza notevole

Le seguenti disuguaglianze, basate sui momenti del numero aleatorio d’interesse, han-

no una notevole importanza teorica per la loro utilità in svariati processi dimostrativi;

dal punto di vista della bontà dell’approssimazione che forniscono appaiono, invece,

piuttosto rudimentali.

Proposizione 7.1.1. Siano ξ un numero aleatorio e h una funzione misurabile da R in

R+, tale che E(h(ξ)) < +∞. Allora, per ogni a > 0,

Ph(ξ) > a 6 E(h(ξ))

a. (7.1)

Dimostrazione. Si ha

h(ξ)− 11h(ξ)>a · a > 0

e, per (a), (c), (d) della Sezione 5.2.1,

0 6 E(h(ξ)− a11h(ξ)>a

)= E(h(ξ)) − a · Ph(ξ) > a. z

Dalla disuguaglianza (7.1), con h(•) = | • |, segue la classica disuguaglianza di

Markov.

Corollario 7.1.2 (Disuguaglianza di Markov). Se E|ξ| < +∞, allora

P|ξ| > a 6 E(|ξ|)a

(a > 0). (7.2)

Infine, con h(ξ) = (ξ−E(ξ))2, a = ε2 (ε > 0), si ricava la disuguaglianza di Bienaymé–

Chebyshev.

Corollario 7.1.3 (Disuguaglianza di Bienaymé– Chebyshev). Se E|ξ|2 < +∞, allora

P|ξ − E(ξ)| > ε 6 Var(ξ)

ε2(ε > 0). (7.3)

Dimostrazione. Si ha

P|ξ − E(ξ)| > ε = P(ξ − E(ξ))2 > ε2 6 E[(ξ − E(ξ))2]

ε2=

Var(ξ)

ε2.z

Page 139: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

7.2. LEGGI (DEBOLI) DEI GRANDI NUMERI 131

7.2 Leggi (deboli) dei grandi numeri

Prendiamo in considerazione la successione bernoulliana (ξn)n>1 del Paragrafo 4.3.1. Il

valore assoluto del numero aleatorio

1

n

n∑

i=1

ξi − p =1

n

n∑

i=1

(ξi − p)

ci dà lo scarto fra la frequenza di successo nelle prime n prove e la probabilità p di

successo in ciascuna prova. Fissato un numero positivo ε (il caso interessante si ha

quando ε è piccolo), ci si chiede se è ragionevole ritenere che, per n sufficientemente

grande, l’evento

| 1n

n∑

i=1

(ξi − p)| 6 ε

è altamente plausibile. La prima risposta rigorosa a questo quesito si trova nell’Ars

Coniectandi di Jacob Bernoulli, pubblicato postumo a Basilea nel 1713.

Proposizione 7.2.1 (J. Bernoulli). Se (ξn)n>1 è una successione bernoulliana con pro-

babilità p di successo in ogni prova, si ha

P

∣∣∣∣∣1

n

n∑

i=1

ξi − p

∣∣∣∣∣ 6 ε

> 1− p(1− p)

nε2.

Quindi, per ogni successione strettamente positiva e infinitesima (εn)n>0 tale che nε2n →+∞, vale

P

∣∣∣∣∣1

n

n∑

i=1

ξi − p

∣∣∣∣∣ 6 εn

→ 1 (n→ +∞).

Dimostrazione. E’ ben noto che valgono (cfr. Esempio 5.5.5) le seguenti

E

(∑ni=1 ξin

)=

np

n, Var

(∑ni=1 ξin

)=

1

n2Var(

n∑

i=1

ξi) =np(1− p)

n2.

Quindi, dalla disuguaglianza di Bienaymé– Chebyshev,

P

∣∣∣∣∣1

n

n∑

i=1

ξi − p

∣∣∣∣∣ 6 ε

> 1− Var(

∑ni=1 ξi)

n2ε2= 1− p(1− p)

nε2. z

Il teorema di Bernoulli dà l’esempio più elementare di legge debole dei grandi nu-

meri: in una successione di eventi indipendenti con probabilità costante p, la probabilità

che la frequenza di successo differisca dalla probabilità di successo di ciascun evento, per

un valore maggiore di ε, tende a zero al divergere del numero degli eventi considerati. A

titolo puramente informativo ricordiamo che questo tipo di convergenza si dice conver-

genza in probabilità. Per la validità della tesi enunciata, le condizioni di indipendenza

Page 140: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

132CAPITOLO 7. TEOREMI LIMITE DELCALCOLODELLE PROBABILITÀ. BREVI CENNI

e costanza della probabilità, pur non essendo necessarie, giocano un ruolo importante.

Facciamo anche osservare che la legge di Bernoulli non è di per se sufficiente a far

concludere che∑n

i=1 ξi/n converge a p per n tendente ad infinito. Una proposizione

di questo genere è stata comunque dimostrata, nel 1917, da Francesco Paolo Cantelli.

La convergenza, in tale proposizione, è da intendersi come convergenza quasi certa, un

concetto che non diamo in questo corso. La legge di Bernoulli dice soltanto che per un

singolo n, purchè sufficientemente grande, è prossima a uno la probabilità che lo scarto

| 1n∑n

i=1 ξi − p| sia piccolo.

La legge di Bernoulli è stata generalizzata in diverse direzioni. Una prima es-

tensione quasi immediata si ha quando al posto dei precedenti numeri aleatori ξn si

prendano numeri aleatori indipendenti Xn (n = 1, 2, . . . ) tali che

PXn = 1 = p, PXn = −1 = 1− p (n = 1, 2, . . . ). (7.4)

Xn è allora assimilabile ad un guadagno aleatorio che prende il valore 1 oppure il val-

ore (−1) rispettivamente con probabilità p e (1 − p). Xn potrebbe rappresentare il moto

aleatorio sull’asse reale di una particella, all’istante n; oppure il guadagno associato

all’n–esimo contratto (alquanto semplificato) in un portafoglio assicurativo. Chiara-

mente, si può scrivere Xn = 2ξn − 1, qualora ξ1, ξ2, . . . siano i numeri aleatori del teore-

ma di Bernoulli. Perció, il guadagno medio sui primi n contratti, o la posizione media

della particella dopo l’n–esimo spostamento, sarà

1

n

n∑

i=1

Xi =2

n

n∑

i=1

ξi − 1

e dalla Proposizione 7.2.1 segue

Corollario 7.2.2. Se (Xn)n>1 è una successione di numeri aleatori indipendenti che

soddisfano (7.4), allora per ogni successione infinitesima e strettamente positiva (εn)n>1,

tale che nε2n → +∞ per n→ +∞, vale

P

∣∣∣∣∣1

n

n∑

i=1

Xi − (p− q)

∣∣∣∣∣ 6 εn

→ 1 (n→ +∞)

con q = 1− p .

Ancora più in generale vale il seguente teorema di Chebyshev che trova applicazione,

ad esempio, nello studio asintotico della media di letture ottenute da un dato processo

di misurazioni successive.

Proposizione 7.2.3. Siano Y1, Y2, . . . numeri aleatori indipendenti con momento sec-

ondo finito: E(Y 2) < +∞ per i = 1, 2, . . . ; inoltre, la successione delle loro varianze sia

Page 141: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

7.3. TEOREMA CENTRALE DEL LIMITE 133

limitata: esiste C > 0 tale che Var(Yi) 6 C per ogni i. Allora, posto mi := E(Yi) si ha

P

∣∣∣∣∣1

n

n∑

i=1

(Yi −mi)

∣∣∣∣∣ 6 ε

→ 1 (n→ +∞),

per ogni ε > 0.

Si noti che la condizione sulla limitatezza della successione delle varianze è soddis-

fatta quando i numeri aleatori Yi sono identicamente distribuiti perché, in tal caso, si

ha m1 = m2 = · · · = m, Var(Y1) = Var(Y2) = · · · = σ2.

Dimostrazione. Dalle proprietà della speranza matematica e della varianza dedu-

ciamo la validità di

E

(1

n

n∑

i=1

(Yi −mi)

)= 0

Var

(1

n

n∑

i=1

(Yi −mi)

)=

1

n2

n∑

i=1

Var(Yi)

e, quindi, dal Corollario 7.1.3 con ξ =∑n

i=1(Yi −mi)/n segue

P| 1n

n∑

i=1

(Yi −mi)| 6 ε > 1− 1

ε2n2

n∑

i=1

Var(Yi)

> 1− nC

ε2n2(→ 1 per n→ +∞). z

7.3 Teorema centrale del limite

Come accennato nelle osservazioni introduttive al capitolo, un problema ritenuto impor-

tante, tanto da meritare il nome di problema centrale del limite, è quello dell’esistenza

di una legge di probabilità notevole che approssima quella delle grandezze aleatorie che

sono interpretabili come somma di un grande numero di variabili aleatorie indipendenti

e singolarmente trascurabili. Il primo risultato in tal senso risale ad Abraham deMoivre

(1733-1756) e riguarda successioni bernoulliane.

Proposizione 7.3.1 (deMoivre–Laplace). Sia (ξn)n>1 la stessa successione bernoulliana

della Proposizione 7.2.1. Allora

P 1√

np(1− p)

n∑

i=1

(ξi − p) 6 x

=∑

06k6p+x√

np(1−p)

(n

k

)pk(1− p)n−k

(7.5)

converge alla funzione di ripartizione gaussiana ridotta

φ(x) :=1√2π

∫ x

−∞e−u2/2du (x ∈ R)

Page 142: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

134CAPITOLO 7. TEOREMI LIMITE DELCALCOLODELLE PROBABILITÀ. BREVI CENNI

uniformemente in x, quando n→ +∞. Inoltre, per ogni k ed n tali che

x :=k − np√

npq

risulti limitato in valore assoluto da un’assegnata costante A > 0, vale

Pn∑

i=1

ξi = k =(n

k

)pk(1− p)n−k =

e−x2

2√2πnpq

[1 +(x3 − 3x)pq

6√npq

+Rn(A)] (7.6)

dove |Rn(A)| 6 C/n per un’opportuna costante C.

Il teorema di de Moivre-Laplace rappresenta una delle forme più elementari del

cosiddetto teorema centrale del limite; (7.5) è una versione ′′integrale′′ mentre (7.6) una

versione ′′locale′′ di tale teorema.

Si noti che per ogni n fissato, il generico addendo è limitato uniformemente da un

numero che converge a zero quando n diverge all’infinito. Infatti

|ξi − p|√npq

6max(p, q)√

npqper ogni 1 6 i 6 n, n = 1, 2, . . . .

Una notevole generalizzazione del precedente teorema, che basta a giustificare l’uso

della distribuzione gaussiana in molti casi che interessano la statistica, è data dalla

Proposizione 7.3.2 (Lindeberg–Lévy). Se ξ1, ξ2, . . . sono numeri aleatori indipendenti

ed identicamente distribuiti con momento secondo finito, indicate con m e σ2 rispettiva-

mente la speranza matematica e la varianza di ciascun ξi (i = 1, 2, . . . ),

P

1

σ√n

n∑

i=1

(ξi −m) 6 x

converge uniformemente (in x) verso la funzione di ripartizione gaussiana ridotta φ(x),

quando n tende ad infinito:

limn→+∞

supx∈R

∣∣∣∣∣P

1

σ√n

n∑

i=1

(ξi −m) 6 x

−∫ x

−∞

e−t2/2

√2π

dt

∣∣∣∣∣ = 0.

Si noti che, per ogni ε > 0, vale

max16i6n

P

|ξi −m|σ√n

> ε

= P

|ξ1 −m|σ√n

> ε

e, quindi,

max16i6n

P

|ξi −m|σ√n

> ε

→ 0 (n→ +∞).

Si noti che questa relazione precisa come si debba intendere correttamente la ′′trascurabilità′′

di ogni addendo evocata all’inizio del paragrafo.

Page 143: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

7.3. TEOREMA CENTRALE DEL LIMITE 135

Il teorema può essere dimostrato ricorrendo al teorema di continuità delle funzioni

caratteristiche, teorema che si riallaccia alla definizione di convergenza debole di una

successione di funzioni di ripartizione. Ricordiamo che una successione di funzioni di

ripartizione (Fn)n>1 converge debolmente verso la funzione di ripartizione F se limn→+∞

Fn(x) = F (x) per ogni punto x di continuità di F . Se X,X1, X2, . . . sono numeri aleatori

per le cui funzioni di ripartizione FX , FX1 , FX2 , . . . vale che FXnconverge debolmente a

FX , allora si dice che (Xn)n>1 converge in legge, o in distribuzione, a X . Se F è continua

e Fn converge debolmente a F , allora supx∈R|Fn(x)− F (x)| → 0 per n→ +∞.

Il succitato teorema di continuità delle funzioni caratteristiche si può enunciare in

questo modo.

Proposizione 7.3.3. Indicate con φXne φX rispettivamente le funzioni caratteristiche

di Xn per n = 1, 2, . . . e di X , si ha:

(a) Se (Xn)n>1 converge in distribuzione a X , allora (φXn)n>1 converge puntualmente

a φX . .

(b) Se (φXn)n>1 converge puntualmente ad una funzione h continua nell’origine, al-

lora (Xn)n>1 converge in distribuzione e h è funzione caratteristica: la funzione

caratteristica del limite in legge di (Xn)n>1.

Come preannunciato, la Proposizione 7.3.3, precisamente la parte (b), può essere

sfruttata per dimostrare il teorema centrale del limite.

Dimostrazione della Proposizione 7.3.2. La funzione caratteristica di Tn :=∑n

j=1(ξj −m)/σ√n, in virtù della Proposizione 6.2.1, è data da

φTn(ξ) =

n∏

j=1

φ ξj−m

σ√

n

(t) = φ ξ1−m

σ√

n

(t)n

= φξ1−m(t

σ√n)n (per la (iii) della Proposizione 6.2.5).

Ora, E[ξ1 −m] = 0, E[(ξ1 −m)2] = σ2 e, quindi, per il Teorema 6.5.1,

φξ1−m(t) = 1 +(it)2σ2

2+ o(|t|2)

la quale implica

φξ1−m(t

σ√n)n = 1− 1

2

t2

n+ o(

t2

nσ2)n.

Pertanto, per t fissata, esiste n0 tale che |1 − 12t2

n + o( t2

nσ2 )| 6 1 per ogni n > n0. Quindi,

per t fissata e n > n0,

|φξ1−m(t

σ√n)n − (1− 1

2

t2

n)n| 6 no(

t2

nσ2)→ 0 (n→ +∞).

Page 144: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

136CAPITOLO 7. TEOREMI LIMITE DELCALCOLODELLE PROBABILITÀ. BREVI CENNI

Per vedere quest’ultimo fatto, si considerino i numeri complessi z1, z2, . . . , z′1, z′2, . . .

con modulo non maggiore di 1. Allora, procedendo induttivamente, si ha |z1 · · · zn −z′1 · · · z′n| 6

∑nj=1 |zj − z′j|. Si ponga, infine zi = φξ1−m( t

σ√n) e z′i = (1 − 1

2t2

n ) per ogni i.

Ora, da (1 − 12t2

n )n → e−t2/2, per n→ +∞, segue

φTn(t) = φξ1−m(t)n → e−t2/2 (n→ +∞, t ∈ R).

Quest’ultima, tramite (b) della Proposizione 7.3.3, implica che Tn converge in legge ad

un numero aleatorio G dotato di funzione caratteristica uguale a quella della legge

gaussiana ridotta (media= 0, varianza= 1). Dalla continuità di quest’ultima segue

che la convergenza debole della funzione di ripartizione FTnverso FG si traduce nella

convergenza uniforme

supx∈R

|FTn(x) − FG(x)| = sup

x∈R

|FTn(x) −

∫ x

−∞

1√2π

e−u2/2du| → 0 (n→ +∞).

z

Page 145: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

Capitolo 8

Elementi di inferenza

statistica

I problemi statistici a cui accenneremo sono caratterizzati dal fatto che, in essi, dal-

la conoscenza di alcune caratteristiche di una parte, opportunamente estratta, di una

collezione di elementi (popolazione), si intende trarre conclusioni sulle caratteristiche

della parte non nota. Esistono diverse impostazioni generali del problema prospetta-

to, ciascuna di esse facente capo ad una specifica scuola di pensiero. Ci limiteremo a

considerare pochi elementi di quella che fa riferimento all’opera di Ronald A. Fisher

(1890–1962), restringendo la trattazione a caratteristiche dotate di valori nello spazio

euclideo Rd, con d = 1 nella maggior parte dei casi di cui effettivamente tratteremo. A

titolo di esempio presentiamone due particolarmente semplici ma significativi.

Esempio 8.0.4. Per varie ragioni si vogliano studiare le tendenze di una popolazione di

elettori che possono scegliere fra due schieramenti designati, rispettivamente, con A e

B. A questo fine si scelgono dalla popolazione n elettori e se ne registrino le preferenze.

Si associa il valore 1 ad ogni intervistato che preferisce A ed il valore 0 a chi dice di

preferire B. Si ottiene così una n-upla ordinata di 0 − 1, (x1, . . . , xn), il cui i-esimo

elemento, xi, specifica la preferenza dell’i-esimo intervistato. La frazione

1

n

n∑

i=1

xi

è la frequenza di preferenze per A nella parte di popolazione intervistata.

Esempio 8.0.5. Si effettuano nmisurazioni x1, . . . , xn per stimare la distanza incognita

fra due punti (corpi celesti, ecc.). Anche qui xi rappresenta la lettura relativa alla i-

137

Page 146: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

138 CAPITOLO 8. ELEMENTI DI INFERENZA STATISTICA

esima misurazione. Un problema interessante sarà quello di vedere se vi sono buone

ragioni per adottare la media delle letture

1

n

n∑

i=1

xi

come stima della distanza incognita.

La n-upla incognita (x1, . . . , xn) appartenente ad (Rd)n– negli esempi, si ha d = 1 – si

dice campione. Il primo passo da compiere, per avviare a soluzione un generico problema

di inferenza statistica, consiste nell’assegnazione di una legge di probabilità per il cam-

pione. Essa consente di fissare procedure statistiche valide, da un punto di vista logico,

qualunque sia il campione effettivamente osservato. Le determinazioni di tali proce-

dure dipendono, in generale, dal campione osservato, ma la loro definizione, che non

può essere influenzata dalla specifica n-upla campionaria, potrà variare in relazione

alle modalità del processo di osservazione e alle conoscenze preliminari sul fenomeno

oggetto d’indagine.

In linea di fatto, secondo l’impostazione di Fisher, i fattori legati al processo di os-

servazione, come pure le informazioni sul fenomeno oggetto d’indagine, agiscono per

mezzo della legge di probabilità del campione nella quale dovranno perciò essere in-

corporati. Si tradurranno, tipicamente, nella scelta di opportune forme di dipendenza

stocastica fra le osservazioni congiuntamente a forme specifiche di distribuzioni di pro-

babilità per le singole osservazioni. A loro volta, queste ultime, per la natura stessa del

problema statistico che nasce in relazione a situazioni d’informazione incompleta, non

saranno completamente specificate. Ci limiteremo a considerare casi in cui le leggi sono

determinate a meno di un parametro ϑ a valori in Rk.

Immaginiamo, quindi, di disporre della legge di probabilità del processo di osser-

vazione, rappresentato dalla n-upla (ξ1, . . . , ξn) di n elementi aleatori a valori in Rd,

mediante ln(x1, . . . , xn;ϑ), in accordo alla seguente interpretazione (parziale)

• nel caso discreto, ln(x1, . . . , xn;ϑ) denota la probabilità dell’evento ξ1 = x1, . . . , ξn =

xn quando ϑ è la determinazione del parametro incognito;

• nel caso assolutamente continuo, ln(x1, . . . , xn;ϑ) rappresenta la densità, calcolata

in (x1, . . . , xn) , della legge di probabilità di (ξ1, . . . , ξn) quando ϑ è la determi-

nazione del parametro incognito.

Un caso particolarmente interessante, perché rispondente alla situazione “classi-

ca” delle prove successive eseguite in condizioni analoghe, si ha quando ξ1, . . . , ξn sono

Page 147: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

139

ritenuti indipendenti e ugualmente distribuiti. Indicata allora con f(x;ϑ) la probabilità

di ξ1 = x nel caso discreto, oppure la densità in x della distribuzione di ξ1 nel caso

assolutamente continuo, si ottiene la seguente forma speciale di l:

ln(x1, . . . , xn;ϑ) =

n∏

k=1

f(xk;ϑ).

Per ogni n-upla fissata (x1, . . . , xn) , la funzione

ϑ 7→ ln(x1, . . . , xn;ϑ) (ϑ ∈ Θ)

prende il nome di verosimiglianza di ϑ associata al campione (x1, . . . , xn) . Il termine

verosimiglianza (traduzione di likelihood usato da Fisher) sarebbe coerente con la seguente

interpretazione: i valori di ϑ in corrispondenza ai quali l risultasse più elevata sareb-

bero da ritenersi vicini “al vero” in quanto in corrispondenza ad essi risulterebbe elevata

la probabilità (nel caso discreto) o la densità (nel caso continuo) associata al campione

(x1, . . . , xn) .

Passiamo alla determinazione della verosimiglianza di alcuni modelli statistici sig-

nificativi.

Esempio 8.0.6. Supponiamo di dover controllare la qualità di una massa di pezzi

prodotti in serie, tramite un’ispezione campionaria (n pezzi). Ciascun pezzo può risultare

difettoso (1) oppure idoneo (0). Se si segue la modalità della restituzione e le estrazioni

avvengono in condizioni analoghe, indicata con ϑ la frazione dei difettosi nell’intera

massa, la probabilità di avere una specifica successione (x1, . . . , xn) di 0, 1, è uguale an∏

i=1

ϑxi(1 − ϑ)1−xi .

Quindi,

ln(x1, . . . , xn;ϑ) = ϑ∑n

i=1 xi(1− ϑ)n−∑n

i=1 xi

con (x1, . . . , xn) in 0, 1n e ϑ in Θ = [0, 1]. Quando il numero di difettosi nel campione,∑n

i=1 xi, è compreso tra 1 e (n − 1), l’andamento della funzione di verosimiglianza è del

tipo di quello tracciato nella Figura 8.1. Se∑n

i=1 xi = 0 (∑n

i=1 xi = n rispettivamente), il

grafico della verosimiglianza è del tipo di quello tracciato in 8.2a (8.2b rispettivamente)

della Figura ??. Perciò, in ogni caso, il valore più verosimile di ϑ è ϑ =∑n

i=1 xi/n, la

frequenza osservata di difettosi. Se si segue la modalità dell’estrazione in blocco o senza

restituzione, l’espressione di ln, quando N sia il numero totale dei pezzi e ϑ la frazione

dei difettosi, è data da

ln(x1, . . . , xn;ϑ) =Nϑ(Nϑ− 1) · · · (Nϑ−∑n

1 xi + 1)N(1− ϑ)(N(1− ϑ)− 1

)· · ·(N(1− ϑ)− n+

∑n1 xi + 1

)

N(N − 1) · · · (N − n+ 1)

Page 148: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

140 CAPITOLO 8. ELEMENTI DI INFERENZA STATISTICA

Figura 8.1

(a) (b)

Figura 8.2

Page 149: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

8.1. STIME DI MASSIMA VEROSIMIGLIANZA 141

Esempio 8.0.7. Si effettuino n misurazioni indipendenti come nell’Esempio 8.0.5. Se

si ritengono soddisfatte le condizioni del teorema centrale del limite, presentato nel

Capitolo 6, si può ritenere che ogni xi abbia distribuzione gaussiana con valore atteso

m e varianza σ2 (precisione dello strumento = 1/σ). In concreto si possono avere tre

alternative interessanti la statistica:

1. m incognita, σ2 nota (ϑ = m ∈ R);

2. m nota, σ2 incognita (ϑ = σ2 > 0);

3. m e σ2 entrambe incognite (ϑ = (m,σ2) ∈ R× R+).

Le corrispondenti funzioni di verosimiglianza si ricavano da

ϑ 7→ ln(x1, . . . , xn;ϑ) =1

(2πσ2)n/2

exp

− 1

2σ2

n∑

i=1

(xi −m)2

per (x1, . . . , xn) fissato in Rn.

8.1 Stime di massima verosimiglianza

Aderendo all’interpretazione della verosimiglianza ricordata nelle righe che precedono

l’Esempio 8.0.6, è sembrato lecito (a partire da Fisher) proporre il seguente metodo di

stima per il parametro incognito. Se, dato un campione (x1, . . . , xn) , la funzione di

verosimiglianza ha massimo assoluto che raggiunge in ϑn = ϑn(x1, . . . , xn), allora non è

fuori luogo comportarsi come se ϑn fosse il vero valore del parametro, visto che in cor-

rispondenza ad esso sarebbe massima la densità calcolata nel campione effettivamente

osservato. La funzione (x1, . . . , xn) 7→ ϑn è detta stimatore di massima verosimiglianza

per ϑ, in corrispondenza al campione (x1, . . . , xn) .

Esempio 8.1.1. Nell’Esempio 8.0.6 si trova che lo stimatore di massima verosimiglian-

za coincide con la frequenza

ϑn =

n∑

i=1

xi/n

Nell’Esempio 8.0.7.1, in cui ϑ ∈ R, la funzione di verosimiglianza

ln(x1, . . . , xn;ϑ) =1

(2πσ2)n/2

exp

− 1

2σ2

n∑

i=1

(xi − ϑ)2

è massima doven∑

i=1

(xi − ϑ)2= nϑ2 − 2ϑ

n∑

i=1

xi +

n∑

i=1

xi2

Page 150: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

142 CAPITOLO 8. ELEMENTI DI INFERENZA STATISTICA

è minima, ovvero

ϑn =1

n

n∑

i=1

xi (la media delle osservazioni).

Passando a 8.0.7.2,

ln(x1, . . . , xn;ϑ) =1

(2πϑ)n/2exp

− 1

n∑

i=1

(xi −m)2

, ϑ > 0,

ovvero

log ln = −n

2(log 2π + logϑ)− 1

n∑

i=1

(xi −m)2

e∂

∂ϑlog ln = − n

2ϑ+

1

2ϑ2

n∑

i=1

(xi −m)2.

Allora, uguagliando la derivata a zero,

ϑn =1

n

n∑

i=1

(xi −m)2.

Finalmente, in 8.0.7.3, ϑ = (m,σ2) e

log ln(x1, . . . , xn;ϑ) = −n

2(log 2π + log σ2)− 1

2σ2

n∑

i=1

(xi −m)2

∂σ2log ln = − n

2σ2+

1

2σ4

n∑

i=1

(xi −m)2

∂mlog ln =

1

σ2

n∑

i=1

(xi −m)

ovvero, uguagliando le derivate a zero,

ϑn =

mn =

n∑

i=1

xi/n

σ2n =

1

n

n∑

i=1

(xi −m)2

rispettivamente media e varianza delle osservazioni.

8.2 Stime dei minimi quadrati

Un altro metodo classico di stima puntuale (risale a Legendre e Gauss) consiste nel-

la ricerca di stimatori che rendono minima una opportuna penalizzazione quadratica,

secondo un criterio già più volte invocato in questo corso.

Page 151: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

8.2. STIME DEI MINIMI QUADRATI 143

Si supponga che ogni osservazione ξi sia la somma di una “parte sistematica” (β+αxi,

con xi nota) e di un disturbo (εi):

ξi = β + αxi + εi (i = 1, . . . , n) (8.1)

Il metodo di propone di stimare (α, β) con la coppia (αn, βn) che minimizza la somma dei

quadrati dei disturbi

q(α, β) :=

n∑

i=1

εi2 =

n∑

i=1

(ξi − β − αxi)2.

Si incomincia col determinare i punti stazionari dalle equazioni

∂q

∂β= −2

n∑

i=1

(ξi − β − αxi) = 0

∂q

∂α= −2

n∑

i=1

(ξi − β − αxi)xi = 0

che porgono

βn =

∣∣∣∣∣∣

∑ξi

∑xi

∑xiξi

∑xi

2

∣∣∣∣∣∣∣∣∣∣∣∣

n∑

xi

∑xi

∑xi

2

∣∣∣∣∣∣

= m2,n − ρnm1,nσ2,n

σ1,n

αn =

∣∣∣∣∣∣n

∑ξi

∑xi

∑xiξi

∣∣∣∣∣∣∣∣∣∣∣∣

n∑

xi

∑xi

∑xi

2

∣∣∣∣∣∣

= ρnσ2,n

σ1,n

col seguente significato dei simboli:

m1,n =1

n

n∑

i=1

xi

m2,n =1

n

n∑

i=1

ξi

σ1,n =

√∑xi

2

n− m2

1,n

σ2,n =

√∑ξi

2

n− m2

2,n

ρn =1

σ1,nσ2,n

(1

n

∑xiξi − m1,nm2,n

).

Page 152: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

144 CAPITOLO 8. ELEMENTI DI INFERENZA STATISTICA

È facile verificare che (αn, βn) è punto di minimo assoluto di q(α, β); per questo è

detto vettore delle stime dei minimi quadrati.

Quando ε1, ε2, . . . sono indipendenti e identicamente distribuiti con densità f , allora

ξ1, ξ2, . . . vengono ad essere indipendenti e identicamente distribuiti con densità f(y −β − αxi) per i = 1, 2, . . .. Quindi la corrispondente funzione di verosimiglianza è

(α, β) 7→ ln(ξ1, . . . , ξn;α, β) =

n∏

i=1

f(ξi − β − αxi).

In particolare, se f è gaussiana di media nulla e varianza σ2 (nota), la stima di massima

verosimiglianza di (α, β) viene a coincidere con quella dei minimi quadrati (αn, βn).

8.3 Stime per intervalli di confidenza

I metodi di massima verosimiglianza e dei minimi quadrati producono stime puntu-

ali, ovvero funzioni del campione che, in corrispondenza ad ogni campione specifico,

assegnano delle valutazioni del parametro incognito. Il metodo che presentiamo in

questo paragrafo persegue una finalità diversa che può essere descritta, nel caso di

un parametro a valori reali, come ricerca di un intervallo, dipendente dal campione, che

con un prefissato valore di probabilità elevato, contenga il vero valore del parametro.

In questo paragrafo ci limitiamo ad illustrare l’applicazione del metodo a campioni

gaussiani, cioè a campioni (ξ1, . . . , ξn) con componenti indipendenti ed identicamente

distribuite con una assegnata legge gaussiana.

La prima applicazione riguarda la stima del valore atteso m quando la varianza σ2 è

nota. La proposta di un intervallo di confidenza viene basata – e questo vale in generale,

non solo nel caso specifico qui trattato – su una funzione, detta pivot, dipendente dal

parametro incognito e da (ξ1, . . . , ξn) , ma con legge di probabilità (indotta da quella di

(ξ1, . . . , ξn) ) indipendente dal parametro. Ora, nel nostro caso, (ξ1, . . . , ξn) ha densità di

probabilitàn∏

k=1

1

σ√2π

exp

− 1

2σ2(xk −m)2

calcolata in x1, . . . , xn ∈ Rn. Dalla (6.8)

Sn =1

σ√n

n∑

k=1

(ξk −m)

ha distribuzione gaussiana di media nulla e varianza unitaria. Sn è quindi una fun-

zione pivot. Per ogni valore fissato di m (si ricordi che σ2 è nota) la probabilità che Sn

Page 153: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

8.3. STIME PER INTERVALLI DI CONFIDENZA 145

appartenga all’intervallo [−c, c] è data da

Φ(c)− Φ(−c) = 2Φ(c)− 1

con Φ(x) := 12π

∫ x

−∞ e−u2/2du (x ∈ R), per ogni c > 0. Dalla doppia disuguaglianza

−c 6 Sn 6 c segue facilmente che l’intervallo[∑n

k=1 ξkn

− cσ√n,

∑nk=1 ξkn

+cσ√n

]

contiene m, quando m è il valore atteso di ciascuna ξi, con probabilità 2Φ(c) − 1. Se

vogliamo che questa probabilità sia uguale a (1 − α) – il livello di confidenza dell’inter-

vallo – basta fissare c in modo che risulti

2Φ(c)− 1 = 1− α

ovvero

c = Φ−1(1− α

2

).

Ad esempio, per α = 0, 005, si trova

c = Φ−1(0, 9975) = 2, 801.

I valori della funzione di ripartizione gaussiana standard sono tabulati in molti libri o

disponibili in molti software statistici. L’ampiezza dell’intervallo di confidenza

2cσ√n

converge a zero quando n tende ad infinito (infinitesima al divergere del numero delle

prove).

Affrontiamo lo stesso problema – determinare un intervallo di confidenza per m –

anche quando σ non è nota. Per la ricerca di una opportuna funzione pivot, rimandiamo

Tn−1 della Sottosezione 6.4.3 in cui si è dimostrato che

Tn−1 :=(ξn −m)

√n√

1n−1

∑ni=1 (ξi − ξn)

2(ξn :=

1

n

n∑

i=1

ξi)

ha densità t di Student con (n − 1) gradi di libertà, indipendente da σ e da m; Tn−1 è

dunque una funzione pivot. Se indichiamo con FTn−1 la sua funzione di ripartizione, la

probabilità che tn−1 appartenga ad un determinato intervallo [−c, c] è data da

FTn−1(c)− FTn−1(−c) =1√

n− 1B(12 ,n−12 )

∫ c

−c

1

(1 + t2

n−1 )n2

dt (cfr. (6.11))

= 2FTn−1(c)− 1.

Page 154: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

146 CAPITOLO 8. ELEMENTI DI INFERENZA STATISTICA

L’uguaglianza si giustifica per la simmetria della densità di Tn−1. Procedendo come nel

caso precedente, si trova per m l’intervallo di confidenza seguenteξn − c

√√√√ 1

n(n− 1)

n∑

i=1

(ξi − ξn)2, ξn + c

√√√√ 1

n(n− 1)

n∑

i=1

(ξi − ξn)2

Ad esempio per il livello di confidenza 1− α = 0, 95 (α = 0, 05) con n = 20, si trova

c = FTn−1

−1(0, 975) = 2, 093.

La lunghezza dell’intervallo è uguale

2c1√n

√√√√ 1

n− 1

n∑

i=1

(ξi − ξn)2

in cui∑n

i=1 (ξi − ξn)2/√n− 1, per n sufficientemente grande, ha probabilità molto ele-

vata di assumere valori in un intorno “piccolo” di σ2 (si dimostra ricorrendo alla legge

dei grandi numeri). Si noti, quindi, la stretta parentela di questo intervallo con quello

determinato nel caso precedente.

Proseguiamo col problema della stima della varianza. Dapprima si assumerà noto

il valore atteso m. Per quanto riguarda l’individuazione di una funzione pivot, si può

ricorrere alla

Q2n :=

1

σ2

n∑

i=1

(ξi −m)2

che, in virtù di (6.9), ha distribuzione chi-quadrato con n gradi di libertà e, quindi,

indipendente da σ2. Un intervallo di confidenza di livello 1 − α si può determinare

fissando c1, c2 in modo che riesca

1− α =

∫ c2

c1

1

Γ(n2

)2n/2

e−z/2z(n−2)/2dz.

Quindi la probabilità che Q2n appartenga a [c1, c2] è 1− α e ciò equivale a dire che, se σ2

è il vero valore della varianza incognita, allora[1

c2

n∑

i=1

(ξi −m)2,

1

c1

n∑

i=1

(ξi −m)2

]

contiene σ2 con probabilità (1−α). Ad esempio, c1 e c2 potrebbero essere fissati in modo

che riescano soddisfatte le relazioni

α

2=

∫ c1

0

1

Γ(n2

)2n/2

e−z/2z(n−2)/2dz

=

∫ +∞

c2

1

Γ(n2

)2n/2

e−z/2z(n−2)/2dz

Page 155: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

8.4. CENNO AI CRITERI DI SIGNIFICATIVITÀ 147

A volte si fissa c1 = 0 e, quindi, si determina c2 in modo che valga

α =

∫ +∞

c2

1

Γ(n2

)2n/2

e−z/2z(n−2)/2.

Se anche il valore atteso è incognito, si può ricordare che

Q2n :=

1

σ2

n∑

i=1

(ξi − ξn)2

ha distribuzione χ2n−1 con (n− 1) gradi di libertà; cfr. (6.10). Allora,

[1

c2

n∑

i=1

(ξi − ξn)2,

1

c1

n∑

i=1

(ξi − ξn)2

]

è un intervallo di confidenza per σ2, di livello (1 − α) se c1 e c2 sono scelti in modo che

risulti

1− α =

∫ c2

c1

1

Γ(n−12

)2(n−1)/2

e−z/2z(n−3)/2dz.

8.4 Cenno ai criteri di significatività

Un intervallo di confidenza può spesso essere usato come criterio di significatività. Per

intenderci, supponiamo che (ξ1, . . . , ξn) sia un campione estratto da un lotto di pezzi

prodotti in serie: ξi è la misura di una certa caratteristica nell’i-esimo pezzo ispezion-

ato, i = 1, . . . , n. Sia m0 il valore programmato per tale caratteristica. L’ispezione

campionaria è fatta proprio per controllare se la produzione è conforme al programma,

pur non potendosi escludere una variabilità che si considera assumendo che ogni ξi ab-

bia legge gaussiana e, nell’ipotesi che la produzione proceda secondo programma, abbia

valore atteso. Allora, fissato α (possibilmente piccolo), noi sappiamo come proporre un

intervallo di confidenza per il valore atteso. Ad esempio, se la varianza è incognita, tale

intervallo è determinato richiedendo che sia uguale ad α la probabilità che

|Tn−1(m0)| :=

∣∣∣∣∣∣(ξn −m0)

√n√

1n−1

∑ni=1 (ξi − ξn)

2

∣∣∣∣∣∣

prenda valori maggiori di c. Abbiamo visto come fissare c in modo da soddisfare la prece-

dente richiesta. Una volta determinato c e noti i risultati dell’indagine campionaria, si

scopre se |Tn−1(m0)| è maggiore oppure non è maggiore di c. Se si presenta la prima

circostanza che, per α opportunamente piccolo, ha bassa probabilità di verificarsi se m0

è il vero valore del parametro incognito, molti statistici – Fisher in testa – ritengono che

il campione segnali l’inattendibilità dell’ipotesi che m0 sia il vero valore del parametro.

Page 156: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

148 CAPITOLO 8. ELEMENTI DI INFERENZA STATISTICA

Nel nostro esempio, in particolare, si giungerebbe a ritenere il processo produttivo non

in grado di realizzare il livello qualitativo programmato.

Lo studente potrebbe adattare il ragionamento ora svolto a ciascuno degli intervalli

determinati nel paragrafo precedente.

Page 157: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

Appendice A

Elementi di calcolo

combinatorio

Ci proponiamo di introdurre i primi elementi di calcolo combinatorio illustrandoli con

problemi che si presentano tipicamente nell’estrazione di campioni da una data popo-

lazione.

A.1 Campioni e urne

Ogni popolazione costituita da M unità si può assimilare ad un’urna contenente M

palline, rese distinguibili per mezzo di un opportuno contrassegno [d’ora in poi, le con-

sidereremo numerate da 1 ad M ]. Pensiamo ora ad una indagine campionaria su una

popolazione di M elementi, allo scopo di inferire su una data caratteristica dei suoi el-

ementi. Le proprietà di una procedura inferenziale vengono formulate in termini di

valutazioni di probabilità relative a certe proprietà del campione, prima che il campi-

one venga estratto. Per valutare le probabilità succitate è allora necessario descrivere,

preliminarmente, l’insieme di tutti i campioni logicamente possibili; d’ora in poi riter-

remo che il numero degli elementi del campione sia prefissato [ampiezza del campione].

Detto Γ tale insieme, possiamo riguardare Γ come aggregato dei casi elementari relativi

ad una data procedura atta a produrre un campione di ampiezza assegnata. In realtà,

moltissime sono le procedure di campionamento che, ragionevolmente, si possono real-

izzare a fini inferenziali. Qui, tratteremo di quattro procedure, ottenute incrociando i

seguenti criteri.

149

Page 158: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

150 APPENDICE A. ELEMENTI DI CALCOLO COMBINATORIO

Criterio I: rilevanza o no dell’ordine con cui si estraggono le unità campionarie;

Criterio II: si ammette o non si ammette la possibilità che un elemento sia ripetuto

in uno stesso campione.

In base al Criterio I, si hanno campioni ordinati o campioni non ordinati. Si parla

di campioni ordinati quando due campioni si ritengono distinti, oltre che per eventuali

diversità tra gli elementi inclusi o per diversità nel numero di ripetizioni di uno stesso

elemento, anche per l’ordine con cui gli stessi n elementi possono essere estratti. Sono

detti non ordinati i campioni per la cui distinguibilità è irrilevante l’ordine di estrazione.

In base al Criterio II, si hanno campioni ottenuti con restituzione o senza restituzione.

I campioni del primo tipo sono ottenuti mediante estrazioni successive, in modo che dopo

ogni estrazione, e prima di procedere alla successiva, si restituisce l’elemento osservato

alla popolazione; in questo modo, si consente che una stessa unità sia ripetuta più volte

nel campione. Sono senza restituzione i campioni ottenuti mediante estrazioni succes-

sive, senza reintrodurre le unità estratte di volta in volta osservate; in tal modo, le n

unità campionarie saranno tutte diverse.

Incrociando in tutti i modi possibili le precedenti quattro modalità, si ottengono quat-

tro tipi di procedure di campionamento. In corrispondenza a ciascuna di esse calcolere-

mo la cardinalità di Γ. Prima di trattare l’argomento in termini generali, soffermiamoci

ad analizzare un caso molto particolare.

Esempio A.1.1. Dati M = 5, ossia la popolazione 1, 2, 3, 4, 5, descriviamo Γ in cor-

rispondenza ad ognuna delle quattro modalità di estrazione previste sopra.

Campioni con restituzione e ordinati

Gli elementi di Γ sono:

(1, 1) (1, 2) (1, 3) (1, 4) (1, 5)

(2, 1) (3, 1) (4, 1) (5, 1)

(2, 2) (2, 3) (2, 4) (2, 5)

(3, 2) (4, 2) (5, 2)

(3, 3) (3, 4) (3, 5)

(4, 3) (5, 3)

(4, 4) (4, 5)

(5, 4)

(5, 5)

Page 159: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

A.1. CAMPIONI E URNE 151

e quindi ♯Γ = 25.

Campioni con restituzione non ordinati

Gli elementi di Γ sono:

[1, 1] [1, 2] [1, 3] [1, 4] [1, 5]

[2, 2] [2, 3] [2, 4] [2, 5]

[3, 3] [3, 4] [3, 5]

[4, 4] [4, 5]

[5, 5]

e quindi ♯Γ = 15.

Campioni senza restituzione e ordinati

Gli elementi di Γ sono:

(1, 2) (1, 3) (1, 4) (1, 5)

(2, 1) (3, 1) (4, 1) (5, 1)

(2, 3) (2, 4) (2, 5)

(3, 2) (4, 2) (5, 2)

(3, 4) (3, 5)

(4, 3) (5, 3)

(4, 5)

(5, 4)

e quindi ♯Γ = 20.

Campioni senza restituzione non ordinati

Gli elementi di Γ sono:

[1, 2] [1, 3] [1, 4] [1, 5]

[2, 3] [2, 4] [2, 5]

[3, 4] [3, 5]

[4, 5]

e quindi ♯(Γ) = 10. z

Procediamo alla determinazione, in generale, di ♯Γ realtivamente a campioni di

ampiezza n estratti da una popolazione costituita da M unità [distinte]. Tale determi-

nazione è importante quando, ammessa l’equiprobabilità degli elementi di Γ, per val-

utare la probabilità che il campione abbia una data proprietà A, dovremo ricorrere al

Page 160: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

152 APPENDICE A. ELEMENTI DI CALCOLO COMBINATORIO

rapporto♯campioni con la proprietà A

♯Γ .

Cfr Paragrafo 1.3.

A.1.1 Campioni ordinati con restituzione

Il numero dei campioni ordinati con restituzione, di ampiezza n, estraibili da una popo-

lazione di ampiezza M , è

Mn

[numero delle disposizioni con ripetizione di classe n di M oggetti].

Infatti, i campioni possibili si possono identificare con gli allineamenti di n oggetti

estratti da un’urna che ne contiene M , con la possibilità che uno stesso elemento sia

ripetuto. Due campioni si considerano distinti o per la diversità degli elementi contenu-

ti, o per la diversità del numero di ripetizioni o per l’ordine in cui gli elementi vengono

estratti. Quindi, se si considerano n posti allineati il primo può essere occupato in M

modi diversi, il secondo in M modi diversi, . . . , l’n–esimo in M modi diversi; i primi due

in M2 modi diversi, i primi tre in M3 modi diversi, . . . , i primi n in Mn modi diversi.

Esempio A.1.2. (a) Quante sono le possibili colonne della schedina del totocalcio?

La popolazione è costituita da 3 elementi: X , 1, 2; da essa si estrae un campione

ordinato [l’ordine conta agli effetti del concorso] con restituzione [gli elementi possono

essere ripetuti] di 13 elementi. La risposta è allora 313.

(b) Si consideri un gruppo di n persone delle quali non ci è noto il compleanno; si

sa soltanto che sono nate in anni di 365 giorni. Quante sono le n–uple di compleanni

possibili? La risposta è 365n. z

A.1.2 Campioni ordinati senza restituzione (n 6 M)

Il numero dei campioni ordinati senza restituzione, di ampiezza n, estraibili da una

popolazione di M unità, è

DM,n = M(M − 1) . . . (M − n+ 1)

[numero delle disposizioni semplici di classe n, di M oggetti].

Per verificarlo, si considerino n posti allineati. I campioni in questione si possono as-

similare ad allineamenti in quei posti; esattamente, si tratta degli allineamenti ordinati

di M elementi in n posti, con la clausola che un elemento non possa essere presente più

Page 161: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

A.1. CAMPIONI E URNE 153

di una volta. Il primo posto si può occupare in M modi diversi, il secondo in M − 1 modi

diversi [poiché non si considera l’elemento che già occupa il primo posto], . . . , l’n–esimo

posto si può occupare in (M − n + 1) modi diversi. Quindi, i primi due posti si possono

congiuntamente occupare in M(M − 1) modi diversi, i primi tre in M(M − 1)(M − 2)

modi diversi, . . . , i primi n in M(M − 1) . . . (M − n+ 1) modi diversi.

Esempio A.1.3. Su un tavolo sono disposte n buste recanti n indirizzi diversi, n lettere

ciascuna delle quali da recapitare ad uno degli indirizzi precedenti. In quanti modi

possiamo inserire le n lettere nelle n buste? Il numero rischiesto è Dn,n = n!. z

A.1.3 Campioni non ordinati senza restituzione (n 6 M)

Il numero dei campioni non ordinati senza restituzione, di ampiezza n, estraibili da una

popolazione di M unità, è

CM,n =

(M

n

)=

M !

n!(M − n)!

[numero delle combinazioni semplici di classe n, di M oggetti].

Supponiamo di aver enumerato i DM,n campioni ordinati, senza restituzione, di

classe n. Ciascuno di essi, a prescindere dall’ordine, è un campione non ordinato. In-

versamente, da ciascun campione non ordinato senza restituzione, di ampiezza n, si

possono generare n! campioni ordinati distinti, permutando i termini del primo in tutti

i modi possibili. Esiste, perciò, una corrispondenza che a n! campioni ordinati associa

un solo campione non ordinato; quindi, il numero che cerchiamo è

DM,n/n! =M(M − 1) . . . (M − n+ 1)

n!=

(M)!

n!(M − n)!.

Esempio A.1.4. (a) Quante sono le possibili mani per un giocatore servito per primo,

secondo le regole del bridge? Il giocatore riceve 13 carte diverse [n = 13] estratte da un

mazzo di 52 carte [M = 52]. Si tratta di un campione senza restituzione, non ordinato

[perché agli effetti del gioco, l’ordine con cui si ricevono le carte è irrilevante]. Il numero

cercato è pertanto(5213

).

(b) In una collettività di 100 individui si elegge un comitato di 5 persone. Quante

sono le configurazioni possibli del comitato?

Si tratta di campioni non ordinati senza restituzione, cosicché il numero cercato è(1005

). z

Page 162: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

154 APPENDICE A. ELEMENTI DI CALCOLO COMBINATORIO

A.1.4 Campioni non ordinati con restituzione

Il numero dei campioni non ordinati con restituzione, di ampiezza n, estraibili da una

popolazione di M unità, è

(M + n− 1

n

)=

(M + n− 1)!

n!(M − 1)!

[numero delle combinazioni con ripetizione di classe n, di M oggetti].

Per spiegare ciò, indichiamo con a1, . . . , aM la popolazione da cui si estrae il cam-

pione. Ad ogni campione non ordinato con restituzione associamo l’allineamento così

definito: si scrive a1 e lo si fa seguire da tanti ∗ quante sono le presenze di a1 nel cam-

pione [nessun ∗ se a1 non è rappresentato nel campione]; si scrive quindi a2 seguito

da tanti asterischi quante sono le presenze di a2 nel campione, e così di seguito fino

ad aM . Per fissare le idee, sia [a2, a2, a4, a5, a5] un campione di ampiezza 5 estratto da

a1, . . . , a9. Allora, l’allineamento corrispondente, usando la regola precedentemente

descritta, è

[a1a2 ∗ ∗a3a4a5 ∗ ∗a6a7a8a9].

Se, a questo punto, eliminiamo gli indici dalle a, otteniamo un allineamento di M + n

oggetti di cui M sono uguali ad a e n sono uguali ad ∗. Il primo elemento è, poi, sempre

uguale ad a. Per contare il numero di allineamenti fatti di (M − 1) elementi uguali ad

a e di n asterischi, possiamo osservare che esso è quello delle combinazioni semplici di

classe n di M + n− 1 oggetti, quindi

CM+n−1,n =

(M + n− 1

n

)=

(M + n− 1)!

n!(M − 1)!.

La tesi segue dal fatto che tali allineamenti sono in corrispondenza biunivoca con i

campioni che stiamo considerando.

Esempio A.1.5. (a) Si dispone di n dadi indistinguibili. Quanti sono i risultati possibli

del lancio degli n dadi? Il risultato del lancio è un campione di n elementi estratti da

1, . . . , 6; il campione è non ordinato, percheé i dadi sono indistinguibli, e con resti-

tuzione, perché lo stesso punteggio può presentarsi ripetutamente. Quindi, il numero

dei risultati possibili è (6 + n− 1

n

)=

(5 + n

n

).

(b) Quante sono le derivate parziali di ordine n di una funzione analitica f(x −1, . . . , xM )? Per una funzione analitica, l’ordine di derivazione è ininfluente e, quindi,

il numero delle derivate è(M+n−1

n

). z

Page 163: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

A.2. PROBLEMI DI OCCUPAZIONE 155

A.2 Problemi di occupazione

Osserviamo che ogni problema di estrazione di campioni può essere riletto come prob-

lema di occupazione, nel senso che ora preciseremo. Tali problemi sono rilevanti nella

meccanica statistica.

Siano date n particelle, ciascuna delle quali è caratterizzata o individuata con k

dati, in modo che possa essere rappresentata con un punto di uno spazio [detto delle

fasi], avente come coordinate i k dati della particella considerata. Suddiviso lo spazio

delle fasi in M celle, il sistema fisico può essere descritto contando il numero di parti-

celle contenute in ciascuna cella. In particolare, ogni stato del sistema può essere visto

come un allineamento di M oggetti in n posti, ovvero come un campione di n elementi

estratti da una popolazione che ne contiene M . Alle modalità di estrazione consider-

ate in precedenza corrispondono modalità di occupazione delle celle secondo lo schema

seguente:

campioni senza restituzione←→ occupazione con esclusione [principio di Pauli; non

è possibile che una cella sia occupata da più di una particella]

campioni con restituzione←→ occupazione in assenza del principio di Pauli

campioni ordinati←→ particelle distinguibli

campioni non ordinati←→ particelle indistinguibli.

A.3 Formula di Tartaglia–Newton

Per n intero positivo e per a, b in R, vale

(a+ b)n =

n∑

k=0

(n

k

)akbn−k. (A.1)

Questa formula fornisce un algoritmo per il calcolo della potenza n–esima (n intero

positivo) di un binomio; quindi, indicato con (a + b) il binomio stesso, la formula in

questione dà uno sviluppo di (a+ b)n. Tenuto conto che vale

(a+ b)n = (a+ b) . . . (a+ b)︸ ︷︷ ︸n fattori

, (A.2)

la nostra attenzione si può concentrare sul calcolo del mebro di destra. Questo sarà

ovviamente una somma di termini del tipo akbn−k con k che varia in 0, . . . , n. Più

precisamente, il numero degli addendi coincide con quello dei modi con cui si posson

estrarre k fattori uguali ad a e (n − k) ugali a b dal prodotto di destra di (A.2). Per-

Page 164: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

156 APPENDICE A. ELEMENTI DI CALCOLO COMBINATORIO

ció, il numero degli addendi uguali a akbn−k è(nk

)e il loro contributo complessivo sarà

(nk

)akbn−k.

A.3.1 Una conseguenza della formula di Tartaglia–Newton

Se poniamo a = x e b = 1 la (A.1) diviene

(1 + x)n =n∑

k=0

(n

k

)xk.

Pertanto

(1 + x)r(1 + x)s =∑

h>0

(r

h

)xh∑

k>0

(s

k

)xk =

j>0

xj∑

h

(r

h

)(s

j − h

),

e

(1 + x)r(1 + x)s = (1 + x)r+s

=∑

j>0

xj

(r + s

j

).

Allora, per il principio di identità dei polinomi,(r + s

j

)=∑

h

(r

h

)(s

j − h

).

Questa, per j = s, diviene(r + s

s

)=∑

h

(r

h

)(s

s− h

)=∑

h

(r

h

)(s

h

).

Page 165: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

Appendice B

Funzioni generatrici

I numeri di Fibonacci sono definiti ricorsivamente dalle seguenti relazioni

δn+1 = δn + δn−1 (n > 1) (B.1)

δ0 = 0 δ1 = 1.

Si ha che

δj =1√5

(1 +√5

2

)j

−(1−√5

2

)j , j > 1

La determinazione di δj è fra i problemi che si possono semplificare significativa-

mente ricorrendo alle cosiddette funzioni generatrici. Si cerca, con tale metodo, di as-

sociare alla relazione data una serie di potenze o un polinomio; basta moltiplicare i

membri di (B.1) per tn, con t reale qualunque, e sommare per n = 1, 2, . . . :

n>1

tnδn+1 =∑

n>1

tnδn +∑

n>1

tnδn−1 (B.2)

e, posto

g(t) =∑

n>1

tnδn,

tenendo conto della condizione iniziale, (B.2) diventa

j>2

tj−1δj = g(t) +∑

k>0

tk+1δk = g(t) +∑

k>1

tk+1δk

ovvero∑

j>2

tjδj = tg(t) + t2g(t).

157

Page 166: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

158 APPENDICE B. FUNZIONI GENERATRICI

Allora

g(t) =t

1− t− t2=

−tt2 + t− 1

=−t(

t+1

2+

√5

2

)(t+

1

2−√5

2

) .

L’idea su cui si fonda il metodo delle funzioni generatrici consiste, una volta ottenuta

un’espressione di g, nel cercare di riscrivere tale espressione come serie di potenze (di t)

g(t) =∑

n>0

tnan

con i coefficenti an ben determinati, e di applicare il relativo principio di identità onde

ricavare

δn = an (n > 0)

Nel nostro caso,

g(t) = − t√5

1

t+1

2−√5

2

− 1

t+1

2+

√5

2

= − t√5

1(1

2−√5

2

)(1 +

t12 −

√52

) − 1(1

2+

√5

2

)(1 +

t12 +

√52

)

.

Ora, se prendiamo t in modo che valga∣∣∣t/(12 ±

√52 )∣∣∣ 6 1, possiamo scrivere

1

1 +t

12 ±

√52

=∑

n>0

(− t

12 ±

√52

)n

,

e quindi

g(t) = − t√5

2

1−√5

n>0

(2t√5− 1

)n

− 2

1 +√5

n>0

(− 2t√

5 + 1

)n

= − t√5

n>0

(2√5− 1

)n2

1−√5tn −

n>0

(− 2√

5 + 1

)n2

1 +√5tn

=∑

n>0

tn+1

1√5

(− 2

1 +√5

)n2

1 +√5− 1√

5

(2√5− 1

)n2

1−√5

=∑

j>1

tj

1√5

(− 2

1 +√5

)j−12

1 +√5− 1√

5

(2√5− 1

)j−12

1−√5

.

Poiché due serie di potenze che sono uguali su tutto un intervallo devono necessari-

amente avere i coefficienti identici, perveniamo a scrivere

Page 167: F S MM FF NN L Mbassetti/didattica/probI/probabilita... · 2014-01-14 · successione dei lanci. Convenendo d’indicare con 0 la comparsa di Croce e con 1 la comparsa di Testa, lo

159

n>1

tnδn = g(t) =∑

j>1

tj

1√5

(− 2

1 +√5

)j−12

1 +√5− 1√

5

(2√5− 1

)j−12

1−√5

,

da cui:

δj =1√5

(− 2

1 +√5

)j−12

1 +√5− 1√

5

(2√5− 1

)j−12

1−√5

=1√5

(−1)j−1

(2

1 +√5

)j

+

(2√5− 1

)j

=2j√5

−(√5− 1)j(−1)j + (1 +

√5)j

((√5− 1)j(

√5 + 1)

)j

=2j√5

(1 +√5)j − (1−

√5)j

4j

=1√5

(1 +√5

2

)j

−(1−√5

2

)j , j > 1.