Note_Probabilità

download Note_Probabilità

of 52

description

Note

Transcript of Note_Probabilità

  • Note per il corso di Metodi Analitici e Statistici perlIngegneria FisicaModulo di Statistica

    Alessandro Toigo

    6 ottobre 2015

  • 2

  • Indice

    1 Calcolo delle Probabilita` 51.1 Definizione e proprieta` elementari della probabilita` . . . . . . . . . . . . . . . . . . 51.2 Probabilita` condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.3 Indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.4 Prove di Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.5 Variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201.6 La funzione di ripartizione di una variabile aleatoria . . . . . . . . . . . . . . . . . . 261.7 Funzioni di una variabile aleatoria e standardizzazione . . . . . . . . . . . . . . . . 291.8 Vettori aleatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311.9 Media e varianza di una variabile aleatoria . . . . . . . . . . . . . . . . . . . . . . . 381.10 Disuguaglianza di Chebyshev e legge dei grandi numeri . . . . . . . . . . . . . . . . 461.11 Teorema del limite centrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 501.12 Approssimazione normale e poissoniana della binomiale . . . . . . . . . . . . . . . . 51

    3

  • 4 INDICE

  • Capitolo 1

    Calcolo delle Probabilita`

    1.1 Definizione e proprieta` elementari della probabilita`

    In un esperimento aleatorio, un evento e` una qualunque proposizione riguardante il risultato del-lesperimento stesso. Per chiarire le idee, consideriamo come esempio lesperimento aleatorio con-sistente in tre lanci consecutivi di una stessa moneta. Allora tutte le proposizioni seguenti sonoesempi di eventi:

    Ti = esce testa alli-esimo lancio (dove i = 1, 2, 3)

    E = nei primi due lanci esce la stessa faccia

    F = negli ultimi due lanci esce la stessa faccia

    G = il risultato del primo e del terzo lancio sono diversi.

    Tramite le operazioni logiche di (and), (or) e (not), gli eventi possono essere combinatitra loro in modo da formare nuovi eventi oppure ottenere equazioni logiche. In questo modo, e`facile vedere che linsieme degli eventi acquista una struttura di algebra booleana. Senza entrarenei dettagli della definizione assiomatica precisa di unalgebra booleana, limitiamoci a osservareche, nellesempio precedente dei tre lanci di una moneta, a partire dagli eventi T1, T2, T3, E, F,Gpossiamo scrivere

    esce croce al primo lancio = T1

    esce sempre testa = T1 T2 T3esce la stessa faccia in tutti i lanci = E F

    (1.1)

    e ancoraE = (T1 T2) (T1 T2)E F = E G = (T1 T2 T3) (T1 T2 T3)T1 G = T1 T3(E F ) T2 = (T1 T2) (T2 T3).

    (1.2)

    Notiamo in particolare limportanza delluso corretto delle parentesi quando sono coinvolte nellastessa espressione entrambe le operazioni logiche e . Disporre le parentesi nel giusto ordine

    5

  • 6 CAPITOLO 1. CALCOLO DELLE PROBABILITA`

    e` essenziale tra laltro per enunciare nel modo corretto la proprieta` distributiva dellor rispettoalland

    A (C D) = (A C) (A D)e lanaloga proprieta` distributiva delland rispetto allor

    A (C D) = (A C) (A D).

    Anche loperazione di not assume un diverso significato a seconda della sua posizione. Perconvincersene, basta osservare che nel lancio delle monete i due eventi T1 T2 e T1 T2 sonocompletamente diversi. In generale, valgono infatti le leggi di De Morgan

    A B = A B e A B = A B.

    Per indicare limplicazione logica tra due eventi si usa il simbolo , cioe`

    A B significa che levento A implica levento B.

    Per esempio, nellesperimento dei tre lanci di una moneta

    T1 T2 T1T1 T3 G.

    (1.3)

    Infine, un ruolo particolare e` giocato dallevento certo (indicato con 1) e dallevento impossibile(che denoteremo 0). Per chiarire il significato di questi due eventi, osserviamo che per esempio

    1 = T1 T1 = G (T1 T3) (T1 T3)

    e

    0 = 1 = T1 T1 = E F G.Lalgebra booleana che si ottiene dotando gli eventi delle operazioni logiche , e ricorda

    (anche visivamente!) le operazioni di intersezione, unione e complementazione di insiemi. Questae` in effetti ben piu` di una semplice somiglianza intuitiva. Infatti, cio` che si fa in probabilita` e`proprio rappresentare lalgebra degli eventi in unopportuna algebra di insiemi. Piu` precisamente:

    (a) assegnato un esperimento aleatorio, si fissa un opportuno insieme , detto spazio campionario(o spazio ambiente) di quel particolare esperimento;

    (b) gli eventi dellesperimento vengono rappresentati in sottoinsiemi di , cioe` in insiemi E,F,G . . .appartenenti allinsieme delle parti P() di ;

    (c) in questa rappresentazione, le operazioni logiche , e vengono fatte corrispondere allinter-sezione , unione e complementazione c di insiemi; inoltre, limplicazione logica tra dueeventi corrisponde al contenimento di uno nellaltro.

  • 1.1. DEFINIZIONE E PROPRIETA` ELEMENTARI DELLA PROBABILITA` 7

    Per chiarire nuovamente le idee, torniamo ancora al nostro esempio dei tre lanci di una moneta.Una possibile scelta dello spazio campionario per tale esperimento e` il prodotto cartesiano

    = {0, 1}3 = {(1, 2, 3) | i {0, 1}},mentre gli eventi T1, T2, T3, E, F,G si possono rappresentare nei sottoinsiemi

    T1 = {1} {0, 1}2 = {(1, 2, 3) | 1 = 1} = {(1, 0, 0), (1, 1, 0), (1, 0, 1), (1, 1, 1)}T2 = {0, 1} {1} {0, 1} = {(1, 2, 3) | 2 = 1}T3 = {0, 1}2 {1} = {(1, 2, 3) | 3 = 1}E = {(1, 2, 3) | 1 = 2}F = {(1, 2, 3) | 2 = 3}G = {(1, 2, 3) | 1 6= 3}

    (col lieve abuso di notazione di usare dora in poi lo stesso simbolo per levento e linsieme chelo rappresenta!). Con questa scelta, si puo` facilmente verificare che valgono le seguenti relazionianaloghe delle (1.2), (1.3)

    E = (T1 T2) (T c1 T c2 )E F = E Gc = (T1 T2 T3) (T c1 T c2 T c3 )T1 G = T1 T c3(E F ) T2 = (T1 T2) (T2 T3)T1 T2 T1T1 T c3 G,

    mentre le (1.1) danno le rappresentazioni in insiemi

    esce croce al primo lancio = T c1 = {(1, 2, 3) | 1 = 0}esce sempre testa = T1 T2 T3 = {(1, 1, 1)}esce la stessa faccia in tutti i lanci = E F = {(1, 1, 1), (0, 0, 0)}.

    Da notare che lelemento (1, 1, 1) di non rappresenta un evento, mentre al contrario linsieme{(1, 1, 1)}, che e` un elemento di P(), rappresenta un evento. Levento certo e levento impossibilesono rappresentati rispettivamente dallinsieme e dallinsieme vuoto .

    A questo punto possiamo finalmente introdurre la nozione di probabilita`.

    Definizione 1. Sia un insieme e sia P() il suo insieme delle parti. Una probabilita` su e` unafunzione P : P() R con le seguenti proprieta`:(1) P (E) 0 per ogni evento E P();(2) P () = 1;

    (3) per ogni famiglia {Ei}iI finita o numerabile di eventi Ei P() tali che EiEj = se i 6= j,si ha luguaglianza P

    (iI Ei

    )=

    iI P (Ei).

  • 8 CAPITOLO 1. CALCOLO DELLE PROBABILITA`

    Se gli eventi E1, E2, . . . soddisfano la condizione EiEj = per ogni i 6= j, si dice che E1, E2, . . .sono mutuamente incompatibili. Lassioma (3) richiede pertanto che la probabilita` dellunione dieventi incompatibili sia la somma delle probabilita` dei singoli eventi.

    Di seguito sono riassunte le principali proprieta` della probabilita` che si possono direttamentericavare dalla definizione.

    Proposizione 1. Siano E,F P() due eventi.(i) P () = 0.

    (ii) Se E F , allora P (F \ E) = P (F ) P (E) (dove linsieme F \E := F Ec e` la differenzadi F meno E).

    (iii) Se E F , allora P (E) P (F ).(iv) P (Ec) = 1 P (E).(v) P (E) 1.

    (vi) P (E F ) = P (E) + P (F ) P (E F ).Dimostrazione. (i) Si ha = e = , dunque per lassioma (3) della probabilita`

    P () = P ( ) = P () + P () = 2P () P () = 0.

    (ii) Se E F , allora F = (F \ E) E e (F \ E) E = , dunque, ancora per lassioma (3),

    P (F ) = P (F \ E) + P (E) P (F \ E) = P (F ) P (E) .

    (iii) Se E F , per il punto precedente e per lassioma (1)

    P (F ) P (E) = P (F \ E) 0 P (F ) P (E) .

    (iv) Si ha Ec = \ E e P () = 1 per lassioma (2), dunque

    P (Ec) = P ( \ E) = P () P (E) = 1 P (E)

    come conseguenza del punto (ii) (notare che lipotesi E e` chiaramente soddisfatta).(v) E e P () = 1, dunque P (E) 1 segue dal punto (iii).(vi) Abbiamo

    E F = [E \ (E F )] (E F ) [F \ (E F )]e inoltre

    [E \ (E F )] (E F ) = (E F ) [F \ (E F )] = [E \ (E F )] [F \ (E F )] = .

  • 1.1. DEFINIZIONE E PROPRIETA` ELEMENTARI DELLA PROBABILITA` 9

    Ricaviamo pertanto

    P (E F ) = P (E \ (E F )) + P (E F ) + P (F \ (E F ))

    per lassioma (3). Applicando il punto (ii) agli insiemi E F E e E F F , abbiamo

    P (E \ (E F )) = P (E) P (E F )P (F \ (E F )) = P (F ) P (E F )

    e quindi, riprendendo lequazione precedente,

    P (E F ) = P (E) P (E F ) + P (E F ) + P (F ) P (E F )= P (E) + P (F ) P (E F ) .

    Il punto (vi) della proposizione precedente si estende facilmente al caso di tre o piu` eventi.Infatti, iterandolo due volte,

    P (E F G) = P (E (F G))= P (E) + P (F G) P (E (F G))= P (E) + P (F ) + P (G) P (F G) P ((E F ) (E G))= P (E) + P (F ) + P (G) P (F G) [P (E F ) + P (E G) P ((E F ) (E G))]= P (E) + P (F ) + P (G) P (F G) P (E F ) P (E G) + P (E F G) ,

    dove inoltre abbiamo usato la proprieta` distibutiva E (F G) = (E F ) (E G). Il caso din 4 eventi e` simile.Osservazione 1. Per motivi di carattere tecnico che diventeranno piu` chiari nel modulo di Analisi,quando lo spazio campionario ha cardinalita` non numerabile (p.es., quando = R, oppure = {0, 1}N) spesso non e` necessario definire una probabilita` su tutto linsieme delle parti P(),ma e` invece molto piu` conveniente definirla solo su un particolare sottoinsieme F P(). Perpoter considerare solo F (e non tutto P()) come la totalita` degli eventi del nostro esperimentoaleatorio, il sottoinsieme F deve naturalmente essere chiuso rispetto alle operazioni insiemistiche, e c, corrispondenti delle operazioni logiche , e . In altre parole, deve valere che(1) F e F ;(2) se E F , allora anche Ec F ;(3) per ogni famiglia {Ei}iI finita o numerabile di eventi Ei F (non necessariamente disgiunti)

    si haiI Ei F e anche

    iI Ei F .

    Un sottoinsieme F P() con tali proprieta` si chiama -algebra di sottoinsiemi di . Se inoltreP : F R e` una probabilita` su F , cioe` verifica i tre assiomi della probabilita`, ma solo sugli insiemi

  • 10 CAPITOLO 1. CALCOLO DELLE PROBABILITA`

    di F anziche` su tutto P(), la tripla (,F ,P) si dice spazio di probabilita`. Il requisito che il punto(3) valga anche quando gli eventi {Ei}iI sono uninfinita numerabile non e` una mera complicazionematematica. Infatti, capita sovente di considerare intersezioni o unioni infinite numerabili di eventi.Per esempio, nellesperimento aleatorio consistente in infiniti lanci ripetuti di una moneta, levento

    non esce mai testa =iIT ci

    e` di tale tipo.

    Esempio 1 (Spazi di probabilita` uniforme). Se e` un insieme finito, con cardinalita` || = N ,una probabilita` su e` per esempio la seguente funzione P : P() R

    P (E) =|E|N

    dove |E| = cardinalita` di E.

    Infatti, e` banale verificare che P soddisfa gli assiomi (1) e (2), mentre (3) discende immediatamentedal fatto che la cardinalita` di ununione di insiemi disgiunti e` la somma delle cardinalita` dei singoliinsiemi. Tale probabilita` si chiama probabilita` uniforme su . Per esempio, nellesperimento deitre lanci consecutivi di una moneta, con = {0, 1}3, abbiamo || = 23 = 8

    P (T1) =|{(1, 0, 0), (1, 1, 0), (1, 0, 1), (1, 1, 1)}|

    8=

    4

    8=

    1

    2

    P (E) =|{(0, 0, 0), (0, 0, 1), (1, 1, 0), (1, 1, 1)}|

    8=

    4

    8=

    1

    2

    P (G) =|{(1, 0, 0), (1, 1, 0), (0, 0, 1), (0, 1, 1)}|

    8=

    4

    8=

    1

    2

    e cos` via.

  • 1.2. PROBABILITA` CONDIZIONATA 11

    1.2 Probabilita` condizionata

    Definizione 2. Sia (,F ,P) uno spazio di probabilita` e siano E,F F due eventi. SupponiamoP (F ) > 0. La probabilita` di E condizionata a F (o probabilita` di E sapendo F ) e` il numero reale

    P (E | F ) := P (E F )P (F )

    .

    Dal fatto che E F F segue P (E F ) P (F ), e dunque P (E | F ) [0, 1]. Inoltre, e` facileverificare che la funzione PF : F R data da

    PF (E) = P (E | F ) per ogni E F

    e` a sua volta una probabilita` su . Infatti

    1. PF (E) 0 per ogni evento E F , in quanto sia P (E F ) 0 sia P (F ) > 0;2. PF () = P ( F ) /P (F ) = P (F ) /P (F ) = 1;3. per ogni famiglia {Ei}iI finita o numerabile di eventi disgiunti Ei F , si ha

    PF(iIEi

    )=P((

    iI Ei) F)

    P (F )definizione

    =P(

    iI(Ei F ))

    P (F )proprieta` distributiva di rispetto a

    =

    iI P (Ei F )P (F )

    assioma (3)

    =iI

    PF (Ei) definizione.

    Nella terza uguaglianza, abbiamo potuto usare lassioma (3) perche (Ei F ) (Ej F ) =(Ei Ej) F = se i 6= j per ipotesi.

    Esempio 2. Nellesperimento aleatorio dei tre lanci consecutivi di una moneta, la probabilita` cheescano tre teste sapendo che nei primi due lanci e` uscita la stessa faccia e`

    P (T1 T2 T3 | E) = P (T1 T2 T3 E)P (E) =P (T1 T2 T3)

    P (E)perche T1 T2 T3 E

    =P ({(1, 1, 1)})

    P ({(0, 0, 0), (0, 0, 1), (1, 1, 0), (1, 1, 1)}) =1/8

    4/8=

    1

    4.

    Capita spesso che la probabilita` che un certo evento E si realizzi sia nota solo sotto opportunecondizioni a priori, cioe` che, anziche conoscere P (E), siano note solo le probabilita` di E condizio-nate ad una serie di altri eventi F1, F2, . . . , Fn. In questo caso, il teorema seguente risulta moltoutile per calcolare la probabilita` P (E).

  • 12 CAPITOLO 1. CALCOLO DELLE PROBABILITA`

    Teorema 1 (Formula delle probabilita` totali). Sia (,F ,P) uno spazio di probabilita`, e sianoF1, F2, . . . , Fn F eventi che formano una partizione di , cioe` tali che(a) Fi Fj = se i 6= j;(b)

    ni=1 Fi = .

    Supponiamo inoltre che P (Fi) > 0 per ogni i = 1, 2, . . . , n. Allora per ogni evento E F si ha

    P (E) =ni=1

    P (E | Fi)P (Fi) .

    Dimostrazione. Si ha

    E = E = E ni=1

    Fi =ni=1

    E Fie

    (E Fi) (E Fj) = E (Fi Fj) = se i 6= j .Per il terzo assioma della probabilita`

    P (E) =ni=1

    P (E Fi) =ni=1

    P (E | Fi)P (Fi)

    dove si e` inoltre usata la definizione P (E | Fi) = P (E Fi) /P (Fi).

    Esempio 3. Problema: Supponiamo di avere un mazzo di 40 carte: 20 di queste sono rosse su unlato e nere sullaltro, mentre le altre 20 sono rosse su entrambi i lati. Pesco una carta a caso dalmazzo e la poso sul tavolo. Quale` la probabilita` che esibisca il colore rosso?Soluzione: Introduciamo gli eventi

    B = la carta pescata e` bicolore

    R = la carta pescata esibisce il colore rosso.

    Sappiamo che

    P (B) = P (Bc) =20

    40=

    1

    2P (R | B) = 1

    2P (R | Bc) = 1. (1.4)

    Allora i due eventiB,Bc formano una partizione di , dunque si puo` applicare il teorema precedentee ottenere

    P (R) = P (R | B)P (B) + P (R | Bc)P (Bc) = 12 1

    2+ 1 1

    2=

    3

    4.

    Abbiamo visto che la formula delle probabilita` totali permette di calcolare la probabilita` diun evento E una volta note le probabilita` che E si realizzi sotto opportune condizioni a priori.La formula di Bayes data di seguito e` utile invece nella situazione opposta, cioe` quando abbiamolinformazione a posteriori che levento E si e` realizzato, e ci chiediamo con quale probabilita` e`avvenuto uno degli eventi che condizionavano E.

  • 1.2. PROBABILITA` CONDIZIONATA 13

    Teorema 2 (Formula di Bayes). Supponiamo che F1, F2, . . . , Fn F sia una partizone di , eche P (Fi) > 0 per ogni i = 1, 2, . . . , n. Allora per ogni E F con P (E) > 0 si ha

    P (Fk | E) = P (E | Fk)P (Fk)ni=1 P (E | Fi)P (Fi)

    per ogni k {1, 2, . . . , n}.

    Dimostrazione. Si ha

    P (Fk | E) = P (Fk E)P (E) =P (Fk E)P (Fk)

    P (Fk)P (E)

    = P (E | Fk) P (Fk)P (E) ,

    e P (E) =n

    i=1 P (E | Fi)P (Fi) per la formula delle probabilita` totali.

    Sottolineamo che in alcuni testi per formula di Bayes si intende invece la piu` semplice relazione

    P (F | E) = P (E | F ) P (F )P (E)

    ,

    che e` stata provata nel corso della dimostrazione precedente.

    Esempio 4. Problema: NellEsempio 3 del mazzo di carte colorate, supponiamo ora che la cartapescata a caso dal mazzo e posata sul tavolo esibisca il colore rosso. Qual e` la probabilita` chelaltro suo lato (quello nascosto) sia nero?Soluzione: Intuitivamente, verrebbe da rispondere che la probabilita` e` pari a 1/2. Invece, appli-cando la formula di Bayes, si trova che la risposta corretta e`

    P (B | R) = P (R | B)P (B)P (R | B)P (B) + P (R | Bc)P (Bc) =

    1/2 1/21/2 1/2 + 1 1/2 =

    1

    3.

    Osservazione: Nella soluzione di questo problema, come anche in quella dellEsempio 3, non sie` mai dovuto ricorrere a una rappresentazione esplicita in uno spazio di probabilita` degli eventicoinvolti, ma si e` semplicemente utilizzata la conoscenza delle probabilita` (1.4). Se lo si vuole, glieventi R,Rc, B,Bc possono essere p.es. rappresentati nellinsieme = {0, 1}2 con probabilita` Puniforme, ponendo

    B = {(0, 0), (0, 1)} R = {(1, 0), (0, 1), (1, 1)}(verificare per esercizio che in questo modo si ottengono le probabilita` (1.4)!). Tuttavia questofatto non da` nessuna ulteriore informazione o semplificazione del problema, ma anzi lo complicainutilmente.

    Unaltra situazione in cui la probabilita` condizionata si rivela molto utile e` quando si vuo-le conoscere la probabilita` dellintersezione di serie di eventi E1, E2, . . . , En che si verificano insuccessione uno dopo laltro, in modo che ciascun evento Ei viene influenzato solo dagli eventiEi1, Ei2, . . . , E1 che sono avvenuti prima di esso. In tal caso, infatti, si puo` utilizzare il prossimoteorema.

  • 14 CAPITOLO 1. CALCOLO DELLE PROBABILITA`

    Teorema 3 (Formula del prodotto). Supponiamo che E1, E2, . . . , En F siano eventi qualsiasi.Allora

    P (E1 E2 . . . En) =P (En | En1 En2 . . . E1)P (En1 | En2 En3 . . . E1) . . . . . .P (E1) .

    Dimostrazione. Per la definizione di probabilita` condizionata

    P (E1 E2 . . . En) = P (En | En1 En2 . . . E1)P (En1 En2 . . . E1)

    e la formula del teorema ne segue per induzione.

    Esempio 5. Problema: Unurna contiene 10 palline, di cui 2 sono bianche e 8 sono nere. Estraiamouna dopo laltra 3 palline, senza rimettere nellurna nessuna delle palline estratte (estrazione senzareimmissione). Qual e` la probabilita` che tutte le palline estratte siano nere?Soluzione: Indichiamo con Ni levento

    Ni = li-esima pallina estratta e` nera (i = 1, 2, 3).

    Vogliamo calcolare la probabilita` dellintersezione N1 N2 N3. Per il teorema precedente

    P (N1 N2 N3) = P (N3 | N2 N1)P (N2 | N1)P (N1) .

    Daltra parte,

    P (N1) =8

    8 + 2perche allinizio nellurna ci sono 8 palline nere e 2 bianche

    P (N2 | N1) = 77 + 2

    perche, se la prima pallina estratta e` nera, allora per la seconda

    estrazione nellurna ne restano 7 nere e 2 bianche

    P (N3 | N2 N1) = 66 + 2

    perche, se le prime due palline estratte sono nere, allora per la

    terza estrazione nellurna ne restano 6 nere e 2 bianche.

    Pertanto la probabilita` cercata e`

    P (N1 N2 N3) = 810 7

    9 6

    8=

    7

    15.

  • 1.3. INDIPENDENZA 15

    1.3 Indipendenza

    La definizione di indipendenza per due eventi e` molto semplice.

    Definizione 3. Sia (,F ,P) uno spazio di probabilita`. Due eventi E,F F si dicono indipendentise P (E F ) = P (E)P (F ).Esempio 6. Nellesempio dei tre lanci di una stessa moneta, e` facile verificare che ciascuna coppiadi eventi

    Ti, Tj con i 6= j Ti, E Ti, F Ti, GE, F E,G F,G

    sono indipendenti. Infatti, p.es.

    P (T1 T2) = P ({(1, 1, 0), (1, 1, 1)}) = 28 1

    2 1

    2= P (T1)P (T2)

    P (T1 G) = P ({(1, 0, 0), (1, 1, 0)}) = 28 1

    2 1

    2= P (T1)P (G)

    P (E G) = P ({(1, 1, 0), (0, 0, 1)}) = 28 1

    2 1

    2= P (E)P (G)

    e cos` via per tutte le altre coppie. Un esempio di due eventi non indipendenti e` la coppia T1 T2e E. Infatti

    P ((T1 T2) E) = P (T1 T2 E) = P ({(1, 1, 0), (1, 1, 1)}) = 286= 1

    4 1

    2= P (T1 T2)P (E)

    Notiamo che se E e F sono eventi indipendenti, allora sono indipendenti anche gli eventi inciascuna coppia

    E,F c Ec, F Ec, F c.

    Infatti

    P (E F c) = P (E \ (E F )) = P (E) P (E F ) = P (E) P (E)P (F ) = P (E) (1 P (F )) P (E)P (F c)

    P (Ec F ) = P (F Ec) P (F )P (Ec) per il caso precedentee, applicando il secondo caso agli eventi E e F c che sono indipendenti per il primo,

    P (F c Ec) P (F c)P (Ec) .Osservazione 2. Dire che due eventi E e F sono indipendenti e` una cosa completamente diversadallaffermare che sono disgiunti (o anche detti incompatibili), cioe` che E F = . Infatti,- se E e F sono indipendenti, allora P (E F ) = P (E)P (F );- se E e F sono disgiunti, allora P (E F ) = P () = 0.

  • 16 CAPITOLO 1. CALCOLO DELLE PROBABILITA`

    Le due cose possono avvenire contemporaneamente se e solo se P (E) = 0 o P (F ) = 0 (in parti-colare, se E = o F = ), mentre in tutti gli altri casi indipendenza e incompatibilita` sono duenozioni totalmente distinte.

    La definizione di indipendenza per tre o piu` eventi e` un po piu` complessa, e richiede diconsiderare tutte le intersezioni possibili degli eventi.

    Definizione 4. Sia (,F ,P) uno spazio di probabilita`. Una collezione di n eventi E1, E2, . . . , En F si dicono indipendenti se

    P (Ei1 Ei2 . . . Eik) = P (Ei1)P (Ei2) . . .P (Eik) (1.5)

    per ogni k n e per ogni sottoinsieme di indici {i1, i2, . . . , ik} {1, 2, . . . , n}.Per chiarire la definizione precedente, applichiamola a tre eventi E,F,G. In tal caso, affinche

    E,F,G siano indipendenti non basta che valga P (E F ) = P (E)P (F ), P (E G) = P (E)P (G)e P (F G) = P (F )P (G), ma deve anche essere P (E F G) = P (E)P (F )P (G).Esempio 7. Nellesperimento aleatorio dei tre lanci di una moneta, i tre eventi T1, E, F sonoindipendenti. Infatti, abbiamo gia` visto che sono indipendenti a coppie. In piu`, abbiamo

    P (T1 E F ) = P ({(1, 1, 1)}) = 18 1

    2 1

    2 1

    2= P (T1)P (E)P (F ) .

    Non sono invece indipendenti i tre eventi T1, T2, E. Infatti, benche siano indipendenti a coppie, siha tuttavia

    P (T1 T2 E) = P ({(1, 1, 0), (1, 1, 1)}) = 286= 1

    2 1

    2 1

    2= P (T1)P (T2)P (E) .

    Nel caso di n eventi, nella definizione di indipendenza le condizioni (1.5) sono in tutto 2nn1,molte di piu` delle

    (n2

    )condizioni che coinvolgono solo le singole coppie di eventi.

    Pur essendo complicata, la definizione di indipendenza per n 3 eventi ha il pregio seguente:se E1, E2, . . . , En sono eventi indipendenti, allora, raggruppandoli in gruppi piu` piccoli e combi-nando gli eventi in ogni gruppo tramite le operazioni di , e c, le combinazioni provenienti dagruppi diversi continuano a essere fra loro indipendenti. Piu` formalmente, per ogni scelta di indici{i1, i2, . . . , ik} {1, 2, . . . , n} con 1 = i1 < i2 < . . . < ik = n, se Fh e` una combinazione deglieventi Eih , Eih+1, Eih+2, . . . , Eih+1 , allora gli eventi F1, F2, . . . , Fk1 sono a loro volta indipendenti.

    Per chiarire le idee, prendiamo il caso con n = 3, e supponiamo che E,F,G siano tre eventiindipendenti. Allora sono indipendenti anche le coppie

    E F,G E F,G Ec, F Gc F,E \G e cos` via.

    Infatti, prendiamo p.es. la prima coppia:

    P ((E F ) G) = P (E F G) = P (E)P (F )P (G) = P (E F )P (G) .

  • 1.3. INDIPENDENZA 17

    Un po piu` complicato e` dimostrare lindipendenza della seconda:

    P ((E F ) G) = P ((E G) (F G)) (propr. distibutiva di rispetto a )= P (E G) + P (F G) P (E F G) (formula nota)= P (E)P (G) + P (F )P (G) P (E)P (F )P (G) (indipendenza)= (P (E) + P (F ) P (E)P (F ))P (G)= (P (E) + P (F ) P (E F ))P (G) (indipendenza) P (E F )P (G) (formula nota).

    Notiamo infine che le definizioni di indipendenza e speranza condizionata sono in relazione fraloro nel modo che ci si aspetta: se E e F sono eventi tra loro indipendenti, allora la conoscenza apriori che si e` realizzato F non cambia la probabilita` che si realizzi E. In formule,

    P (E | F ) = P (E) se E e F sono indipendenti.

    Infatti, se E e F sono indipendenti, allora

    P (E | F ) = P (E F )P (F )

    =P (E)P (F )P (F )

    = P (E) .

  • 18 CAPITOLO 1. CALCOLO DELLE PROBABILITA`

    1.4 Prove di Bernoulli

    In un esperimento aleatorio, supponiamo di ripetere la medesima prova (p.es., il lancio di unamoneta, oppure la puntata sullo stesso numero della roulette. . . ) per n volte, in modo che

    (a) ciascuna prova non influenza le altre;

    (b) ciascuna prova ha probabilita` di successo pari a p [0, 1] (la stessa per tutte le prove).

    Denotiamo con E1, E2, . . . , En gli eventi

    Ei = la i-esima prova ha avuto successo.

    Allora

    (a) gli eventi E1, E2, . . . , En sono indipendenti;

    (b) P (Ei) = p per ogni i = 1, 2, . . . , n.

    Una sequenza di eventi con tali due proprieta` si chiama successione di prove di Bernoulli.

    Se k n denotiamo con Bk levento

    Bk = si sono realizzati esattamente k successi.

    Si puo` scrivere Bk come lunione

    Bk =

    I{1,2,...,n}|I|=k

    [(iIEi

    )( jIc

    Eci

    )].

    In altre parole, Bk e` lunione di tutti gli eventi in cui i successi si realizzano nelle prove I ={i1, i2, . . . , ik} e non si realizzano nelle rimanenti prove Ic = {j1, j2, . . . , jnk} al variare dellinsiemedi indici I in {1, 2, . . . , n}. Nellinsieme di n indici {1, 2, . . . , n} sono possibili esattamente(

    nk

    ):=

    n!

    k!(n k)!

    scelte diverse del sottoinsieme I con k elementi. Inoltre, abbiamo[(iIEi

    )( jIc

    Eci

    )][(

    iIEi

    )( jIc

    Eci

    )]= se I 6= I .

  • 1.4. PROVE DI BERNOULLI 19

    Pertanto

    P (Bk) =

    I{1,2,...,n}|I|=k

    P

    ((iIEi

    )( jIc

    Eci

    ))per lassioma (3)

    =

    I{1,2,...,n}|I|=k

    iIP (Ei)

    jIc

    P (Eci ) per lindipendenza

    =

    I{1,2,...,n}|I|=k

    pk(1 p)nk perche P (Ei) = p, P (Eci ) = 1 p

    =

    (nk

    )pk(1 p)nk.

    Osservazione 3. In tutta la discussione precedente, non abbiamo mai rappresentato esplicita-mente gli eventi E1, E2, . . . , En in uno spazio di probabilita` (,F ,P), ma abbiamo implicitamenteassunto che esista sempre una tale rappresentazione. In effetti, cio` e` vero: per esempio, si puo`scegliere

    = {0, 1}n F = P()P ({(1, 2, . . . , n)}) = p

    nk=1 k(1 p)n

    nk=1 k

    e rappresentare gli eventi Ei negli insiemi

    Ei = {(1, 2, . . . , n) | i = 1}.

    Lasciamo come esercizio la verifica del fatto che con questa scelta gli eventi E1, E2, . . . , En sonoindipendenti e P (Ei) = p per ogni i = 1, 2, . . . , n.

  • 20 CAPITOLO 1. CALCOLO DELLE PROBABILITA`

    1.5 Variabili aleatorie

    Rappresentare gli eventi di un esperimento aleatorio tramite sottoinsiemi di un opportuno spaziocampionario ha il seguente grosso vantaggio: su si possono definire delle funzioni reali X : R, ciascuna delle quali descrive il risultato di una misura.Esempio 8. Per fissare le idee, consideriamo ancora una volta lesperimento dei tre lanci diuna moneta, con = {0, 1}3 e lusuale rappresentazione degli eventi. Se definiamo la funzioneX : R data da

    X(1, 2, 3) = 1 + 2 + 3 per ogni (1, 2, 3) (1.6)

    vediamo subito che X e` la funzione che conta o misura il numero di volte in cui esce testa neitre lanci.

    Per il loro legame con il concetto di misura, le funzioni reali sullo spazio campionario meritanoun nome tutto loro.

    Definizione 5. Supponendo per semplicita` che F P(), una qualunque funzione X : R sidice variabile aleatoria.

    Notiamo che la controimmagine di un insieme A R rispetto a una variabile aleatoria X e` unevento:

    X1(A) := { | X() A} P() per ogni A R.Esempio 9. Sempre nellesperimento dei tre lanci di una moneta e considerando la variabilealeatoria X definita nellequazione (1.6), abbiamo le uguaglianze di eventi

    X1({0}) = {(0, 0, 0)} = non e` mai uscita testaX1({1}) = {(1, 0, 0), (0, 1, 0), (0, 0, 1)} = e` uscita testa una volta solaX1({2}) = (T1 T2 T c3 ) (T1 T c2 T3) (T c1 T2 T3)X1({3}) = T1 T2 T3.

    e ancora

    X1({2, 3}) = {(1, 1, 0), (1, 0, 1), (0, 1, 1), (1, 1, 1)} = e` uscita testa almeno due volteX1({0, 1, 2, 3}) = X1({4}) =

    e cos` via.

    Per semplicita` di scrittura, dora in poi useremo le notazioni

    {X A} = X1(A) per ogni sottoinsieme A R{X = a} = X1({a}) = { | X() = a} per ogni numero a R{a < X b} = X1((a, b]) per ogni coppia di numeri a, b R

  • 1.5. VARIABILI ALEATORIE 21

    e simili. Sottolineamo ancora una volta che tutti gli insiemi precedenti sono eventi, cioe` sottoinsiemidi . Quando tuttavia la -algebra F non coincide con tutto P(), come si e` supposto finora,si aggiunge nella definizione di variabile aleatoria il requisito che {X a} F per ogni a R.Tale requisito e` infatti sufficiente a garantire che gli insiemi {X A} stiano in F per una vastascelta di sottoinsiemi A R (e non solo per insiemi della forma A = (, a]). A ogni modo, nonentreremo nel dettaglio di questo fatto, anche perche dora in poi tutte le funzioni X : R concui avremo a che fare soddisferanno automaticamente la condizione {X a} F per ogni a R.

    Una variabile aleatoria X si dice discreta se esiste un sottoinsieme discreto S R tale cheP ({X S}) = 1. In tal caso, posto

    pX(x) := P ({X = x}) per ogni x S,

    la funzione pX : S [0, 1] si chiama densita` (discreta) della variabile aleatoria X. Quando ladensita` pX e` nota, si possono calcolare tutte le probabilita` di eventi del tipo {X A} con A R.Infatti,

    P ({X A}) = P ({X A S} {X A Sc})= P ({X A S}) + P ({X A Sc}) per lassioma (3)= P ({X A S}) perche P ({X A Sc}) P ({X Sc}) = 0= P

    ( xAS

    {X = x})

    unione finita o numerabile di insiemi disgiunti

    =xAS

    P ({X = x}) per lassioma (3)

    =xAS

    pX(x)

    e quindi si possono calcolare anche le probabilita`

    P ({X a}) =xSxa

    pX(x) P ({a < X b}) =xSa

  • 22 CAPITOLO 1. CALCOLO DELLE PROBABILITA`

    Esempio 10. Consideriamo lesperimento aleatorio consistente nel lancio di due dadi a sei facceequilibrati. Rappresentiamo gli eventi di questo esperimento nello spazio campionario

    = {1, 2, 3, 4, 5, 6}2 = {(1, 2) | i {1, 2, 3, 4, 5, 6}}

    con probabilita` P uniforme. Siano X, Y e Z le variabili aleatorie

    X = risultato del primo lancio

    Y = risultato del secondo lancio

    Z = risultato piu` alto dei due lanci.

    Con la nostra rappresentazione, X, Y e Z sono le funzioni da in R date da

    X(1, 2) = 1 Y (1, 2) = 2 Z(1, 2) = max{1, 2}.

    Le variabili aleatorie X, Y e Z sono discrete e prendono tutte e tre valori nellinsieme S ={1, 2, 3, 4, 5, 6}. Le loro densita` sono date da

    pX(x) = P (X = x) = P(X1({x}))

    =

    {P ({(x, 2) | 2 {1, 2, 3, 4, 5, 6}}) se x {1, 2, 3, 4, 5, 6}P () se x / {1, 2, 3, 4, 5, 6}

    =

    { |{(x,2)|2{1,2,3,4,5,6}}||| =

    636

    = 16

    se x {1, 2, 3, 4, 5, 6}0 se x / {1, 2, 3, 4, 5, 6}

    pY (y) = P(Y 1({y})) = {P ({(1, y) | 1 {1, 2, 3, 4, 5, 6}}) = 16 se y {1, 2, 3, 4, 5, 6}

    P () = 0 se y / {1, 2, 3, 4, 5, 6}

    pZ(z) = P(Z1({z})) = {P ({(1, 2) | max{1, 2} = z}) = 2z136 se z {1, 2, 3, 4, 5, 6}

    P () = 0 se z / {1, 2, 3, 4, 5, 6}

    (per calcolare la densita` di Z abbiamo usato luguaglianza di eventi

    {(1, 2) | max{1, 2} = z} = {(1, z) | 1 < z} {(z, 2) | 2 < z} {(z, z)}

    in cui lunione e` disgiunta). Si osservi che, benche X e Y sono due variabili aleatorie diverse, essetuttavia hanno la stessa densita`.

    Di seguito sono riportati alcuni esempi di densita` discrete di uso molto frequente.

    Esempio 11 (Densita` bernoulliana). Sia E un evento con probabilita` P (E) = p, e sia 1E : Rla seguente funzione indicatrice di E

    1E() =

    {1 se E0 se Ec

  • 1.5. VARIABILI ALEATORIE 23

    Si vede subito che 1E e` una variabile aleatoria discreta che puo` prendere solo i due valori S = {0, 1}.La sua densita` e`

    p1E

    (1) = P (1E = 1) = P (E) = pp1E

    (0) = P (1E = 0) = P (Ec) = 1 P (E) = 1 pin quanto valgono le ovvie uguaglianze di eventi E = {1E = 1} e Ec = {1E = 0}. La densita` p1Ecos` trovata si chiama densita` bernoulliana di parametro p, e si denota con B(1, p). Per indicareche la variabile aleatoria 1E ha tale densita`, si scrive 1E B(1, p).Esempio 12 (Densita` uniforme discreta). Sia S = {m,m+ 1,m+ 2, . . . , n1, n} un sottoinsiemedei numeri naturali. Una variabile aleatoria discreta X che prende valori in S e ha densita`

    pX(x) =

    {1

    nm+1 se x S0 altrimenti

    si dice che ha densita` uniforme sullinsieme S e si scrive X U(S). Per esempio, le variabilialeatorie X e Y dellEsempio 10 hanno entrambe densita` uniforme sullinsieme S = {1, 2, 3, 4, 5, 6}.Esempio 13 (Densita` binomiale). Supponiamo che gli eventi E1, E2, . . . , En formino una succes-sione di prove di Bernoulli con P (Ei) = p, e indichiamo con X la variabile aleatoria

    X = 1E1 + 1E2 + . . .+ 1En ,

    intendendo con tale espressione che la funzione X e` la somma delle funzioni indicatrici 1Ei . Inaltre parole,

    X() = 1E1() + 1E2() + . . .+ 1En() per ogni .Allora X prende valori nellinsieme S = {0, 1, . . . , n}, ed e` la funzione che conta il numero disuccessi ottenuti nelle n prove ripetute. Abbiamo pertanto luguaglianza di eventi

    {X = k} = Bk = si sono realizzati esattamente k successie la densita` di X e`

    pX(k) = P (X = k) = P (Bk) =(nk

    )pk(1 p)nk per ogni k = 1, 2, . . . , n

    per quanto visto nella sezione 1.4. La densita` precedente si chiama densita` binomiale di parametrin e p, e si indica con B(n, p). Si scrive inoltre X B(n, p).Esempio 14 (Densita` geometrica). Supponiamo di avere una successione infinita di prove diBernoulli E1, E2, . . ., e indichiamo con T la variabile aleatoria

    T = numero della prova in cui si ottiene il primo successo.

    Per vedere che T e` effettivamente una funzione T : R, possiamo riscriverla esplicitamentecome

    T () = inf{n 0 | En} per ogni .

  • 24 CAPITOLO 1. CALCOLO DELLE PROBABILITA`

    La variabile aleatoria T prende valori nellinsieme S = N, e si ha lovvia uguaglianza di eventi

    {T = k} = Ec1 Ec2 Ec3 . . . Eck1 Ek per ogni k N.La sua densita` e` pertanto

    pT (k) = P (T = k) = P(Ec1 Ec2 Ec3 . . . Eck1 Ek

    )= P (Ec1)P (Ec2)P (Ec3) . . .P

    (Eck1

    )P (Ek) per lindipendenza degli Ei

    = (1 p)k1p perche P (Ei) = p e P (Eci ) = 1 p.La densita`

    pT (k) = (1 p)k1p per ogni k Nsi chiama densita` geometrica di parametro p e si indica con G(p).

    Fin qui abbiamo considerato solo variabili aleatorie discrete, che possono prendere un numerofinito o numerabile di valori. Una variabile aleatoria X si dice invece assolutamente continua seesiste una funzione fX : R R tale che

    P (a X b) = ba

    fX(x) dx per ogni a, b R {+,} con a < b.

    La funzione fX , detta anche in questo caso densita` di X, soddisfa le due proprieta` seguenti,analoghe delle corrispondenti proprieta` delle densita` discrete:

    (a) fX e` una funzione positiva, cioe` fX(x) 0 per ogni x R, in quanto bafX(x) dx =

    P (a X b) deve essere una quantita` positiva per ogni a < b;(b) fX e` normalizzata, cioe`

    + fX(x) dx = 1, perche

    + fX(x) dx = P ( < X < +) = 1.

    E` da notare che la densita` fX non e` necessariamente una funzione continua, e puo` anche assumerevalori maggiori di 1. Inoltre, per una variabile aleatoria X assolutamente continua si ha sempre

    P (X = a) = aa

    fX(x) dx = 0 per ogni a R

    da cui seguono le uguaglianze

    P (a X b) = P (a X < b) = P (a < X b) = P (a < X < b) .Esempio 15 (Densita` uniforme continua). Siano a, b R con a < b. Una variabile aleatoria Xassolutamente continua ha densita` uniforme sullintervallo [a, b] se la sua densita` e`

    fX(x) =1

    b a 1[a,b](x) ={

    1ba se x [a, b]0 se x < a o x > b

    dove anche in questo caso abbiamo denotato con 1[a,b] la funzione indicatrice dellintervallo [a, b](attenzione: questa volta 1[a,b] non e` una variabile aleatoria, ma solo unutile notazione per ladensita`!). Si scrive anche X U([a, b]).

  • 1.5. VARIABILI ALEATORIE 25

    Esempio 16. Sia > 0. Una variabile aleatoria T assolutamente continua ha densita` esponenzialedi parametro se

    fT (x) = ex1[0,+)(x) =

    {ex se x 00 se x < 0

    Si scrive in questo caso T E().Esempio 17. Siano e due parametri reali, con > 0. Una variabile aleatoria Z assolutamentecontinua ha densita` normale (o gaussiana) di parametri e se

    fZ(x) =12pi

    e(x)222 per ogni x R.

    Dal momento che e` impossibile trovare esplicitamente una primitiva della funzione fZ , dimostrareche

    + fZ(x) dx = 1 e` un problema non banale che lasceremo al corso di Analisi. La densita`

    normale di parametri e si indica con N(, 2).

  • 26 CAPITOLO 1. CALCOLO DELLE PROBABILITA`

    1.6 La funzione di ripartizione di una variabile aleatoria

    Sia X una variabile aleatoria qualsiasi. La funzione di ripartizione di X e` la funzione

    FX : R [0, 1] FX(x) = P (X x) .

    Notiamo che FX ha le seguenti proprieta`:

    (a) e` una funzione monotona non decrescente, in quanto se x < y

    FX(x) = P (X x) P (X y) = FX(y)

    perche {X x} {X y};(b) FX(x) 0 per x e FX(x) 1 per x +, poiche

    limx+

    FX(x) = P (X x)) = 1 P (X > ) = 0;

    (c) per ogni a < b, la funzione FX puo` essere usata per calcolare le probabilita` del tipo P (a < X b),in quanto

    P (a < X b) = P ({X b} \ {X a}) = P (X b) P (X a) = FX(b) FX(a).

    Se X e` discreta a valori nellinsieme S = {x1, x2, . . .} e con densita` pX , esplicitamente

    FX(x) =xix

    pX(xi) per ogni x R.

    Enumerando gli elementi di S in ordine crescente, con xi < xi+1 per ogni i, la funzione di riparti-zione FX e` una funzione a salti che e` costante su ogni intervallo del tipo [xi, xi+1). La sua densita`puo` essere ricavata da

    pX(xi) = F (xi) F (xi1).Esempio 18 (Funzione di ripartizione della densita` bernoulliana). E` il caso piu` semplice: seX B(1, p), allora

    FX(x) =

    0 se x < 0

    1 p se 0 x < 11 se x 1

    Esempio 19 (Funzione di ripartizione della densita` geometrica. Assenza di memoria). Sia T lavariabile aleatoria

    T = numero della prova in cui si ottiene il primo successo

  • 1.6. LA FUNZIONE DI RIPARTIZIONE DI UNA VARIABILE ALEATORIA 27

    in una successione infinita di prove di Bernoulli E1, E2, . . ., ciascuna con probabilita` p = P (Ei) disuccesso. Abbiamo visto nellEsempio 14 che T G(p). Per calcolare la funzione di ripartizionedi T osserviamo che, per ogni k {1, 2, 3, . . .},FT (k) = 1 P (T > k) = 1 P (Ec1 Ec2 . . . Eck) = 1 P (Ec1)P (Ec2) . . .P (Eck) = 1 (1 p)k,mentre chiaramente FT (x) = 0 per x < 1. Pertanto,

    FT (x) =

    {1 (1 p)bxc se x 10 se x < 1

    dove abbiamo indicato con bxc la parte intera di x. La variabile aleatoria T gode della proprieta`di assenza di memoria, cioe`

    P (T > n+ n | T > n) = P (T > n) per tutti gli interi n,n 0.In altre parole, la probabilita` che il primo successo si verifichi dopo n + n prove sapendo chefino alla prova n-esima non si e` ancora verificato coincide con la probabilita` che il primo successoavvenga dopo n prove senza nessuna informazione a priori. Infatti, supponendo n,n interi,

    P (T > n+ n | T > n)=P ({T > n+ n} {T > n})

    P (T > n)per la definizione di probabilita` condizionata

    =P (T > n+ n)P (T > n)

    perche {T > n+ n} {T > n}

    =1 FT (n+ n)

    1 FT (n) =(1 p)n+n

    (1 p)n = (1 p)n = 1 FT (n)

    = P (T > n) .

    Se invece X e` una variabile aleatoria assolutamente continua con densita` fX , si ha

    FX(x) =

    x

    fX(t) dt per ogni x R.

    Osserviamo che in questo caso FX e` una funzione continua. Inoltre, per il teorema fondamentaledel calcolo integrale la densita` di X si puo` calcolare derivando la funzione di ripartizione FX

    fX(x) =dFX(x)

    dxper ogni x R.

    Esempio 20 (Funzione di ripartizione della densita` esponenziale. Assenza di memoria). Se T e`una variabile aleatoria assolutamente continua con densita` E(), la sua funzione di ripartizione e`FT (x) = 0 per ogni x < 0, mentre per x > 0 abbiamo

    FT (x) =

    x0

    et dt =[et]t=x

    t=0= 1 ex.

  • 28 CAPITOLO 1. CALCOLO DELLE PROBABILITA`

    Da questa espressione ricaviamo che T gode della proprieta` di assenza di memoria esattamentecome nel caso della densita` geometrica. Infatti, se x,x 0,

    P (T > x+ x | T > x) = P ({T > x+ x} {T > x})P (T > x)

    =P (T > x+ x)P (T > x)

    =1 FT (x+ x)

    1 FT (x) =e(x+x)

    ex= ex = 1 FT (x)

    = P (T > x) .

    La densita` esponenziale viene in genere associata al tempo di guasto di una macchina non soggettaa usura. Cio` e` giustificato proprio dallassenza di memoria dellesponenziale: infatti, la relazioneP (T > t+ t | T > t) = P (T > t) significa che sapere a priori che la macchina al tempo t nonsi e` ancora rotta non cambia la probabilita` che essa duri ancora per un altro intervallo t. Inaltre parole, leta` della macchina non influenza la sua durata successiva, che e` esattamente lacaratteristica di assenza di usura.

  • 1.7. FUNZIONI DI UNA VARIABILE ALEATORIA E STANDARDIZZAZIONE 29

    1.7 Funzioni di una variabile aleatoria e standardizzazione

    La conoscenza di FX permette di calcolare molto facilmente la densita` di funzioni arbitrarie dellavariabile aleatoria X. Piu` precisamente, se g : R R e` una qualunque funzione, si indica cong(X) la variabile aleatoria ottenuta componendo g con X:

    g(X) := g X cioe` g(X)() := g(X()) per ogni .In tal senso, la variabile aleatoria g(X) e` una funzione di X.

    Esempio 21. Scegliamo come g : R R la funzione g(x) = x2. Allora g(X) e` la variabilealeatoria Y = X2. Se X e` assolutamente continua con densita` fX , abbiamo

    FY (y) = P (Y y) = P(X2 y) = {P (y X y) se y 0

    P () se y < 0Nel primo caso

    FY (y) = P (y X y) = FX(y) FX(y)e dunque derivando e ricordando che F X(x) = dFX(x)/ dx = fX(x) troviamo

    fY (y) =dFY (y)

    dy=

    1

    2yF X(y) +

    1

    2yF X(

    y) =

    1

    2yfX(y) +

    1

    2yfX(y).

    Nel secondo caso invece

    FY (y) = 0 fY (y) = dFY (y)dy

    = 0.

    Mettendo insieme i due casi si trova che la densita` di Y e`

    fY (y) =

    {1

    2yfX(y) + 1

    2yfX(y) se y 0

    0 se y < 0

    Esempio 22 (Trasformata affine di una varibile aleatoria). Fissati due numeri reali a, b con a 6= 0,scegliamo la funzione g(x) = ax+ b. Se X e` una qualunque variabile aleatoria, g(X) e` pertanto latrasformata affine Y = aX + b di X. Se X e` assolutamente continua, usiamo ancora la funzionedi ripartizione per determinare la densita` di Y :

    FY (y) = P (Y y) = P (aX + b y) ={P(X yb

    a

    )= FX

    (yba

    )se a > 0

    P(X yb

    a

    )= 1 FX

    (yba

    )se a < 0

    Derivando come nellesempio precedente otteniamo

    fY (y) =dFY (y)

    dy=

    {1aF X(yba

    )= 1

    afX(yba

    )se a > 0

    1aF X(yba

    )= 1

    afX(yba

    )se a < 0

    In altre parole,

    fY (y) =1

    |a|fX(y ba

    ).

  • 30 CAPITOLO 1. CALCOLO DELLE PROBABILITA`

    Applichiamo lesempio precedente al calcolo della trasformata affine Y = aZ+b di una variabilealeatoria normale Z N(, 2). Abbiamo

    fY (y) =1

    |a|fZ(y ba

    )=

    12pi|a| exp

    [(yba )2

    22

    ]=

    12pi|a|e

    (yab)22(a)2

    da cui si deduce che Y N(a + b, (|a|)2). In particolare, la trasformata affine di una variabilealeatoria normale e` ancora normale. Notiamo che scegliendo a = 1/ e b = / troviamo che lavariabile aleatoria Y = Z

    ha densita` normale N(0, 1). Tale densita` si chiama normale standard,

    e la sua funzione di ripartizione := FY e` tabulata in qualunque libro di probabilita` e statistica.La conoscenza di permette di trovare tutte le probabilita` del tipo P (Z z) ecc. mediante laseguente standardizzazione di Z

    P (Z z) = P (Z z ) = P( Z

    N(0,1)

    z

    )=

    (z

    )per ogni z R.

  • 1.8. VETTORI ALEATORI 31

    1.8 Vettori aleatori

    Un vettore aleatorio a n componenti e` una qualunque funzione ~X : Rn. Esplicitamente,~X() = (X1(), X2(), . . . , Xn()) per ogni .

    Ciascuna componente Xi e` una funzione da in R, e pertanto un vettore aleatorio puo` esserevisto come una n-upla di variabili aleatorie (X1, X2, . . . , Xn).

    Quando la -algebra degli eventi non coincide con tutto linsieme delle parti P(), si richiede inpiu` che {Xi a} F per ogni a R e i = 1, 2, . . . , n. Tuttavia, come al solito non approfondiremoquesto dettaglio, e supporremo che tutti i vettori aleatori con cui avremo a che fare soddisfino talerequisito.

    Come nel caso scalare, anche qui useremo le notazioni

    { ~X A} = ~X1(A) per ogni dominio A Rn{ ~X = ~x} = ~X1({~x}) per ogni ~x Rn

    e inoltre

    {X1 A1, X2 A2, . . . , Xn An} = { ~X A1 A2 . . . An}= {X1 A1} {X2 A2} . . . {Xn An}

    e simili.Un vettore aleatorio ~X si dice discreto quando tutte le sue componenti sono variabili aleatorie

    discrete. In tal caso, se S1, S2, . . . , Sn sono i sottoinsiemi discreti di R in cui prendono valoreciascuna delle componenti X1, X2, . . . , Xn, rispettivamente, la densita` di ~X e` la funzione

    p ~X : S1 S2 . . . Sn [0, 1]data da

    p ~X(x1, x2, . . . , xn) = P( ~X = (x1, x2, . . . , xn)) = P (X1 = x1, X2 = x2, . . . , Xn = xn)

    (come al solito, per semplicita` di scrittura nella formula precedente abbiamo rimosso le parentesigraffe dagli eventi). La funzione p ~X si chiama anche densita` congiunta delle variabili aleatorie

    X1, X2, . . . , Xn. E` immediato verificare che la densita` congiunta p ~X ha proprieta` analoghe alladensita` di una singola variabile aleatoria. In particolare, per ogni dominio A Rn si ha

    P( ~X A) =

    x1S1, x2S2, ..., xnSn(x1,x2,...,xn)A

    p ~X(x1, x2, . . . , xn)

    e quindi la densita` p ~X

    (a) e` positiva: p ~X(x1, x2, . . . , xn) 0 per ogni (x1, x2, . . . , xn);(b) e` normalizzata:

    x1S1

    x2S2 . . .

    xnSn p ~X(x1, x2, . . . , xn) = 1.

  • 32 CAPITOLO 1. CALCOLO DELLE PROBABILITA`

    La densita` di ciascuna componente Xi si puo` ricavare dalla densita` congiunta semplicementesommando questultima rispetto a tutte le variabili tranne la i-esima. Per esempio, per calcolarela densita` di X1 abbiamo

    pX1(x) = P (X1 = x) = P (X1 = x, X2 S2, X3 S3, . . . , Xn Sn)=x2S2

    x3S3

    . . .xnSn

    p ~X(x, x2, . . . , xn).

    Per questo motivo, la densita` pXi si chiama anche densita` marginale di p ~X rispetto alli-esimacomponente.

    Osservazione 4. Quando si ha a che fare con un vettore aleatorio a n = 2 componenti ~X = (X, Y ),e` molto utile riassumere la sua densita` congiunta nella tabella

    X \ Y y1 y2 . . .x1 p(X,Y )(x1, y1) p(X,Y )(x1, y2) . . .x2 p(X,Y )(x2, y1) p(X,Y )(x2, y2) . . .. . . . . . . . . . . .

    dove S1 = {x1, x2, . . .} e S2 = {y1, y2, . . .} sono i valori possibili di X e di Y , rispettivamente.Poice la densita` congiunta e` positiva e normalizzata, tutte le caselle interne devono essere 0 ela loro somma deve fare 1.Nella tabella precedente, la densita` marginale di X si ricava sommando gli elementi in ciascunariga. Cio` si fa di solito aggiungendo una colonna contenente i valori della marginale pX , nel modoche segue:

    X \ Y y1 y2 . . . pXx1 p(X,Y )(x1, y1) p(X,Y )(x1, y2) . . . pX(x1) = p(X,Y )(x1, y1) + p(X,Y )(x1, y2) + . . .x2 p(X,Y )(x2, y1) p(X,Y )(x2, y2) . . . pX(x2) = p(X,Y )(x2, y1) + p(X,Y )(x2, y2) + . . .. . . . . . . . . . . . . . .

    Analogamente, la marginale pY si ricava sommando le colonne corrispondenti, e aggiungendo unu-teriore riga in fondo alla tabella:

    X \ Y y1 y2 . . . pXx1 p(X,Y )(x1, y1) p(X,Y )(x1, y2) . . . pX(x1)x2 p(X,Y )(x2, y1) p(X,Y )(x2, y2) . . . pX(x2). . . . . . . . . . . . . . .

    pY pY (y1) pY (y2) . . .

    La normalizzazione di p(X,Y ) si riflette allora nel fatto che sia la riga corrispondente a pY sia lacolonna corrispondente a pX sommano a 1.

  • 1.8. VETTORI ALEATORI 33

    Osservazione 5. E` importante osservare che le densita` marginali non determinano mai univo-camente la densita` congiunta p ~X . In altre parole, assegnate le densita` pX1 , pX2 , . . . , pXn , esistonouninfinita` di densita` congiunte p ~X diverse che danno le stesse marginali pX1 , pX2 , . . . , pXn . Peresempio, con n = 2, le due densita` congiunte p(X,Y ) e q(X,Y ) sullinsieme S = {0, 1}2 descritterispettivamente dalle tabelle

    p(X,Y ) =

    X \ Y 0 10 0 1/21 1/2 0

    q(X,Y ) =

    X \ Y 0 10 1/4 1/41 1/4 1/4

    danno entrambe come marginali la densita` uniforme

    pX(i) qX(i) = 12

    per ogni i {0, 1},

    eppure p(X,Y ) e q(X,Y ) sono diverse. Ne concludiamo che la conoscenza delle sole marginali non

    permette di calcolare le probabilita` del tipo P( ~X A) quando A Rn e` un generico insieme.Una successione di n variabili aleatorie X1, X2, . . . , Xn si dicono indipendenti se la loro densita`

    congiunta e` il prodotto delle marginali, cioe`

    p ~X(x1, x2, . . . , xn) = pX1(x1)pX2(x2) . . . pXn(xn) per ogni (x1, x2, . . . , xn). (1.7)

    Una successione di variabili aleatorie indipendenti costituisce unimportante eccezione allOsserva-zione 5. Infatti, la fondamentale informazione aggiuntiva che le X1, X2, . . . , Xn sono indipendentipermette di determinare la loro densita` congiunta a partire dalla conoscenza delle sole marginaliattraverso la formula (1.7) precedente.

    Osserviamo che le definizioni di indipendenza per eventi e per variabili aleatorie sono consistentitra loro: infatti, se p.es. X e Y sono due variabili aleatorie indipendenti, allora tutte le coppie dieventi della forma {X A}, {Y B} sono indipendenti, in quanto

    P ({X A} {Y B}) =xA

    yB

    p(X,Y )(x, y) =xA

    yB

    pX(x)pY (y) =xA

    pX(x)yB

    pY (y)

    = P (X A)P (Y B) .La generalizzazione al caso di n 3 variabili aleatorie e` simile (provare per esercizio!).Esempio 23. Riprendiamo lEsempio 10 del lancio di due dadi. I vettori ~U = (X, Y ) e ~W = (X,Z)sono entrambi vettori aleatori discreti a valori nellinsieme S = {1, 2, 3, 4, 5, 6}2. Esplicitamente,

    ~U(1, 2) = (1, 2) ~V (1, 2) = (1,max{1, 2})per ogni (1, 2) . La densita` congiunta di X e Y e`

    p~U(x, y) = P(~U = (x, y)) = P ({(x, y)}) =1

    36per ogni (x, y) S.

  • 34 CAPITOLO 1. CALCOLO DELLE PROBABILITA`

    Si vede che

    p~U(x, y) =1

    36 1

    6 1

    6= pX(x)pY (y) per ogni (x, y) S

    da cui segue che le variabili aleatorie X e Y sono indipendenti. Per quanto riguarda il vettorealeatorio ~V , invece, per ogni (x, z) S si ha

    p~V (x, z) = P(~V = (x, z)) =

    P () = 0 se x > zP ({(z, 2) | 2 z}) = z36 se x = zP ({(x, z)}) = 1

    36se x < z

    In questo caso

    pX(x)pZ(z) =1

    6 2z 1

    366= p~V (x, z)

    e quindi le variabili aleatorie X e Z non sono indipendenti.

    Un vettore aleatorio ~X = (X1, X2, . . . , Xn) si dice assolutamente continuo se esiste una funzionef ~X : Rn R tale che

    P(~X A

    )=

    . . .

    A

    f ~X(x1, x2, . . . , xn) dx1 dx2 . . . dxn per ogni dominio A Rn.

    La funzione f ~X si chiama anche in questo caso densita` del vettore aleatorio~X o densita` congiunta

    delle variabili aleatorie X1, X2, . . . , Xn.Valgono per f ~X proprieta` analoghe a quelle di una densita` discreta, naturalmente a patto di

    scambiare le somme con i corrispondenti integrali:

    (a) positivita`: f ~X(x1, x2, . . . , xn) 0 per ogni (x1, x2, . . . , xn) Rn;

    (b) normalizzazione: +

    + . . .

    + f ~X(x1, x2, . . . , xn) dx1 dx2 . . . dxn = 1.

    In modo simile al caso discreto, la densita` fXi di ciascuna componente Xi si ottiene come i-esimamarginale della congiunta f ~X secondo la formula

    fXi(x) =

    +

    dx1 . . .

    +

    dxi1

    +

    dxi+1 . . .

    +

    dxn f ~X(x1, . . . , xi1, x, xi1, . . . , xn).

    Infatti, vediamolo per esempio per la prima componente X1; per farlo, ricaviamo la funzione diripartizione FX1 dalla densita` congiunta e poi deriviamola:

    FX1(x) = P (X1 x) = P (X1 x, X2 (,+), X3 (,+), . . . , Xn (,+))

    =

    x

    dx1

    +

    dx2

    +

    dx3 . . .

    +

    dxn f ~X(x1, x2, x3, . . . , xn)

    fX1(x) =dFX1(x)

    dx=

    +

    dx2

    +

    dx3 . . .

    +

    dxn f ~X(x, x2, x3, . . . , xn).

  • 1.8. VETTORI ALEATORI 35

    Anche nel caso di un vettore aleatorio assolutamente continuo ~X, le componenti X1, X2, . . . , Xnsi dicono indipendenti se la loro densita` congiunta si fattorizza nel prodotto delle marginali, cioe`se

    f ~X(x1, x2 . . . , xn) = fX1(x1)fX2(x2) . . . fXn(xn) per ogni (x1, x2 . . . , xn) Rn.Esempio 24 (Densita` uniforme sul cerchio). Problema: Consideriamo un esperimento aleatorioin cui si sceglie a caso con probabilita` uniforme un punto nel cerchio unitario C = {(x, y) R2 |x2 + y2 1}. Indichiamo con (X, Y ) il vettore aleatorio

    (X, Y ) = coordinate del punto

    cioe` X e Y sono le variabili aleatorie

    X = ascissa del punto Y = ordinata del punto.

    La densita` del vettore aleatorio (X, Y ) e` pertanto la seguente densita` uniforme sul cerchio C:

    f(X,Y )(x, y) =

    {1pi

    se x2 + y2 10 altrimenti

    (verificare per esercizio che f(X,Y ) e` normalizzata). Per ogni r > 0, qual e` la probabilita` che ilpunto scelto a caso disti meno di r dallorigine? Le variabili aleatorie X e Y sono indipendenti?Soluzione: Si ha luguaglianza di eventi

    il punto dista meno di r dallorigine = {X2 + Y 2 < r} = {X2 + Y 2 < r2} = {(X, Y ) A}

    dove A R2 e` linsiemeA = {(x, y) R2 | x2 + y2 r2}.

    La prima domanda richiede pertanto di calcolare la probabilita`

    P ((X, Y ) A) =

    A

    f(X,Y )(x, y) dx dy.

    Se r 1, lintegrale precedente vale chiaramente 1. Se invece r < 1, integrando per sezioni

    P ((X, Y ) A) =

    A

    1

    pidx dy =

    rr

    dx

    r2x2r2x2

    dy1

    pi=

    2

    pi

    rr

    r2 x2 dx

    =2r2

    pi

    pi/2pi/2

    cos2 d con la sostituzione x = r sin

    = r2

    (notare che lintegrale precedente si poteva calcolare ancora piu` facilmente passando in coordinatepolari).

  • 36 CAPITOLO 1. CALCOLO DELLE PROBABILITA`

    Per rispondere invece alla seconda domanda, dobbiamo calcolare le densita` marginali

    fX(x) =

    +

    f(X,Y )(x, y) dy =

    { 1x21x2

    1pi

    dy = 2pi

    1 x2 se 1 x 1

    0 altrimenti

    fY (y) =

    +

    f(X,Y )(x, y) dx =

    1y2

    1y21pi

    dx = 2pi

    1 y2 se 1 y 1

    0 altrimenti

    e confrontare il loro prodotto fX(x)fY (y) con la densita` congiunta f(X,Y )(x, y). Poiche2pi

    1 x2

    2pi

    1 y2 6= 1

    pi, se ne deduce che X e Y non sono indipendenti.

    Se X e Y sono due variabili aleatorie, la loro somma Z = X+Y e` ancora una variabile aleatoria.In generale, pero`, la conoscenza delle sole densita` di X e di Y non e` sufficiente a determinare ladensita` di Z (per questo occorrerebbe infatti conoscere tutta la densita` congiunta del vettore(X, Y )). Se tuttavia abbiamo in piu` linformazione che X e Y sono indipendenti, allora la lorodensita` congiunta e` determinata dalle marginali, e la densita` di Z si puo` effettivamente calcolarea partire solo da queste. Vale infatti il risultato seguente.

    Proposizione 2. Siano X e Y due variabili aleatorie assolutamente continue e indipendenti, condensita` fX e fY , rispettivamente. Sia Z = X+Y la loro somma. Allora Z e` una variabile aleatoriaassolutamente continua con densita`

    fZ(z) =

    +

    fX(z y)fY (y) dy. (1.8)

    Dimostrazione. Calcoliamo la funzione di ripartizione di Z e poi deriviamola per ottenere fZ .Si ha

    FZ(z) = P (Z z) = P (X + Y z) = P ((X, Y ) A) dove A = {(x, y) R2 | x+ y z}

    =

    A

    f(X,Y )(x, y) dx dy =

    +

    dy

    zy

    dx f(X,Y )(x, y) integrando per sezioni

    =

    +

    dy

    zy

    fX(x)fY (y) dx per lindipendenza di X e Y ..

    Nellintegrale piu` interno, facciamo il cambio di variabili x = x y come segue zy

    fX(x)fY (y) dx =

    z

    fX(x y)fY (y) dx

    e quindi

    FZ(z) =

    +

    dy

    z

    fX(x y)fY (y) dx

    =

    z

    ( +

    fX(x y)fY (y) dy

    )dx scambiando i due integrali.

  • 1.8. VETTORI ALEATORI 37

    Derivando questespressione rispetto a z otteniamo la (1.8).

    Lintegrale nella formula (1.8) si chiama prodotto di convoluzione delle densita` fX e fY . QuandofX e fY sono entrambe gaussiane, dallequazione (1.8) si ricava la seguente importante proprieta`.

    Proposizione 3. Siano X e Y due variabili aleatorie assolutamente continue e indipendenti.Supponiamo che sia X sia Y abbiano densita` normale. Allora la loro somma Z = X + Y haanchessa densita` normale.

    Dimostrazione. Supponiamo X N(X , 2X) e Y N(Y , 2Y ). Possiamo riscrivere Z nellaforma

    Z = X

    (X XX

    +Y YX

    )+ (X + Y ) X(X0 + Y0) + (X + Y )

    in cui X0 := (X X)/X e Y0 := (Y Y )/X sono indipendenti e X0 N(0, 1) e Y0 N(0, (Y /X)

    2) in quanto trasformazioni affini di variabili aleatorie normali. Sempre perche tra-sformazioni affini di normali sono ancora normali, e` dunque sufficiente dimostrare che la sommaZ0 = X0 +Y0 e` gaussiana quando X0 N(0, 1) e Y0 N(0, 2). In tal caso, applicando la formula(1.8) troviamo

    fZ0(z) =

    +

    12pi

    e(zy)2

    212pi

    ey2

    22 dy = C

    +

    e 1

    2

    (z22zy+2+1

    2y2)

    dy

    dove C = 1/(2pi) e` una costante. Completando il quadrato nellesponenziale,

    fZ0(z) = C

    +

    e z2

    2(2+1) 1

    2

    (2+1

    z2+1

    y

    )2dy = Ce

    z22(2+1)

    +

    e 1

    2

    (2+1

    z2+1

    y

    )2dy.

    Sostituendo infine nellintegrale precedente y = 2+1

    z 2+1

    y, abbiamo

    fZ0(z) =

    (C

    +

    ey22 dy

    )e z2

    2(2+1) = C ez2

    2(2+1) ,

    dove C = C + e

    y22 dy e` una costante numerica che non dipende da z. Riconosciamo pertanto

    in fZ0 la forma di una densita` gaussiana.

  • 38 CAPITOLO 1. CALCOLO DELLE PROBABILITA`

    1.9 Media e varianza di una variabile aleatoria

    Definizione 6. Sia X una variabile aleatoria. La media (o speranza) di X e` il numero reale E [X]definito come segue:

    - se X e` discreta con densita` pX : S [0, 1],

    E [X] =xS

    xpX(x); (1.9)

    - se X e` assolutamente continua con densita` fX ,

    E [X] = +

    xfX(x) dx. (1.10)

    Esempio 25 (Media della bernoulliana). Se X B(1, p), abbiamo

    E [X] =

    x{0,1}xpX(x) = 0 (1 p) + 1 p = p.

    Esempio 26 (Media dellesponenziale). Se T E(), risolvendo lintegrale per parti ricaviamo

    E [T ] = +

    0

    xex dx =[xex]x=+

    x=0+

    +0

    ex dx =[1

    ex]x=+x=0

    =1

    .

    Se ~X = (X1, X2, . . . , Xn) e` un vettore aleatorio, ogni sua componente Xi e` una variabilealeatoria, e dunque ne possiamo calcolare la media E [Xi]. Piu` in generale, possiamo calcolare lamedia di una qualunque funzione scalare del vettore ~X, e non solo di ciascuna sua componente.Ma cosa intentendiamo precisamente per funzione scalare di ~X?

    La nozione di funzione di un vettore aleatorio e` lestensione naturale del concetto di fun-zione di una singola variabile aleatoria: se g : Rn R e` una qualunque funzione, definiamog(X1, X2, . . . , Xn) := g ~X. Esplicitamente, g(X1, X2, . . . , Xn) e` la funzione data da

    [g(X1, X2, . . . , Xn)]() = g(X1(), X2(), . . . , Xn()) per ogni .Essendo definita su e a valori in R, la funzione g(X1, X2, . . . , Xn) e` a tutti gli effetti una variabilealeatoria.

    Esempio 27. (i) Per la componente Xi abbiamo

    Xi = g(X1, X2, . . . , Xn) dove g(x1, x2, . . . , xn) = xi.

    (ii) La norma del vettore aleatorio ~X e` la variabile aleatoria

    R = g(X1, X2, . . . , Xn) dove g(X1, X2, . . . , Xn) =x21 + x

    22 + . . .+ x

    2n.

  • 1.9. MEDIA E VARIANZA DI UNA VARIABILE ALEATORIA 39

    Dal momento che g(X1, X2, . . . , Xn) e` una variabile aleatoria, possiamo chiederci quanto valela sua media. Se dovessimo calcolare E [g(X1, X2, . . . , Xn)] usando direttamente la Definizione6 della media, dovremmo prima ricavare la densita` di g(X1, X2, . . . , Xn) a partire dalla densita`congiunta delle X1, X2, . . . , Xn, e poi applicare una delle due formule (1.9) o (1.10) per trovareE [g(X1, X2, . . . , Xn)]. Tuttavia, la proposizione seguente ci dice che in realta` il calcolo e` molto piu`semplice e trovare la densita` di g(X1, X2, . . . , Xn) non e` necessario.

    Proposizione 4. Se ~X = (X1, X2, . . . , Xn) e` un vettore aleatorio discreto con densita` p ~X [ri-spettivamente, assolutamente continuo con densita` fX ] e g : Rn R e` una funzione qualunque,allora

    E [g(X1, X2, . . . , Xn)] =x1

    x2

    . . .xn

    g(x1, x2, . . . , xn)p ~X(x1, x2, . . . , xn)

    [risp.,

    E [g(X1, X2, . . . , Xn)] = +

    dx1

    +

    dx2 . . .

    +

    dxn g(x1, x2, . . . , xn)f ~X(x1, x2, . . . , xn)

    ]

    Dimostrazione. Dimostreremo solo il caso discreto. Inoltre, per semplificare le notazioni suppor-remo di avere solo n = 2 componenti. Se X, Y sono due variabili aleatorie discrete a valori negliinsiemi SX e SY , rispettivamente, la variabile aleatoria g(X, Y ) prende valori nellinsieme discretoS = {g(x, y) | x SX , y SY }. La Definizione 6 della media da`

    E [g(X, Y )] =zS

    zpg(X,Y )(z) =zS

    zP (g(X, Y ) = z) .

    Inoltre,

    P (g(X, Y ) = z) = P((X, Y ) g1({z})) =

    x,y(x,y)g1({z})

    p(X,Y )(x, y) =x,y

    g(x,y)=z

    p(X,Y )(x, y).

    Inserendo questespressione nella precedente, otteniamo

    E [g(X, Y )] =zS

    zx,y

    g(x,y)=z

    p(X,Y )(x, y) =zS

    x,y

    g(x,y)=z

    g(x, y)p(X,Y )(x, y) =x,y

    g(x, y)p(X,Y )(x, y).

    La media gode inoltre delle seguenti proprieta` fondamentali.

    Proposizione 5 (Proprieta` della media). (i) Se c R e X c e` la variabile aleatoria identi-camente uguale a c (cioe` X() = c per ogni ), allora E [X] = c.

    (ii) Se X e Y sono due variabili aleatorie e a, b sono numeri reali, allora E [aX + bY ] = aE [X]+bE [Y ]. In particolare, E [aX + b] = aE [X] + b.

  • 40 CAPITOLO 1. CALCOLO DELLE PROBABILITA`

    (iii) Se X e Y sono due variabili aleatorie indipendenti, allora E [XY ] = E [X]E [Y ].

    Dimostrazione. (i) X e` una variabile aleatoria discreta a valori nellinsieme S = {c} e con densita`pX(c) = 1. Per la formula (1.9), E [X] = c pX(c) = c.

    (ii) Per fissare le idee supponiamo che il vettore aleatorio (X, Y ) sia discreto, e usiamo laProposizione 4 con g : R2 R data da g(x, y) = ax+ by. Abbiamo

    E [aX + bY ] = E [g(X, Y )] =x,y

    (ax+ by)p(X,Y )(x, y)

    = ax

    xy

    p(X,Y )(x, y) + by

    yx

    p(X,Y )(x, y)

    = ax

    xpX(x) + by

    ypY (y) perchey

    p(X,Y )(x, y) = pX(x) ex

    p(X,Y )(x, y) = pY (y)

    = aE [X] + bE [Y ] .

    Il caso assolutamente continuo e` del tutto simile. Infine, per quanto appena dimostrato,

    E [aX + b] = aE [X] + bE [1] = aE [X] + b perche E [1] = 1.

    (iii) Supponiamo questa volta che il vettore aleatorio (X, Y ) sia assolutamente continuo. Allora,scegliendo g : R2 R data da g(x, y) = xy e applicando di nuovo la Proposizione 4, otteniamo

    E [XY ] = E [g(X, Y )] = +

    +

    xyf(X,Y )(x, y) dx dy

    =

    +

    +

    xyfX(x)fY (y) dx dy per lindipendenza

    =

    +

    xfX(x) dx

    +

    yfY (y) dy = E [X]E [Y ] .

    La proprieta` (ii) significa che la media E e` un funzionale lineare sullo spazio vettoriale delle variabilialeatorie. Osserviamo inoltre che, nella proprieta` (iii), lindipendenza di X e Y e` solo un requisitosufficiente per aversi E [XY ] = E [X]E [Y ], ma non e` necessario. In altre parole, esistono variabilialeatorie X e Y non idipendenti per cui vale comunque E [XY ] = E [X]E [Y ] (trovarne una coppiaper esercizio!).

    Esempio 28 (Media della normale). Supponiamo per cominciare che Z0 N(0, 1). Osservandoche la funzione xe

    x2

    2 e` antisimmetrica rispetto allasse delle y troviamo

    E [Z0] =12pi

    +

    xex2

    2 dx = 0.

    Se invece Z N(, 2), allora abbiamo lidentita`

    Z = Z

    + =: Z0 +

  • 1.9. MEDIA E VARIANZA DI UNA VARIABILE ALEATORIA 41

    dove la variabile aleatoria Z0 := (Z )/ e` la standardizzazione di Z e ha pertanto densita`N(0, 1). Quindi, per la linearita` della media e per quanto appena visto per la normale standard,

    E [Z] = E [Z0 + ] = E [Z0] + = 0 + = .Definizione 7. La covarianza di due variabili aleatorie X e Y e` il numero reale Cov (X, Y ) definitocome segue

    Cov (X, Y ) = E [(X E [X])(Y E [Y ])] .Da notare che, al contrario della media, la covarianza ha come argomento due variabili aleatorie,

    e non una sola.Dalla Proposizione 4 possiamo ricavare lespressione esplicita di Cov (X, Y ) nei due casi in cui

    (X, Y ) e` un vettore aleatorio discreto

    Cov (X, Y ) =x,y

    (x E [X])(y E [Y ])p(X,Y )(x, y)

    oppure assolutamente continuo

    Cov (X, Y ) =

    +

    +

    (x E [X])(y E [Y ])f(X,Y )(x, y) dx dy.

    La proposizione seguente riassume le principali proprieta` della covarianza.

    Proposizione 6 (Proprieta` della covarianza). (i) Cov (X, Y ) = E [XY ] E [X]E [Y ] (formulaalternativa della covarianza).

    (ii) Cov (X, Y ) = Cov (Y,X) per ogni coppia di variabili aleatorie X, Y (simmetria).

    (iii) Se X e` una variabile aleatoria costante, allora Cov (X, Y ) = 0.

    (iv) Cov (aX + bY, Z) = aCov (X,Z) + bCov (Y, Z) per ogni tripla di variabili aleatorie X, Y, Z ecoppia di numeri reali a, b; la stessa proprieta` vale anche per il secondo argomento (bilinea-rita`).

    (v) Se X e Y sono indipendenti, allora Cov (X, Y ) = 0.

    Dimostrazione. (i) Abbiamo

    Cov (X, Y ) = E [(X E [X])(Y E [Y ])]= E [XY E [Y ]X E [X]Y + E [X]E [Y ]] svolgendo il prodotto= E [XY ] E [Y ]E [X] E [X]E [Y ] + E [X]E [Y ]E [1] per la linearita` della media= E [XY ] E [Y ]E [X] E [X]E [Y ] + E [X]E [Y ] perche E [1] = 1= E [XY ] E [Y ]E [X] .

    (ii) Per la definizione,

    Cov (X, Y ) = E [(X E [X])(Y E [Y ])] = E [(Y E [Y ])(X E [X])] = Cov (Y,X) .

  • 42 CAPITOLO 1. CALCOLO DELLE PROBABILITA`

    (iii) Se c R e X c, allora sappiamo che E [c] = c, e pertantoCov (X, Y ) = E [(c E [c])(Y E [Y ])] = E [0 (Y E [Y ])] = E [0] = 0.

    (iv) Usando la formula alternativa della covarianza, abbiamo

    Cov (aX + bY, Z) = E [(aX + bY )Z] E [aX + bY ]E [Z]= E [aXZ + bY Z] E [aX + bY ]E [Z]= aE [XZ] + bE [Y Z] (aE [X] + bE [Y ])E [Z] linearita` di E= a(E [XZ] E [X]E [Z]) + b(E [Y Z] E [Y ]E [Z])= aCov (X,Z) + bCov (Y, Z) .

    La proprieta` analoga per il secondo argomento segue dalla simmetria di Cov.(v) Se X e Y sono indipendenti, abbiamo visto fra le proprieta` della meda che E [XY ] =

    E [X]E [Y ]. Percio`, usando ancora la formula alternativa della covarianza, Cov (X, Y ) = E [XY ]E [X]E [Y ] = 0.

    Osservazione 6. Attenzione! La proprieta` (v) della covarianza significa limplicazione

    X, Y sono indipendenti Cov (X, Y ) = 0ma limplicazione inversa non e` vera! Per esempio, se (X, Y ) e` un vettore aleatorio discreto avalori in S = {0, 1} {0, 1, 2} e con densita` congiunta data dalla seguente tabella

    X \ Y 0 1 20 1/12 1/3 1/121 1/4 0 1/4

    allora le variabili aleatorie X e Y non sono indipendenti, tuttavia Cov (X, Y ) = 0 (verificarlo!).

    Definizione 8. La varianza di una variabile aleatoria X e` il numero reale Var (X) dato da

    Var (X) = Cov (X,X) = E[(X E [X])2] .

    Lespressione esplicita di Var (X) nei due casi in cui X e` discreta o assolutamente continua puo`ancora essere ricavata tramite la Proposizione 4, ottenendo

    Var (X) = E[(X E [X])2] = {x(x E [X])2pX(x) se X e` discreta +

    (x E [X])2fX(x) dx se X e` assolutamente continuaNotiamo in particolare che in entrambi i casi Var (X) e` sempre un numero positivo, in quantosomma o integrale di quantita` positive. Possiamo prenderne pertanto la radice quadrata: laquantita`

    Var (X) si chiama deviazione standard di X.

    La varianza gode delle seguenti proprieta` fondamentali, che vanno confrontate con le analogheproprieta` della media.

  • 1.9. MEDIA E VARIANZA DI UNA VARIABILE ALEATORIA 43

    Proposizione 7 (Proprieta` della varianza). (i) Var (X) = E [X2]E [X]2 (formula alternativadella varianza).

    (ii) Se X e` una variabile aleatoria costante, allora Var (X) = 0.

    (iii) Se a, b sono numeri reali, allora Var (aX + b) = a2Var (X).

    (iv) Se X1, X2, . . . Xn sono n variabili aleatorie, la varianza della loro somma e`

    Var

    (ni=1

    Xi

    )=

    ni=1

    Var (Xi) + 2n

    i,j=1i

  • 44 CAPITOLO 1. CALCOLO DELLE PROBABILITA`

    Esempio 29 (Varianza della bernoulliana). Se X B(1, p), allora X puo` prendere solo i duevalori 0 oppure 1, e di conseguenza X2 = X. Percio`, usando la formula alternativa della varianza,

    Var (X) = E[X2] E [X]2 = E [X] E [X]2 = p p2.

    Esempio 30 (Media e varianza della binomiale). Se X B(n, p), allora possiamo vedere X comela variabile aleatoria che conta il numero di successi in n prove di Bernoulli E1, E2, . . . , En conprobabilita` di successo P (Ei) = p per ciascuna prova. In questo modo, X e` la somma

    X = 1E1 + 1E2 + . . .+ 1En ,

    dove le variabili aleatorie 1E1 ,1E2 , . . . ,1En sono tutte indipendenti e identicamente distribuite(i.i.d.), ciascuna con densita` 1Ei B(1, p). Per la linearita` della media abbiamo pertanto

    E [X] = E [1E1 + 1E2 + . . .+ 1En ] = E [1E1 ] + E [1E2 ] + . . .+ E [1En ] = p+ p+ . . .+ p= np.

    Dalla formula (1.12) per la varianza della somma di variabili aleatorie indipendenti otteniamoinvece

    Var (X) = Var (1E1) + Var (1E2) + . . .+ Var (1En) = p(1 p) + p(1 p) + . . .+ p(1 p)= np(1 p).

    Esempio 31 (Varianza dellesponenziale). Se T E(), integrando per parti due volte abbiamo

    E[T 2]

    =

    +0

    x2ex dx =[x2ex]x=+

    x=0+

    +0

    2xex dx = +

    0

    2xex dx

    =

    [2x

    ex]x=+x=0

    +

    +0

    2

    ex dx =

    +0

    2

    ex dx

    =

    [ 22

    ex]x=+x=0

    =2

    2

    e quindi

    Var (T ) = E[T 2] E [T ]2 = 2

    2(

    1

    )2=

    1

    2.

    Esempio 32 (Varianza della normale). Supponiamo innanzitutto Z0 N(0, 1). Sappiamo allorache E [Z0] = 0, e quindi

    Var (Z0) = E[Z20] E [Z0]2 = E [Z20] = 1

    2pi

    +

    x2ex2

    2 dx

    =12pi

    [xex

    2

    2

    ]x=+x=

    +12pi

    +

    ex2

    2 dx integrando per parti

    =12pi

    +

    ex2

    2 dx =

    +

    fZ0(x) dx

    = 1 perche fZ0 e` normalizzata.

  • 1.9. MEDIA E VARIANZA DI UNA VARIABILE ALEATORIA 45

    Se ora Z N(, 2), procedendo come nellEsempio 28 abbiamo

    Z = Z0 + con Z0 :=Z N(0, 1)

    e quindi per la proprieta` (iii) della varianza

    Var (Z) = Var (Z0 + ) = 2Var (Z0) =

    2.

    Per comodita` del lettore, nella seguente tabella riassuntiva mettiamo a confronto le principaliproprieta` della media, della varianza e della covarianza.

    E [Y ] Var (Y ) Cov (Y, Z)Y = c c 0 0

    Y = aX + b aE [X] + b a2Var (X) aCov (X,Z)Y = X1 +X2 E [X1] + E [X2] Var (X1) + Var (X2) + 2Cov (X1, X2) Cov (X1, Z) + Cov (X2, Z)Y, Z indip. E [Y ] Var (Y ) 0

  • 46 CAPITOLO 1. CALCOLO DELLE PROBABILITA`

    1.10 Disuguaglianza di Chebyshev e legge dei grandi nu-

    meri

    La varianza di una variabile aleatoria X e` un numero reale che misura quanto la densita` di X sidisperde intorno al suo valor medio. Cio` e` abbastanza chiaro dalla formula esplicita di Var (X):per esempio, se X e` discreta, allora

    Var (X) =x

    (x E [X])2pX(x)

    e` tanto piu` grande quanto piu` la densita` pX pesa i punti x che si trovano lontano da E [X], cioe`i punti per i quali la distanza |x E [X] | al quadrato e` grande. Cio` si vede particolarmente benenellesempio in cui X ha densita` normale N(, 2); in tal caso, infatti, semplicemente disegnando

    il grafico della densita` fX(x) = e (x)2

    22 /(

    2pi), si osserva subito che fX e` tanto piu` allargataintorno alla media E [X] = quanto piu` la varianza Var (X) = 2 e` grande. Un esempio ancora piu`semplice e illuminante e` quello di una variabile aleatoria X discreta che prende valori nellinsiemedi due numeri reali {a, a} (dove a > 0) con densita` pX(a) = pX(a) = 1/2. In tal caso, infatti,E [X] = 0 per ogni a, mentre la varianza Var (X) = a2 cresce col quadrato della distanza delle duemasse.

    Un modo alternativo di quantificare il grado di dispersione di una variabile aleatoria X intornoal suo valor medio e` il seguente: fissiamo un numero k a nostro piacimento, e calcoliamo la proba-bilita` che X si discosti da E [X] per piu` di k volte la sua deviazione standard. Tanto piu` grande e`tale probabilita`, tanto maggiore sara` la dispersione di X intorno al suo valor medio. Per esempio,

    se fissiamo k = 3 la nostra misura di dispersione e` la quantita` P(|X E [X] | > 3Var (X)), cioe`

    la probabilita` che X si discosti dalla sua media E [X] per piu` di 3 volte la deviazione standard.Tanto maggiore e` tale probabilita`, tanto piu` ci aspettiamo che X sia dispersa intorno a E [X].

    Le due misure di dispersione precedenti sono strettamente legate tra di esse. Infatti, ladisuguaglianza di Chebyshev che ora enunceremo stabilisce la loro relazione.

    Proposizione 8 (Disuguaglianza di Chebyshev). Sia X una variabile aleatoria qualsiasi. Allora,per ogni k > 0,

    P(|X E [X] | > k

    Var (X)

    ) 1k2.

    Dimostrazione. Supporremo per semplicita` che X sia una variabile aleatoria discreta a valorinellinsieme S (il caso assolutamente continuo e` del tutto analogo). Denotiamo in breve = E [X]

  • 1.10. DISUGUAGLIANZA DI CHEBYSHEV E LEGGE DEI GRANDI NUMERI 47

    e 2 = Var (X). Si ha

    2 =xS

    (x )2pX(x) =

    x:|x|k(x )2pX(x) +

    x:|x|>k

    (x )2pX(x)

    x:|x|>k(x )2pX(x) perche

    x:|x|k

    (x )2pX(x) e` positiva

    x:|x|>k(k)2pX(x) perche se |x | > k allora (x )2 > (k)2

    = k22

    x:|x|>kpX(x)

    = k22P (|X | > k)

    e lenunciato segue immediatamente dividendo ambo i membri per k22.

    Con k = 3, la disuguaglianza di Chebyshev ci dice per esempio che la probabilita` che Xdisti dal suo valor medio per piu` di 3 volte la deviazione standard e` minore o uguale a 1/9, o,equivalentemente, che gli 8/9 della densita` di X sono concentrati entro una distanza di 3

    Var (X)

    dalla media. Da notare che questo vale qualunque sia la densita` di X, quindi anche nel caso in cuila densita` e` incognita e lunico dato disponibile e` la sua varianza.

    Introduciamo ora un concetto che diventera` fondamentale nella parte di statistica.

    Definizione 9. Un campione aleatorio di numerosita` n e` una successione di variabili aleatorieX1, X2, . . . , Xn tali che

    (a) le variabili aleatorie X1, X2, . . . , Xn sono indipendenti;

    (b) tutte le variabili aleatorie X1, X2, . . . , Xn hanno la stessa densita`.

    Un campione aleatorio e` pertanto una successione di variabili aleatorie indipendenti e identica-mente distribuite (i.i.d.). In particolare, per luguaglianza delle loro densita`, tutte le Xi hanno lastessa media e la stessa varianza: E [Xi] = E [Xj] e Var (Xi) = Var (Xj) per ogni i 6= j, in quantosia la media che la varianza dipendono solo dalla densita`.

    Per chiarire ancora meglio la definizione, supponiamo per fissare le idee che le Xi siano tutteassolutamente continue e ciascuna abbia densita` fXi . Allora il punto (b) richiede che fXi = fXj =: fper ogni i 6= j, dove f e` la densita` comune. Il punto (a) significa invece che la densita` congiunta e`

    f(X1,X2,...,Xn)(x1, x2, . . . , xn) = fX1(x1)fX2(x2) . . . fXn(xn) = f(x1)f(x2) . . . f(xn).

    Esempio 33. In ciascuno degli esperimenti aleatori seguenti, la successione di variabili aleatorieX1, X2, . . . , Xn e` un esempio di campione aleatorio.

    (i) Prendiamo a caso un gruppo di n maschi adulti della stessa popolazione e indichiamo con Xila variabile aleatoria

    Xi = altezza delli-esimo individuo.

  • 48 CAPITOLO 1. CALCOLO DELLE PROBABILITA`

    (ii) Se abbiamo una scatola contenente n lampadine tutte della stessa marca e dello stessomodello, poniamo

    Xi = durata delli-esima lampadina prima di bruciarsi.

    (iii) Lanciamo uno dado per n volte e definiamo

    Xi = risultato delli-esimo lancio.

    (iv) In un imballaggio contenente n scatole da 10 DVD ciascuna, chiamiamo

    Xi = numero di DVD guasti nelli-esima scatola.

    Nei primi due esempi, le Xi hanno densita` assolutamente continua (tipicamente, gaussiana in (i) eesponenziale in (ii)), mentre negli ultimi due la loro densita` e` discreta (uniforme in (iii) e binomialein (iv)).

    La media campionaria del campione X1, X2, . . . , Xn e` la variabile aleatoria

    Xn =1

    n

    ni=1

    Xi.

    Notiamo che la media di Xn e` la stessa di una qualunque delle Xi. In altre parole, abbiamo

    E[Xn]

    = E

    [1

    n

    ni=1

    Xi

    ]=

    1

    n

    ni=1

    E [Xi] =1

    n nE [X1] = E [X1] .

    La varianza di Xn e` invece la varianza delle Xi riscalata di un fattore 1/n. Infatti, ricordando chele Xi sono indipendenti, la formula (1.12) ci da`

    Var(Xn)

    = Var

    (1

    n

    ni=1

    Xi

    )=

    (1

    n

    )2Var

    (ni=1

    Xi

    )perche Var (aX + b) = a2Var (X)

    =1

    n2

    ni=1

    Var (Xi) per la formula (1.12)

    =1

    n2 nVar (X1) = Var (X1)

    n.

    Pertanto, mentre la media di Xn rimane la stessa delle Xi, la sua dispersione si riduce di un fattore1/n. In altre parole, la densita` di probabilita` della media campionaria si stringe intorno al valormedio delle Xi con una larghezza (= deviazione standard) che scala come 1/

    n. Cio` e` alla base

    del seguente teorema.

    Teorema 4 (Legge dei grandi numeri). Supponiamo che X1, X2, . . . sia un campione aleatorio.Allora per ogni > 0 si ha

    limn

    P(|Xn E [X1] | > ) = 0.

  • 1.10. DISUGUAGLIANZA DI CHEBYSHEV E LEGGE DEI GRANDI NUMERI 49

    Dimostrazione. Usiamo la disuguaglianza di Chebyshev per la variabile aleatoria Xn, che ab-biamo visto avere media E

    [Xn]

    = E [X1] e varianza Var(Xn)

    = Var (X1) /n. Ponendo k =

    /

    Var(Xn)

    nella disuguaglianza di Chebyshev, abbiamo pertanto

    P(|Xn E [X1] | > ) = P(|Xn | > kVar (Xn)) 1

    k2=

    Var(Xn)

    2=

    Var (X1)

    n2.

    Dal momento che limnVar (X1) /(n2) = 0 e poiche la probabilita` e` sempre un numero nonnegativo, passando al limite per n in entrambi i membri della disuguaglianza otteniamolimn P

    (|Xn E [X1] | > ) = 0.

  • 50 CAPITOLO 1. CALCOLO DELLE PROBABILITA`

    1.11 Teorema del limite centrale

    Se X1, X2, . . . , Xn e` un campione aleatorio gaussiano, cioe` Xi N(, 2) per ogni i = 1, 2, . . . , n(con le stesse e per tutti gli i!), allora la Proposizione 3 ci dice che la media campionariaXn = (X1 +X2 + . . .+Xn)/n e` anchessa una variabile aleatoria gaussiana, in quanto combinazionelineare di normali indipendenti. Poiche gia` sappiamo che E

    [Xn]

    = E [X1] = e Var(Xn)

    =Var (X1) /n =

    2/n, avremo pertanto Xn N(, 2/n). Il seguente fondamentale teorema ci diceche questo fatto vale approssimativamente anche quando le Xi hanno densita` arbitraria (e nonnecessariamente gaussiana), a patto pero` che il campione sia abbastanza numeroso.

    Teorema 5 (Teorema del limite centrale). Sia X1, X2, . . . un campione aleatorio qualsiasi. Allora

    limn

    P

    (Xn E [X1]

    Var (X1)

    n x

    )= (x) =

    12pi

    x

    ez2

    2 dz per ogni x R.

    La dimostrazione e` molto complicata e la ometteremo. Sottolineamo pero` ancora una secondavolta che il significato del Teorema del limite centrale (TLC) e` il seguente: se X1, X2, . . . , Xn e` uncampione aleatorio qualsiasi e non necessariamente gaussiano ma n e` abbastanza grande, allorala sua media campionaria Xn ha comunque approssimativamente densita` gaussiana. Chiaramente,tale densita` sara` N(E [X1] ,Var (X1) /n), perche E [X1] e Var (X1) /n sono la media e la varianza diXn. Scriveremo in questo caso Xn N(E [X1] ,Var (X1) /n). Tipicamente, tale approssimazionevale gia` piuttosto bene quando n 30.

    Una forma alternativa, ma equivalente, del TLC afferma che, per un campione aleatorioX1, X2, . . . , Xn qualsiasi, quando n e` abbastanza grande la somma Sn = X1 + X2 + . . . + Xnha approssimativamente densita` N(nE [X1] , nVar (X1)). Infatti, Sn = nXn e` gaussiana perchetrasformazione affine della variabile aleatoria Xn che e` gaussiana per il TLC, e

    E [Sn] = nE[Xn]

    = nE [X1] , Var (Sn) = n2Var(Xn)

    = nVar (X1) .

    Tale forma alternativa del TLC giustifica il ruolo particolarmente importante che la densita` gaus-siana assume in tutta la teoria della probabilita` e la sua grande rilevanza pratica. Infatti, in unmodello un po semplificato, possiamo assumere che lerrore che si commette nel misurare unafissata quantita` fisica sia in realta` la somma Sn = X1 + X2 + . . . + Xn di tanti errori piu` piccoliX1, X2, . . . , Xn, tutti indipendenti tra loro e identicamente distribuiti, ma con una densita` che ingenerale e` incognita. Il TLC ci dice allora che lerrore totale Sn e` comunque approssimabile conuna gaussiana, indipendentemente dalla densita` incognita di ciascun contributo Xi.

    Infine, sottolineiamo di nuovo che, se le Xi sono gia` normali per conto loro, allora la relazioneSn N(nE [X1] , nVar (X1)) e` esatta e non ce` bisogno del TLC per dimostrarla.Osservazione 7. Un errore abbastanza comune (ed enormemente grave) quando si studia Sta-tistica e` pensare che per un campione aleatorio X1, X2, . . . , Xn le due variabili aleatorie Sn =X1 +X2 + . . .+Xn e Tn = nX1 siano la stessa cosa. Cio` non e` assolutamente vero, in quanto:

    - Sn e Tn hanno densita` completamente diversa, e per convincersene basta confrontare Var (Sn) =nVar (X1) con Var (Tn) = n

    2Var (X1);

    - solo per Sn vale il TLC.

  • 1.12. APPROSSIMAZIONE NORMALE E POISSONIANA DELLA BINOMIALE 51

    1.12 Approssimazione normale e poissoniana della bino-

    miale

    Supponiamo che X sia una variabile aleatoria binomiale di parametri n e p. In questa sezionevedremo come la densita` di X puo` essere approssimata quando n e` molto grande in due casi diparticolare interesse pratico.

    Il primo caso e` quello in cui n e p resta costante e finita.Proposizione 9 (Approssimazione normale della binomiale). Supponiamo X B(n, p) con nmolto grande e p non trascurabile. Allora X N(np, np(1 p)).Dimostrazione. Possiamo considerare X come la somma di n bernoulliane di parametro p indi-pendenti. In altre parole, X = X1 + X2 + . . . + Xn, dove X1, X2, . . . , Xn e` un campione aleatorioe ciascuna Xi B(1, p). Per il TLC, X N(nE [X1] , nVar (X1)) = N(np, np(1 p)), dove p ep(1 p) sono rispettivamente la media e la varianza della variabile aleatoria bernoulliana X1.

    Come regola di massima per decidere se vale lapprossimazione precedente, si considera di solitoche n deve essere abbastanza grande e p abbastanza diverso da 0 o da 1 aversi np 5 e n(1p) 5.

    Il secondo caso e` invece quello in cui n e p 0, in modo pero` che il prodotto np resticostante e dellordine dellunita`.

    Proposizione 10 (Approssimazione di Poisson della binomiale). Supponiamo X B(n, p) con nmolto grande e p infinitesimo, in modo pero` che il prodotto := np sia confrontabile con 1. AlloraX ha approssimativamente densita`

    pX(k) ' ek

    k!per ogni k = 0, 1, 2, . . ..

    Dimostrazione. Vogliamo calcolare la densita` pX nel limite

    n, p 0, np = = costante 1.

    Abbiamo

    pX(k) =

    (nk

    )pk(1 p)nk = n!

    k!(n k)!(

    n

    )k (1

    n

    )nk=

    n!

    (n k)!nkk

    k!

    (1

    n

    )n(1

    n

    )ke

    limn

    (1

    n

    )n= e lim

    n

    (1

    n

    )k= 1

    limn

    n!

    (n k)!nk = limnn(n 1)(n 2) . . . (n k + 1)

    nk= lim

    nnk +O(nk1)

    nk= 1.

  • 52 CAPITOLO 1. CALCOLO DELLE PROBABILITA`

    Pertanto

    limn

    pX(k) =k

    k!e per ogni k = 0, 1, 2, . . ..

    Nellapprossimazione di Poisson, dire che il prodotto np devessere confrontabile con 1 significache valori come np = 0.5, np = 1.4, np = 5 vanno bene, ma non vanno bene valori come np = 0.01o np = 100. La regola di massima in questo caso e` che se per esempio n 20 allora deve esserep 0.05, oppure se n 100 allora np 10.

    La densita` pX(k) = ek/k!, definita sullinsieme dei numeri naturali N = {0, 1, 2, . . .}, si

    chiama densita` di Poisson di parametro e si indica con P(). Notiamo che, poiche tale densita`si ottiene come limite da una variabile aleatoria binomiale X B(n, p), la sua media e la suavarianza sono

    E [X] = limn, p0

    np=

    np = Var (X) = limn, p0

    np=

    np(1 p) =

    in quanto np e np(1 p) sono rispettivamente la media e la varianza della densita` B(n, p).