Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo...

225
Corso di Probabilit`a e Statistica A.A. 2004/2005 Lezione 1 Versione 0.2 del 2 Marzo 2004 Claudio Agostinelli Dipartimento di Statistica Universit` a di Venezia San Giobbe, Cannaregio 873, Venezia Tel. 041 2347446, Fax. 041 2347444 – http://www.dst.unive.it/~claudio [email protected]

Transcript of Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo...

Page 1: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Corso di Probabilita e StatisticaA.A. 2004/2005

Lezione 1Versione 0.2 del 2 Marzo 2004

Claudio Agostinelli

Dipartimento di StatisticaUniversita di Venezia

San Giobbe, Cannaregio 873, VeneziaTel. 041 2347446, Fax. 041 2347444 – http://www.dst.unive.it/~claudio

[email protected]

Page 2: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

1

“Tutte le volte in cui si ragiona per induzione, si fa, piu omeno coscientemente, uso del calcolo delle probabilita”

H. Poincare

2 Informazioni generali

• Il materiale del corso e disponibile all’indirizzo http://www.dst.unive.it/~claudio nella sezione dedicata alla Didattica;

• L’orario di ricevimento e

– Terzo periodo: Martedı 11.30 – 13.00 e Mercoledı 13.30 – 15.30

– Quarto periodo: Martedı 11.00 – 13.00 e Mercoledı 13.30 – 15.30

– Rimanente periodo (dal 01/06/2005 in poi): Mercoledı 9.15 –11.15

presso la sede del Dipartimento;

• Il simbolo ∼ si ottiene nelle tastiere italiane con la successione ASCII126 cioe ALT-GR 1 2 6.

3 Testi di Riferimento

P. Baldi. Calcolo delle Probabilita e Statistica. McGraw–Hill, 1998. Testodi riferimento per il corso.

G. Letta. Probabilita elementare. Zanichelli, 1993.

L. Pace e A. Salvan. Introduzione alla Statistica - I. Statistica Descrittiva.Cedam, Padova, 1996.

A. Azzalini. Inferenza Statistica. Springer Italia, Milano, seconda edizione,2002.

Claudio Agostinelli – Lezione 1 – Probabilita e Statistica, A.A. 2004/2005, 1

Page 3: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

4 Altri testi che potete consultare

G. Casella e R.C. Berger. Statistical Inference. Duxbury Press, secondaedizione, 2002.

G. Cicchitelli. Probabilita e Statistica. Maggioli editore, Rimini, secondaedizione, 2001.

A.M. Mood, F.A. Graybill, e D.C. Boes. Introduzione alla Statistica.McGraw–Hill, 1991.

R. Orsi. Probabilita e Inferenza Statistica. il Mulino, 1985.

L. Pace e A. Salvan. Introduzione alla Statistica - II. Inferenza, verosimiglian-za, modelli. Cedam, Padova, 2001.

5 Testi con esercizi e Eserciziari

P. Baldi, R. Giuliano, e L. Ladelli. Laboratorio di Statistica e Probabilita,problemi svolti. McGraw–Hill, 1995.

G. Grimmett e D. Stirzaker. One Thousand Exercises in Probability.Oxford, 2001.

M. Capinski e T. Zastawniak. Probability Through Problems. Springer,2001.

6 Testi con esercizi e Eserciziari

G. Cicchitelli e M.A. Pannone. Complementi ed esercizi di Statisticadescrittiva e inferenziale. Maggioli, Rimini, 1991.

M. Grigoletto e L. Ventura. Statistica per le Scienze Economiche. Esercizicon richiami di teoria. Giappichelli, Torino, 1998.

7 Testi con esercizi e Eserciziari

Montanari, Agati, e Calo. Statistica, con esercizi commentati e risolti.Masson, Open, Milano, 1998.

F. Parpinel e S. Campostrini. Introduzione all’inferenza statistica, teoria eesercizi. Decibel, Zanichelli, 1996.

Claudio Agostinelli – Lezione 1 – Probabilita e Statistica, A.A. 2004/2005, 2

Page 4: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Edizioni Simone, editore. Esercizi svolti per la prova di Statistica. Eser-ciziari, 43/2. Simone edizioni, Napoli, 2001.

8 Programma del corso

• Concetto di Probabilita. Elementi di algebra degli insiemi e di calcolocombinatorio. Definizione assiomatica. Principali teoremi, probabilitacondizionata, indipendenza stocastica, teorema di Bayes;

• Variabili aleatorie unidimensionali. Funzione di ripartizione e densita,momenti, funzione generatrice dei momenti;

• Particolari famiglie di distribuzioni unidimensionali: uniforme discreta,Bernoulliana, binomiale, ipergeometrica, Poisson, geometrica, uniformecontinua, normale, beta, gamma, esponenziale;

9 Programma del corso

• Variabili aleatorie multiple. Funzioni di ripartizione e densita con-giunte, distribuzioni marginali e condizionate. Momenti. Funzionedi regressione. Correlazione e indipendenza stocastica. Distribuzionenormale multivariata.

• Trasformazione di variabili casuali e principali risultati;

• Successione di variabili aleatorie. Disuguaglianze notevoli: Jensen eChebyshev. Convergenza: quasi certa, in probabilita, in media quadrat-ica e in distribuzione. Teorema limite centrale;

10 Programma del corso

• Statistiche, stimatori, principio del campionamento ripetuto e proprietadegli stimatori;

• Stima puntuale: metodo dei minimi quadrati, metodo dei momenti emetodo di verosimiglianza;

• Elementi di verifica d’ipotesi e di stima intervallare;

• Elementi sul modello lineare di regressione.

Claudio Agostinelli – Lezione 1 – Probabilita e Statistica, A.A. 2004/2005, 3

Page 5: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

11 Programma del corso

Inoltre, tempo permettendo, avremo delle lezioni dedicate a

• Esempi e Esercizi

• Rappresentazioni grafiche

• Statistica Descrittiva

• Esempi di analisi di dati al calcolatore

12 Modalita d’esame

• L’esame e composto da una parte scritta e da una orale.

• La parte scritta e

– Obbligatoria

– Suddivisa in tre parti che vengono svolte nello stesso momento:

1. Due domande a risposta multipla. Ogni errore abbassa il votodi un punto;

2. Tre esercizi da svolgere. Punteggio massimo ottenibile 29/30;

13 Modalita d’esame

• La parte orale e

– Obbligatoria per quelli che superano la parte scritta con un pun-teggio inferiore a 21/30 (compreso);

– Facoltativa per tutti gli altri;

– Verte su tutto il programma del corso;

– Puo far aumentare o diminuire il voto ottenuto nella parte scritta.

14 Materiale utilizzabile durante l’esame

• Si puo usare

– Un formulario, scaricabile dal mio sito con alcune formule;

Claudio Agostinelli – Lezione 1 – Probabilita e Statistica, A.A. 2004/2005, 4

Page 6: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

– Calcolatrice non programmabile e/o Regolo calcolatore;

– Tavole (che dovete procurarvi);

– Penna nera o blu, matita e gomma.

• Non si puo usare tutto quello non espressamente dichiarato nel puntoprecedente, in particolare

– Telefonino;

– Calcolatrici programmabili e/o Palmari;

– Libri e/o appunti;

– Fogli non forniti dal docente.

15 Modalita d’esame

• La durata della prova scritta e di 1 ora e 45 minuti;

• I risultati saranno esposti nel mio sito tranne esplicito divieto da man-ifestare durante la prova scritta.

16 Avvertenza

Questi lucidi non sono da considerarsi appunti o

dispense del corso e non possono sostituire l’uso del

(dei) libro (libri) di testo.

17 Esempio – Dati ambientali

Claudio Agostinelli – Lezione 1 – Probabilita e Statistica, A.A. 2004/2005, 5

Page 7: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Fonte: Centro Studi per l’Ambiente Alpino in San Vito di Cadore (BL) Stazione di rilevazione a Col de la Roa a 1107ms.l.m. http//www.tesaf.unipd.it/SanVito/

18 Esempio – Dati ambientali

In ogni stazione sono rilevati, tra gli altri, i seguenti parametri:

• temperatura ed umidita dell’aria;

• precipitazioni, direzione e intensita del vento;

• pressione dell’aria;

• pH delle precipitazioni;

• tipo di nubi e grado di copertura.

Le misurazioni vengono effettuate ogni 15 minuti.

19 Esempio – Temperatura dell’aria

1997

365 giorni

Tem

pera

tura

1997.0 1997.2 1997.4 1997.6 1997.8 1998.0

−5

05

1015

1998

365 giorni

Tem

pera

tura

1998.0 1998.2 1998.4 1998.6 1998.8 1999.0

−5

05

1015

20

Serie delle temperature medie giornaliere del 1997 (sinistra) e del 1998 (destra)

20 Esempio – Temperatura dell’aria

Quale tra il 1997 e il 1998 e stato l’anno piu caldo per il Col de la Roa (se vie una differenza)?

Per rispondere a questo quesito possiamo considerare diverse caratteris-tiche:

Claudio Agostinelli – Lezione 1 – Probabilita e Statistica, A.A. 2004/2005, 6

Page 8: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

• il valore massimo (delle medie giornaliere) di temperatura nei due anni:17.6 (1997) e 21.9 (1998)

• il valore medio: 6.3 (1997) e 6.2 (1998)

• il valore minimo: -7.9 (1997) e -8.7 (1998)

21 Esempio – Temperatura dell’aria

1997

365 giorni

Tem

pera

tura

−5 0 5 10 15

010

2030

40

1998

365 giorni

Tem

pera

tura

−10 −5 0 5 10 15 20 25

020

4060

80

Istogrammi delle temperature medie giornaliere del 1997 (sinistra) e del 1998 (destra)

22 Esempio – Temperatura dell’aria

−5

05

1015

20

1997 e 1998

Tem

pera

tura

Diagramma a scatola e baffi (Box plot) delle temperature medie giornaliere del 1997 (sinistra) e del 1998 (destra)

Claudio Agostinelli – Lezione 1 – Probabilita e Statistica, A.A. 2004/2005, 7

Page 9: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

23 Esempio – Temperatura dell’aria

−5 0 5 10 15

−5

05

1015

20

1997 e 1998

1997

1998

Scatter plot delle temperature medie giornaliere del 1997 (ascissa) e del 1998 (ordinata)

24 Esempio – Direzione del vento

1

N

E

S

W +

Direzione del vento nei giorni dal 29 Gennaio 2001 al 31 Marzo 2001 dalle ore3.00 alle 4.00 (una registrazione ogni 15 minuti)

Claudio Agostinelli – Lezione 1 – Probabilita e Statistica, A.A. 2004/2005, 8

Page 10: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

2

N

E

S

W +

Media aritmeticaMedia circolare

Direzione del vento nei giorni dal 29 Gennaio 2001 al 31 Marzo 2001 dalle ore3.00 alle 4.00 (una registrazione ogni 15 minuti) e direzione media

25 Esempio – Direzione del vento

• Media aritmetica

1

n

n∑

i=1

xi = 2.357 rad = 135.1o

• Media circolare

atan∗

(∑

n

i=1sin(xi)

n

i=1cos(xi)

)

= 0.292 rad = 16.7o

Claudio Agostinelli – Lezione 1 – Probabilita e Statistica, A.A. 2004/2005, 9

Page 11: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

26 Esempio – Stima della Velocita di Oggetti

Un fotogramma da una sequenza in cui il quadrato in centro alla figura efermo mentre la rimanente parte dell’immagine e in movimento.Fonte: Robust Optic Flow Computation, A. Bab-Hadiashar and D. Suter, Intelligent Robotics Research Centre, Depart-ment of Electrical & Computer Systems Engineering, Monash University, Australia.

27 Esempio – Stima della velocita di Oggetti

Velocita reale (sinistra) e velocita stimata (destra)

28 Probabilita e Statistica

La Probabilita e la Statistica sono parti della Matematica.Esse ci consentono di studiare fenomeni che presentano variabilita o in-

certezza nel loro esito:

• tra diversi casi o soggetti;

• tra diversi istanti temporali;

Claudio Agostinelli – Lezione 1 – Probabilita e Statistica, A.A. 2004/2005, 10

Page 12: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

• tra diversi luoghi;

• tra diverse condizioni di misura;

• per l’impossibilita di separare l’osservazione del fenomeno di interesseda altri fenomeni di disturbo.

29 Probabilita e Statistica

La Statistica, e spesso suddivisa in due aree principali:

• Descrittiva: usata per descrivere un fenomeno attraverso la sintesi diinformazioni; Esplorazione statistica dei dati, statistica senza un mod-ello probabilistico. Disponiamo di dati riferiti a tutta la popolazione diriferimento.

• Inferenziale: usata per costruire modelli (anche di natura probabilisti-ca) interpretativi della variabilita di un fenomeno a partire da una infor-mazione limitata e utilizzando il modello costruito formulare previsionisull’andamento futuro (o non osservato) del fenomeno.

I dati disponibili sono stati rilevati solamente su una parte delle unita statistiche (il campione da cui indagini

campionarie). Vogliamo utilizzare le informazioni del campione per fare delle affermazioni sulle caratteristiche

di tutta la popolazione.

30 Probabilita e Statistica

La Probabilita fornisce:

• Teorie di base (in genere di natura astratta e quindi applicabile adampie classi di problemi);

• Strumenti matematici;

• Modelli probabilistici.

31 Probabilita e Statistica

Entrambe presentano impostazioni diverse:

• Classica

Claudio Agostinelli – Lezione 1 – Probabilita e Statistica, A.A. 2004/2005, 11

Page 13: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

• Frequentista (Neyman, Pearson)

• Bayesiana (Bayes)

– soggettivista (Savage, De Finetti)

– non soggettivista

• Logica (Carnap)

• Comparativa (Barnett)

• Fisheriana (Fisher, una impostazione che riguarda sopratutto la Sta-tistica)

32 Probabilita e Statistica

L’Approccio Assiomatico alla Probabilita (1933) dovuto a A.N. Kolmogorov(1903-1987) consente di sviluppare una teoria generale della probabilita chee staccata dalla sua interpretazione.

33 Concetto di Probabilita – O–ring

Supponiamo di avere aquistato una scatola di O–ring (guarnizioni) costituitada 90 pezzi di cui 30 pezzi con un diametro di 9mm, 30 pezzi con diametro10mm e le rimanenti con un diametro di 11mm. Qual’e la probabilita che ioestragga dalla scatola un O–ring di diametro 10mm?

34 O–ring

La riposta dipende molto da come avviene l’estrazione:

• scelgo senza guardare (e senza selezionare attraverso il tatto) la primaguarnizione con cui vengo in contatto;

• rovescio la scatola e considero la guarnizione che tocca per ultima ilpiano di appoggio;

• analizzo accuratamente le guarnizioni prima di sceglierle in modo daprendere quella con diametro 10mm;

• estraggo senza guardare una guarnizione alla volta e decido di fermarmiappena ritengo di aver estratto una guarnizione di diametro 10mm;

Claudio Agostinelli – Lezione 1 – Probabilita e Statistica, A.A. 2004/2005, 12

Page 14: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

35 O–ring

• Scelgo senza guardare (e senza selezionare attraverso il tatto) la primaguarnizione con cui vengo in contatto

In questa situazione e ragionevole pensare che ogni (singolo) O–ring abbiala stessa “probabilita”, diciamo a, di venire estratto cioe:

P(un singolo O–ring di essere estratto) = a =1

90

in conclusione

P(estrarre un O–ring di diametro pari a 10mm) =

numero di O–ring con diametro pari a 10mm

numero di O–ring presenti nella scatola=

30

90=

1

3

36 O–ring

• Rovescio la scatola e considero la guarnizione che tocca per ultima ilpiano di appoggio

Sotto l’assunzione che le differenze fisiche tra gli O–ring di diversa misuranon influiscano sull’esito dell’esperimento vale il ragionamento precedente.

37 O–ring

• Analizzo accuratamente le guarnizioni prima di sceglierle in modo daprendere quella con diametro 10mm

Se ad esempio confronto gli O–ring finche ne trovo 3 di misura diversa epoi scelgo quello con misura intermedia allora e ragionevole pensare che nonci sia aleatorieta (variabilita) nel fenomeno osservato, in futuro esprimeremoquesto fatto scrivendo:

P(estrarre un O–ring di diametro pari a 10mm) = 1

38 O–ring

• Estraggo senza guardare una guarnizione alla volta e decido di fermarmiappena ritengo di aver estratto una guarnizione di diametro 10mm;

Claudio Agostinelli – Lezione 1 – Probabilita e Statistica, A.A. 2004/2005, 13

Page 15: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Si noti che in questo ultimo caso, il risultato non dipende piu dalla com-posizione della scatola (fatto salvo che vi sia almeno un O–ring di diametro10mm, che e il nostro caso) ma da chi esegue l’estrazione. In particolaredalla sua capacita di riconoscere un O–ring di diametro 10mm senza poterloconfrontare con gli altri. Quale sara allora la probabilita?

39 O–ring – Conclusioni

Dall’esempio che abbiamo visto, possiamo concludere che la probabilita esubordinata alla definizione del problema che intediamo studiare in modoche non siano lasciati dubbi sulla sua interpretazione. Quando un problemacosı definito non ha un risultato certo parliamo di:

Definizione 2 (Esperimento aleatorio) Un Esperimento si dice aleato-

rio, per un certo individuo, in un certo instante, se l’individuo non e ancorain grado di indicarne con sicurezza il risultato (indipendentemente dal fattoche l’esperimento sia stato gia eseguito o debba ancora essere eseguito)

40 O–ring – Conclusioni

Se l’individuo che si trova in una tale situazione d’incertezza e interessatoal risultato dell’esperimento, e naturale che egli si preoccupi innanzitutto difissare un “ventaglio completo di eventualita, a due a due incompatibili”,ossia un insieme Ω, i cui elementi rappresentino ipotetici risultati dell’esper-imento, con la certezza che, comunque vadano le cose, il risultato effettivodell’esperimento “cadra in Ω” (nel senso che sara rappresentato da uno e daun sol elemento di Ω)

Tale insieme Ω prende il nome di Spazio Campionario (in Statisticaesso prende spesso il nome di Popolazione).

41 Palline Verdi, Bianche, Rosse

Costituisce un Esperimento aleatorio l’estrazione di una pallina da un’urnacontenente palline dalle medesime caratteristiche fisiche ma contraddistinteda un diverso colore (Verde, Bianco, Rosso) da parte di un individuo bendato.

In questo caso lo Spazio Campionario e costituito dall’insieme Ω = V erde,Bianco,Rosso.

Claudio Agostinelli – Lezione 1 – Probabilita e Statistica, A.A. 2004/2005, 14

Page 16: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

42 Ancora sull’esperimento aleatorio

Gli Esperimenti aleatori possono essere

• unici

• ripetibili nelle medesime condizioni.

Anche nel caso in cui l’esperimento sia unico, e spesso utile pensarlo comeil risultato di un esperimento ripetibile, riprenderemo questo aspetto quandoparleremo del Principio del Campionamento Ripetuto.

43 O–ring e Palline Verdi, Bianche e Rosse

Dal punto di vista teorico, non vi e nessuna differenza tra il problema diassegnare la probabilita di estrarre un O–ring di diametro 10mm o di estrarreuna pallina Verde da una urna.

Questo fatto accade spesso e consente di sviluppare una teoria generalesenza dover fare riferimento al problema specifico.

44 Eventi e risultati di un Esperimento aleato-

rio

Consideriamo uno spazio campionario Ω e un sottoinsieme A di Ω (scriveremoA ⊆ Ω). Si puo interpretare A come rappresentante un evento legato alrisultato dell’esperimento: l’evento si realizzera se e solo se codesto risultato“cadra in A”. (Si puo anzi identificare questo evento con l’insieme A stesso).

45 Eventi e dadi

Consideriamo l’esperimento consista nel lanciare un dado, e per “risultato”s’intende il numero della faccia che uscira. In questo caso Ω = 1, 2, 3, 4, 5, 6ed esempi di eventi sono:

• uscita del numero uno: A1 = 1;

• uscita di un numero pari: A2 = 2, 4, 6;

• uscita di un numero piu piccolo di 3: A3 = 1, 2;

• uscita di un numero primo: A4 : 1, 2, 3, 5.

Claudio Agostinelli – Lezione 1 – Probabilita e Statistica, A.A. 2004/2005, 15

Page 17: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

46 Eventi e Insiemi

E facile notare che gli eventi sono (sotto) insiemi dell’insieme Ω e quindi, econveniente per prima cosa prendere confidenza con il concetto di insieme econ le operazioni sugli insiemi.

• Diremo che x appartiene a un insieme A, e scriveremo x ∈ A se x e unelemento di A;

• Due insiemi A,B sono uguali se hanno gli stessi elementi, cioe se x ∈A ⇔ x ∈ B, indicheremo tale fatto scrivendo A = B o anche A ≡ B.

• Gli insiemi possono essere definiti attraverso proposizioni: x : proposizione riguardante x,ad esempio A = x : x ∈ A.

47 Eventi e Insiemi

• ∅ indica l’insieme vuoto, cioe l’insieme che non ha nessun elemento:x /∈ ∅ per qualsiasi x. Esso puo essere definito da una proposizione chee sempre falsa, ad esempio: ∅ = x : x 6= x.

• Denotiamo con A = x1, x2, · · · , xn = xin

i=1con n ∈ N un insieme

finito. L’insieme ∅ e considerato un insieme finito.

• Indicheremo con #A il numero di elementi dell’insieme finito A. Peresempio #∅ = 0 e #1, 2, 3 = 3.

• Denotiamo con A = x1, x2, · · · = xi∞i=1

un insieme numerabile(countable set) consistente nella succesione di elementi x1, x2, · · ·.

48 Insiemi e Diagramma di Venn

In molte situazioni e comodo rappresentare gli insiemi e le operazioni su diesse attraverso i Diagrammi di Venn.

Ad esempio, dato uno spazio, diciamo Ω, e un insieme A su tale spazio,possiamo rappresentare il tutto come segue

Claudio Agostinelli – Lezione 1 – Probabilita e Statistica, A.A. 2004/2005, 16

Page 18: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

ΩA

49 Sottoinsieme

Definizione 3 (Sottoinsieme) Diremo che B e un sottoinsieme di A e loindicheremo scrivendo B ⊆ A se ∀x ∈ B abbiamo x ∈ B ⇒ x ∈ A:

ΩA

B

50 Complementare

Definizione 4 (Complementare) Diremo che B e l’insieme complementaredi A e lo indicheremo scrivendo B = Ac se ∀x ∈ Ω abbiamo x ∈ B ⇒ x /∈ Acioe B = x : x /∈ A:

Claudio Agostinelli – Lezione 1 – Probabilita e Statistica, A.A. 2004/2005, 17

Page 19: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

B = Ac

A

51 Unione

Definizione 5 (Unione) Diremo che C e l’insieme unione di A e B e loindicheremo C = A∪B se ∀x ∈ Ω abbiamo x ∈ A ⇒ x ∈ C e x ∈ B ⇒ x ∈ Ccioe x ∈ C se x ∈ A o x ∈ B:

1

Ω

A B

2

Ω

C

Claudio Agostinelli – Lezione 1 – Probabilita e Statistica, A.A. 2004/2005, 18

Page 20: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

52 Unione

• Per una successione di insiemi A1, A2, · · · diremo che l’insieme unione

∪∞

i=1Ai = A1 ∪ A2 ∪ · · ·

consiste di tutti gli elementi x tali che x ∈ Ai per qualche i = 1, 2, · · ·.

• Piu generalmente, per una arbitraria famiglia di insiemi A, l’unione∪A∈AA consiste di tutti gli elementi x tali che x ∈ A per qualcheA ∈ A.

53 Intersezione

Definizione 6 (Intersezione) Diremo che C e l’insieme intersezione di Ae B e lo indicheremo C = A ∩B se ∀x ∈ Ω abbiamo x ∈ C ⇒ x ∈ A e x ∈B cioe C = x : x ∈ A e x ∈ B:

1

Ω

A B

2

Ω

A BC

Claudio Agostinelli – Lezione 1 – Probabilita e Statistica, A.A. 2004/2005, 19

Page 21: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

54 Intersezione

• Per una successione di insiemi A1, A2, · · · diremo che l’insieme inter-sezione

∩∞

i=1Ai = A1 ∩ A2 ∩ · · ·

consiste di tutti gli elementi x tali che x ∈ Ai per tutti i = 1, 2, · · ·.

• Piu generalmente, per una arbitraria famiglia di insiemi A, l’inter-sezione ∩A∈AA consiste di tutti gli elementi x tali che x ∈ A per tuttiA ∈ A.

55 Differenza

Definizione 7 (Differenza) Diremo che C e l’insieme differenza di A e Bo in altre parole il complementare di B in A e lo indicheremo C = A/B =x : x ∈ A e x /∈ B:

1

Ω

A B

2

Ω

A B

C

Claudio Agostinelli – Lezione 1 – Probabilita e Statistica, A.A. 2004/2005, 20

Page 22: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

56 Differenza simmetrica

Definizione 8 (Differenza simmetrica) Diremo che C e l’insieme dif-ferenza simmetrica di A e B se C = A4B = (A/B) ∪ (B/A):

1

Ω

A B

2

Ω

A B

C

57 Prodotto Cartesiano

Definizione 9 (Prodotto Cartesiano) C = A×B e detto Prodotto Carte-siano (o prodotto semplice) degli insiemi A e B e consiste di tutte le coppieordinate (x, y) tale che x ∈ A e y ∈ B.

Il prodotto A1 × A2 × · · · × An di n insiemi A1, A2, · · · , An consiste dellen-uple ordinate (x1, x2, · · · , xn) tali che xi ∈ Ai per ogni i = 1, · · · , n.

In particolare, An = A × · · · × A e il prodotto di n copie dell’insieme A.

Claudio Agostinelli – Lezione 1 – Probabilita e Statistica, A.A. 2004/2005, 21

Page 23: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

58 Insiemi disgiunti

Definizione 10 (Insiemi disgiunti) Due insiemi A e B si dicono disgiuntise A ∩ B = ∅.

Gli insiemi nella famiglia A e detta disgiunta a coppie se A ∩ B = ∅ perogni A,B ∈ A e A 6= B.

59 Proprieta delle operazioni

• Commutativa: A ∪ B = B ∪ A e A ∩ B = B ∩ A;

• Associativa: A ∪ B ∪ C = A ∪ (B ∪ C) e A ∩ B ∩ C = A ∩ (B ∩ C);

• Distributiva (dell’unione rispetto all’intersezione): A∪ (B ∩C) = (A∪B) ∩ (A ∪ C);

• Distributiva (dell’intersezione rispetto all’unione): A∩ (B ∪C) = (A∩B) ∪ (A ∩ C);

Esercizio 2 Rappresentare attraverso i Diagrammi di Venn le proprieta es-poste. E dimostrare le proprieta.

60 Proprieta delle operazioni

• Regola di De Morgan:

(A ∪ B)c = Ac ∩ Bc

e(A ∩ B)c = Ac ∪ Bc

Esercizio 3 Rappresentare attraverso i Diagrammi di Venn le proprieta es-poste. E dimostrare le proprieta.

61 Ma quanti eventi possiamo avere e dadi

Definizione 11 (Insieme delle Parti) Dato l’insieme Ω si dice Insieme

delle Parti o Insieme Potenza di Ω l’insieme P(Ω) di tutti i possibilisottoinsiemi di Ω.

Quindi, siamo portati a concludere che il numero degli eventi e pari alnumero di elementi in P(Ω).

Claudio Agostinelli – Lezione 1 – Probabilita e Statistica, A.A. 2004/2005, 22

Page 24: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

62 Ma quanti eventi possiamo avere e dadi

Nel caso del lancio di un dado gli eventi sono 26 = 64 (vedremo piu avanticome mai usando il calcolo combinatorio) alcuni eventi sono:

• uscita del numero due: A5 = 2;

• uscita di un qualsiasi numero: A6 = 1, 2, 3, 4, 5, 6;

• uscita di un numero non meno grande di 4: A7 = 4, 5, 6;

• non esce nessun numero: A8 = ∅.

Esercizio 4 Scrivere tutti i 64 eventi e assegnare ad ogni evento la suaprobabilita.

63 Ma quanti eventi possiamo avere e dadi

Tuttavia puo darsi che certe parti (sottoinsiemi) di Ω corrispondano a eventinon interessanti (ai fini di un determinato problema) oppure troppo compli-cati per poter essere studiati.

Nel problema del lancio di un dado dove si registra la faccia uscita glieventi interessanti sono:

• B1 = 1;

• B2 = 2;

• B3 = 3;

• B4 = 4;

• B5 = 5;

• B6 = 6;

ma e sufficiente considerare solo questi eventi?

Claudio Agostinelli – Lezione 1 – Probabilita e Statistica, A.A. 2004/2005, 23

Page 25: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Corso di Probabilita e StatisticaA.A. 2004/2005

Lezione 2Versione 0.1-2 del 22 Febbraio 2005

Claudio Agostinelli

Dipartimento di Statistica

Universita di Venezia

San Giobbe, Cannaregio, 873, Venezia

Tel. 041 2347446, Fax. 041 2347444 – http://www.dst.unive.it/~claudio

[email protected]

Page 26: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

1

Teorema 1 Siano A e B due sottoinsiemi di Ω. Allora ognuna delle seguenticondizioni che segue e vera se e solo se sono vere le rimanenti:

• A ⊆ B;

• A ∩ B = A;

• A ∪ B = B;

• Bc = Ω/B ⊆ Ω/A = Ac;

• A ∩ Bc = ∅;

• Ac ∪ B = Ω.

Dimostriamo che la prima implica la seconda e viceversa, il resto e lasciatocome esercizio.

2

• A ⊆ B ⇒ A ∩ B = A;

A ⊆ B significa che tutti i punti di A sono anche in B cioe x ∈ A ⇒ x ∈B. Quindi tutti i punti di A appartengono all’intersezione.

Rimane da mostrare che solo questi punti appartengono all’intersezione.A tale scopo consideriamo i punti x ∈ B ma x /∈ A: essi non possonoappatenere all’intersezione. Rimangono i punti x /∈ B. Ma ovviamentequesti non posso appatenere all’intersezione.

¦

3

• A ∩ B = A ⇒ A ⊆ B;

A ∩ B = A significa che x ∈ A ∩ B ⇔ x ∈ A e quindi non esistex ∈ A : x /∈ B cioe x ∈ A : x /∈ B = ∅. quindi tutti i punti di A sono in Bcioe A ⊆ B

¦

Claudio Agostinelli – Lezione 2 – Probabilita e Statistica, A.A. 2004/2005, 1

Page 27: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

4 Ma quanti eventi possiamo avere e dadi

In generale, non e sufficiente considerare solo questi insiemi come eventi,in ciascun caso e per ciascun problema da studiare, converra scegliere unadeterminata classe A (non vuota), di parti di Ω, e di riservare il nome dieventi agli elementi di questa classe.

Solo in casi particolari avremo A ≡ P(Ω).In ogni caso sara opportuno scegliere la classe A in modo tale che essa

possieda buone doti di stabilita.

5 Tribu

Un possibile modo di costruire la classe A e di sceglierla in modo che sia unaTribu

Definizione 1 (Tribu (o σ–algebra)) Una classe A di parti di un insiemeΩ si dice una Tribu se

• (1) Ω ∈ A;

• (2) Se A ∈ A allora Ac ∈ A;

• (3) Se A1, · · · , Ai, · · · ∈ A allora ∪∞

i=1Ai ∈ A.

6 Tribu e Eventi

Definizione 2 (Evento) Ogni elemento A di una Tribu A su Ω e dettoEvento.

Un Evento A si e verificato (si dice anche che l’evento e Vero) se il risultatodell’esperimento aleatorio e un sottoinsieme dell’evento.

Claudio Agostinelli – Lezione 2 – Probabilita e Statistica, A.A. 2004/2005, 2

Page 28: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

7 Corrispondenza tra logica degli eventi e al-

gebra degli insiemi

Eventi InsiemiCerto Universale

Impossibile VuotoImplicazione InclusioneNegazione Complementare

Somma logica UnioneProdotto logico IntersezioneIncompatibilita DisgiunzioneClasse completa Partizione

8 Tribu e algebra

Definizione 3 (Algebra) Una classe A di parti di un insieme Ω si diceun’algebra se

• (1) Ω ∈ A;

• (2) Se A ∈ A allora Ac ∈ A;

• (3) Se A1, · · · , Ai, · · · , An ∈ A allora ∪ni=1Ai ∈ A.

9

Esercizio 1 Data una Tribu (o un’Algebra) A su Ω mostrare che ∅ ∈ A.

Usando la (1) abbiamo Ω ∈ A e usando la (2) per A = Ω abbiamo che∅ = Ω/Ω ∈ A

¦

Esercizio 2 Mostrare che dato un insieme finito Ω, l’insieme P(Ω) e un’al-gebra di Ω.

10 Esempi di Tribu

Considerando l’esperimento aleatorio dell’estrazione di un dado e lo spaziocampionario Ω = 1, 2, 3, 4, 5, 6 esempi di tribu sono:

Claudio Agostinelli – Lezione 2 – Probabilita e Statistica, A.A. 2004/2005, 3

Page 29: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

• A1 = ∅, Ω;

• A2 = ∅, 1, 2, 3, 4, 5, 6, Ω;

• A3 = ∅, 1, 2, 1, 3, 4, 5, 6, , 2, 3, 4, 5, 6, 1, 2, 3, 4, 5, 6, Ω;

• A4 = P(Ω).

11

Esercizio 3 Data una Tribu (o un’Algebra) A su Ω mostrare che dati dueinsiemi A,B ∈ A abbiamo A ∩ B ∈ A.

Dalla Regola di De Morgan abbiamo

A ∩ B = [Ac ∪ Bc]c

Ora, Ac, Bc ∈ A per la (2), Ac ∪ Bc ∈ A per la (3) e [Ac ∪ Bc]c ∈ A perla (2)

¦

Esercizio 4 Mostrare che dato un insieme finito Ω un’algebra A su di essoe n insiemi A1, A2, · · · , An ∈ A l’insieme ∩n

i=1Ai ∈ A.

12

Esercizio 5 Data una Tribu (o un’Algebra) A su Ω mostrare che dati dueinsiemi A,B ∈ A abbiamo A/B ∈ A.

Possiamo scrivere A/B = A ∩ Bc, ma Bc ∈ A per (2) e A ∩ Bc ∈ A perl’esercizio precedente

¦

Esercizio 6 Data una Tribu (o un’Algebra) A su Ω mostrare che dati dueinsiemi A,B ∈ A abbiamo A4B ∈ A.

Claudio Agostinelli – Lezione 2 – Probabilita e Statistica, A.A. 2004/2005, 4

Page 30: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

13

Teorema 2 Date due Algebre A1,A2 di sottoinsiemi di Ω allora A = A1∩A2

e un’algebra su Ω.

• Siccome Ω ∈ A1 e Ω ∈ A2 allora Ω ∈ A

• Dato un insieme A ∈ A allora A ∈ A1 e A ∈ A2 ma questo per (2)implica che Ac ∈ A1 e Ac ∈ A2 cioe Ac ∈ A

• Dati due insiemi A,B ∈ A allora A,B ∈ A1 e A,B ∈ A2 inoltre per la(3) abbiamo A ∪ B ∈ A1 e A ∪ B ∈ A2 e quindi A ∪ B ∈ A

¦

Esercizio 7 Mostrare che lo stesso risultato vale per una Tribu.

14

Esercizio 8 Trovare due Algebre la cui unione non e un’Algebra.

Consideriamo Ω = 1, 2, 3, A1 = ∅, Ω, 1, 2, 3 e A2 = ∅, Ω, 2, 1, 3.Allora A = A1 ∪ A2 = ∅, Ω, 1, 2, 1, 3, 2, 3 la quale non e

un’algebra perche1 ∪ 2 = 1, 2 /∈ A

¦

Lo stesso vale per una Tribu.

15

Esercizio 9 A = A ⊆ Ω : A e un insieme finito e sempre un’Algebra?

No, ad esempio quando Ω e un’insieme non finito esso non appartiene aA e la (1) non e soddisfatta

¦

Claudio Agostinelli – Lezione 2 – Probabilita e Statistica, A.A. 2004/2005, 5

Page 31: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

16

Esercizio 10 Sia Ω un insieme. Mostrare che la famiglia A di tutti i sot-toinsiemi finiti di Ω e di tutti gli insiemi che hanno un complementare finitoe un’algebra.

La (1) e soddisfatta perche il complementare di Ω e finito (∅) e quindiΩ ∈ A.

Per ogni A ∈ A abbiamo

• se A e finito allora Ac ∈ A;

• se A non e finito allora il suo complementare Ac deve essere finito equindi Ac ∈ A;

e la (2) e soddisfatta.Infine sia A,B ∈ A.

• se A,B sono entrambi finiti allora A ∪ B e finito;

• se almeno uno dei due, diciamo A non e finito allora Ac e finito ed efinito pure (A ∪ B)c perche (A ∪ B)c ⊆ Ac (siccome A ⊆ (A ∪ B)).

¦

17 Tribu e Algebra

Definizione 4 Un’Algebra si dice finita se e costituita da un numero finitodi elementi.

Teorema 3 Sia A un’Algebra finita su Ω allora e anche una Tribu.

Le prime due condizioni sono ovviamente verificate, rimane da verificarela (3). A questo scopo consideriamo una successione A1, · · · ,∈ A. Siccome Ae finita allora questa successione contiene un numero finito di insiemi distinti(k), Ai1 , · · · , Aik e quindi

∪∞

m=1Am = ∪kl=1Ail ∈ A

perche l’unione non cambia se noi aggiungiamo un numero arbitrario diinsiemi gia inclusi

¦

Claudio Agostinelli – Lezione 2 – Probabilita e Statistica, A.A. 2004/2005, 6

Page 32: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

18 Tribu generata

Definizione 5 (Tribu generata a partire da una famiglia di insiemi)Data una famiglia F di sottoinsiemi di Ω poniamo

AF = ∩A : A e una Tribu e F ⊆ A

chiamiamo AF la Tribu generata da F .

Esempio: Sia

F =

0, 1, [1

2n+1,

1

2n) : n = 0, 1, 2, · · ·

Dire quale dei seguenti insiemi appartiene a AF : (1) 0, (2) 1, (3)1/2, (4) 1/3, (5) [0, 1], (6) (1/4, 1], (7) [0, 1/2], (8) [1/4, 1),(9) (0, 1/2).

19 Tribu generata

Notiamo che tutti gli insiemi che compongono la famiglia sono digiunti e che

• per n = 0 abbiamo l’intervallo [1/2, 1)

• mentre per n = 1 abbiamo [1/4, 1/2)

• dalla loro unione abbiamo che (8) e in AF

• Il (5) e in AF perche [0, 1] = 0, 1 ∪ ∪∞

n=0

[ 1

2n+1 ,1

2n )

• infine (9) e in AF perche (0, 1/2) = [0, 1]/([1/2, 1) ∪ 0, 1)

I rimanenti insiemi non fanno parte di AF .

¦

20 Limite di successioni

Sia (An)∞n=1 una successione di insiemi.

Definizione 6 (Limite superiore) Si definisce limite superiore di An

l’insieme dato da

limsupAn = ∩∞

n=1 ∪∞

m=n Am = ∩∞

n=1 ∪∞

m=n ω ∈ Ω; ω ∈ Am

Tale insieme e costituito da tutti i punti ω ∈ Ω che appartengono ad An

per infiniti indici n. A rappresentare detto insieme si usa anche la scritturaalternativa ω : ω ∈ Ani.o (i.o. = infinitly often) cioe ∀n∃m ≥ n : ω ∈ Am.

Claudio Agostinelli – Lezione 2 – Probabilita e Statistica, A.A. 2004/2005, 7

Page 33: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

21 Limite di successioni

Sia (An)∞n=1 una successione di insiemi.

Definizione 7 (Limite inferiore) Si definisce limite inferiore di An l’in-sieme dato da

liminfAn = ∪∞

n=1 ∩∞

m=n Am = ∪∞

n=1 ∩∞

m=n ω ∈ Ω; ω ∈ Am

Tale insieme e costituito da tutti i punti ω ∈ Ω che appartengono a tuttigli insiemi An tranne che a un numero finito di esso. A rappresentaredetto insieme si usa anche la scrittura alternativa ω : ω ∈ Ana.e. (a.e. =almost everywhere) cioe ∃n∀m ≥ n : ω ∈ Am.

22 Limite di successioni

Sia (An)∞n=1 una successione di insiemi.

Definizione 8 (Limite) Se

limsupAn = liminfAn

allora si dice che la successione ammette limite e lo si indica con limAn

23 Limite di successioni e proprieta

Teorema 4 Sia (An)∞n=1 una successione di insiemi. Allora

liminfAn ⊆ limsupAn

Se An accade per tutti gli n tranne che per un numero finito di essi alloraaccade per un numero infinito di n

¦

Nota: quindi per dimostrare che il limite di una successione esiste esufficiente mostrare che limsupAn ⊆ liminfAn.

Claudio Agostinelli – Lezione 2 – Probabilita e Statistica, A.A. 2004/2005, 8

Page 34: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

24 Limite di successioni e proprieta

Esercizio 11 Sia (An)∞n=1 una successione di insiemi da una Tribu A. Al-lora

• liminfAn ∈ A

• limsupAn ∈ A

Dalla definizione di limite inferiore e superiore e sufficiente mostrare che

∪∞

m=nAm ∈ A e ∩∞

m=n Am ∈ A ∀n = 1, 2, · · ·

¦

25 Limite di successioni e proprieta

Esercizio 12 Sia (An)∞n=1 una successione di insiemi da una Tribu A. Al-lora

• (liminfAn)c = limsupAcn

• (limsupAn)c = liminfAcn

Infatti, per la Regola di De Morgan, abbiamo

(liminfAn)c = (∪∞

n=1 ∩∞

m=n Am)c

= ∩∞

n=1 (∩∞

m=nAm)c

= ∩∞

n=1 ∪∞

m=n Acm = limsupAc

n

e in maniera analoga per l’altro caso.

¦

26 Limite di successioni e proprieta

Definizione 9 (Successione non decrescente) Se una successione di in-siemi (An)∞n=1 e tale che A1 ⊆ A2 ⊆ · · · allora la succesione e detta non

decrescente; si scrive allora An ↑.

Claudio Agostinelli – Lezione 2 – Probabilita e Statistica, A.A. 2004/2005, 9

Page 35: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Definizione 10 (Successione non crescente) Se una successione di in-siemi (An)∞n=1 e tale che A1 ⊇ A2 ⊇ · · · allora la succesione e detta non

crescente; si scrive allora An ↓.

Teorema 5 Una successione (An)∞n=1 non descrescente (o non crescente)ammette limite e risulta

• limAn = ∪∞

n=1An se An ↑

• limAn = ∩∞

n=1An se An ↓

27 Limite di successioni

Esercizio 13 Trovare il limite inferiore e superiore della successione

An =

(

1

3− 1

n+1, 1 + 1

n+1

)

se n = 1, 3, 5, · · ·(

1

n+1, 2

3− 1

n+1

)

se n = 2, 4, 6, · · ·

La prima successione di intervalli (n dispari) converge all’intervallo [13, 1]

mentre la seconda successione di intervalli (n pari) converge all’intervallo(0, 2

3).

Quindi

• liminfAn = [13, 2

3)

• limsupAn = (0, 1]

¦

28 Spazio Probabilizzabile

Definizione 11 (Spazio Probabilizzabile) Dato un spazio campionarioΩ e una tribu A su Ω, la coppia (Ω,A) e detto Spazio Probabilizzabile.

Nella scelta di (Ω,A) c’e sempre una dosa di arbitrarieta e cio per dueragioni principali:

• gli elementi di Ω rappresentano ipotetici risultati dell’esperimento, sec-ondo un opportuno codice: e chiaro che la scelta di tale codice e spessoarbitraria.

Se l’esperimento consiste nel lancio di una moneta, e se ci s’interessa soloalla faccia che apparira (testa o croce), si potra prendere Ω = 0, 1, con laconvenzione che 0 significhi croce e 1 testa. Ma equalmente legittima e laconvenzione inversa (0 =testa, 1 =croce)

Claudio Agostinelli – Lezione 2 – Probabilita e Statistica, A.A. 2004/2005, 10

Page 36: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

29 Spazio Probabilizzabile

• Una volta fissato l’insieme Ω, la scelta della Tribu e arbitraria perchedipende dal criterio in base al quale si decide di considerare certi eventicome interessanti e altri no.

Ritornando all’esperimento del lancio di un dado, fissato Ω = 1, 2, 3, 4, 5, 6se il nostro interesse e nel solo esito e uscita la faccia con il numero 1,allora e sufficiente usare la Tribu ∅, Ω, 1, 1c. In questo caso peropossiamo anche usare il seguente spazio Ω′ = 0, 1 dove 0 indica chenon e uscita la faccia 1 e 1 invece che e uscita. In questo caso la Tribudiventa ∅, Ω′, 0, 1.

30 Probabilita

Definizione 12 (Probabilita) Dato un spazio probabilizzabile (Ω,A), unaProbabilita P e un’applicazione P : A → R

+ tale che

• (1) (non negativita) se A ∈ A allora P(A) ≥ 0;

• (2) (normalizzazione) P(Ω) = 1;

• (3) (σ–additivita) Se Ai∞

i=1 e una successione di eventi di A a due adue incompatibili (cioe Ai ∩ Aj = ∅, i 6= j), allora

P (∪∞

i=1Ai) =∞

i=1

P(Ai)

Questa e la definizione assiomatica di Kolmogorov.

31 Spazio di Probabilita

Definizione 13 (Spazio di Probabilita) La terna (Ω,A, P) dove Ω e unospazio campionario, A e una Tribu su Ω e P e una funzione di ProbabilitaP : A → R

+, e detta Spazio di Probabilita o anche Spazio di Kolmogorov.

32 Sulla probabilita di uscita di una faccia di

un dado

Consideriamo l’esperimento aleatorio del lancio di un dado regolare. E ra-gionevole considerare lo spazio probabilizzabile dato da Ω = 1, 2, 3, 4, 5, 6 e

Claudio Agostinelli – Lezione 2 – Probabilita e Statistica, A.A. 2004/2005, 11

Page 37: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

A = P(Ω). Resta da determinare la probabilita P. Per la natura del proble-ma si puo supporre che i possibili risultati (le faccie) si presentino con ugualeprobabilita, cioe

P(1) = P(2) = P(3) = P(4) = P(5) = P(6) = p

33 Sulla probabilita di uscita di una faccia di

un dado

Il numero p e determinato dal fatto che

1 = P(Ω)

= P(1 ∪ 2 ∪ 3 ∪ 4 ∪ 5 ∪ 6

= P(1) + P(2) + P(3) + P(4) + P(5)

= 6 p

da cui

p =1

6

34 Sulla probabilita di uscita di una faccia di

un dado

Siamo ora in grado di calcolare la probabilita di tutti gli eventi. Ad esempiose A = 2, 4, 6 (l’evento e uscita una faccia con un numero pari) allora

P(A) = P(2) + P(4) + P(6) =1

2

e piu in generale per ogni evento A sara

P(A) =#A

#Ω=

#A

6

Claudio Agostinelli – Lezione 2 – Probabilita e Statistica, A.A. 2004/2005, 12

Page 38: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Corso di Probabilita e StatisticaA.A. 2004/2005

Lezione 3Versione 0.3 del 12 Marzo 2004

Claudio Agostinelli

Dipartimento di Statistica

Universita di Venezia

San Giobbe, Cannaregio, 873, Venezia

Tel. 041 2347446, Fax. 041 2347444 – http://www.dst.unive.it/~claudio

[email protected]

Page 39: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

1 Sulla probabilita di colpire una corona cir-

colare

Qual’e la probabilita di colpire una corona circolare?

1

2

3

2 Sulla probabilita di colpire una corona cir-

colare

Lo spazio campionario puo essere scelto uguale a Ω = 1, 2, 3, cioe i punteggiche identificano le corone (si noti che si assume che sicuramente venga colpitoil tabellone!). La Tribu puo essere quella generata a partire dalla famigliaF = 1, 2, 3. Infine per determiante la funzione di probabilita eragionevole considerare il fatto che la probabilita sia proporzionale all’areadella corona. Per cui (dato r il raggio del tabellone)

P(1) =πr2 − π

(

2

3r)2

π r2= 1 −

2

3

2

=5

9

P(2) =π

(

2

3r)2

− π(

1

3r)2

π r2=

2

3

2

−1

3

2

=3

9

3 Sulla probabilita di colpire una corona cir-

colare

P(3) =π

(

1

3r)2

π r2=

1

3

2

=1

9

Claudio Agostinelli – Lezione 3 – Probabilita e Statistica, A.A. 2004/2005, 1

Page 40: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

e in generale

P(n) =(4 − n)2 − (3 − n)2

32n = 1, 2, 3

Si noti che il risultato non dipende dalla dimensione del tabellone, cioeda r. Inoltre e facile notare che ogni evento in A e ottenibile come unionedegli eventi 1, 2, 3, per cui il calcolo della sua probabilita e semplice.

4 Regole di Calcolo

Regola 1 Se A e un evento di probabilita P(A) allora la probabilita che Anon si verifichi e

P(Ac) = 1 − P(A)

Poiche Ω = A ∪ Ac e A ∩ Ac = ∅

• dalla (3) segue che P(Ω) = P(A) + P(Ac)

• e quindi per (2) 1 = P(A) + P(Ac)

¦

In particolare questo fatto implica che P(∅) = 0.

5 Regole di Calcolo

Regola 2 Se A e B sono due eventi, allora la probabilita che se ne verifichialmeno uno e data da

P(A ∪ B) = P(A) + P(B) − P(A ∩ B)

Decomponiamo i due eventi A ∪ B e B secondo

• A ∪ B = A ∪ (B ∩ Ac) con A e B ∩ Ac incompatibili;

• B = (A ∩ B) ∪ (B ∩ Ac) con A ∩ B e B ∩ Ac incompatibili;

Dall’assioma (3) abbiamo

• P(A ∪ B) = P(A) + P(B ∩ Ac)

• P(B) = P(A ∩ B) + P(B ∩ Ac)

Claudio Agostinelli – Lezione 3 – Probabilita e Statistica, A.A. 2004/2005, 2

Page 41: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

6 Regole di Calcolo

e sottraendo membro a membro

P(A ∪ B) − P(B) = P(A) − P(A ∩ B)

¦

Una conseguenza eP(A ∪ B) ≤ P(A) + P(B)

perche P(A ∩ B) ≥ 0 per (1).Piu in generale abbiamo

P(∪ni=1

Ai) ≤n

i=1

P(Ai)

7 Regole di Calcolo

Regola 3 Se A e un evento che implica l’evento B, cioe se A ⊆ B, allora

P(B) = P(A) + P(B ∩ Ac) ≥ P(A)

Poiche possiamo scrivere B = A∪(B∩Ac) e A e B∩Ac sono incompatibiliallora per (3) abbiamo P(B) = P(A) + P(B ∩ Ac). Inoltre per (1) e il fattoche B ∩ Ac e un evento abbiamo P(B ∩ Ac) ≥ 0 da cui il risultato.

¦

Questa regola ha due importanti conseguenze

• P(A) ≤ 1, (basta porre B = Ω)

• Se A e B sono due eventi equivalenti, cioe A ⊆ B e B ⊆ A alloraP(A) = P(B)

8 Regole di Calcolo

Regola 4 (Disuguaglianza di Bonferroni) Se A1, A2, · · · , An sono even-ti allora

n∑

i=1

P(Ai) −∑

1≤i≤j≤n

P(Ai ∩ Aj) ≤ P (∪ni=1

Ai) ≤n

i=1

P(Ai), n ≥ 1

Basta mostrare la disuguaglianza di sinistra. (Dimostrazione per in-duzione, noi vediamo soltanto l’inizio). Per n = 1 e banalmente verificata.Essa e vera per n = 2 in quanto

P(A1) + P(A2) − P(A1 ∩ A2) = P(A1 ∪ A2)

Claudio Agostinelli – Lezione 3 – Probabilita e Statistica, A.A. 2004/2005, 3

Page 42: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

9 Regole di Calcolo

Se n = 3 si ha

= P(A1 ∪ A2 ∪ A3)

= P(A1 ∪ A2) + P(A3) − P(A3 ∩ (A1 ∪ A2))

= P(A1) + P(A2) − P(A1 ∩ A2) + P(A3) − P((A3 ∩ A1) ∪ (A3 ∩ A2))

=3

i=1

P(Ai) − P(A1 ∩ A2)

− [P(A3 ∪ A1) + P(A2 ∪ A3) − P(A1 ∩ A2 ∩ A3)]

=3

i=1

P(Ai) −∑

1≤i≤j≤3

P(Ai ∩ Aj) + P(A1 ∩ A2 ∩ A3)

¦

10 Limiti e Probabilita

Teorema 2 • Se A1 ⊆ A2 ⊆ · · · ∈ A e una successione di eventi nondecrescente e A = limAn = ∪∞

n=1An allora

P(A) = P(limAn) = limP(An)

• Se A1 ⊇ A2 ⊇ · · · ∈ A e una successione di eventi non crescente eA = limAn = ∩∞

n=1An allora

P(A) = P(limAn) = limP(An)

11 Limiti e Probabilita

Poiche A = ∪∞n=1

An = ∪∞n=1

An/An−1 = ∪∞n=1

(An ∩ Acn−1

) (avendo definitoA0 = ∅) ed e An−1 ⊆ An, n = 1, 2, · · ·, gli eventi An∩Ac

n−1sono incompatibili

e dunque, per la σ–additivita e per la prima parte della Regola 3

P(A) = P (∪∞

n=1(An/An−1))

=∞

n=1

P(An/An−1)

=∞

n=1

(P(An) − P(An−1))

Claudio Agostinelli – Lezione 3 – Probabilita e Statistica, A.A. 2004/2005, 4

Page 43: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

12 Limiti e Probabilita

ma

=∞

n=1

(P(An) − P(An−1))

= limN→∞

N∑

n=1

(P(An) − P(An−1))

= limN→∞

P(AN)

13 Limiti e Probabilita

Per la seconda parte, si considerano i complementari in modo che Ac1⊆ Ac

2⊆

· · ·, abbiamolim

n→∞Ac

n = ∪∞

n=1Ac

n = (∩∞

n=1An)c = Ac

alloralim

n→∞P(Ac

n) = P( limn→∞

Acn) = P(Ac)

e quindi

= limn→∞

P(An) = limn→∞

(1 − P(Acn)) =

= 1 − limn→∞

P(Acn) = 1 − P( lim

n→∞Ac

n)

= 1 − P(Ac) = P(A)

¦

14 Costruzione della funzione di Probabilita

Adesso ci occupiamo del modo in cui definire la funzione P nel caso che Ωsia al piu numerabile e si consideri come Tribu A = P(Ω). Supponiamo cheΩ = ω1, ω2, · · ·. Ad ogni evento ωi ∈ Ω si assegna un peso p(ωi), i = 1, 2, · · ·in modo che

p(ωi) ≥ 0i = 1, 2, · · · ;∞

i=1

p(ωi) = 1

Per ogni evento A ∈ A si definisce la sua probabilita come somma di tutti ipesi relativi agli eventi ωi che appartengono ad A

P(A) =∑

ωi∈A

p(ωi) =∑

ωi∈A

P(ωi) .

Claudio Agostinelli – Lezione 3 – Probabilita e Statistica, A.A. 2004/2005, 5

Page 44: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

15 Costruzione della funzione di Probabilita

E facile vedere (provate come esercizio) che il procedimento proposto por-ta alla definizione di una funzione di Probabilita coerente con gli assiomienunciati.

Quando Ω non e finito ne numerabile, il problema della costruzione dellafunzione di Probabilita diviene piu complesso. Poiche uno dei piu importantiinsiemi non numerabili e quello dei numeri reali il problema e assai rilevante.Lo affronteremo un po’ piu avanti.

16 Sulla probabilita di avere testa

Esercizio 1 Una moneta e lanciata ripetutamente fino a che non compareuna testa. Il numero di croci prima che compaia una testa puo essere 0, 1, 2, · · ·.Questo fatto puo essere descritto con uno spazio di probabilita (Ω,A, P) cosıcostituito

• Ω = 0, 1, 2, · · ·;

• A = P(Ω);

• P(n) = 1

2n+1 che e la probabilita di avere n croci.

Vogliamo calcolare la probabilita dell’evento n sia pari.

17 Sulla probabilita di avere testa

Siccome abbiamo scelto A = P(Ω) allora n sia pari e un evento. Inoltre

n sia pari = 0 ∪ 2 ∪ 4 ∪ 6 ∪ · · ·

alloraP(n sia pari) = P(0 ∪ 2 ∪ 4 ∪ 6 ∪ · · ·)

A questo scopo e piu semplice considerare la seguente probabilita

P(n sia dispari) = P(1 ∪ 3 ∪ 5 ∪ · · ·)

Claudio Agostinelli – Lezione 3 – Probabilita e Statistica, A.A. 2004/2005, 6

Page 45: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

18 Sulla probabilita di avere testa

infatti,

P(n sia dispari) =1

22+

1

24+

1

26+

1

28+ · · ·

=1

1 − q− 1 =

4

3− 1 =

1

3

con q = 1/4, perche e una progressione geometrica di ragione q = 1/4dove manca il primo termine (1). Siccome n sia pari = Ω/n sia dispariabbiamo

P(n sia pari) = 1 −1

3=

2

3

¦

19 Prodotto di una famiglia di Tribu

Definizione 1 Data una qualsiasi famiglia (Ωi,Ai)i∈I di spazi probabiliz-zabili si considerino tutte le famiglie Aii∈I con Ai ∈ Ai per ogni indice i,e Ai 6= Ωi al piu per un numero finito di indici. Per ogni siffatta famiglia, siconsideri il “rettangolo”

i∈I . La Tribu generata, sull’insieme∏

i∈I Ωi, dal-la classe di tutti questi rettangoli si chiama la Tribu prodotto della famigliadi Tribu Aii∈I , e si denota con ⊗i∈IAi. Quando sia I = 1, 2, · · · , n, siscrive piu semplicemente A1 ⊗ · · · ⊗ An.

20 Prodotto di una famiglia di Spazi proba-

bilizzati

Definizione 2 Sia data una famiglia (Ωi,Ai, Pi)i∈I di spazi probabilizzati.Si dimostra che, sulla Tribu prodotto ⊗i∈IAi, esiste un’unica funzione diprobabilita P che verifichi la relazione

P

(

i∈I

Ai

)

=∏

i∈I

Pi(Ai)

per ogni famiglia Aii∈I (come definita al punto precedente). Questa prob-abilita si chiama probabilita prodotto della famiglia Pii∈I e si denota con⊗i∈IPi. Quando sia I = 1, 2, · · · , n, si scrive piu semplicemente P1 ⊗· · ·⊗Pn.

Claudio Agostinelli – Lezione 3 – Probabilita e Statistica, A.A. 2004/2005, 7

Page 46: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

21 Esercizio – Quale prodotto?

In un esperimento aleatorio si e chiesto a tre signore, scelte casualmente, seutilizzano un certo prodotto.

1. Elencare gli elementi dello spazio campionario, usando le lettere S per“sı” e N per “no”;

2. Usando l’algebra P(Ω) elencare i risultati che implicano l’evento E1 =“almenodue donne usano il prodotto”;

3. Definire l’evento i cui elementi sono: E2 = (S, S, S), (N,S, S), (S, S,N), (N,S,N).

22 Esercizio – Probabilita di eventi

Dati due sottoinsiemi A e B di uno spazio campionario Ω, con P(Ac) = 0.3,P(B) = 0.4 e P(A ∩ Bc) = 0.5.

1. Definire in maniera appropriata, per studiare il problema, lo spaziocampionario Ω e un’algebra A su di esso;

Si determinino le probabilita

2. P(A);

3. P(A ∩ B);

4. P(A ∪ B).

23 Esercizio – Mazzo di carte

Da un mazzo di 52 carte se ne sceglie una in modo casuale.

1. Qual e la probabilita di estrarre una figura qualsiasi o una carta difiori?

2. E di estrarre una figura di fiori?

Claudio Agostinelli – Lezione 3 – Probabilita e Statistica, A.A. 2004/2005, 8

Page 47: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

24 Esercizio – Esami da superare

Uno studente deve sostenere due esami E1 e E2. Sia A l’evento che egli superil’esame E1 e B l’evento che superi l’esame E2. Si ammetta che P(A) = 0.8,P(B) = 0.9 e P(A ∩ B) = 0.75.

1. Si definisca lo spazio campionario Ω;

2. Si definisca un’algebra adatta a studiare i risultati interessanti dell’es-perimento;

3. Si rappresentino gli eventi con i diagrammi di Venn;

4. Si descrivano verbalmente gli eventi: A∪B, Ac ∪Bc, A∩Bc, Ac ∩Bc,(A ∪ B)c;

5. Si calcolino le probabilita degli eventi di cui al punto precedente.

25 Esercizio – Tempo libero

Da un’indagine svolta presso una certa scuola e emerso che nel tempo liberoil 10% degli studenti studia musica, il 20% pratica sport, il 5% studia unalingua straniera. Inoltre il 5% studia musica e pratica anche uno sport, il3% studia musica e una lingua straniera, il 2% studia una lingua e fa sporte l’1% fa tutte tre le cose. Scegliendo in modo casuale uno studente,

1. qual e la probabilita che pratichi solo sport?

2. Che studi musica e una lingua ma non pratichi nessuno sport?

26 Esercizio – Due urne

Un’urna contiene due palle nere e una rossa. Una seconda urna ne contieneuna bianca e due rosse. Si estrae a caso una palla da ciascuna urna.

1. Descrivete uno spazio campionario per quest’esperimento;

2. Definite un’algebra adatta a studiare gli eventi descritti nei punti suc-cessivi;

3. Descrivete l’evento “prima pallina nera”;

4. Qual e la probabilita che entrambe le palline siano dello stesso colore?

5. E che siano di colore diverso?

Claudio Agostinelli – Lezione 3 – Probabilita e Statistica, A.A. 2004/2005, 9

Page 48: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

27 Esercizio – Moneta equilibrata

Una moneta equilibrata viene lanciata 3 volte consecutivamente.

1. Qual e la probabilita che si presenti esattamente una testa?

2. Qual e la probabilita che si presenti almeno una testa?

28 Esercizio – Due dadi

Si lanciano due dadi a sei facce bilanciati.

1. Si definisca per ogni domanda che segue uno spazio probabilizzatoadatto a studiare i risultati di interesse;

2. Qual e la probabilita che la somma dei risultati sia un numero pari?

3. E che sia uguale a 5?

4. Qual e la probabilita che la differenza in modulo fra i due risultati siauguale a 3?

Claudio Agostinelli – Lezione 3 – Probabilita e Statistica, A.A. 2004/2005, 10

Page 49: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Corso di Probabilita e StatisticaA.A. 2004/2005

Lezione 4Versione 0.4 del 12 Marzo 2004

Claudio Agostinelli

Dipartimento di Statistica

Universita di Venezia

San Giobbe, Cannaregio, 873, Venezia

Tel. 041 2347446, Fax. 041 2347444 – http://www.dst.unive.it/~claudio

[email protected]

Page 50: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

1 Calcolo Combinatorio

Il Calcolo combitanorio, all’inizio, si interessava principalmante all’enumer-azione di permutazioni, combinazioni e partizioni di un insieme finito sottovarie condizioni. Oggi il Calcolo combinatorio e una parte della matematicadiscreta che studia l’esistenza, la costruzione, l’enumerazione e esamina leproprieta di configurazioni che soddisfano delle particolari condizioni.

2 Calcolo Combinatorio

Siano S1, S2, · · · , Sr, r insiemi di cardinalita n1, n2, · · · , nr formati da oggettidistinti e si consideri il prodotto cartesiano

Ωr = S1 × S2 × · · · × Sr = (s1, s2 · · · , sr) : s1 ∈ S1, s2 ∈ S2, · · · sr ∈ Sr .

Gli elementi di Ωr sono evidentemente gli allineamenti (s1, s2, · · · , sr) consi ∈ Si, i = 1, 2, · · · , r.

Quante r–uple (s1, s2, · · · , sr) contiene Ωr? Ovvero quanti sono gli allinea-menti che si possono formare prendendo un oggetto da S1, un oggetto da S2,. . ., un oggetto da Sr?

3 Disposizioni con ripetizione

Poiche si puo scegliere s1 ∈ S1 in n1 modi e per ognuna di tali scelte si puoscegliere s2 ∈ S2 in n2 modi e cosı di seguito il numero complessivo degliallineamenti possibili sara dato da

n1 · n2 · · ·nr .

Se in particolare, S1 = S2 = · · · = Sr ed ni = n > 1, i = 1, 2, · · · , r allora ilnumero delle r–uple (s1, s2, · · · , sr) di Ωr e dato da nr ed ogni allineamentosi dice disposizione con ripetizione.

4 Disposizioni con ripetizione

Regola 1 (Disposizioni con ripetizione) Dato un insieme S = a1, a2, · · · , andi n oggetti distinti, il numero degli allineamenti che si possono formare conr oggetti scelti tra gli n – ritenendo diversi due allineamenti o perche con-tengono oggetti differenti o perche gli stessi oggetti si susseguono in ordine

Claudio Agostinelli – Lezione 4 – Probabilita e Statistica, A.A. 2004/2005, 1

Page 51: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

diverso o, infine, perche uno stesso oggetto si ripete un numero diverso divolte – e dato da

D∗

n,r = nr

Ogni allineamento si dice disposizione con ripetizione di n oggetti di classer.

5 Disposizioni con ripetizione

Ad esempio, S = a1, a2, a3 ed r = 2, allora tali allineamenti sono

(a1, a1), (a1, a2), (a2, a1), (a1, a3), (a3, a1), (a2, a2), (a2, a3), (a3, a2), (a3, a3)

in numero di 32 = 9.

6 Esercizio – Disposizioni con ripetizione

Esercizio 1 Un’urna contiene 20 palline numerate da 1 a 20. Si eseguono5 estrazioni rimettendo, dopo ogni estrazione, la pallina nell’urna.

Quanti sono gli allineamennti che si possono ottenere come risultato delle5 estrazioni? E quanti sono gli allineamenti in cui non compare il numero20?

Poiche S1 = 1, 2, · · · , 20 la risposta alla prima domanda sara D∗

20,5 =205 = 3200000 essendo n = 20 e r = 5. Per rispondere alla seconda domandabasta osservare che gli oggetti a disposizione sono quelli contenuti in S2 =1, 2, · · · , 19 e pertanto D∗

19,5 = 195 = 2476099

¦

7 Disposizioni senza ripetizione

Se invece si vogliono contare gli allineamenti che si possono formare con glioggetti contenuti in S = a1, a2, · · · , an – presi a gruppi di 1 ≤ r ≤ n –ma in modo che uno stesso oggetto non appaia piu di una volta, si hannole disposizioni senza ripetizione. Il numero di tali allineamenti equivale acontare i modi in cui si possono occupare r caselle con gli oggetti dati (esenza ripetizione). La prima casella potra essere occupata in n modi. Perognuno di questi vi sono n− 1 modi per occupare la seconda casella e cosı diseguito fino all’ultima che potra essere occupata in (n − r + 1) modi.

Claudio Agostinelli – Lezione 4 – Probabilita e Statistica, A.A. 2004/2005, 2

Page 52: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

8 Disposizioni senza ripetizione

Regola 2 (Disposizioni senza ripetizione) Dato un insieme S = a1, a2, · · · , andi n oggetti distinti, il numero degli allineamenti che si possono formare con1 ≤ r ≤ n oggetti scelti tra gli n – ritenendo diversi due allineamenti o perchecontengono oggetti differenti o perche gli stessi oggetti si susseguono in ordinediverso – e dato da

Dn,r = n(n − 1)(n − 2) · · · (n − r + 1)

Ogni allineamento si dice disposizione semplice o senza ripetizione di n ogget-ti di classe r.

9 Disposizioni senza ripetizione

Ad esempio, se S = a1, a2, a3 ed e r = 2, allora tali allineamenti saranno

(a1, a2), (a2, a1), (a1, a3), (a3, a1), (a2, a3), (a3, a2)

in numero di 3 ·2 = 6. Si noti che non sono piu presenti le coppie nella forma(ai, ai), i = 1, 2, 3.

10 Esercizio – Disposizioni senza ripetizione

Esercizio 2 Un’urna contiene 20 palline numerate da 1 a 20. Si eseguono 5estrazioni senza rimettere, dopo ogni estrazione, la pallina nell’urna. Quantisono gli allineamenti che si possono ottenere come risultato delle 5 estrazioni?E quanti quelli in cui non compare il numero 20?

Abbiamo n = 20 e r = 5, poiche non si rimette la pallina nell’urna,abbiamo

D20,5 = 20 · 19 · 18 · 17 · 16 = 1860480

mentre per rispondere al secondo quesito

D19,5 = 19 · 18 · 17 · 16 · 15 = 1395360 .

¦

Claudio Agostinelli – Lezione 4 – Probabilita e Statistica, A.A. 2004/2005, 3

Page 53: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

11 Permutazioni

Se, in particolare, si considerano le disposizioni senza ripetizione con r = nallora Dn,n = n(n−1)(n−2) · · · 1 = n! e tali allineamenti, che possono differiresolo per l’ordine con cui si susseguono gli oggetti, sono detti permutazioni din oggetti.

12 Permutazioni

Regola 3 Dato un insieme S = a1, a2, · · · , an di n oggetti distinti, il nu-mero degli allineamenti che si possono formare con tutti essi – ritenendodiversi due allineamenti perche gli oggetti si susseguono in ordine diverso –e dato da n! (si pone 0! = 1).

Ad esempio, se S = a1, a2, a3, allora le permutazioni sono

(a1, a2, a3), (a1, a3, a2), (a3, a2, a1), (a3, a1, a2), (a2, a3, a1), (a2, a1, a3)

in numero di 3! = 6.

13 Esercizio – Permutazioni

Esercizio 3 Si abbiano n ≥ 1 palline numerate da 1 a n ed altrettante scatoleegualmente numerate. In quanti modi possiamo disporre le n palline nelle nscatole? E in quanti modi si puo farlo quando si richiede che la pallinanumerata con 1 ≤ m ≤ n occupi la scatola col numero m?

I modi sono ovviamente n!. I modi in cui si possono distribuire le n pallinenelle n scatole con la pallina col numero m nella scatola m sono (n − 1)!

¦

14 Combinazioni

Le disposizioni senza ripetizione si distinguono sia per l’ordine sia perchecontengono oggetti differenti. Se ora le disposizioni non vengono piu distintesecondo l’ordine, gli allineamenti si chiamano combinazioni ed il loro numeroviene indicato con

Cn,r =Dn,r

r!

Claudio Agostinelli – Lezione 4 – Probabilita e Statistica, A.A. 2004/2005, 4

Page 54: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

15 Combinazioni

Regola 4 Dato un insieme S = a1, a2, · · · , an di n oggetti distinti, il nu-mero degli allineamenti che si possono formare con 1 ≤ r ≤ n oggetti sceltitra gli n – ritenendo diversi due allineamenti solo perche contengono oggettidifferenti – e dato da

Cn,r =Dn,r

r!

Ogni allineamento si dice combinazione senza ripetizione di n oggetti di classer.

Il numero Cn,r e spesso indicato con(

n

r

)

e si chiama coefficiente binomiale(o anche binomio di Newton).

16 Esercizio – Combinazioni

Se, ad esempio S = a1, a2, a3 ed e r = 2, le combinazioni saranno date da

(a1, a2), (a1, a3), (a2, a3)

in numero di 3·22

= 3

Esercizio 4 Si vuole costituire un comitato di 5 membri scelti tra 10 persone.Quanti differenti comitati si possono formare?

Poiche ognuna delle persone disponibili potra apparire al piu una volta nelcomitato e poiche due gruppi costituiscono uno stesso comitato se contengonole stesse persone (anche se esse appaiono in un ordine diverso) allora il numerorichiesto e

C10,5 =10 · 9 · 8 · 7 · 6

1 · 2 · 3 · 4 · 5= 252

¦

17 Cardinalita dell’insieme delle parti di un

insieme finito

Teorema 1 Sia Sn = a1, a2, · · · , an un insieme di n oggetti distinti allorala cardinalita di P(S) e 2n.

Dimostriamo questo asserto per induzione. Cominciamo con il verificareche l’asserto vale quando n = 0, 1, 2 infatti

Claudio Agostinelli – Lezione 4 – Probabilita e Statistica, A.A. 2004/2005, 5

Page 55: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

• n = 0 e P(S0) = P(∅) = ∅ ha cardinalita 20 = 1;

• n = 1 e P(S1) = ∅, a1 ha cardinalita 21 = 2;

• n = 2 e P(S2) = ∅, a1, a2, S2 ha cardinalita 22 = 4.

Ora assumiamo che #P(Sk) = 2k e mostriamo che vale #P(Sk+1) = 2(k+1).

18 Cardinalita dell’insieme delle parti di un

insieme finito

Infatti i sottoinsiemi di Sk+1 possono essere suddivisi in due categorie

• quelli che non contengono ak+1, diciamo A;

• quelli che contengono ak+1, diciamo B.

Gli insiemi A sono 2k per l’ipotesi di induzione. Rimane da mostrare che gliinsiemi B sono 2k.

A questo scopo si noti che ogni insieme B e esprimibile come A ∪ ak+1cioe esiste una funzione bijettiva (iniettiva e suriettiva) del tipo

A 7→ A ∪ ak+1

e questo implica che gli insiemi B siano 2k.

19 Cardinalita dell’insieme delle parti di un

insieme finito

In conclusione abbiamo2k + 2k = 2k+1

¦

20 Cardinalita di P e Combinazioni

E importante notare che vale la seguente identita

2n =n

r=0

(

n

r

)

, n ≥ 0

Claudio Agostinelli – Lezione 4 – Probabilita e Statistica, A.A. 2004/2005, 6

Page 56: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

ed inoltre vale la formula di Van der Monde(

m + n

r

)

=r

i=0

(

m

i

)

·

(

n

r − i

)

infine e facile vedere che(

n

r

)

=n!

r! · (n − r)!=

(

n

n − r

)

21 Scimmie e tastiere

Esercizio 5 Una scimmia digita 3 tasti in maniera casuale da una tastieraper computer (supponiamo che la tastiera abbia 100 tasti). Qual’e la proba-bilita che la scimmia digiti una parola di tre lettere che inizia con una con-sonante (20) e finisce con due vocali (consideriamo anche la “j” come vocalee quindi abbiamo 6 vocali). La parola non deve avere senso compiuto.

Consideriamo di codificare i tasti con numeri da 1 a 100 e abbiamo Ωi =1, 2, · · · , 100 per ogni prova i = 1, 2, 3. La cardinalita dello spazio prodottoΩ = Ω1 × Ω2 × Ω3 dove stara il nostro risultato e D∗

100,3 = 1003.

22 Scimmie e tastiere

Usiamo come Tribu su Ωi l’insieme delle parti e come Tribu su Ω la Tribuprodotto. Dato che tutti gli eventi elementari presenti in Ω sono equiprobabilie quindi

PΩ(evento elementare) =1

1003

allora la probabilita dell’evento desiderato e pari a 1/1003 per il numero dieventi elementari che implicano tale evento.

23 Scimmie e tastiere

La prima consonante puo essere scelta in 20 modi diversi, la vocale in 6 modidiversi e l’ultima vocale in 6 modi diversi quindi

= PΩ(una parola di tre lettere che inizia con una consonante e finisce con due vocali)

=20 · 6 · 6

1003= 0.00072 .

¦

Claudio Agostinelli – Lezione 4 – Probabilita e Statistica, A.A. 2004/2005, 7

Page 57: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

24 Abracadabra

Esercizio 6 Qual’e la probabilita che compaia la parola ABRACADABRAse le lettere A,A,A,A,A,B,B,C,D,R,R sono sorteggiate in maniera casuale?

I casi possibili sono tutte le permutazioni dell’insieme delle lettere cioe11!. Se tutte le lettere fossero diverse allora avremmo un caso favorevole. Manel nostro caso ci sono lettere che compaiono piu volte cosı certe permutazioniportano tutte alla stessa parola.

Etichettiamo le lettere con un numero da 1 a 11. Lo spazio campionarioe dato dall’insieme delle permutazioni di 11 numeri cosı #Ω = 11!.

25 Abracadabra

I casi favorevoli (quelli che implicano l’evento desiderato) sono calcolati nelmodo seguente

• La lettera A puo essere posizionata in 5! modi diversi

• Le lettere B e R in 2! modi

cosı

P(ABRACADABRA) =5! · 2! · 2!

11!=

1

83160

¦

26 Estrazioni da un’urna

Esercizio 7 Un’urna contiene 100 palline di cui 30 bianche e 70 rosse. Sivuole conoscere la probabilita di estrarre 5 palline bianche in una successionedi 10 estrazioni senza reimmissione.

I possibili risultati delle 10 estrazioni sono ovviamente gli allineamenti(a1, a2, · · · , a10) in cui ai = B (B =bianca) oppure ai = R (R =rossa), peri = 1, 2, · · · , 10.

Quindi Ω sara costituito da tutti questi allineamenti.Si puo assumere che ognuno di tali allineamenti abbia la stessa probabilita

di venire estratto e il problema si riduce nel calcolare il numero di eventielementati che implicano l’evento desiderato.

Claudio Agostinelli – Lezione 4 – Probabilita e Statistica, A.A. 2004/2005, 8

Page 58: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

27 Estrazioni da un’urna

A tale scopo osserviamo che la cardinalita di Ω e

#Ω = C100,10 =

(

100

10

)

in quanto non e importante l’ordine con cui compaiono. Vi sono poi 30 pallinebianche da cui possiamo estrarne 5 sicche esse possono essere selezionate in

C30,5 =

(

30

5

)

modi diversi.

28 Estrazioni da un’urna

Per ogni scelta delle palline bianche, le 5 rosse possono essere scelte tra le 70disponibili, in C70,5 =

(

705

)

modi. Pertanto il numero degli allineamenti checontengono 5 palline bianche e

(

30

5

)

·

(

70

5

)

e la probabilita dell’evento desiderato e

P(5 palline bianche e 5 rosse) =

(

305

)

·(

705

)

(

10010

) ' 0.0996 .

29 Estrazioni da un’urna

Un altro modo per determinare la probabilita cercata e quello di fare rifer-imento al numero degli allineamenti che tengono conto anche dell’ordine incui si presentano le palline. Il numero degli allineamenti di 100 palline presea gruppi di 10 e D100,10.

Le cinque posizioni occupate dalle palline bianche nella successione delle10 estrazioni possono essere scelte in C10,5 modi.

Quando una tale scelta e fatta, la prima pallina bianca puo essere sceltain 30 modi, la seconda in 29, la terza in 28, la quarta in 27 e la quinta in 26cioe D30,5 e nello stesso modo per le palline rosse: D70,5.

Claudio Agostinelli – Lezione 4 – Probabilita e Statistica, A.A. 2004/2005, 9

Page 59: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

30 Estrazioni da un’urna

In definitiva il numero degli allineamenti contenenti 5 palline bianche e 5rosse sara

(

10

5

)

· D30,5 · D70,5

e la probabilita

P(5 palline bianche e 5 rosse) =

(

105

)

· D30,5 · D70,5

D100,10

Qual’e lo spazio probabilizzabile che stiamo considerando in questo modo?

¦

31 Mazzo di 52 carte

Esercizio 8 Una mano di poker e formata da cinque carte estratte a casosenza reimmissione da un mazzo di 52 carte. Determinare le probabilita deiseguenti eventi

• E1 = la mano contiene 5 carte dello stesso colore (che possono esseremesse) in scala, 10, J , Q, K, A (scala reale);

• E2 = la mano contiene 5 carte, di uno stesso colore, con valori insuccessione (ad esempio, A, 2, 3, 4, 5, ecc.) che non sia una scalareale;

• E3 = la mano contiene quattro carte di eguale valore;

• E4 = la mano contiene due carte di eguale valore e tre carte di egualevalore (Full).

32 Mazzo di 52 carte

Consideriamo come spazio campionario Ω = combinazioni di 5 carte da unmazzo di 52.

• Per calcolare la probabilita di E1 basta pensare che (in questa formu-lazione) vi sono solo 4 combinazioni che implicano E1 quindi

P(E1) =4

(

525

)

Claudio Agostinelli – Lezione 4 – Probabilita e Statistica, A.A. 2004/2005, 10

Page 60: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

33 Mazzo di 52 carte

• L’evento E2 e implicato da 40− 4 combinazioni perche per ogni coloreabbiamo 10 possibili successioni di 5 carte ma l’ultima e la scala realee quindi

P(E2) =40(

525

) −4

(

525

)

• Per E3 possiamo ragionare nel modo seguente. Fissiamo per ora il val-ore, diciamo 1, abbiamo

(

44

)

modi per scegliere le quattro carte 1 e(

481

)

modi per scegliere l’ultima carta (si badi che utilizzando le combinazioninon teniamo conto dell’ordine con cui le carte compaiono).

34 Mazzo di 52 carte

Ora ci sono 13 valori nel mazzo e quindi gli eventi favorevoli sono

13 ·

(

4

4

)

·

(

48

1

)

= 134!

4! 0!

48!

47! 1!= 13 · 48 = 624

e la probabilita e

P(E3) =624(

525

) ' 0.240 · 10−3

35 Mazzo di 52 carte

• Per E4 ragioniamo allo stesso modo. Fissiamo i due valori 1 e 2 ad es-empio, e quindi il numero di allineamenti (senza tenere conto dell’ordinein cui compaiono) e

(

4

3

)

·

(

4

2

)

rimane da calcolare in quanti modi possiamo scegliere i due valori:D13,2 = 13 · 12 e quindi il numero di eventi favorevoli e

13 · 12 ·

(

4

3

)

·

(

4

2

)

= 13 124!

3! 1!

4!

2! 2!= 13 · 12 · 23 · 3 = 3744

36 Mazzo di 52 carte

e la probabilita e

P(E4) =3744(

525

) ' 1.441 · 10−3

Claudio Agostinelli – Lezione 4 – Probabilita e Statistica, A.A. 2004/2005, 11

Page 61: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

37 Mazzo di 52 carte

• Si calcoli la probabilita dell’evento E5 = almeno due assi; Dato chela probabilita di avere k = 0, 1, · · · , 4 assi e

P(esattamente k assi) = pk =

(

4k

)(

485−k

)

(

525

)

allora P(almeno due assi) = p2 + p3 + p4.

• Si calcoli la probabilita di fare Colore servito (escono 5 carte dello stessoseme).

P(Colore) = 4 ·

(

135

)(

390

)

(

525

)

38 Mazzo di 52 carte

• Si calcoli la probabilita di fare Poker servito

P(Poker servito) = 13 ·

(

44

)(

485−4

)

(

525

)

¦

39 Impiegati e uffici

Esercizio 9 In quanti modi si possono assegnare venti impiegati a quattrouffici se ad ogni ufficio devono essere assegnati cinque impiegati?

Possiamo ragionare nel modo seguente, pensando inizialmente che il prob-lema sia di assegnare ogni impiegato ad una delle 20 sedie disponibili. Ilnumero di queste assegnazioni e pari al numero di permutazioni cioe 20!. Echiaro che all’interno di queste assegnazioni (alle sedie) ci sono permutazioniche portano alla stessa assgnazioni in termini di ufficio. Per ogni ufficio lepermutazioni equivalenti sono pari a 5! e in definitiva il numero di modi e

20!

(5!)4

¦

Claudio Agostinelli – Lezione 4 – Probabilita e Statistica, A.A. 2004/2005, 12

Page 62: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

40 Ragazzi e ragazze

Esercizio 10 Da una lista di 10 ragazzi e 7 ragazze si deve formare uncomitato comprendente 5 ragazzi e 3 ragazze. Quanti possibili comitati sipossono formare?

Possiamo scegliere i ragazzi in(

105

)

modi diversi e per ognuno di questi

modi possiamo scegliere le ragazza in(

73

)

modi e quindi(

10

5

)

·

(

7

3

)

= 8820

¦

41 Codici

Esercizio 11 Quanti codici si possono formare utilizzando tre cifre e duelettere dell’alfabeto inglese (26 lettere), se le lettere occupano le prime dueposizioni e cifre e lettere possono ripetersi.

Quanti codici presentano qualche ripetizione?

Nel primo quesito usiamo le Disposizioni con ripetizione e quindi abbiamo

D∗

26,2 · D∗

10,3 = 262 · 103

Per la seconda parte possiamo calcolare facilmente il numero di codici chenon presentano ripetizioni che sono D26,2 · D10,3 = 26 · 25 · 10 · 9 · 8 e quindiil numero di quelli che presentano una qualche ripetizione e

D∗

26,2 · D∗

10,3 − D26,2 · D10,3

¦

42 Compleanni

Esercizio 12 Determinare la probabilita che n persone scelte a caso abbianotutte compleanno diverso (si ignorino gli anni bisestili).

Facciamo innanzitutto un’assunzione di equiprobabilita del giorno di nasci-ta (questa assunzione non e verificata nella realta perche ci sono periodidell’anno in cui ci sono piu nascite.) Sotto questa ipotesi la probabilita e

D365,n

D∗365,n

=

365!(365−n)!

365n

se n ≤ 365 altrimenti la probabilita e 0

Claudio Agostinelli – Lezione 4 – Probabilita e Statistica, A.A. 2004/2005, 13

Page 63: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

¦

Claudio Agostinelli – Lezione 4 – Probabilita e Statistica, A.A. 2004/2005, 14

Page 64: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Corso di Probabilita e StatisticaA.A. 2004/2005

Lezione 5Versione 0.3 del 12 Marzo 2004

Claudio Agostinelli

Dipartimento di Statistica

Universita di Venezia

San Giobbe, Cannaregio, 873, Venezia

Tel. 041 2347446, Fax. 041 2347444 – http://www.dst.unive.it/~claudio

[email protected]

Page 65: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

1 Costruzione di uno spazio probabilizzato

quando Ω e piu che numerabile

Per semplicita, limiteremo la nostra attenzione al caso Ω = R l’insiemedei numeri reali. I risultati potranno essere estesi (facendo uso degli spaziprodotto) al caso Ω = R

n per qualche n intero positivo fissato.Il primo passo e quello di cercare un spazio probabilizzabile adeguato.

Una possibilita risulta il considerare A = P(R) che e sicuramente una Tribu.Tuttavia questa Tribu e troppo vasta e comprende molti eventi che non sonodi interesse.

E il caso di considerare una Tribu meno fine (che abbia meno elementidi P(R)). Ad esempio possiamo richiedere che la Tribu contenga tutti gliintervalli nella forma

(a, b] a ≤ b .

2 Costruzione di uno spazio probabilizzato

quando Ω e piu che numerabile

A questo scopo possiamo considerare la Tribu generata a partire da questaclasse di insiemi cioe, posto F = (a, b] : a ≤ b; a, b ∈ R,

AF = ∩A : A e una Tribu e F ⊆ A

che e la piu piccola Tribu che contiene tutti i suddetti intervalli.

Definizione 1 (Tribu Boreliana) Si chiama Tribu Boreliana di R, e sidenota con B(R), la Tribu generata su R dalla classe di tutti gli intervalli(a, b] di R. I suoi elementi si chiamano gli insiemi boreliani di B.

e lo spazio (R,B(R)) e uno spazio probabilizzabile.

3 Tribu Boreliana

La Tribu di Borel su R contiene anche i seguenti elementi

• (a, b);

• [a, b];

• [a, b);

Claudio Agostinelli – Lezione 5 – Probabilita e Statistica, A.A. 2004/2005, 1

Page 66: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

• (−∞, b];

• (a,∞);

• i singoletti di R;

• gli insiemi finiti di R;

• gli insiemi numerabili di R.

4 Tribu Boreliana

Ma B(R) contiene anche sottoinsiemi di R che non si lasciano descrivere conla stessa semplicita. In buona sostanza, B(R) contiene tutti i sottoinsiemi diR per i quali abbia senso parlare della loro lunghezza (o nel caso di R

2, R3,

ecc., di area, volume, ecc.).Naturalmente, B(R) non contiene tutti i sottoinsiemi di R; alcuni sot-

toinsiemi di R non appartengono a B(R) ma sono difficili a costruirsi e nonhanno alcuna concreta rilevanza applicativa (Ad esempio si veda Billingsley(1995), pag. 45).

5 Costruzione di una funzione di Probabilita

su (R,B(R))

Per procedere all’assegnazione di una funzione di Probabilita agli eventi diB(R), si fissa la probabilita da attribuire agli intervalli (a, b] mediante unafunzione F (x) che e

• non decrescente;

• continua da destra per ogni x ∈ R: limx→x+

0(x) = F (x0) per ogni

x0 ∈ R;

• limx→+∞ F (x) = 1;

• limx→−∞ F (x) = 0.

ponendoP ((a, b]) = F (b) − F (a)

Claudio Agostinelli – Lezione 5 – Probabilita e Statistica, A.A. 2004/2005, 2

Page 67: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

6 Costruzione di una funzione di Probabilita

su (R,B(R))

Ad ogni insieme di B(R) e quindi possibile attribuire una probabilita. Ilcalcolo effettivo di P(A) puo essere fatto in modo semplice quando A e

• un intervallo;

• un’unione numerabile di intervalli disgiunti

P (∪∞

i=1(ai, bi]) =∞

i=1

P ((ai, bi]) =∞

i=1

(F (bi) − F (ai))

Se pero l’evento A non puo ricondursi ai casi precedenti, la determinazione diP(A), mediante F (x), richiede l’uso della nozione di integrale di Lebesgue–Stieltjes.

7 Sull’assunzione di equiprobabilita

La valutazione di equiprobabilita degli eventi elementari non e compati-bile con un insieme Ω numerabile. In questo caso infatti si dovrebbe avere∑

i=1P(ωi) = P(Ω) = 1 con P(ωi) = c, i = 1, 2, · · · ma

• se c > 0 e∞

i=1

P(ωi) = ∞

• se c = 0 e∞

i=1

P(ωi) = 0

8 Sull’assunzione di equiprobabilita

Per essere piu chiari si dovrebbe dire che l’ipotesi di equiprobabilita non ecompatibile con un insieme Ω numerabile se si chiede che P sia σ–additiva!.

Claudio Agostinelli – Lezione 5 – Probabilita e Statistica, A.A. 2004/2005, 3

Page 68: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

9 Esempio

Si consideri l’esperimento consistente nello scegliere un punto dell’intervallo[0, 1]. Come Tribu utilizziamo la Tribu di Borel dei sottoinsiemi di [0, 1], cioe

B ([0, 1]) = [0, 1] ∩ A : A ∈ B(R) .

Assegniamo la probabilita che il punto scelto appartenga all’intervallo(a, b] (di [0, 1]) mediante la lunghezza dell’intervallo stesso

P((a, b]) = F (b) − F (a) = b − a, 0 ≤ a ≤ b ≤ 1

cioe prendendo F (x) = x, 0 ≤ x ≤ 1.

10 Esempio

Per prima cosa notiamo che gli intervalli (a, b], (a, b), [a, b), [a, b] hanno tuttila stessa probabilita. Infatti, la funzione F (x) = x e continua ed inoltreabbiamo, ad esempio

P([a, b]) = P( limn→∞

(a −1

n, b])

ma gli intervalli (a− 1

n, b] per n → ∞ costituisce una successione non crescente

e quindi

11 Esempio

P( limn→∞

(a −1

n, b]) = lim

n→∞

P((a −1

n, b])

= limn→∞

(

F (b) − F (a −1

n)

)

= F (b) − limn→∞

F (a −1

n)

= F (b) − F (a) + limn→∞

1

n= F (b) − F (a)

12 Esempio

Quali sono le probabilita dei seguenti eventi?

• A1 = (

0, 1

4

)

;

Claudio Agostinelli – Lezione 5 – Probabilita e Statistica, A.A. 2004/2005, 4

Page 69: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

• A2 = a;

• A3 = a1, a2, · · ·;

• A4 = [12, 3

4] ∪ [4

5, 1];

• A5 = [0, 1]/A3;

• A6 = ∪∞

n=1[k

k+1, k

k+1+ 1

10k ]

dove a ∈ [0, 1] e ai ∈ [0, 1], i = 1, 2, · · ·.

13 Esempio

• A1 e un intervallo e pertanto P(A1) = F (1

4) − F (0) = 1

4;

• A2 = a = ∩∞

n=1(a−1

n, a] = limn→+∞(a− 1

n, a] e pertanto (ricordando

che la successione degli intervalli e non crescente) per la proprieta dicontinuita,

P(A2) = P(a) = P

(

limn→+∞

(a −1

n, a]

)

= limn→+∞

P

(

(a −1

n, a]

)

= limn→+∞

(

F (a) − F (a −1

n)

)

= limn→+∞

1

n= 0

14 Esempio

• A3 = a1, a2, · · · = ∪∞

i=1ai e quindi

P(A3) = P (a1, a2, · · ·) = P (∪∞

i=1ai) =∞

i=1

P(ai) = 0

• Per A4 si consideri che i due intervalli sono disgiunti allora

P(A4) = P

(

[1

2,3

4] ∪ [

4

5, 1]

)

= P

(

[1

2,3

4]

)

+ P

(

[4

5, 1]

)

= F

(

3

4

)

− F

(

1

2

)

+ F (1) − F

(

4

5

)

=1

4+

1

5=

9

20

Claudio Agostinelli – Lezione 5 – Probabilita e Statistica, A.A. 2004/2005, 5

Page 70: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

15 Esempio•

P(A5) = P ([0, 1]/A3) = P ([0, 1]) − P(A3) = P ([0, 1]) = 1

• A6 e un’unione numerabile di intervalli disgiunti e pertanto

P(A6) =∞

k=1

P

([

k

k + 1,

k

k + 1+

1

10k

])

=∞

k=1

(

F

(

k

k + 1+

1

10k

)

− F

(

k

k + 1

))

=∞

k=1

1

10k=

1

1 − 1

10

− 1 =1

10

1 − 1

10

=1

9

¦

16 Probabilita Condizionale

Definizione 2 Sia (Ω,A), P) uno spazio probabilizzato. Fissato un elementoH di A, con P(H) 6= 0, si chiama funzione di probabilita dedotta da P sotto lacondizione H la funzione di probabilita PH sullo spazio (Ω,A) probabilizzabile

PH(A) =P(A ∩ H)

P(H)

per ogni evento A ∈ A.La probabilita PH(A) si chiama Probabilita Condizionale di A, secondo

P, sotto la condizione H e si denota

P(A|H) .

17 Probabilita Condizionale

Si tratta evidentemente di una funzione di probabilita concentrata su H.Essa coincide con P nel caso banale in cui l’evento H sia quasi certo secondoP .

E facile mostrare che la funzione di probabilita PH(A) = P(A|H) rispettatutti gli assiomi della probabilita.

Definizione 3 (Spazio di Probabilita Condizionale) Lo spazio di prob-abilita (Ω,A, PH) e detto Spazio di Probabilita Condizionale.

Claudio Agostinelli – Lezione 5 – Probabilita e Statistica, A.A. 2004/2005, 6

Page 71: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

18 Spazio di Probabilita Condizionale

Dopo che e accaduto l’evento H, ogni evento A ∈ A tale che A ∩ H = ∅ siha PH(A) = P(A|H) = 0.

Quindi diventano due modi equivalenti di probabilizzare lo stesso prob-lema gli spazi

(Ω,A, PH) (ΩH ,AH , PH)

dove, chiaramenteΩH = A ⊆ H : A ∈ Ω = H

perche gli eventi (elementari) che possono essere accaduti sono solo quelli cheimplicano H e

AH = A ∩ H : A ∈ A

19 Esercizio

Esercizio 1 Siano A una Tribu di sottoinsiemi di Ω e H ⊂ Ω un qualunqueinsieme. Mostrare che AH = A∩H : A ∈ A e una Tribu di sottoinsiemi diH ma non una Tribu di sottoinsiemi di Ω.

20 Lancio di due monete bilanciate

Esercizio 2 Consideriamo l’esperimento del lancio di due monete bilanci-ate. Sappiamo che nel primo lancio e uscita una testa. Qual e la probabilitadi avere due teste?

Lo spazio probabilizzato e (Ω = (C,C), (C, T ), (T,C), (T, T ),A = P(Ω), P(evento elementare) = 1

4).

L’evento accaduto H e (T,C), (T, T ) quindi

AH = ∅, (T,C), (T, T ), ΩH

21 Lancio di due monete bilanciate

e la funzione di probabilita condizionale PH e calcolata nel modo seguenteper i due eventi elementari presenti in H

PH((T,C)) =P((T,C) ∩ H)

P(H)=

P((T,C))

P(H)=

1

4

2

4

=1

2

Claudio Agostinelli – Lezione 5 – Probabilita e Statistica, A.A. 2004/2005, 7

Page 72: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

PH((T, T )) =P((T, T ) ∩ H)

P(H)=

P((T, T ))

P(H)=

1

4

2

4

=1

2

quindi la probabilita dell’evento desiderato (“due teste”) e 1

2

¦

Esercizio: Se invece l’evento accaduto e H = e uscita almeno una testacome si modifica lo spazio condizionale?

22 Esercizio – Probabilita Condizionale

Esercizio 3 Un dado regolare viene lanciato due volte. Nell’ipotesi che sisappia che il punteggio totale dei due lanci e 6, qual e la probabilita che ilpunteggio del primo lancio sia stato 3?

Detto H l’evento “punteggio totale uguale a 6” e A l’evento “punteggiodel primo lancio uguale a 3” si ha

H = (1, 5), (2, 4), (3, 3), (4, 2), (5, 1)

A = (3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6)

da cui P(H) = 5

36e P(A) = 6

36, inoltre A∩H = (3, 3) e quindi P(A∩H) =

1

36ed infine

P(A|H) =1

36

5

36

=1

5

¦

23 Ruote di bicicletta

Esercizio 4 Nell’assemblaggio delle ruote di bicicletta vengono effettuati duecontrolli per verificarne la funzionalita. Il primo controllo e effettuato sullacamera d’aria e sul pneumatico (C1) mentre il secondo sulla centratura deiraggi e sulla regolazione del mozzo (C2). Poniamo A l’evento “il controlloC1 e superato” e B l’evento “il controllo C2 e superato”.

Da un’indagine svolta nel passato si e valutato che P (A) = 0.8, P (B) =0.9 e P (A ∩ B) = 0.75.

Sapendo che una ruota e difettosa qual e la probabilita che non abbiasuperato il controllo C1? E che non abbia superato solo il controllo C1?

Claudio Agostinelli – Lezione 5 – Probabilita e Statistica, A.A. 2004/2005, 8

Page 73: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

24 Ruote di bicicletta

L’evento H = ruota difettosa e dato da Ac ∪ Bc e la sua probabilita e

P(H) = P((A ∩ B)c) = 1 − P(A ∩ B) = 1 − 0.75 = 0.25 .

Quindi

P(Ac|H) =P(Ac ∩ (Ac ∪ Bc))

P(H)

=P(Ac)

P(H)

=1 − 0.8

0.25=

0.2

0.25= 0.8

25 Ruote di bicicletta

Per rispondere al secondo quesito dobbiamo invece calcolare

P(Ac ∩ B|H) =P(((B/(A ∩ B)) ∩ H)

P(H)

=P(B/(A ∩ B))

P(H)

=P(B) − P(A ∩ B)

P(H)

=0.9 − 0.75

0.25=

0.15

0.25= 0.6

¦

26 Ancora sul lancio di dadi

Esercizio 5 Un dado regolare viene lanciato tre volte. Qual e la probabilitache i puntegi realizzati nei tre lanci siano tutti differenti?

Se A1, A2, A3 rappresentano gli eventi

• A1 = punteggio qualunque nel primo lancio;

• A2 = punteggio del secondo lancio differente da quello del primo;

• A3 = punteggio del terzo lancio differente da quelli del primo e delsecondo;

Claudio Agostinelli – Lezione 5 – Probabilita e Statistica, A.A. 2004/2005, 9

Page 74: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

27 Ancora sul lancio di dadi

allora

P(A1 ∩ A2 ∩ A3) = P(A1) · P(A2|A1) · P(A3|A1 ∩ A2) = 1 ·5

6·4

6=

5

9.

Naturalmente la probabilita richiesta poteva essere calcolata come rap-porto tar il numero di allineamenti dei tre punteggi tutti differenti e quellodi tutti i possibili allineamenti

P(A1 ∩ A2 ∩ A3) =6 · 5 · 4

63=

5

9.

¦

28 Classe completa di eventi (Partizione di

un insieme)

Definizione 4 Dato un spazio probabilizzabile (Ω,A) la famiglia di eventiAn

n=1 e detta Classe Completa se

• ∪∞

n=1An = Ω;

• Ai ∩ Aj = ∅, i 6= j;

29 Esempio – Classe completa di eventi

Ω

A1 A2

A3

A4

Claudio Agostinelli – Lezione 5 – Probabilita e Statistica, A.A. 2004/2005, 10

Page 75: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

30 Teorema delle Probabilita Totali

Un risultato estremamente utile per il calcolo delle probabilita di eventimediante l’uso delle probabilita condizionali e quello stabilito dal seguenteteorema

Teorema 1 (delle Probabilita Totali) Sia Ai∞

i=1 una famiglia di eventiche costituisce una Classe Completa di Ω tale che

• P(Ai) > 0, i = 1, 2, · · ·.

Sia B un qualunque evento. Allora

P(B) =∞

i=1

P(Ai ∩ B) =∞

i=1

P(Ai)P(B|Ai)

31 Teorema delle Probabilita Totali

Dalla relazione Ω = ∪∞

i=1Ai, intersecando con B ambo i membri, si ottiene,per la proprieta distributiva dell’intersezione rispetto all’unione

Ω ∩ B = B = (∪∞

i=1Ai) ∩ B = ∪∞

i=1(Ai ∩ B)

con gli eventi Ai ∩B, i = 1, 2, · · · a due a due incompatibili. Segue allora che

P(B) = P(∪∞

i=1(Ai ∩ B)) =∞

i=1

P(Ai ∩ B) =∞

i=1

P(Ai)P(B|Ai)

¦

32 Esercizio – Probabilita Totali

Esercizio 6 Si abbiano due urne U1 e U2. La prima urna U1, contiene 5palline bianche e 10 nere; la seconda U2, contiene 8 palline bianche e 10nere. Si sceglie a caso una delle due urne e si estrae una pallina. Qual e laprobabilita di osservare una pallina bianca?

Se si sceglie l’urna U1 si ha P(B|U1) = 5

15= 1

3; se si sceglie l’urna U2 si

ha P(B|U2) = 8

18= 4

9. Poiche poi si sceglie a caso una delle due urne sara

P(U1) = P(U2) = 1

2e pertanto

P(B) = P(U1)P(B|U1) + P(U2)P(B|U2) =1

2·1

3+

1

2·4

9=

7

18¦

Esercizio: esplicitare gli spazi probabilizzati coinvolti.

Claudio Agostinelli – Lezione 5 – Probabilita e Statistica, A.A. 2004/2005, 11

Page 76: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

33 Lavoratori e disoccupati

Esercizio 7 La forza lavoro di un paese e ripartita in 5 regioni Ri, i =1, · · · , 5 nelle percentuali, rispettivamente, del 10%, 22%, 19%, 30% e 19%.I tassi di disoccupazione nelle stesse regioni sono, nell’ordine, 5%, 2%, 3%,1% e 8%.

• Estraendo a caso un individuo qual e la probabilita che egli sia undisoccupato?

• Avendo osservato un individuo disoccupato qual e la probabilita che egliprovenga dalla regione R1?

34 Lavoratori e disoccupati

Si indichi Ai, i = 1, · · · , 5 l’evento “l’individuo estratto appartiene alla re-gione Ri” e sia D l’evento “l’individuo estratto e disoccupato”. Dato che ogniindividuo ha la stessa probabilita di essere estratto P(A1) = 0.1, P(A2) =0.22, P(A3) = 0.19, P(A4) = 0.3 e P(A5) = 0.19 mentre P(D|A1) = 0.05,P(D|A2) = 0.02, P(D|A3) = 0.03, P(D|A4) = 0.01 e P(D|A5) = 0.08.

Per il Teorema delle Probabilita Totali abbiamo

P(D) =5

i=1

P(Ai)P(D|Ai) ' 0.033

35 Lavoratori e disoccupati

Per rispondere al secondo quesito si tratta di calcolare

P(A1|D) =P(A1 ∩ D)

P(D)=

P(A1)P(D|A1)

P(D)=

0.1 · 0.05

0.033' 0.15

¦

Si tratta di un’applicazione della cosidetta formula di Bayes.

36 Teorema di Bayes

Teorema 2 (di Bayes) Sia Ai∞

i=1 una Classe Completa di eventi tale che

• P(Ai) > 0, i = 1, 2, · · ·

Claudio Agostinelli – Lezione 5 – Probabilita e Statistica, A.A. 2004/2005, 12

Page 77: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

e B un qualunque evento con P(B) > 0. Allora

P(Ai|B) =P(Ai)P(B|Ai)

j=1P(Aj)P(B|Aj)

j = 1, 2, · · ·

La dimostrazione e immediata usando il Teorema delle Probabilita Totali eviene lasciata per esercizio.

37 Teorema di Bayes

La formula di Bayes e una delle piu interessanti ed importanti formule dellateoria della probabilita. Essa e dovuta all’ecclesiastico Thomas Bayes. Laformula parla della revisione della probabilita alla luce delle informazionisperimentali. Nella terminologia statistica A1, A2, · · · sono dette ipotesi ela probabilita P(Ai) e detta probabilita iniziale (o a priori) di Ai, P(B|Ai) edetta verosimiglianza di Ai ed infine, P(Ai|B) e detta probabilita finale (o aposteriori) di Ai.

38 Associazione Sportiva

Esercizio 8 Il 26% degli iscritti ad un’associazione sportiva e costituito damaschi. Inoltre, il 45% di questi praticano la pallacanestro, mentre tra lefemmine solo il 25%. Determinare la probabilita che, scegliendo a caso ungiocatore di pallacanestro, questi sia maschio.

Possiamo sintetizzare le informazioni in questo modo:

A: giocatore di pallacanestro;

M: maschio;

F: femmina.

39 Associazione Sportiva

Inoltre:

• P (M) = 0.26;

• P (F ) = 1 − P (M) = 0.74;

• P (A|M) = 0.45;

Claudio Agostinelli – Lezione 5 – Probabilita e Statistica, A.A. 2004/2005, 13

Page 78: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

• P (A|F ) = 0.25.

La probabilita richiesta si determina ricorrendo alla formula di Bayes

P (M |A) =P (M) P (A|M)

P (M) P (A|M) + P (F ) P (A|F )

=0.26 0.45

0.26 0.45 + 0.74 0.25= 0.387

¦

Claudio Agostinelli – Lezione 5 – Probabilita e Statistica, A.A. 2004/2005, 14

Page 79: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Corso di Probabilita e StatisticaA.A. 2004/2005

Lezione 6Versione 0.2 del 12 Marzo 2004

Claudio Agostinelli

Dipartimento di Statistica

Universita di Venezia

San Giobbe, Cannaregio, 873, Venezia

Tel. 041 2347446, Fax. 041 2347444 – http://www.dst.unive.it/~claudio

[email protected]

Page 80: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

1 Indipendenza di due eventi (Indipendenza

Stocastica)

Definizione 1 In uno spazio probabilizzato (Ω,A, P ) due eventi A, B sidicono tra loro stocasticamente indipendenti se e solo se

P(A ∩ B) = P(A) · P(B) .

In particolare si noti che dati due eventi stocasticamente indipendenti A,B allora

P(A|B) =P(A ∩ B)

P(B)= P(A)

e lo stesso vale per P(B|A) = P(B).

2 Esempio

Si supponga di lanciare un dado a sei facce e, come di consueto, sia Ω =1, 2, 3, 4, 5, 6 l’insieme degli eventi elementari. Se P(ω) = 1

6per ω ∈ Ω,

A = 2, 4, 6 e B = 3, 6, allora

A ∩ B = 6, P(A) =1

2, P(B) =

1

3e P(A ∩ B) = P(A) · P(B) =

1

6.

Quindi gli eventi A e B sono indipendenti.

3 Esempio

Si noti che la condizione di indipendenza dipende in maniera cruciale dallafunzione di Probabilita definita sulla classe degli eventi. Infatti, consideriamola seguente continuazione dell’esempio e supponiamo che P(ω) = 1

12per

ω ∈ 1, 2, 3, 4 e P(ω) = 1

3per ω ∈ 5, 6, si ha

P(A) =1

2, P(B) =

5

12e

1

3= P(A ∩ B) 6= P(A) · P(B) =

5

24.

Quindi gli eventi A e B non sono indipendenti.

4 Indipendenza di n eventi

La nozione di indipendenza puo essere estesa a piu di due eventi nel modoseguente

Claudio Agostinelli – Lezione 6 – Probabilita e Statistica, A.A. 2004/2005, 1

Page 81: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Definizione 2 In uno spazio probabilizzato (Ω,A, P ) n eventi A1, A2, · · · , An,si dicono stocasticamente indipendenti se e solo se

P(Ai1 ∩ Ai1 ∩ Ai2 ∩ · · · ∩ Aik) = P(Ai1) · P(Ai2) · · ·P(Ain) .

per ogni k = 2, 3, · · · , n e per gli allineamenti (i1 < i2 < · · · < ik) degli interi1, 2, · · · , n.

Se A1, A2, · · · e una famiglia di eventi, allora Ai i = 1, 2, · · · si dicono mutua-mente indipendenti se ogni n–upla di eventi da essa estratta e indipendente.

5 Quattro famiglie

Esercizio 1 Si considerino quattro famiglie con due figli classificate nel mo-do seguente (M,M), (M,F ), (F,M), (F, F ) in cui M indica maschio, Findica femmina e l’ordine di ogni coppia indica l’anzianita. Si sceglie a casouna famiglia e si considerino i seguenti eventi

• A1 =“primo figlio maschio”;

• A2 =“due figli di sesso differente”;

• A3 =“secondo figlio maschio”; Sono i tre eventi indipendenti?

6 Quattro famiglie

Si ha

A1 ∩ A2 = (M,F ), A1 ∩ A3 = (M,M), A2 ∩ A3 = (F,M),

eA1 ∩ A2 ∩ A3 = ∅ .

Poiche

P(Ai) =1

2, i = 1, 2, 3

segue che

P(Ai ∩ Aj) =1

4= P(Ai) · P(Aj) i, j = 1, 2, 3, i 6= j .

Claudio Agostinelli – Lezione 6 – Probabilita e Statistica, A.A. 2004/2005, 2

Page 82: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

7 Quattro famiglie

Ma

P(A1 ∩ A2 ∩ A3) = 0 6=1

8= P(A1) · P(A2) · P(A3)

e quindi i tre eventi non sono indipendenti

¦

8 Ancora sul lancio di un dado

Esercizio 2 Si lancia un dado regolare e si considerano i tre eventi seguenti:

• A1 =“realizzare un punteggio pari”= 2, 4, 6;

• A2 =“realizzare un punteggio maggiore di 2”= 3, 4, 5, 6;

• A3 =“realizzare un punteggio divisibile per 3 o per 5”= 3, 5, 6;

Sono i tre eventi indipendenti?

9 Ancora sul lancio di un dado

Allora

P(A1) = P(A3) =1

2, P(A2) =

2

3e

P(A1 ∩ A2 ∩ A3) =1

6=

1

2·1

2·2

3= P(A1) · P(A2) · P(A3)

Ma, ad esempio, P(A2 ∩ A3) = P(A3) = 1

26= P(A2) P(A3) = 1

3.

¦

10 Tribu indipendenti

Definizione 3 Dato uno spazio probabilizzato (Ω,A, P). Due Tribu con-tenute in A si dicono tra loro indipendenti se ogni elemento dell’uno e in-dipendente da ogni elemento dell’altra.

Claudio Agostinelli – Lezione 6 – Probabilita e Statistica, A.A. 2004/2005, 3

Page 83: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

11 Pressione alta

Esercizio 3 E stato rilevato che il 5% delle persone abitanti in una certazona ha la pressione alta. Inoltre il 75% delle persone con pressione alta bevealcolici, mentre solo il 50% delle persone senza pressione alta beve alcolici.Qual e la probabilita che una persona che beve alcolici abbia la pressione alta?

12 Ancora sull’estrazione da urne

Esercizio 4 L’urna A contiene 2 palline bianche e 2 nere; l’urna B ne con-tiene 3 bianche e 2 nere. Si trasferisce una pallina da A a B e poi si estraeda B una pallina che risulta essere bianca. Qual e la probabilita che fossebianca anche la pallina trasferita da A a B?

13 Ancora sul lancio di un dado

Esercizio 5 Un dado bilanciato viene lanciato consecutivamente fino a chenon esce la faccia con il 6 per la prima volta. Dato che il 6 non appare alprimo lancio, qual e la probabilita che siano necessari piu di 4 lanci?

14 A scuola

Esercizio 6 In una scuola il 4% dei maschi e l’1% delle femmine hannouna statura superiore a 185cm. Inoltre il 40% degli studenti sono maschi.Calcolare la probabilita che uno studente scelto a caso con statura superiorea 185cm sia femmina.

15 Estrazione da un’urna

Esercizio 7 Un’urna contiene n palline nere (N) e b palline bianche (B). Siestrae casualmente una pallina dall urna e, dopo averne osservato il colore, lasi rimette nell urna con altre 2 palline del colore estratto e 3 del colore nonestratto. Calcolare la probabilita che in 4 estrazioni successive e effettuatesecondo la regola sopra stabilita, si ottenga la stringa ordinata BNNB.

Claudio Agostinelli – Lezione 6 – Probabilita e Statistica, A.A. 2004/2005, 4

Page 84: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

16 Estrazione da un’urna

Esercizio 8 Un’urna contiene 5 palline bianche e 6 nere. Si estraggono duepalline in blocco dall’urna, se ne registra il colore e si reinseriscono le duepalline nell’urna assieme ad altre due palline dello stesso colore di quelle es-tratte. Viene poi effettuata un’altra estrazione di due palline in blocco. DettoA l’evento che si verifica se le due palline estratte alla seconda estrazionesono entrambe bianche:

• calcolare la probabilita dell’evento A;

• condizionatamente al fatto che A si e verificato, calcolare la probabilitache le due palline alla prima estrazione siano entrambe nere.

17 Tavolo e urne

Esercizio 9 Sul tavolo ci sono due urne: la prima contiene 2 palline nere e5 bianche e la seconda contiene 3 palline nere e 2 bianche. Si sceglie a casoun’urna, si estrae una pallina e la si depone nell’altra urna. Da quest’ultimasi procede dunque all’estrazione di un altra pallina.

• Qual e la probabilita di estrarre due palline bianche?

• Qual e la probabilita che la seconda pallina sia nera?

18 Partizione

Esercizio 10 C1 e C2 sono una partizione di Ω e hanno la stessa probabilita.Se l’evento A e tale che P(A|C1) = P(A|C2) = 1/2, si calcoli la P(C1|A).

19 Tre monete

Esercizio 11 Tre monete hanno rispettivamente due facce bianche, una fac-cia bianca e una nera e due facce nere. Se ne sceglie una a caso e la si lan-cia. Qual e la probabilita che esca una faccia bianca? Se e uscita una facciabianca, qual e la probabilita che anche l’altra sia bianca?

Claudio Agostinelli – Lezione 6 – Probabilita e Statistica, A.A. 2004/2005, 5

Page 85: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

20 Fornitori di pneumatici

Esercizio 12 Due fornitori A e B di pneumatici per una fabbrica di auto-mobili hanno rispettivamente 0.3% e 0.8% di pezzi difettosi nella loro pro-duzione. Inoltre A fornisce il 60% del totale degli pneumatici acquistati dallafabbrica e B il 40%.

• Qual e la probabilita che uno pneumatico scelto a caso dal magazzinodella fabbrica risulti difettoso?

• Avendo trovato un pezzo difettoso, qual e la probabilita che sia statofornito da A?

21 Prigionieri e porte

Esercizio 13 Un prigioniero e rinchiuso in una cella con 3 porte, A, B eC. La porta A riporta il prigioniero in cella dopo 2 giorni di lavori forzati; laporta B lo riporta in cella dopo 3 giorni di lavori forzati; infine la porta C ridaal prigioniero la liberta. Il prigioniero sceglie la porta da prendere lanciandoun dado equilibrato: se il risultato e pari sceglie A, se esce il numero 1 sceglieB e nei rimanenti casi sceglie C. Se il prigioniero torna in cella, sceglie inmodo equiprobabile fra le due porte non ancora scelte. Qual e la probabilitache il prigioniero impieghi 3 oppure 5 giorni per uscire?

Claudio Agostinelli – Lezione 6 – Probabilita e Statistica, A.A. 2004/2005, 6

Page 86: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Corso di Probabilita e StatisticaA.A. 2004/2005

Lezione 7Versione 0.2-1 del 3 Novembre 2004

Claudio Agostinelli

Dipartimento di Statistica

Universita di Venezia

San Giobbe, Cannaregio, 873, Venezia

Tel. 041 2347446, Fax. 041 2347444 – http://www.dst.unive.it/~claudio

[email protected]

Page 87: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

1 Variabili aleatorie

Consideriamo il seguente problema:I costi da sostenere per produrre un’attrezzatura per una macchina uten-

sile e di 1000euro. Ci sono state ordinate 3 attrezzature al prezzo di 2000eurocadauna. Nel processo di produzione vi e un’operazione che puo fallire conprobabilita P = 0.1. Quando cio accade le materie prime devono esseregettate e si deve ricominciare il processo dall’inizio.

• Qual e la probabilita di avere un quadagno?

• Se l’ordine viene ripetuto ogni mese, qual e il quadagno medio che ciaspettiamo?

2 Attrezzatura per macchine utensili

Per prima cosa dobbiamo considerare quante volte dobbiamo ricominciare ilprocesso per ottenere 3 attrezzature funzionanti.

A questo scopo consideriamo ΩI = 3, 4, 5, · · · dove ogni elemento e ilnumero di volte che abbiamo dovuto iniziare il procedimento, ad esempio 4significa che 3 processi sono andati a buon fine (di cui 1 e l’ultimo) e 1 no.

La funzione di probabilita e

• PI(3) = (1 − p)3 = 0.729;

• PI(4) =(31

)(1 − p)3 p = 0.2187;

• PI(5) =(42

)(1 − p)3 p2 = 0.04374;

• · · ·

3 Attrezzatura per macchine utensili

e in generale

PI(i) =

(i − 1

i − 3

)

(1 − p)3 pi−3 i = 3, 4, 5, · · ·

=(i − 1)(i − 2)

2!(1 − p)3 pi−3 i = 3, 4, 5, · · ·

Claudio Agostinelli – Lezione 7 – Probabilita e Statistica, A.A. 2004/2005, 1

Page 88: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

4 Attrezzatura per macchine utensili

Che puo essere rappresentata attraverso il seguente grafico

3 4 5 6 7 8 9 10

0.00.1

0.20.3

0.40.5

0.60.7

5 Attrezzatura per macchine utensili

E chiaro, che il guadagno (G) e legato al numero di volte che dobbiamo fareil processo (I),

g = 6000 − 1000 · i

cioe

i 3 4 5 6 7 i > 7PI (I = i) 0.729 0.2187 0.04374 0.00729 0.0010935 0.0001765

g 3000 2000 1000 0 −1000 g < −1000

da cui abbiamo

PG(G = g) = PI(I =6000 − g

1000)

6 Attrezzatura per macchine utensili

Infine per rispondere al nostro primo quesito

PG(G > 0) =5∑

i=3

PI(i) = 0.99144

Claudio Agostinelli – Lezione 7 – Probabilita e Statistica, A.A. 2004/2005, 2

Page 89: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

7 Variabili aleatorie

Il quadagno G, appartiene allo spazio campionario ΩG = 3000, 2000, 1000, 0,−1000, · · · .Il fenomeno che abbiamo studiato non e definito nello spazio (ΩI ,AI , PI) main uno diverso diciamo (ΩG,AG, PG) che e stato definito a partire dal primo(abbiamo per ora tralasciato la definizione di AG).

In molte situazioni, che ricorrono nelle applicazioni, abbiamo che lo spaziocampionario in cui avviene l’esperimento aleatorio puo essere rappresentatoda oggetti concreti (famiglie, individui) di natura non numerica. Si pensi,ad esempio, all’esperimento del duplice lancio di una moneta i cui possibilirisultati sono (T, T ), (T,C), (C, T ), (C,C).

8 Variabili aleatorie

Tuttavia, piu che all’esperimento in se, si e spesso interessati alle conseguenze,numericamente valutate.

E quindi molto importante studiare (e formalizzare) come sono legati idue spazi (nel nostro esempio) (ΩI ,AI , PI) e (ΩG,AG, PG).

A tale scopo risulta fondamentale il concetto di Variabile Aleatoria.

9 Variabili aleatorie

Definizione 1 Sia dato lo spazio probabilizzabile (Ω,A). Si dice Variabile

aleatoria (v.a.) ogni funzione a valori reali definita in Ω, y = X(ω), taleche

ω ∈ Ω : X(ω) ≤ x ∈ A per ogni valore reale x.

• Giova osservare che nella definizione la probabilita non gioca alcunruolo e che quando A e la classe di tutti i sottoinsiemi di Ω la condizionenella definizione e sempre soddisfatta.

10 Variabili aleatorie

• Per rendersi conto della necessita di imporre alla funzione X(ω) lacondizione riportata sopra bastera dire che, intendendo assegnare unaprobabilita agli insiemi ω ∈ Ω : X(ω) ≤ x per ogni reale x ed avendoprobabilizzato la classe A, occorre che tali insiemi appartengano ad A.

Claudio Agostinelli – Lezione 7 – Probabilita e Statistica, A.A. 2004/2005, 3

Page 90: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

11 Variabili aleatorie e Tribu

Esercizio 1 Trovare un esempio di funzione f : Ω → Ω e una Tribu A suΩ tale che

A = f(A) : A ∈ A

non e una Tribu su Ω.

Si consideri ad esempio Ω = 1, 2, 3 e Ω = 1, 2, la Tribu

A = ∅, 1, 2, 3, 1, 2, 3

e la funzione f tale che

f(1) = f(2) = 1 f(3) = 2

12 Variabili aleatorie e Tribu

AlloraA = f(A) : A ∈ A = ∅, 1, 1, 2

che non e nemmeno un’algebra perche non ha 2n elementi

¦

13 Variabili aleatorie e Tribu

Teorema 1 Siano Ω e Ω due insiemi arbitrari e sia X : Ω → Ω unafunzione. Se A e una Tribu su Ω allora

A = X−1(A) : A ∈ A

e una Tribu su Ω.

Infatti

• X−1(Ω) = Ω;

• X−1(Ω/A) = Ω/X−1(A);

• X−1(∪∞

i=1Ai) = ∪∞

i=1X−1(Ai);

¦

Claudio Agostinelli – Lezione 7 – Probabilita e Statistica, A.A. 2004/2005, 4

Page 91: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

14 Variabili aleatorie e Tribu

Teorema 2 Siano Ω e Ω due insiemi arbitrari e sia X : Ω → Ω unafunzione. Se A e una Tribu su Ω allora

A = A ⊆ Ω : X−1(A) ∈ A

e una Tribu su Ω.

Infatti

• Siccome Ω ∈ A e Ω = X−1(Ω) allora Ω ∈ A;

• Supponiamo che A ∈ A allora X−1(A) ∈ A che implica X−1(Ω/A) =Ω/X−1(A) ∈ A e quindi Ω/A ∈ A;

15 Variabili aleatorie e Tribu

• Supponiammo che A1, A2, · · · ∈ A. Questo significa che X−1(A1), X−1(A2), · · · ∈

A cosıX−1(∪∞

i=1Ai) = ∪∞

i=1X−1(Ai) ∈ A

e quindi ∪∞

i=1Ai ∈ A

¦

16 Variabili aleatorie e Tribu

Appurare che una data funzione e una variabile aleatoria non e sempreagevole, tuttavia nell’importante caso in cui Ω = R vale il seguente teorema

Teorema 3 Ogni funzione continua oppure monotona crescente o decrescen-te f : (R,B(R)) → (R,B(R)) e una variabile aleatoria.

17 Variabili aleatorie e funzioni di probabi-

lita

Il valore che assume la funzione y = X(ω) : Ω → R in corrispondenza di unesperimento e aleatorio in quanto dipende dal particolare risultato conseguitonell’esperimento ω ∈ Ω; ci si potra chiedere con quale probabilita la funzioneX(ω) assuma valore nell’intervallo (a, b] cioe, dare un significato alla scrittura

Probabilita di (a < X ≤ b) = P(X ∈ (a, b]), −∞ ≤ a < b < +∞ .

Claudio Agostinelli – Lezione 7 – Probabilita e Statistica, A.A. 2004/2005, 5

Page 92: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

18 Variabili aleatorie e funzioni di probabi-

lita

Si osservi a tale scopo che l’intervallo (a, b] e l’insieme A

A = ω ∈ Ω : a < X(ω) ≤ b ∈ A

sono in un certo senso equivalenti giacche quando si verifica A, cioe ω ∈ A,allora X ∈ (a, b] e viceversa. Dato che all’evento A e assegnata P(A), si potraporre, per ogni a < b,

PX((a, b]) = P(X ∈ (a, b]) = P(ω ∈ Ω : a < X ≤ b) .

La funzione di probabilita PX , definita sulla classe di Borel di R, e nota colnome di distribuzione della v.a. X e mediante essa sara possibile determinarePX(B) = P(X ∈ B) per ogni B ∈ B(R).

19 Variabili aleatorie discrete

Definizione 2 Una v.a. X definita su (Ω,A) e detta discreta se i valo-ri distinti dell’insieme ∪ω∈ΩX(ω) costituiscono un insieme RX finito onumerabile

Esempio 1 L’esperimento consiste nel registrare il numero di biciclette chetransitano per un certo tratto di strada nell’arco di un periodo temporale. Irisultati sperimentali saranno Ω = 0, 1, 2, · · · . La funzione y = X(ω) = ω,ω ∈ Ω e una v.a. con RX = Ω

¦

20 Variabili aleatorie discrete

Per scrivere la distribuzione di una v.a. discreta risulta comoda la funzionedi probabilita (o densita discreta) di cui alla seguente

Definizione 3 (funzione di probabilita (o densita discreta)) Se X euna v.a. discreta con RX = x1, x2, · · · , allora la funzione, definita in R,data da

p(x) =

P(X = xi) > 0 x = xi ∈ RX

0 x /∈ RX

e detta funzione di probabilita (o densita discreta) della v.a. X, RX vienedetto supporto della v.a. X.

Claudio Agostinelli – Lezione 7 – Probabilita e Statistica, A.A. 2004/2005, 6

Page 93: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

21 Variabili aleatorie discrete

Teorema 4 Se X e una v.a. discreta con RX = x1, x2, · · · allora

p(x) ≥ 0 per ogni x reale e∑

x∈RX

p(x) = 1

Questo significa che qualsiasi funzione che abbia le proprieta descritte dalteorema precedente e una funzione di probabilita e puo servire alla descrizioneprobabilistica di una v.a. discreta. In particolare ci sono delle funzioniche ricorrono spesso nelle applicazioni per cui vale la pena di studiarle indettaglio. Nel seguito ne vedremo alcune.

22 Distribuzione Binomiale

Questa distribuzione di probabilita regola il numero dei successi (o risultatifavorevoli) conseguito in una successione (finita) di prove indipendenti.

Si supponga che un certo esperimento venga replicato N ≥ 1 volte e l’esitodi ognuno di essi possa essere favorevole (evento A) oppure non favorevole(evento Ac). Ad ogni prova dell’esperimento associamo una v.a. Xi, i =1, 2, · · · , N che ne rappresenta l’esito: Xi = 1 se si verifica A e Xi = 0 se siverifica Ac. Si supponga che le v.a. Xi, i = 1, 2, · · · , N siano indipendentie che P(Xi = 1) = p, 0 ≤ p ≤ 1. Qual e la distribuzione di probabilitadel numero totale di successi nelle N prove? Cioe qual e la distribuzione diprobabilita della v.a.

X = X1 + X2 + X3 + · · · + XN ?

23 Distribuzione Binomiale

Definizione 4 (Distribuzione Binomiale) Si dice che una v.a. X si di-stribuisce secondo la distribuzione di probabilita (o legge) binomiale di para-metri N ≥ 1 (intero) e 0 ≤ p ≤ 1, se

P(X = x) =

(N

x

)px(1 − p)N−x x = 0, 1, · · · , N

0 altrove .

e scriveremo X ∼ Bi(N, p).Nel caso speciale in cui N = 1 la v.a. e chiamata anche v.a. di Bernoulli.

Claudio Agostinelli – Lezione 7 – Probabilita e Statistica, A.A. 2004/2005, 7

Page 94: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

24 Distribuzione Binomiale

Teorema 5 La funzione di probabilita del numero totale di successi ottenutiin N prove indipendenti con probabilita di successo pari a p ad ogni prova edatto dalla distribuzione di probabilita di una v.a. binomiale

Si consideri una particolare realizzazione per cui il numero di successi ex, ad esempio l’allineamento

B = A,A, · · · , A︸ ︷︷ ︸

x volte

Ac, Ac, · · · , Ac

︸ ︷︷ ︸

N − x volte

Poiche le prove sono indipendenti la probabilita di questo allineamento e

P(B) = px (1 − p)N−x

25 Distribuzione Binomiale

e questa e la probabilita di un qualsiasi allineamento con x successi che sono(

N

x

)

e quindi

P(X = x) =

(N

x

)

px (1 − p)N−x

¦

26 Distribuzione Binomiale

0 1 2 3 4 5 6 7 8 9 10

Bi(10, 0.5)

0.00

0.05

0.10

0.15

0.20

Claudio Agostinelli – Lezione 7 – Probabilita e Statistica, A.A. 2004/2005, 8

Page 95: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

27 Distribuzione Binomiale

0 1 2 3 4 5 6 7 8 9 10

Bi(10, 0.2)0.

000.

050.

100.

150.

200.

250.

30

28 Distribuzione Binomiale

0 1 2 3 4 5 6 7 8 9 10

Bi(10, 0.05)

0.0

0.1

0.2

0.3

0.4

0.5

Claudio Agostinelli – Lezione 7 – Probabilita e Statistica, A.A. 2004/2005, 9

Page 96: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

29 Distribuzione Binomiale

0 1 2 3 4 5

Bi(5, 0.5)0.

000.

050.

100.

150.

200.

250.

30

30 Distribuzione Binomiale

Teorema 6 Siano X1, X2, · · · , XN , N v.a. Bernoulliane Bi(1, p) stocasti-camente indipendenti allora la v.a. X cosı definita

X =n∑

i=1

Xi

e tale che X ∼ Bi(N, p)

31 Funzione di Ripartizione

Definizione 5 Sia X una v.a.. Si dice funzione di ripartizione della v.a. Xla funzione y = F (x), definita per ogni x reale, data da

F (x) = P(X ≤ x) x ∈ R .

Si noti la somiglianza della funzione di ripartizione con la funzione cheabbiamo utilizzato per probabilizzare lo spazio (R,B(R)) (si veda la lezione5 a pag. 6 e seguenti).

Claudio Agostinelli – Lezione 7 – Probabilita e Statistica, A.A. 2004/2005, 10

Page 97: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

32 Distribuzione Binomiale

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

Bi(10, 0.5)

x

F(x

)

33 Distribuzione Binomiale

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

Bi(10, 0.2)

x

F(x

)

Claudio Agostinelli – Lezione 7 – Probabilita e Statistica, A.A. 2004/2005, 11

Page 98: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

34 Distribuzione Binomiale

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

Bi(10, 0.05)

x

F(x

)

35 Distribuzione Binomiale

−1 0 1 2 3 4 5 6

0.0

0.2

0.4

0.6

0.8

1.0

Bi(5, 0.5)

x

F(x

)

36 Funzione di ripartizione e funzione di pro-

babilita

Per una v.a. discreta, si osservi, a conferma delle proprieta generali dellafunzione di ripartizione, come i punti di discontinuita di F (x) coincidano con

Claudio Agostinelli – Lezione 7 – Probabilita e Statistica, A.A. 2004/2005, 12

Page 99: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

i punti di RX della v.a. e che l’ampiezza del salto in detti punti corrispondealla funzione di probabilita, cioe

p(X = x) = F (x) − F (x−)

Esercizio 2 Si calcoli la funzione di ripartizione di una v.a. Bi(10, 0.5) e sicontrolli che vale la relazione sopra riportata.

37 Distribuzione Geometrica

La distribuzione Geometrica nasce con riferimento allo stesso schema che hacondotto alla distribuzione Binomiale ma ora, anziche contare il numero disuccessi in N prove indipendenti, interessa il numero delle prove necessarieper ottenere il primo successo.

Definizione 6 (Distribuzione Geometrica) Si dice che una v.a. X sidistribuisce secondo una distribuzione geometrica di parametro 0 ≤ p ≤ 1 sela sua funzione di probabilita e

P(X = x) =

p (1 − p)x−1 x = 1, 2, 3, · · ·0 altrove

e scriverremo X ∼ Ge(p).

38 Distribuzione Geometrica

La funzione di ripartizione di una v.a. Geometrica e data da

F (x) = P(X ≤ x) =

[x]∑

t=1

P(X = t) = p

[x]∑

t=1

(1 − p)t−1

=

p1−(1−p)[x]

1−(1−p)= 1 − (1 − p)[x] x ≥ 1

0 x < 1

dove [·] indica la parte intera.

Claudio Agostinelli – Lezione 7 – Probabilita e Statistica, A.A. 2004/2005, 13

Page 100: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

39 Distribuzione Geometrica

1 2 3 4 5 6 7 8 9 10 11

Ge(0.5)0.

00.

10.

20.

30.

40.

5

40 Distribuzione Geometrica

1 2 3 4 5 6 7 8 9 11 13 15 17 19 21

Ge(0.1)

0.00

0.02

0.04

0.06

0.08

0.10

Claudio Agostinelli – Lezione 7 – Probabilita e Statistica, A.A. 2004/2005, 14

Page 101: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

41 Distribuzione Geometrica

1 2 3 4 5 6 7 8 9 10 11

Ge(0.9)0.

00.

20.

40.

60.

8

42 Distribuzione Geometrica

0 2 4 6 8 10 12

0.0

0.2

0.4

0.6

0.8

1.0

Ge(0.5)

x

F(x

)

Claudio Agostinelli – Lezione 7 – Probabilita e Statistica, A.A. 2004/2005, 15

Page 102: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

43 Distribuzione Geometrica

0 5 10 15 20

0.0

0.2

0.4

0.6

0.8

Ge(0.1)

x

F(x

)

44 Distribuzione Geometrica

0 2 4 6 8 10 12

0.0

0.2

0.4

0.6

0.8

1.0

Ge(0.9)

x

F(x

)

45 Esempio – Distribuzione Geometrica

Esempio 2 Un lotto di lampadine contiene N lampadine di cui 0 < M <N difettose. Estraendo con reimmissione, qual e la probabilita che unalampadina difettosa appaia per la prima volta alla x–esima estrazione?

Claudio Agostinelli – Lezione 7 – Probabilita e Statistica, A.A. 2004/2005, 16

Page 103: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Questo problema puo essere risolto considerando la v.a. Geometrica X ∼Ge(p = M

N) e quindi

P(X = x) =M

N

(

1 −M

N

)(x−1)

¦

46 Esempio – Distribuzione Geometrica

Una proprieta interessante della distribuzione Geometrica e quella dell’assenzadi memoria. Infatti continuando l’esempio precedente

Esempio 3 Si supponga di sapere che nelle prime y estrazioni non e com-parsa una lampadina difettosa. Qual e la probabilita che essa si presenti perla prima volta dopo ulteriori r > 0 estrazioni?

Dobbiamo valutare

P(X = r + y|X > y) =P(X = r + y ∩ X > y)

P(X > y)

47 Esempio – Distribuzione Geometrica

ma poicheP(X > y) = 1 − P(X ≤ y) = (1 − p)y > 0

e X = r + y ⊆ X > y quindi

P(X = r + y|X > y) =P(X = r + y)

(1 − p)y=

p(1 − p)y+r−1

(1 − p)y

= p(1 − p)r−1 = P(X = r) .

¦

48 Distribuzione Binomiale negativa

Definizione 7 (Distribuzione Binomiale negativa (o di Pascal)) Si di-ce che una v.a. X si distribuisce secondo la distribuzione binomiale negativadi parametri 0 < p ≤ 1 e r ≥ 1 (intero) se la sua funzione di probabilita edata da

P(X = x) =

(x−1r−1

)pr(1 − p)x−r x = r, r + 1, r + 2, · · ·

0 altrove

e indichiamo con X ∼ BiNe(r, p).

Claudio Agostinelli – Lezione 7 – Probabilita e Statistica, A.A. 2004/2005, 17

Page 104: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Si noti che per r = 1 si ottiene la distribuzione Geometrica.

49 Relazione tra la distribuzione Binomiale e

la distribuzione Binomiale negativa

Riportiamo questo teorema senza dimostrazione (si veda ad esempio, Cifarelli(1998), Introduzione al Calcolo delle Probabilita, pag. 262, teorema n. 3).

Teorema 7 (Distribuzione Binomiale negativa (o di Pascal)) Sia X ∼BiNe(r, p) e Z ∼ Bi(N, p) allora

P(Z ≥ r) = P(X ≤ N) .

50 Distribuzione Binomiale negativa

Teorema 8 Siano X1, X2, · · · , Xr, r v.a. Geometriche Ge(p) stocasticamen-te indipendenti, dove X1 indica il numero di prove per avere il primo successo,X2 indica l’ulteriore numero di prove per avere il secondo successo, allora lav.a. X cosı definita

X =n∑

i=1

Xi

e tale che X ∼ BiNe(r, p)

Claudio Agostinelli – Lezione 7 – Probabilita e Statistica, A.A. 2004/2005, 18

Page 105: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Corso di Probabilita e StatisticaA.A. 2004/2005

Lezione 8Versione 0.2 del 23 Marzo 2004

Claudio Agostinelli

Dipartimento di Statistica

Universita di Venezia

San Giobbe, Cannaregio, 873, Venezia

Tel. 041 2347446, Fax. 041 2347444 – http://www.dst.unive.it/~claudio

[email protected]

Page 106: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

1 Variabili aleatorie continue

Definizione 1 Una v.a. X definita su (Ω,A) e detta continua se la suafunzione di ripartizione e continua.

2 Densita

Definizione 2 (Densita) Si dice che la v.a. X e dotata di densita se laprobabilita con cui X assume valori nell’intervallo (a, b] e data mediante laformula

P(X ∈ (a, b]) = P(a < X ≤ b) =

∫ b

a

f(x) dx

in cui f(x) prende il nome di funzione di densita di probabilita della v.a. Xe deve avere le seguenti caratteristiche

• f(x) > 0 per ogni x ∈ R

•∫ +∞

−∞f(x) dx = 1

3 Variabili aleatorie assolutamente continue

Definizione 3 Una v.a. X definita su (Ω,A) e detta assolutamente continuase la sua funzione di ripartizione e continua e la v.a. X ammette densita.

4 Densita e funzione di Ripartizione

Per una v.a. X assolutamente continua con densita f(x) e con funzione diripartizione F (x) abbiamo

P(X ∈ (a, b]) =

∫ b

a

f(x) dx

=

∫ b

−∞

f(x) dx −

∫ a

−∞

f(x) dx

= P(X ≤ b) − P(X ≤ a)

= F (b) − F (a)

Claudio Agostinelli – Lezione 8 – Probabilita e Statistica, A.A. 2004/2005, 1

Page 107: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

5 Densita e funzione di Ripartizione

Infine si noti che quando F (x) e derivabile allora (dal teorema fondamentaledel calcolo integrale)

f(x) = F ′(x) =∂

∂xF (x)

e

F (x) =

∫ x

−∞

f(t) dt

6 V.a. dotate di Densita

E una caratteristica delle v.a. dotate di densita che per ogni x ∈ R is abbiaP(X = x) = 0. Infatti, dalla proprieta di continuita di una funzione diprobabilita, se an e una qualsiasi successione crescrente con an → x pern → ∞, allora

P(X = x) = P( limn→∞

(an, x])

= limn→∞

P((an, x])

= limn→∞

∫ x

an

f(x) dx = 0

7 Esempio di v.a. continue dotate di densita

Esempio 2 Sia Ω = [0, 1] e A = B([0, 1]) la Tribu associata. Sia P lafunzione di probabilita su A definita dalla funzione F (x)

F (x) =

0 x < 0x 0 ≤ x < 11 x ≥ 1

Consideriamo la v.a. X(ω) = ω e quindi

P(a < X ≤ b) = P(ω ∈ [0, 1] : a < X(ω) ≤ b)

= P(ω ∈ [0, 1] : a < ω ≤ b)

= P((a, b])

Claudio Agostinelli – Lezione 8 – Probabilita e Statistica, A.A. 2004/2005, 2

Page 108: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

8 Esempio di v.a. continue dotate di densita

=

b − a =∫ b

a1 dx 0 ≤ a < b ≤ 1

b a < 0 < b0 a < b < 0

La v.a. X e dotata di densita

f(x) =

1 0 ≤ x ≤ 10 altrove

9 Esempio di v.a. continue dotate di densita

Consideriamo sullo stesso spazio la v.a. Y (ω) = ω2 allora abbiamo

P(a < Y ≤ b) = P(ω ∈ [0, 1] : a < Y (ω) ≤ b)

= P(ω ∈ [0, 1] : a < ω2 ≤ b)

= P(ω ∈ [0, 1] :√

a < ω ≤√

b)

= P((√

a,√

b])

10 Esempio di v.a. continue dotate di densita

=

√a −

√b =

∫ b

a1

2√

xdx 0 ≤ a < b ≤ 1

√b a < 0 < b

0 a < b < 0

La v.a. Y e dotata di densita

f(x) =

12√

x0 ≤ x ≤ 1

0 altrove

Claudio Agostinelli – Lezione 8 – Probabilita e Statistica, A.A. 2004/2005, 3

Page 109: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

11 Esempio di v.a. continue dotate di densita

−0.5 0.0 0.5 1.0 1.5

01

23

45

6

Y

f(y)

12 Esempio di v.a. continue dotate di densita

−0.5 0.0 0.5 1.0 1.5

0.0

0.2

0.4

0.6

0.8

1.0

Y

F(y

)

13 Distribuzione Normale (o di Gauss)

Definizione 4 (Distribuzione Normale) Si dice che una v.a. X si di-stribuisce con legge di probabilia Normale (o Gaussiana) di parametri −∞ <

Claudio Agostinelli – Lezione 8 – Probabilita e Statistica, A.A. 2004/2005, 4

Page 110: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

µ < +∞ e 0 < σ < +∞ se possiede la seguente densita

f(x, µ, σ) =1

√2πσ2

exp

(

−1

2

(x − µ)2

σ2

)

−∞ < x < +∞

e la indichiamo con X ∼ N(µ, σ2)

14 Distribuzione Normale (o di Gauss)

La distribuzione Normale e quella che piu di ogni altra trova applicazio-ne nella metodologia statistica. Essa puo essere utilizzata per approssima-re la distribuzione di molti fenomeni presenti in natura e gioca un ruolofondamentale nei risultati teorici.

La v.a. X ∼ N(0, 1) e chiamata Normale standard.

15 Distribuzione Normale

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

N(0,1)

X

f(x)

Claudio Agostinelli – Lezione 8 – Probabilita e Statistica, A.A. 2004/2005, 5

Page 111: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

16 Distribuzione Normale

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

N(0,2)

X

f(x)

N(0,2)N(0,1)

17 Distribuzione Normale

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

N(1,1)

X

f(x)

N(1,1)N(0,1)

Claudio Agostinelli – Lezione 8 – Probabilita e Statistica, A.A. 2004/2005, 6

Page 112: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

18 Distribuzione Normale

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

N(1,2)

X

f(x)

N(1,2)N(0,1)

19 Distribuzione Normale

−4 −2 0 2 4

0.0

0.2

0.4

0.6

0.8

1.0

N(0,1)

X

F(x

)

Claudio Agostinelli – Lezione 8 – Probabilita e Statistica, A.A. 2004/2005, 7

Page 113: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

20 Distribuzione Normale

−4 −2 0 2 4

0.0

0.2

0.4

0.6

0.8

1.0

N(0,2)

X

F(x

)

N(0,2)N(0,1)

21 Distribuzione Normale

−4 −2 0 2 4

0.0

0.2

0.4

0.6

0.8

1.0

N(1,1)

X

F(x

)

N(1,1)N(0,1)

Claudio Agostinelli – Lezione 8 – Probabilita e Statistica, A.A. 2004/2005, 8

Page 114: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

22 Distribuzione Normale

−4 −2 0 2 4

0.0

0.2

0.4

0.6

0.8

1.0

N(1,3)

X

F(x

)

N(1,3)N(0,1)

23 Distribuzione Esponenziale

Definizione 5 (Distribuzione Esponenziale) Si dice che una v.a. X halegge Esponenziale con parametro λ > 0 se la sua funzione di densita a

f(x; λ) =

λ exp (−λx) x > 00 altrove

e la indichiamo nel seguente modo X ∼ Exp(λ).

In alcuni casi la densita e espressa in funzione di µ = 1λ

(cioe attraversoun’altra parametrizzazione).

Esercizio: si scriva la densita in funzione di µ.

Claudio Agostinelli – Lezione 8 – Probabilita e Statistica, A.A. 2004/2005, 9

Page 115: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

24 Distribuzione Esponenziale

0 2 4 6

0.0

0.5

1.0

1.5

2.0

Esponenziale

X

f(x)

Exp(0.5)Exp(1)Exp(2)

25 Distribuzione Esponenziale

La funzione di ripartizione della v.a. Esponenziale e

F (x) =

∫ x

0λe−λt dt = 1 − e−λx x ≥ 0

0 x < 0

26 Distribuzione Esponenziale

0 2 4 6

0.0

0.2

0.4

0.6

0.8

1.0

Esponenziale

X

F(x

) Exp(0.5)Exp(1)Exp(2)

Claudio Agostinelli – Lezione 8 – Probabilita e Statistica, A.A. 2004/2005, 10

Page 116: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

27 Distribuzione Esponenziale

Al pari della legge Geometrica, anche la legge Esponenziale possiede il re-quisito di essere senza memoria nel senso che se X e una v.a. Esponenzialeallora, dati due reali positivi y e x, abbiamo

P(y < X ≤ y + x|X > y) =P(y < X ≤ y + x ∩ X > y)

P(X > y)

=P(y < X ≤ y + x)

P(X > y)

=e−λy − e−λ(y+x)

e−λy

= 1 − e−λx = P(X ≤ x)

28 Trasformazione di varibili aleatorie

Si immagini un’esperimento definito sullo spazio (Ω,A, P). Sia X(ω) unav.a. il cui valore e determinato dall’esito ω ∈ Ω.

Consideriamo una funzione Y (ω) = g(X(ω)) dove g : R → R. Se g e taleche

x ∈ R : g(x) ≤ z ∈ B(R) per ogni z ∈ R

allora Y (ω) e una viaribile aleatoria.

29 Trasformazione di varibili aleatorie

Tale condizione risulta soddisfatta se g e una funzione con almeno una delleseguenti caratteristiche

• continua

• monotona (crescente o descrescente)

Quindi, ad esempio, se X(ω) e una v.a. allora anche

• |X(ω)|

• Xm(ω) (m intero naturale)

• aX(ω) (a numero reale)

• exp (X(ω))

Claudio Agostinelli – Lezione 8 – Probabilita e Statistica, A.A. 2004/2005, 11

Page 117: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

30 Trasformazione di varibili aleatorie

PostoA(y) = x ∈ R : g(x) ≤ y

allora abbiamo

FY (y) = P(Y (ω) ≤ y) = P(X(ω) ∈ A(y))

31 Trasformazione di varibili aleatorie

Nel caso discreto abbiamo:

P(Y ≤ y) =∑

x:g(x)≤y

pX(x)

mentre nel caso di una v.a. dotata di densita

P(Y ≤ y) =

x:g(x)≤y

fX(x) dx

32 Trasformazione di varibili aleatorie

Teorema 1 Sia X una v.a. con densita fX(x) con supporto l’interval-lo (a, b), eventualmente non limitato. Sia g(x) una funzione strettamentemonotona con derivata in (a, b).

Allora la v.a. Y = g(X) e dotata di densita

fY (y) =

fX(g−1(y))∣∣∣

∂∂y

g−1(y)∣∣∣ α < y < β

0 altrove

dove α = min(g(a), g(b)) e β = max(g(a), g(b)).

33 Trasformazione di variabili aleatorie

Sia X una v.a. esponenziale di parametro λ. Sia g(x) = ex. Alloraapplicando il teorema precedente abbiamo

• α = g(a) = g(0) = 1

• β = g(b) = g(+∞) = +∞

• g−1(y) = log(y) per 1 < y < +∞

Claudio Agostinelli – Lezione 8 – Probabilita e Statistica, A.A. 2004/2005, 12

Page 118: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

• ∂∂y

g−1(y) = 1y

allora

fY (y) = λ exp (−λ log(y))1

y=

λ

yλ+11 < y < +∞

e 0 altrove.

34 Trasformazione di variabili aleatorie

0 2 4 6

0.0

0.2

0.4

0.6

0.8

1.0

Exp(λ=1)

X

f X(x

)

1 2 3 4 5 6 7

0.0

0.2

0.4

0.6

0.8

1.0

Y=g(X)

Y

f Y(y

)

35 Caratteristiche, scale di misura e v.a.

Le v.a. rappresentato una misura di un particolare aspetto del fenomeno cheviene osservato attraverso l’esperimento aleatorio. Gli aspetti che vengonomisurati sono spesso classificati in una scala nel seguente modo

• qualitativi: se le modalita sono espresse in forma verbale

– nominali (o categoriali)

– ordinali

• quantitativi: se le modalita sono espresse in forma numerica

– ordinali

– intervallo

– rapporto

Claudio Agostinelli – Lezione 8 – Probabilita e Statistica, A.A. 2004/2005, 13

Page 119: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

36 Scala nominale (o categoriale)

Esempi di v.a. che sono su scala nominale sono

• il colore degli occhi: verdi, grigi, azzurri, castani, neri, · · ·

• i modelli di un determinato prodotto

• il sesso di un individuo: maschio o femmina

• la religione professata da un individuo

Ogni valore assunto dalla variabile e chiamato modalita e spesso questevariabili sono chiamate mutabili.

37 Scala nominale (o categoriale)

Le variabili su scala nominale sono variabili in cui non e possibile (o non hasenso) stabilire una relazione d’ordine tra le modalita, infatti posto ad esem-pio Ω = “verdi′′, “grigi′′, “azzurri′′, “castani′′, “neri′′ e definiamo una v.a.X(ω) tale che X(“verdi′′) = 1, X(“grigi′′) = 2, X(“azzurri′′) = 3, X(“castani′′) =4, X(“neri′′) = 5. E chiaro che non ha senso in questo contesto la scrittura

X(ω) < 3 .

38 Scala ordinale (qualitative e quantitative)

Quando tra le modalita di una v.a. e possibile (ha senso) instaurare unarelazione d’ordine allora la variabile e su scala ordinale. Per tali variabilinon ha pero senso parlare di quanto una modalita e piu grande di un’altra.Ad esempio, consideriamo la variabile “quanto zuccherata e la marmellata”con le seguenti modalita “poco”, “abbastanza”, “molto” mentre e chiaro che“poco” indica una quantita di zucchero inferiore a “abbastanza” e a “molto”.

39 Scala ordinale (qualitative e quantitative)

Non e vero, in generale, invece che per passare da una marmellata “poco”zuccherata a una “abbastanza” zuccherata ci voglia la stessa quantita dizucchero che per passare da una marmellata “abbstanza” zuccherata a una“molto” zuccherata.

Claudio Agostinelli – Lezione 8 – Probabilita e Statistica, A.A. 2004/2005, 14

Page 120: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

40 Scala ordinale (qualitative e quantitative)

• il livello di istruzione (qualitativa)

• l’ordine di arriva dei partecipanti ad una gara (quantitativa)

• la classe di reddito annuo (quantitativa) con le seguenti modalita 0 ≤R ≤ 5000, 5000 < R ≤ 10000, 10000 < R ≤ 20000, 20000 < R ≤ 40000e R > 40000.

• gli scaglioni di reddito per determinare le aliquote irpef (quantitativa)

Claudio Agostinelli – Lezione 8 – Probabilita e Statistica, A.A. 2004/2005, 15

Page 121: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Corso di Probabilita e StatisticaA.A. 2004/2005

Lezione 9Versione 0.3 del 24 Marzo 2004

Claudio Agostinelli

Dipartimento di Statistica

Universita di Venezia

San Giobbe, Cannaregio, 873, Venezia

Tel. 041 2347446, Fax. 041 2347444 – http://www.dst.unive.it/~claudio

[email protected]

Page 122: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

1 Scala intervallare

Una v.a. e misurata su scala intervallo quando oltre alla possibilita di stabi-lire una relazione d’ordine ha senso anche confrontare le loro differenze, adesempio ha senso dire che |x1 − x2| = |x2 − x3. Mentre per queste variabiliha senso parlare di una loro trasformazione lineare, non ha senso considerareil loro rapporto. Il problema nasce dalla mancanza di un zero naturale.

Un esempio di v.a. su scala intervallo e una variabile che misuri il tem-po. Mentre il tempo trascorso tra due istanti rimane inalterato al cambiaredell’istante in cui noi fissiamo uno zero il rapporto invece si puo alterare.

Infatti, consideriamo i due calendari, Gregoriano e Mussulmano.

2 Scala intervallare

Il primo fissa come anno zero la nascita di Cristo, il secondo invece l’anno 622d.C. (rispetto a quello Gregoriano) cosı per il calendario Gregoriano questoe l’anno 2004 mentre per quello Mussulmano e il 1382. Consideriamo la va-riabile numero di anni necessari per ottenere una laurea=anno di iscrizione−anno di laurea+1. Questa variabile assume lo stesso valore anche se misurataattraverso i due calendari.

Mentre la variabileanno di iscrizione

anno di laurea + 1

dipende dal calendario che stiamo adoperando.

3 Scala intervallare

Un esempio in cui non risulta immediato stabilire se la v.a. e ordinale o suscala intervallo e la variabile

“voto all’esame di Probabilita e Statistica”

4 Scala rapporto

Una v.a. e su scala rapporto quando eiste uno zero naturale. Si consideriad esempio la temperatura misurata in gradi Kelvin. Per questa variabileesiste uno zero naturale che e lo zero assoluto.

Claudio Agostinelli – Lezione 9 – Probabilita e Statistica, A.A. 2004/2005, 1

Page 123: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

5 Valori di sintesi di una v.a.

Abbiamo visto che una v.a. puo essere definita, in maniera equivalente,attraverso la funzione di probabilita (di densita) o attraverso la funzione diripartizione. In molti casi risulta utile poter sintetizzare la legge di una v.a.attraverso la determinazione di un certo numero di caratteristiche sinteticheche pongono in luce particolari aspetti dell’intera distribuzione.

6 Valori di sintesi di una v.a.

Le caratteristiche che in genere si considerano sono

• moda

• quantili

• momenti (centrati e non centrati)

7 Scale di misura e valori di sintesi

A seconda della scala di misura della variabile considerata vi sono diversivalori di sintesi che possono essere considerati

valore di sintesiscala moda quantili momentinominale ×ordinale × ×intervallo × × ×rapporto × × ×

8 Moda

Definizione 6 Si dice moda, indicata con Mo(X) di una v.a. X la modalitache si presenta con la densita (discreta nel caso di v.a. discreta) piu elevata.

9 Quantili

Definizione 7 Si dice quantile di ordine 0 ≤ α ≤ 1 di una v.a. X lamodalita Qα(X) = xα tale che

P(X ≤ xα) ≥ α e P(X ≥ xα) ≥ 1 − α

Claudio Agostinelli – Lezione 9 – Probabilita e Statistica, A.A. 2004/2005, 2

Page 124: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

cioeF (xα) ≥ α e 1 − F (xα) ≥ 1 − α

10 Quantili

In particolare abbiamo:

• centili: x0.01, x0.02, · · · , x1;

• decili: x0.1, x0.2, · · · , x1;

• quartili:

– 1o quartile: q1 = Q0.25(X) = x0.25,

– mediana: Me(X) = q2 = Q0.5(X) = x0.5,

– 3o quartile: q3 = Q0.75(X) = x0.75

– q4 = Q1(X) = x1.

11 Quartili

−4 −2 0 2 4

0.0

0.2

0.4

0.6

0.8

1.0

N(0,1)

X

F(x

)

Q0.25(X)Q0.5(X)Q0.75(X)

0.25

0.5

0.75

Claudio Agostinelli – Lezione 9 – Probabilita e Statistica, A.A. 2004/2005, 3

Page 125: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

12 Quartili e Diagramma con scatola e baffi

(Box and whiskers plot)

Una rappresentazione basata interamente sui quantili e il Diagramma conscatola e baffi. La scatola (un rettangolo tagliato da una linea) rappresenta itre quartili qi, i = 1, 2, 3 mentre i baffi sono costruiti nella seguente maniera:

• Si fissa una costante, in genere: c = 1.5

• Si calcola SI(X) = Q0.75(X) − Q0.25(X) e m = Q0(X), M = Q1(X).

• Bainf (X) = maxm, Q0.25(X) − c · SI(X)

• Basup(X) = minM, Q0.75(X) + c · SI(X)

Bainf (X) e Basup(X) determinano la posizione dei baffi.

13 Quartili e Diagramma a Scatola e Baffi

N(0,1) Exp(1)

−2

02

46

8

14 Grafico Quantile-Quantile

Il Grafico Quantile-Quantile e un utile strumento per confrontare la distri-buzione di due v.a. X, Y . E prodotto ponendo in ascissa i valori Qα(X)e in ordinata Qα(Y ), cioe si rappresentano sul piano cartesiano le coppie(Qα(X), Qα(Y )) per α ∈ [0, 1].

Quando le due v.a. hanno la stessa distribuzione allora il grafico e labisettrice del primo e terzo quadrante.

Claudio Agostinelli – Lezione 9 – Probabilita e Statistica, A.A. 2004/2005, 4

Page 126: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

15 Grafico Quantile-Quantile

−3 −2 −1 0 1 2 3

−2

−1

01

23

4Grafico Quantile−Quantile

N(0,1)

N(1

,1)

16 Grafico Quantile-Quantile

−3 −2 −1 0 1 2 3

−4

−2

02

4

Grafico Quantile−Quantile

N(0,1)

N(0

,2)

Claudio Agostinelli – Lezione 9 – Probabilita e Statistica, A.A. 2004/2005, 5

Page 127: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

17 Grafico Quantile-Quantile

−3 −2 −1 0 1 2 3

−2

02

4Grafico Quantile−Quantile

N(0,1)

N(1

,2)

18 Grafico Quantile-Quantile

−3 −2 −1 0 1 2 3

01

23

45

67

Grafico Quantile−Quantile

N(0,1)

Exp

(1)

Claudio Agostinelli – Lezione 9 – Probabilita e Statistica, A.A. 2004/2005, 6

Page 128: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

19 Speranza matematica o valore atteso per

v.a. discrete

Definizione 7 Sia X una v.a. discreta con funzione di probabilita pX(x).Allora, si chiama speranza matematica di X la quantita (finita)

E(X) =∑

x∈RX

x pX(x)

seE(|X|) =

x∈RX

|x| pX(x) < ∞

20 Speranza matematica o valore atteso per

v.a. dotate di densita

Definizione 8 Sia X una v.a. dotata di densita fX(x) e funzione di ripar-tizione FX(x). Si chiama speranza matematica di X la quantita (finita)

E(X) =

∫ +∞

−∞

x fX(x) dx =

∫ +∞

−∞

x dFX(x)

se

E(|X|) =

∫ +∞

−∞

|x| fX(x) dx < ∞

21 Speranza matematica e trasformazioni di

v.a.

Consideriamo le v.a. Y e X tali che Y = g(X) per una qualche funzione g.Allora

E(Y ) = E(g(X)) =

y∈RYypY (y) =

x∈RXg(x)pX(x)

se Y e una v.a. discreta∫

RYy dFY (y) =

RXg(x) dFX(x)

se Y e una v.a dotata di densita

22 Momenti

Definizione 9 Data la v.a. X si dice momento non centrato di ordine r(intero positivo) il valore

µr = E(Xr)

Claudio Agostinelli – Lezione 9 – Probabilita e Statistica, A.A. 2004/2005, 7

Page 129: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

e si dice momento centrato dalla media di ordine r

µr = E((x − µ1)r)

23 valori di sintesi basati sui momenti

• Media: µ = µ1 = E(X)

• Varianza: V (X) = σ2 = µ2 = E((X − µ1)2)

• Deviazione standard: σ =√

σ2

• Coefficiente di variazione: CV = σµ

• Indice di Asimmetria: ρ3 = µ3

σ3

• Indice di Curtosi: ρ4 = µ4

σ4 − 3

24 Media, Mediana, Moda

0 5 10 15

0.00

0.05

0.10

0.15

X

f(x)

Mo(X) Me(X) E(X)

Claudio Agostinelli – Lezione 9 – Probabilita e Statistica, A.A. 2004/2005, 8

Page 130: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

25 Asimmetria

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

x

dnor

m (

x) N(0,1)ρ3=0ρ3>0ρ3<0

26 Curtosi

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

0.5

0.6

x

dnor

m (

x)

N(0,1): ρ4=0N(0,2): ρ4<0N(0,0.5): ρ4>0

27 Proprieta dell’operatore Speranza Mate-

matica

• Sia X(ω) = c la v.a. constante che assume con probabilita 1 il valore callora E(X) = E(c) = c

Claudio Agostinelli – Lezione 9 – Probabilita e Statistica, A.A. 2004/2005, 9

Page 131: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

• Sia Y = c g(X) una v.a. allora E(Y ) = cE(g(X))

• Siano g(X) e h(Y ) due v.a. e a e b due constanti allora la v.a. Z =ag(X) + bh(Y ) e tale che

E(Z) = aE(g(X)) + bE(h(Y ))

• Siano Xi, i = 1, · · · , n v.a., mentre ai, i = 1, · · · , n constanti. PoniamoZ =

∑n

i=1 aiXi allora

E(Z) =n∑

i=1

aiE(Xi)

• Siano X e Y due v.a. indipendenti allora

E(X · Y ) = E(X) · E(Y )

28 Proprieta dell’operatore Varianza

• V (X) = σ2 = E(X2) − E(X)2 = µ2 − µ21

• Sia c una costante e X una v.a. allora posto Y = X + c si ha V (Y ) =V (X + c) = V (X)

• Posto Y = c · X si ha V (Y ) = V (c · X) = c2V (X)

• Date due costanti a e b e posto Y = aX + b allora

V (Y ) = V (aX + b) = a2V (X)

• Se X e Y sono due v.a. indipendenti allora

V (X + Y ) = V (X) + V (Y )

29 Proprieta dell’operatore Varianza

• Piu in generale date Xi, i = 1, · · · , n v.a. a due a due indipendentiallora

V (n∑

i=1

aiXi) =n∑

i=1

a2i V (Xi)

Claudio Agostinelli – Lezione 9 – Probabilita e Statistica, A.A. 2004/2005, 10

Page 132: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

30 Media della v.a. Binomiale

E(X) =N∑

x=0

x

(N

x

)

px(1 − p)N−x

↓ il primo termine della somma e zero

=N∑

x=1

x

(N

x

)

px(1 − p)N−x

↓ poniamo s = x − 1 otteniamo

=N−1∑

s=0

(s + 1)N !

(s + 1)!(N − s − 1)!ps+1(1 − p)N−s−1

31 Media della v.a. Binomiale

↓ portiamo fuori N e p

= Np

N−1∑

s=0

(s + 1)(N − 1)!

(s + 1)!(N − s − 1)!ps(1 − p)N−s−1

↓ semplifichiamo (s + 1) con il primo fattore al denominatore

= Np

N−1∑

s=0

(N − 1)!

s!(N − s − 1)!ps(1 − p)N−s−1

↓ La sommatoria e la somma della funzione di probabilita di una Bi(N − 1, p)

= Np

32 Media della v.a. Binomiale

In maniera piu semplice consideriamo una v.a. di Bernoulli (X ∼ Bi(1, p)),allora dalla definizione di speranza matematica abbiamo

E(X) =1∑

x=0

xpX(x) = 0 · (1 − p) + 1 · p = p

Infine, consideriamo X1, X2, · · · , XN , N v.a. Bernoulliane indipendenti diparametro p e X =

∑N

i=1 Xi ∼ Bi(N, p) allora

E(X) = E

(N∑

i=1

Xi

)

=N∑

i=1

E(Xi) = Np

Claudio Agostinelli – Lezione 9 – Probabilita e Statistica, A.A. 2004/2005, 11

Page 133: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

33 Varianza della v.a. Binomiale

Per il calcolo della varianza utilizziamo la relazione

V (X) = E(X2) − [E(X)]2

e quindi ci rimane da calcolare µ2 = E(X2).

34 Varianza della v.a. Binomiale

E(X2) =N∑

x=0

x2

(N

x

)

px(1 − p)N−x

=N∑

x=1

x2

(N

x

)

px(1 − p)N−x

=N∑

x=1

xN !

(x − 1)!(N − x)!px(1 − p)N−x

= NN∑

x=1

x

(N − 1

x − 1

)

px(1 − p)N−x

35 Varianza della v.a. Binomiale

= N

N−1∑

s=0

(s + 1)

(N − 1

s

)

ps+1(1 − p)N−s−1

= N

N−1∑

s=0

s

(N − 1

s

)

ps+1(1 − p)N−s−1

+N−1∑

s=0

(N − 1

s

)

ps+1(1 − p)N−s−1

= Np · (N − 1) · p + p = N(p2(N − 1) + p)

Claudio Agostinelli – Lezione 9 – Probabilita e Statistica, A.A. 2004/2005, 12

Page 134: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

36 Varianza della v.a. Binomiale

Da cui la varianza e

V (X) = E(X2) − [E(X)]2

= N(p2(N − 1) + p) − (Np)2

= N(N − 1)p2 + Np − N 2p2

= N2p2 − Np2 + Np − N 2p2

= Np(1 − p)

37 Varianza della v.a. Binomiale

In maniera piu semplice consideriamo una v.a. di Bernoulli (X ∼ Bi(1, p)),allora abbiamo

E(X2) =1∑

x=0

x2pX(x) = 02 · (1 − p) + 12 · p = p

V (X) = p − p2 = p · (1 − p)

Infine, consideriamo X1, X2, · · · , XN , N v.a. Bernoulliane indipendenti diparametro p e X =

∑N

i=1 Xi ∼ Bi(N, p) allora

V (X) = V

(N∑

i=1

Xi

)

=N∑

i=1

V (Xi) = Np(1 − p)

38 Media della v.a. Geometrica

E(X) =∞∑

x=1

x · p(1 − p)x−1 = p

∞∑

x=1

x · (1 − p)x−1

= −p

∞∑

x=1

∂p(1 − p)x

↓ siccome e una serie assulutamente convergente, possiamo invertire l’ordine degli operatori

= −p∂

∂p

∞∑

x=1

(1 − p)x

Claudio Agostinelli – Lezione 9 – Probabilita e Statistica, A.A. 2004/2005, 13

Page 135: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

39 Media della v.a. Geometrica

↓ la serie e una serie geometrica di ragione 1 − p dove manca il primo termine

= −p∂

∂p

(1

1 − (1 − p)− 1

)

= −p∂

∂p

(1 − p

1 − (1 − p)

)

= −p

(−p − (1 − p)

p2

)

=1

p

40 Momento secondo della v.a. Geometrica

E(X2) =∞∑

x=1

x2p(1 − p)x−1

= p

∞∑

x=1

x(x − 1)(1 − p)x−1

+∞∑

x=1

x(1 − p)x−1

= p

∞∑

x=1

x(x − 1)(1 − p)x−1 +1

p2

Claudio Agostinelli – Lezione 9 – Probabilita e Statistica, A.A. 2004/2005, 14

Page 136: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

41 Momento secondo della v.a. Geometrica

= p

(1 − p)∞∑

x=1

x(x − 1)(1 − p)x−2 +1

p2

= p

(1 − p)∞∑

x=1

∂2

∂p2(1 − p)x +

1

p2

= p(1 − p)∂2

∂p2

∞∑

x=1

(1 − p)x +1

p

= p(1 − p)∂2

∂p2

1 − p

p+

1

p

= p(1 − p)2

p3+

1

p=

2 − p

p2

42 Varianza della v.a. Geometrica

V (X) = E(X2) − [E(X)]2 =2 − p

p2−

1

p2=

1 − p

p2

43 Media della v.a. Normale

E(X) =

∫∞

−∞

x1

√2πσ2

exp

[

−1

2

(x − µ

σ

)2]

dx

poniamo x = σz + µ, cioe z = x−µ

σ

↓ da cui dx = σdz

=1

√2πσ2

∫∞

−∞

(σz + µ) exp

[

−1

2z2

]

σ dz

√2π

∫∞

−∞

z exp

[

−1

2z2

]

dz

+ µ

∫∞

−∞

1√

2πexp

[

−1

2z2

]

dz

44 Media della v.a. Normale

• Il primo integrale e nullo in quanto z e una funzione dispari e exp[−1

2z2]

e una funzione pari.

Claudio Agostinelli – Lezione 9 – Probabilita e Statistica, A.A. 2004/2005, 15

Page 137: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

• Il secondo integrale e pari a 1 perche integrale di una densita.

QuindiE(X) = µ

45 Momente secondo e Varianza della v.a.

Normale

Seguendo lo stesso procedimento fatto per la media e utilizzando l’integra-zione per parti otteniamo

E(X2) = σ2 + µ2

da cuiV (X) = E(X2) − [E(X)]2 = σ2 + µ2 − µ2 = σ2

46 Su trasformazioni lineari di una Normale

Teorema 1 Sia X ∼ N(µ, σ2) e siano a 6= 0 e b due costanti. Allora la v.a.

Y = aX + b ∼ N(aµ + b, a2σ2)

Per la dimostrazione si usi il teorema che abbiamo enunciato sulle trasfor-mazioni di v.a.

In particolare si ha

E(Y ) = E(aX + b) = aµ + b V (Y ) = V (aX + b) = a2V (X) = a2σ2

47 Standardizzazione di una Normale

Come risultato del precedente teorema abbiamo che data una X ∼ N(µ, σ2),allora

Z =X − µ

σ∼ N(0, 1)

questa operazione viene chiamata standardizzazione.

Claudio Agostinelli – Lezione 9 – Probabilita e Statistica, A.A. 2004/2005, 16

Page 138: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

48 Standardizzazione di una Normale

L’operazione di standardizzazione risulta molto utile per calcolare la proba-bilita di eventi nella forma X ≤ c (con c costante) per una X ∼ N(µ, σ2).Infatti tale evento e equivalente a

X − µ

σ≤

c − µ

σ

da cui

P(X ≤ c) = P

(X − µ

σ≤

c − µ

σ

)

ma X−µ

σ∼ N(0, 1) le cui probabilita sono tabulate.

49 Standardizzazione di una Normale

Nella stessa maniera possiamo calcolare la probabilita di eventi nella formaa ≤ X ≤ b (con a e b costanti) per una X ∼ N(µ, σ2). Infatti tale evento eequivalente a

a − µ

σ≤

X − µ

σ≤

b − µ

σ

da cui

P(a ≤ X ≤ b) = P

(a − µ

σ≤

X − µ

σ≤

b − µ

σ

)

50 Standardizzazione di una Normale

= P

(X − µ

σ≤

b − µ

σ

)

− P

(X − µ

σ≤

a − µ

σ

)

= Φ

(b − µ

σ

)

− Φ

(a − µ

σ

)

Claudio Agostinelli – Lezione 9 – Probabilita e Statistica, A.A. 2004/2005, 17

Page 139: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

51 Media e Varianza di una Esponenziale

E(X) =

∫∞

0

xλ exp [−λx] dx =1

λ

e

V (X) =

∫∞

0

x2λ exp [−λx] dx −1

λ2=

1

λ2

come si verificare integrando per parti.

52 Direttore

Esercizio 1 Il direttore di una societa ha il suo domicilio in una data localitaA. Egli parte dal suo domicilio in macchina alle 8.45 per arrivare alla societache apre alle ore 9.00. Il tempo di percorso e, in media, di 13 minuti, conuna deviazione standard di 3 minuti.

Assumendo che il tempo di percorso sia distribuito normalmente, deter-minare in quale percentuale di casi il direttore arriva alla societa in ritardo.

53 Differenza in due lanci di un dado

Esercizio 2 Si lanciano due dadi bilanciati. Si costruisca la variabile ca-suale X che rappresenta la differenza tra il punteggio del primo e del secondodado. Si determini

• la distribuzione di probabilita e la funzione di ripartizione di X e se nedisegnino i grafici.

• P(−2 < X ≤ 0);

• media e varianza di X;

• distribuzione di probabilita, media e varianza della variabile casualeZ = X2.

54 Quattro sfere

Esercizio 3 Un’urna contiene quattro sfere delle quali due sono contrasse-gnate dal numero 1, una dal 3 e una dal 4. Si estraggono senza reinserimen-to due sfere e sia X la variabile aleatoria che indica la somma dei numericorrispondenti alle sfere estratte. Si determini

Claudio Agostinelli – Lezione 9 – Probabilita e Statistica, A.A. 2004/2005, 18

Page 140: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

• la funzione di probabilita di X, con relativa rappresentazione grafica;

• la funzione di ripartizione di X, con relativa rappresentazione grafica;

• la media della distribuzione di X;

• la varianza di X;

• P(X ≥ 7) e P(3 < X ≤ 5).

55 Stereo

Esercizio 4 Una partita di 6 stereo ne contiene 2 difettosi. Un locale ac-quista 3 di questi stereo a caso. Se X conta il numero di stereo difettosi,trovarne la funzione di probabilita e la funzione di ripartizione con relativigrafici. Calcolarne

• media e varianza di X;

• P(X = 1) e P(0 < X ≤ 2) a partire dalla funzione di ripartizione.

56 Urna con tre palline

Esercizio 5 Un’urna contiene tre palline numerate da 1 a 3. Si estraggonocon reinserimento due palline e sia X la variabile aleatoria che indica ladifferenza in modulo dei numeri estratti. Si determini

• la funzione di probabilita di X, con relativa rappresentazione grafica;

• la funzione di ripartizione di X, con relativa rappresentazione grafica;

• la media della distribuzione di X;

• la varianza di X;

• P(X ≤ 2) e P(2 ≤ X < 5).

57 Contenitori e palline

Esercizio 6 Si distribuiscono casualmente 2 palline in 4 contenitori e siaX =“numero di palline nel primo contenitore”.

• Trovare e disegnare la funzione di probabilita di X;

Claudio Agostinelli – Lezione 9 – Probabilita e Statistica, A.A. 2004/2005, 19

Page 141: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

• Trovare e disegnare la funzione di ripartizione di X;

• Calcolare media e varianza di X.

58 Casello Autostradale

Esercizio 7 Ad un casello autostradale arriva ogni ora un numero di auto-mobili che segue una distribuzione di Poisson di parametro λ = 20. Qual e laprobabilita che in un’ora arrivino non piu di 7 automobili? E che il numerodi macchine sia compreso fra 6 e 12 (estremi inclusi)?

59 Piove?

Esercizio 8 In una localita balneare la probabilita che piova in un qualunquegiorno del mese di agosto e 0.05. Assumendo che vi sia indipendenza tra ivari giorni del mese, qual e la probabilita che la prima pioggia del mese siosservi il 15 agosto? E prima del 15 agosto? Dato che fino al 10 agosto nonha piovuto, qual e la probabilita che non piova fino al 25?

60 Lancio di una moneta non bilanciata

Esercizio 9 Si lancia una moneta che presenta testa con probabilita 0.6. Seil risultato e testa, si estraggono 4 palline con reinserimento da un’urna checontiene 6 palline bianche e 4 palline nere. Se esce croce, si estraggono dallastessa urna 3 palline senza reinserimento. Trovare funzione di probabilita,funzione di ripartizione e valore atteso della variabile che conta il numero dipalline bianche estratte nell’esperimento.

61 Alberi

Esercizio 10 La probabilita che una albero di un certo frutteto non dia fruttoe 0.04. Qual e

• la probabilita che su 200 alberi esattamente 7 non diano frutti?

• la probabilita che meno di 2 piante non diano frutti?

• la probabilita che almeno una pianta dia frutto?

Claudio Agostinelli – Lezione 9 – Probabilita e Statistica, A.A. 2004/2005, 20

Page 142: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

62 Prigioniero e porte

Esercizio 11 Un prigioniero e rinchiuso in una cella con 3 porte, A, B eC. La porta A riporta il prigioniero in cella dopo 2 giorni di lavori forzati; laporta B lo riporta in cella dopo 3 giorni di lavori forzati; infine la porta C ridaal prigioniero la liberta. Il prigioniero sceglie la porta da prendere lanciandoun dado equilibrato: se il risultato e pari sceglie A, se esce il numero 1 sceglieB e nei rimanenti casi sceglie C. Se il prigioniero torna in cella, sceglie inmodo equiprobabile fra le due porte non ancora scelte. Si determini

• la variabile casuale X che indica il numero di giorni impiegati dalprigioniero per uscire;

• la funzione di ripartizione di X e se ne faccia il grafico;

• media e varianza di X.

Claudio Agostinelli – Lezione 9 – Probabilita e Statistica, A.A. 2004/2005, 21

Page 143: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Corso di Probabilita e StatisticaA.A. 2004/2005

Lezione 10Versione 0.3 del 26 Aprile 2005

Claudio Agostinelli

Dipartimento di Statistica

Universita di Venezia

San Giobbe, Cannaregio, 873, Venezia

Tel. 041 2347446, Fax. 041 2347444 – http://www.dst.unive.it/~claudio

[email protected]

Page 144: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

1 Variabili aleatorie doppie

Definizione 1 Sia (Ω,A, P) uno spazio probabilizzato. Siano X(ω) e Y (ω)due v.a. definite su Ω in modo che

Z(ω) = (X(ω), Y (ω)) : Ω → R2

Z(ω) e detta v.a. doppia e RZ = RX,Y = (x, y) : x ∈ RX , y ∈ RY

E facile vedere come puo essere definita una v.a. tripla e cosı via.

2 Variabili aleatorie doppie

Rimane da definire la funzione di probabilita di Z(ω). Le funzioni di ripar-tizione FX(x) e FY (y) di X e Y rispettivamente, in genere non sono sufficientiper determinare tale probabilita.

E necessario considerare la seguente funzione di ripartizione (detta con-giunta)

FZ(z) = FX,Y (x, y) = P(X ≤ x ∩ Y ≤ y) (x, y) ∈ RX,Y

3 Variabili aleatorie doppie discrete

Definizione 2 Per due v.a. discrete X e Y , la v.a. doppia Z = (X,Y ) (chee discreta) ha funzione di probabilita (congiunta)

pZ(z) =

pX,Y (x, y) = P(ω : X(ω) = x ∩ Y (ω) = y) (x, y) ∈ RX,Y

0 altrove

cioe

P(x1 < X ≤ x2, y1 < Y ≤ y2) = FX,Y (x2, y2) − FX,Y (x1, y2)

− FX,Y (x2, y1) + FX,Y (x1, y1)

FX,Y (x, y) =∑

(u,v):u≤x,v≤y

pX,Y (u, v)

Claudio Agostinelli – Lezione 10 – Probabilita e Statistica, A.A. 2004/2005, 1

Page 145: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

4 Variabili aleatorie doppie discrete

Esercizio 1 Si consideri il lancio di un dado e le due v.a. cosı definite

• X(ω) = ω

Y (ω) =

0 “esce un numero dispari”1 “esce un numero pari minore di 4”2 “esce un numero pari maggiore o uguale di 4”

Calcorare la funzione di probabilita e di ripartizione della v.a. doppia Z =(X,Y )

5 Variabili aleatorie doppie discrete

E facile determinare la funzione di probabilita e di ripartizione di X e Yinfatti abbiamo

pX(X = x) =1

6FX(x) =

0 x < 1[x]6

1 ≤ x ≤ 61 x > 6

dove [·] indica la parte intera.

6 Variabili aleatorie doppie discrete

mentre

pY (Y = y) =

36

Y = 0 “esce un numero dispari”

16

Y = 1 “esce un numero pari minore di 4”

26

Y = 2 “esce un numero pari maggiore o uguale di 4”

e

FY (y) =

0 y < 036

0 ≤ y < 146

1 ≤ y < 21 y ≥ 2

Claudio Agostinelli – Lezione 10 – Probabilita e Statistica, A.A. 2004/2005, 2

Page 146: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

7 Variabili aleatorie doppie discrete

invece per determinare pX,Y (x, y) e FX,Y (x, y) abbiamo

Y (ω)X(ω) 0 1 2 pX(X = x)1 1

60 0 1

6

2 0 16

0 16

3 16

0 0 16

4 0 0 16

16

5 16

0 0 16

6 0 0 16

16

pY (Y = y) 36

16

26

1

8 Variabili aleatorie doppie discrete

e quindi

pX,Y (x, y) =

16

(x, y) ∈ (1, 0), (3, 0), (5, 0), (2, 1), (4, 2), (6, 2) ⊂ RX,Y

0 (x, y) altrimenti

9 Variabili aleatorie doppie discrete

e la FX,Y (x, y) e

Y (ω)X(ω) 0 1 2 FX(x)1 1

616

16

16

2 16

26

26

26

3 26

36

36

36

4 26

36

46

46

5 36

46

56

56

6 36

46

1 1FY (y) 3

646

1

10 Variabili aleatorie doppie discrete

Infine, se e nota la funzione di probabilita congiunta pX,Y (x, y) allora e facileottenere le funzioni di probabilita (marginali) delle v.a. X e Y

pX(X = x) =∑

y∈RY

pX,Y (x, y) pY (Y = y) =∑

x∈RX

pX,Y (x, y)

Claudio Agostinelli – Lezione 10 – Probabilita e Statistica, A.A. 2004/2005, 3

Page 147: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

e quindi

FX(x) =∑

u≤x

y∈RY

pX,Y (u, y) FY (y) =∑

v≤y

x∈RX

pX,Y (x, v)

11 Variabili aleatorie doppie dotate di den-

sita

Definizione 3 La v.a. doppia Z = (X,Y ) si dira dotata di densita se esisteuna funzione fX,Y (x, y) tale che

• fX,Y (x, y) ≥ 0, ∀(x, y) ∈ R2

∫ +∞

−∞

∫ +∞

−∞

fX,Y (x, y) dx dy = 1

P(a < x ≤ b, c < y ≤ d) =

b

a

d

c

fX,Y (x, y) dx dy

Tale funzione e chiamata densita congiunta fZ(z) = fX,Y (x, y).

12 Variabili aleatorie doppie dotate di den-

sita

da cui abbiamo

FX,Y (x, y) =

x

−∞

y

−∞

fX,Y (u, v) du dv

fX(x) =

∫ +∞

−∞

fX,Y (x, v) dv fY (y) =

∫ +∞

−∞

fX,Y (u, y) du

e fX(x) e fY (y) sono chiamate densita marginali delle v.a. X e Y rispetti-vamente.

13 Variabili aleatorie doppie dotate di den-

sita

Dalle formule precedenti si ottiene anche

FX(x) = limy→+∞

FX,Y (x, y) FY (y) = limx→+∞

FX,Y (x, y)

Claudio Agostinelli – Lezione 10 – Probabilita e Statistica, A.A. 2004/2005, 4

Page 148: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

14 Variabili aleatorie doppie dotate di den-

sita

Esercizio 2 Sia (X,Y ) la v.a. doppia dotata della seguente densita

fX,Y (x, y) =

exp [−x − y] x > 0, y > 00 altrove

• Calcolare le densita marginali

• Calcolare la funzione di ripartizione congiunta e le marginali

• Calcolare la probabilita dell’evento C = (x, y)|x + y > 1

15 Variabili aleatorie doppie dotate di den-

sita

Le densita marginali si ottengono nel modo seguente

fX(x) =

∫ +∞

0

fX,Y (x, v) dv

=

∫ +∞

0

exp [−x − v] dv

= exp [−x]

∫ +∞

0

exp [−v] dv

l’integrale e pari a uno perche integriamo la densita

↓ di una v.a. esponenziale (λ = 1) su tutto il suo supporto

= exp [−x] (x > 0)

16 Variabili aleatorie doppie dotate di den-

sita

percio fX(x) e la densita di una v.a. esponenziale con λ = 1. Lo stesso valeper fY (y). Si noti che in questo caso particolare

fX,Y (x, y) = fX(x) · fY (y)

Claudio Agostinelli – Lezione 10 – Probabilita e Statistica, A.A. 2004/2005, 5

Page 149: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

17 Variabili aleatorie doppie dotate di den-

sita

La funzione di ripartizione congiunta si ottiene

FX,Y (x, y) =

x

0

y

0

exp [−u − v] du dv

=

x

0

exp [−u] du

y

0

exp [−v] dv

= (1 − exp [−x])(1 − exp [−y])

= FX(x) · FY (y)

18 Variabili aleatorie doppie dotate di den-

sita

Per rispondere all’ultimo quesito dobbiamo calcolare P((X,Y ) ∈ C). Cioe

0.0 0.5 1.0 1.5 2.0

0.0

0.5

1.0

1.5

2.0

X

Y

y=1−x

C

Claudio Agostinelli – Lezione 10 – Probabilita e Statistica, A.A. 2004/2005, 6

Page 150: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

19 Variabili aleatorie doppie dotate di den-

sita

Per rispondere all’ultimo quesito dobbiamo calcolare P((X,Y ) ∈ C). Cioe

P((X,Y ) ∈ C) =

∫ ∫

C

fX,Y (u, v) du dv = P(X + Y > 1)

=

∫ 1

0

(∫ ∞

1−u

exp [−u] exp [−v] dv

)

du

+

∫ ∞

1

(∫ ∞

0

exp [−u] exp [−v] dv

)

du

20 Variabili aleatorie doppie dotate di den-

sita

=

∫ 1

0

exp [−u]

(∫ ∞

1−u

exp [−v] dv

)

du

+

∫ ∞

1

exp [−u] du

∫ ∞

0

exp [−v] dv

=

∫ 1

0

exp [−u] exp [−(1 − u)] du +

∫ ∞

1

exp [−u] du · 1

=1

e

∫ 1

0

1 du +1

e=

2

e

21 Variabili aleatorie doppie

Naturalmente esistono v.a. doppie che non sono ne discrete ne continue. Unesempio e quando X e una v.a. discreta mentre Y e una v.a. dotata didensita. Noi non tratteremo questo tipo di variabili doppie.

22 Distribuzioni condizionali per v.a.

Definizione 4 (Probabilita condizionale di X|Y = y) Sia (X,Y ) una v.a.doppia discreta con funzione di probabilita

pX,Y (x, y) = P(X = x, Y = y)

Claudio Agostinelli – Lezione 10 – Probabilita e Statistica, A.A. 2004/2005, 7

Page 151: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

allora in accordo con la definizione di probabilita condizionale

pX|Y (X = x|Y = y) = P(X = x|Y = y) =pX,Y (x, y)

pY (y)y ∈ RY (pY (y) > 0) .

Per ogni valore fissato di y ∈ RY la funzione pX|Y (X = x|Y = y) prende ilnome di probabilita condizionale di X|Y = y.

23 Distribuzioni condizionali per v.a.

Esercizio 2 Riprendendo l’ultimo esempio, si calcoli la probabilita condizionalepX|Y (X = x|Y = y).

Y (ω)X(ω) 0 1 21 2

60 0

2 0 1 03 2

60 0

4 0 0 36

5 26

0 06 0 0 3

6

pY (Y = y) 36

16

26

24 Distribuzioni condizionali e indipendenza

per v.a.

Definizione 5 Due v.a. discrete X e Y sono stocasticamente indipendentise (e solo se)

pX,Y (x, y) = pX(x) · pY (y) ∀(x, y) ∈ RX,Y = RX × RY

questo implica che

pX|Y (x|y) = pX(x), pY |X(y|x) = pY (y) ∀(x, y) ∈ RX,Y

25 Distribuzioni condizionali e indipendenza

per v.a.

Gli stessi risultati e definizioni valgono anche per le v.a. dotate di densita inparticolare abbiamo

fX|Y (x|y) =fX,Y (x, y)

fY (y)∀y : fY (y) > 0

Claudio Agostinelli – Lezione 10 – Probabilita e Statistica, A.A. 2004/2005, 8

Page 152: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

e due v.a. X, Y sono stocasticamente indipendenti se e solo se

fX,Y (x, y) = fX(x) · fY (y)

il che implica (nel caso di indipendenza)

fX|Y (x|y) = fX(x) ∀(x, y) ∈ RX,Y

26 Funzioni di ripartizioni condizionali

Dalla funzioni di probabilita condizionale (nel caso discreto) e dalla densitacondizionale (nel caso assolutamente continuo), possiamo costruire le funzionidi ripartizioni condizionali

FX|Y (x|y) =∑

u≤x:u∈RX

pX|Y (u|y)

e

FX|Y (x|y) =

x

−∞

fX|Y (u|y) du

27 Variabili aleatorie condizionali e speranza

matematica

Data la v.a. doppia (X,Y ) con funzione di probabilita pX,Y (x, y) allora lafunzione X|Y = y (y ∈ RY ) e una v.a. con funzione di probabilita pX|Y (x|y).

Quindi dalla definizione di speranza matematica e di Varianza abbiamo

E(X|Y = y) =∑

x∈RX

xpX|Y (x|y)

V (X|Y = y) =∑

x∈RX

(x − E(X|Y = y))2pX|Y (x|y)

e in maniera del tutto analoga nel caso di v.a. dotate di densita.

Claudio Agostinelli – Lezione 10 – Probabilita e Statistica, A.A. 2004/2005, 9

Page 153: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

28 Variabili aleatorie condizionali e speranza

matematica

Esercizio 2 Continuando l’esercizio si calcoli ad esempio E(X|Y = y)

E(X|Y = 0) = 1 ·1

3+ 3 ·

1

3+ 5 ·

1

3= 3

E(X|Y = 1) = 2 · 1 = 2

E(X|Y = 2) = 4 ·1

2+ 6 ·

1

2= 5

29 Variabili aleatorie condizionali e speranza

matematica

Esercizio 2

V (X|Y = 0) = (1 − 3)2 ·1

3+ 0 + (5 − 3)2 ·

1

3= 4

2

3=

8

3V (X|Y = 1) = 0

V (X|Y = 2) = (4 − 5)2 ·1

2+ (6 − 5)2 ·

1

2= 2

1

2= 1

30 Variabili aleatorie condizionali e speranza

matematica

0.0 0.5 1.0 1.5 2.0

01

23

45

67

Y

X|Y

Claudio Agostinelli – Lezione 10 – Probabilita e Statistica, A.A. 2004/2005, 10

Page 154: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

31 Speranza matematica della speranza matem-

atica condizionale

Ad esempio per v.a. doppie discrete (il risultato vale nel caso generale):E(E(X|Y )) =

y∈RY

[

x∈Rx

xpX|Y (x|y)

]

pY (y)

=∑

y∈RY

x∈Rx

xpX|Y (x|y)pY (y)

=∑

y∈RY

x∈Rx

xpX,Y (x, y)

=∑

x∈Rx

x∑

y∈RY

pX,Y (x, y)

=∑

x∈Rx

xpX(x) = E(X)

32 Varianza e varianza condizionale

Esiste una relazione assai importante tra la varianza di una v.a. e le varianzecondizionali di questa v.a. condizionata rispetto alle modalita di un’altrav.a.

Sia (X,Y ) una v.a. doppia allora

V (X) = E(V (X|Y )) + V (E(X|Y ))

Questa formula viene chiamata scomposizione della varianza e assumeun ruolo fondamentale in statistica. Essa e il concetto fondamentale utilizzatonel ramo di studi chiamati “Analisi della Varianza” (si veda ad esempio illibro di Scheffe, Analysis of Variance).

33 Varianza e varianza condizionale

Nel caso di v.a. discrete abbiamo

V (X) =∑

x∈RX

(x − E(X))2pX(x)

=∑

x∈RX

(x − E(X))2∑

y∈RY

pX,Y (x, y)

=∑

x∈RX

y∈RY

(x − E(X|Y = y) + E(X|Y = y) − E(X))2pX,Y (x, y)

Claudio Agostinelli – Lezione 10 – Probabilita e Statistica, A.A. 2004/2005, 11

Page 155: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

34 Varianza e varianza condizionale

=∑

x∈RX

y∈RY

(x − E(X|Y = y)2pX,Y (x, y)

+∑

x∈RX

y∈RY

(E(X|Y = y) − E(X))2pX,Y (x, y)

+ 2∑

x∈RX

y∈RY

(x − E(X|Y = y))(E(X|Y = y) − E(X))pX,Y (x, y)

=∑

y∈RY

[

x∈RX

(x − E(X|Y = y)2pX|Y (x|y)

]

pY (y)

+∑

y∈RY

[

x∈RX

(E(X|Y = y) − E(E(X|Y )))2pX|Y (x|y)

]

pY (y)

+ 0

= E(V (X|Y )) + V (E(X|Y ))

35 Varianza e varianza condizionale

Rimane da mostrare

2∑

x∈RX

y∈RY

(x − E(X|Y = y))(E(X|Y = y) − E(X))pX,Y (x, y) = 0

infatti

=∑

x∈RX

y∈RY

(x − E(X|Y = y))(E(X|Y = y) − E(X))pX,Y (x, y)

=∑

y∈RY

(E(X|Y = y) − E(X))

[

x∈RX

(x − E(X|Y = y))pX|Y (x|y)

]

pY (y)

=∑

y∈RY

(E(X|Y = y) − E(X))

[

x∈RX

xpX|Y (x|y) − E(X|Y = y)

]

pY (y)

=∑

y∈RY

(E(X|Y = y) − E(X)) [E(X|Y = y) − E(X|Y = y)] pY (y)

Claudio Agostinelli – Lezione 10 – Probabilita e Statistica, A.A. 2004/2005, 12

Page 156: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

36

Esercizio 2 Riprendendo l’esercizio precedente abbiamo

E(V (X|Y )) =

[

8

3

3

6+ 0

1

6+ 1

2

6

]

=8

6+

2

6=

10

6

V (E(X|Y )) =

[

(3 − 3.5)2 3

6+ (2 − 3.5)2 1

6+ (5 − 3.5)2 2

6

]

=3

4 · 6+

9

4 · 6+

9

2 · 6

=3 + 9 + 9 · 2

4 · 6=

30

4 · 6=

7.5

6

V (X) =[

(1 − 3.5)2 + (2 − 3.5)2 + (3 − 3.5)2 + (4 − 3.5)2

+ (5 − 3.5)2 + (6 − 3.5)2] 1

6=

17.5

6

37 Misure di dipendenza tra v.a.

Perche due v.a. siano stocasticamente dipendenti e sufficiente che la densita(discreta) congiunta non possa essere espressa come prodotto delle densita(discrete) marginali per una qualche coppia (x, y) ∈ RX,Y . E chiaro quindiche vi sono diverse “intensita” e “forme” di dipendenza. Diviene impor-tante allora dare una valutazione numerica all’intensita e alla forma delladipendenza.

Nel seguito presentiamo alcuni modi per misurare il grado di dipendenzatra due v.a.. Ci soffermeremo sulle v.a. discrete, per quelle dotate di densital’estensione e immediata.

38 Dipendenza in media

Definizione 6 (Dipendenza in media) La v.a. X si dice indipendente inmedia da Y se

E(X|Y = y) = E(X) ∀y ∈ RY

Si noti che se X e indipendente stocasticamente da Y allora e ancheindipendente in media. Il viceversa non e vero in generale.

Claudio Agostinelli – Lezione 10 – Probabilita e Statistica, A.A. 2004/2005, 13

Page 157: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

39 Indice di dipendenza in media η2

Definizione 7 (Rapporto di correlazione) Sia (X,Y ) una v.a. doppiadiscreta, si chiama rapporto di correlazione di X dato Y

η2X|Y =

V (E(X|Y ))

V (X)= 1 −

E(V (X|Y ))

V (X)V (X) > 0

e in modo analogo si definisce η2Y |X .

40 Indice di dipendenza in media η2

Dalla formula della scomposizione della varianza e facile vedere che

0 ≤ η2X|Y ≤ 1

inoltre

• se η2X|Y = 0 allora X e indipendente in media da Y ;

• se η2X|Y > 0 allora X e dipendente in media da Y ;

• η2X|Y = 1 se e solo se P(X = E(X|Y )) = 1.

41 Covarianza e correlazione

La covarianza e la correlazione sono altri due indici di dipendenza (lineare)tra due v.a..

Cov(X,Y ) = E(X · Y ) − E(X) · E(Y )

mentre

ρ(X,Y ) =Cov(X,Y )

V (X) · V (Y )

42 Varianza di una combinazione lineare di

v.a.

Teorema 1 Sia (X,Y ) una v.a. doppia e a e b due costanti. Allora

V (aX + bY ) = a2V (X) + b2V (Y ) + 2abCov(X,Y )

Claudio Agostinelli – Lezione 10 – Probabilita e Statistica, A.A. 2004/2005, 14

Page 158: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

43 χ2 di Pearson

Un indice di dipendenza (stocastica) e il χ2 di Pearson. Sia (X,Y ) una v.a.doppia con funzione di probabilita congiunta pX,Y (x, y) e pX(x), pY (y) ledistribuzioni marginali corrispondenti.

Nel caso di indipendenza stocastica ci aspettiamo che

pX,Y (x, y) = pX(x)pY (y)

Poniamo quindi πX,Y (x, y) = pX(x)pY (y) e confrontiamo opportunamenteπX,Y (x, y) con pX,Y (x, y):

χ2(X,Y ) =∑

x∈RX

y∈RY

(pX,Y (x, y) − πX,Y (x, y))2

πX,Y (x, y)

44 χ2 di Pearson

E facile vedere che0 ≤ χ2(X,Y ) < +∞

e che si ha χ2(X,Y ) = 0 se e solo se X e Y sono stocasticamente indipendenti.

Claudio Agostinelli – Lezione 10 – Probabilita e Statistica, A.A. 2004/2005, 15

Page 159: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Corso di Probabilita e Statistica

Lezione 11

Claudio Agostinelli∗

[email protected]

Dipartimento di StatisticaUniversita Ca’ Foscari di Venezia

San Giobbe, Cannaregio 873, VeneziaTel. 041 2347446, Fax. 041 2347444

http://www.dst.unive.it/~claudio

A.A. 2004/2005, Versione 0.1 del 14 Aprile 2005

Indice

1 Legge dei Grandi Numeri 1

2 Disuguaglianze 5

3 Teorema Limite Centrale 7

4 “Approssimare la binomiale con la normale” 9

1 Legge dei Grandi Numeri

Per la legge dei grandi numeri ...C’e stata in Italia quasi una psicosi (con effetti anche tragici) intorno

all’uscita del numero 53 sulla ruota di Venezia nel gioco del lotto. Moltigiocatori hanno puntato forti somme su questo numero in quanto la sua

∗Lucidi per il corso. Ringrazio Guido Masarotto, Carlo Gaetan e Nicola Sartori peravermi permesso di utilizzare parte del loro materiale didattico.

1

Page 160: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

estrazione ritardava da molto tempo. Tali giocate erano motivate dall’affer-mazione che “prima o poi per la legge dei grandi numeri il numero 53 dovevaessere estratto”

Indichiamo con Yi il risultato dell’estrazione i sulla ruota di Venezia. SeYi = 1, il numero 53 e stato estratto; se Yi = 0, il numero 53 non e statoestratto.

Per la legge dei grandi numeriLa variabile Sn =

∑ni=1 Yi conta il numero di successi in n estrazioni.

Se l’estrazione non e truccata (vedremo di formalizzare meglio quest’idea),siamo portati a dire che per un numero, n, ‘grande’ di prove , n À 0 lafrequenza Sn/n

Sn

n≈ p, ovvero

Sn

n− p

< ε,

dove p = 1/90 e la probabilita che il numero 53 sia estratto e ε > 0 e unnumero ‘piccolo’.

Nel grafico:

0 2000 6000 10000

0.00

00.

005

0.01

00.

015

n=10.000

med

ia

0 2000 6000 10000

0.00

00.

004

0.00

80.

012

n=10.000

med

ia

0 2000 6000 10000

0.00

00.

010

0.02

0

n=10.000

med

ia

0 2000 6000 10000

0.00

0.02

0.04

0.06

n=10.000

med

ia

2

Page 161: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

rappresentiamo il risultato di 4 esperimenti con 10.000 estrazioni.

La legge forte dei grandi numeriPossiamo notare che Sn/n si avvicina a p (la linea rossa), in maniera

erratica e in maniera differente per ogni esperimento. Quello che possiamoattenderci e che se n → ∞,

limn→∞

Sn

n= p ⇐⇒ lim

n→∞

|Sn

n− p| < ε, per ogni ε > 0

La legge forte dei grandi numeriSi noti che Sn/n e la media aritmetica, Y n, delle prime n v.c.. Assumiamo

che ogni v.c. Yi ha la stessa distribuzione.Allora

E(Yi) = 1 · P(Yi = 1) + 0 · P(Yi = 0) = 1 · p + 0 · (1 − p) = p

Assumiamo che le estrazioni sono indipendenti tra loro. ovvero che le Yi sonoindipendenti.

Enunciamo, senza dimostrare, ora una prima legge limite che traduce intermini formali l’intuizione avuta guardando il grafico precedente.

Proposizione 1. (Legge forte dei grandi numeri) Sia Y1, Y2, · · · , una suc-cessione di v.c. indipendenti e identicamente distribuite ciascuna con valoreatteso µ = E(Yi) allora, per ogni ε > 0

P( limn→∞

|Y n − µ| < ε) = 1

La legge forte dei grandi numeriIn simboli la legge forte dei grandi numeri si denota con

Y nq.c.−→ µ,

eq.c.−→ si legge “converge quasi certamente (in senso forte)”.Piu in generale diremo che una successione Y1, Y2 . . ., converge quasi

certamente (in senso forte) ad una v.c Y se, per ogni ε > 0,

P( limn→∞

|Yn − Y | < ε) = 1

3

Page 162: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

La legge debole dei grandi numeriIl numero di successi Sn =

∑ni=1 Yi in n prove si distribuisce come una

v.c. binomiale Bi(n, p). Consideriamo la v.c. Y n = Sn/n e vediamo cosaaccade alla sua distribuzione quando n aumenta (p = 0.2)

0.0 0.2 0.4 0.6 0.8 1.0

0.00

0.10

0.20

0.30

n = 10 , p = 0.2

y

p(y)

0.0 0.2 0.4 0.6 0.8 1.0

0.00

0.10

0.20

n = 20 , p = 0.2

y

p(y)

0.0 0.2 0.4 0.6 0.8 1.0

0.00

0.04

0.08

n = 100 , p = 0.2

y

p(y)

0.0 0.2 0.4 0.6 0.8 1.0

0.00

00.

010

0.02

00.

030

n = 1000 , p = 0.2

y

p(y)

Come si puo notare la distribuzione tende a concentrarsi intorno al valorep = 0.2, che e il valore atteso di E(Yi) = p, ovvero per ε piccolo a piacere

P|Y n − p| ≥ ε ≈ 0

o equivalentementeP|Y n − p| < ε ≈ 1

4

Page 163: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Proposizione 2. (Legge debole dei grandi numeri) Sia Y1, Y2, · · · , una suc-cessione di v.c. indipendenti ciascuna con valore atteso µ e varianza σ2.Allora, per ogni ε > 0

limn→∞

P|Y n − µ| < ε = 1

Prima di dimostrare questa proposizione ci servono alcuni risultati pre-liminari

2 Disuguaglianze

Disuguaglianze

Proposizione 3. (Disuguaglianza di Markov) Sia Y una v.c. che assumevalori non negativi, allora per ogni numero reale a > 0

P(Y ≥ a) ≤ E(Y )

a

Dimostrazione:Sia

X =

1 se Y ≥ a0 altrimenti

e si noti che, poiche Y ≥ 0 allora X ≤ Y/a. Quindi, E(X) ≤ E(Y )/a, ma

E(X) = 1 · P(X = 1) + 0 · P(X = 0) = P(X = 1) = P(Y ≥ a)

0.0 0.5 1.0 1.5

0.0

0.5

1.0

1.5

2.0

2.5

3.0

y

f(y)

5

Page 164: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Disuguaglianze

Proposizione 4. (Disuguaglianza di Chebychev) Sia Y , una v.c. con valoreatteso E(Y ) = µ e varianza V ar(Y ) = σ2, allora

P(|Y − µ| ≥ ε) ≤ σ2

ε2

Dimostrazione:Essendo (Y − µ)2 una v.c. non negativa basta applicare la disuguaglianza di

Markov con a = ε2

P((Y − µ)2 ≥ ε2) ≤ σ2

ε2

ma (Y − µ)2 ≥ ε2 se e solo se |Y − µ| ≥ ε e quindi

P(|Y − µ| ≥ ε) ≤ σ2

ε2

L’importanza di queste due disuguaglianze e che ci danno dei limiti su-periori per delle probabilita senza alcun riferimento alla distribuzione diprobabilita. Basta conoscere il valore atteso o il valore atteso e la varian-za. Ad esempio si supponga che il numero di clienti in un giorno ad unosportello sia una v.c Y con E(Y ) = 130. Cosa possiamo dire della prob-abilita che possano arrivare piu di 250 clienti? Grazie alla disuguaglianzadi Markov possiamo dire che P(Y ≥ 250) ≤ 130/250 = 0.52. Ovviamentequesti limiti possono essere molto grossolani. Se Y ∼ N(0, 1) sappiamo cheP(|Y | ≥ 1.96) = 0.05, mentre la disuguaglianza di Chebychev afferma cheP(|Y | ≥ 1.96) ≤ 1/(1.962) ≈ 0.260.

Concludiamo con la dimostrazione della proposizione 2Dimostrazione:

E(Y n) =n

i=1

E(Yi)

n= n

µ

n= µ

V ar(Y n) =n

i=1

V ar(Yi)

n2= n

σ2

n2=

σ2

n

Grazie alla disuguaglianza di Chebychev

limn→∞

P(|Y n − µ| < ε) = limn→∞

[1 − P(|Y n − µ| ≥ ε)]

≥ limn→∞

[1 − σ2

nε2] = 1

6

Page 165: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

In simboli la legge debole dei grandi numeri si denota con

Y nP−→ µ,

eP−→ si legge “converge in probabilita (in senso debole)”.Piu in generale diremo che una successione Y1, Y2 . . ., converge in prob-

abilita (in senso debole) ad una v.c Y se, per ogni ε > 0,

limn→∞

P(|Yn − Y | < ε) = 1

Abbiamo, per cosı dire, “portato fuori il limite dal simbolo di probabilita”.

“Per la legge dei grandi numeri ...”, un’amara conclusioneAbbiamo visto cosa si intende per legge dei grandi numeri. Nella nostra

discussione abbiamo supposto l’indipendenza e l’identica distribuzione dellev.c. Yi. Nel gioco del lotto questo vuol dire che le estrazioni sono indipen-denti e che la probabilita di estrarre il 53 e la stessa nelle varie estrazioni.Anche se l’indipendenza non e un’ipotesi fondamentale per provare delle leg-gi dei grandi numeri (ma questo richiede nozioni piu avanzate del calcolodelle probabilita), lo e nel gioco del lotto. E quindi anche se la frequenza deisuccessi tende quasi certamente o in probabilita alla probabilita di successo,ogni volta che avviene una nuova estrazione, il 53, ha sempre la medesimaprobabilita di estrazione (sic!).

3 Teorema Limite Centrale

Il teorema del limite centraleCi occupiamo qui di un diverso tipo di convergenza. Abbiamo visto che

Sn/n converge“in un qualche senso”e sotto determinate ipotesi alla probabil-ita di successo p. Tuttavia se invece di Sn/n consideriamo una sua espressionestandardizzata

Zn =√

nSn/n − p√

p(1 − p),

osserviamo nei grafici cosa alla funzione di ripartizione della variabile Zn. Neigrafici abbiamo riportato anche il grafico (la linea continua) della funzionedi ripartizione di una v.c. N(0, 1).

7

Page 166: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

−2 −1 0 1 2 3

0.0

0.4

0.8

n = 10 , p = 0.2

y

F(y

)

−3 −2 −1 0 1 2 3

0.0

0.4

0.8

n = 20 , p = 0.2

y

F(y

)

−3 −2 −1 0 1 2 3

0.0

0.4

0.8

n = 100 , p = 0.2

y

F(y

)

−3 −1 0 1 2 3

0.0

0.4

0.8

n = 1000 , p = 0.2

y

F(y

)

Proposizione 5. (Teorema del limite centrale) Sia Y1, Y2, · · · , una succes-sione di v.c. ciascuna con E(Yi) = µ e V ar(Yi) = σ2, allora, se Zn =√

n(Y n − µ)/σ per ogni z

limn→∞

P(Zn ≤ z) =1

σ√

π

∫ z

−∞

e−t2/2dt

In simboli il teorema del limite centrale si denota con

Zn =√

n(Y n − µ)

σ

d−→ N(0, 1) .

ed−→ si legge “converge in distribuzione”.

8

Page 167: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Teorema del limite centraleUna lettura grezza del teorema del limite centrale, e la seguente:

Y n ≈ Xn ∼ N

(

µ,σ2

n

)

Somme di v.c. normaliIl teorema del limite centrale e un risultato valido solo asintoticamente

, cioe quando n → ∞. La distribuzione esatta di Y n, per ogni valore di nprefissato, di Yn puo essere ottenuta, in alcuni casi, come nella proposizioneseguente.

Proposizione 6. Se Y1, . . . , Yn sono variabili casuali normali indipendentitra loro e se a0, . . . , an sono delle costanti reali qualsiasi, allora

a0 +n

i=1

aiYi ∼ N(a0 +n

i=1

aiµi,

n∑

i=1

a2i σ

2i )

dove µi e σ2i indicano rispettivamente la media e la varianza di Yi.

Somma di n v.a. Normali i.i.d.

Esempio 1. Nel caso della media Yn di n v.c. normali Yi, indipendenti econ medesime media µ e varianza σ2, si ha a0 = 0 e ai = 1/n, i = 1, . . . , n.Quindi:

Yn ∼ N

(

µ,σ2

n

)

4 “Approssimare la binomiale con la normale”

“Approssimare la binomiale con la normale”Data una variabile casuale Binomiale di parametri n e p all’aumentare

delle prove di n la sua distribuzione si “avvicina” sempre di piu a quella diuna normale con parametri µ = np, σ2 = np(1 − p).

9

Page 168: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

0 2 4 6 8 10

0.00

0.10

0.20

0.30

n=10 p=0.2

x

fd

0 5 10 15 20

0.00

0.10

0.20

n=20 p=0.2

x

fd

0 10 20 30 40

0.00

0.05

0.10

0.15

n=40 p=0.2

x

fd

0 20 40 60 80

0.00

0.04

0.08

n=80 p=0.2

x

fd

Alcune considerazioni.

• L’approssimazione e valida quando n e abbastanza grande e p ed 1− pnon sono vicini a zero.

• Regola pratica

1. si calcola l’intervallo di estremi np ± 3√

np(1 − p)

2. se esso e contenuto nell’intervallo [0, n] allora l’approssimazionepuo ritenersi valida

Esempio 2. Vogliamo calcolare P(B ≤ 25) dove B ∼ Bi(30, 0.7). L’inter-vallo [13.47, 28.53] e contenuto nell’intervallo [0, 30] quindi procediamo con

10

Page 169: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

l’approssimazione. Calcoliamo

z0 =(25 + 0.5) − 30 · 0.7√

30 · 0.7(1 − 0.7)' 1.79

e utilizziamo le tavole della distribuzione normale

P(B ≤ 25) ' P(Z ≤ 1.79) = 0.9633.

Si confronti questa probabilita con la probabilita esatta 0.9699.

11

Page 170: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Corso di Probabilita e Statistica

Lezione 12

Claudio Agostinelli∗

[email protected]

Dipartimento di StatisticaUniversita Ca’ Foscari di Venezia

San Giobbe, Cannaregio 873, VeneziaTel. 041 2347446, Fax. 041 2347444

http://www.dst.unive.it/~claudio

A.A. 2004/2005, Versione 0.1 del 26 Aprile 2005

Indice

1 Introduzione alla parte di Inferenza Statistica 1

2 Metodi di raccolta dei dati 5

3 Indagini campionarie 7

1 Introduzione alla parte di Inferenza Statis-

tica

La statistica nella societa dell’informazione

• Tutti dicono che viviamo nella societa dell’informazione.

∗Lucidi per il corso. Ringrazio Guido Masarotto, Carlo Gaetan e Nicola Sartori peravermi permesso di utilizzare parte del loro materiale didattico.

1

Page 171: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

• Ma molti (tutti?) si lamentano che le informazioni sono troppe. E’facile raccoglierle, memorizzarle, distribuirle. E’ difficile verificarle edinterpretarle.

• La statistica e, in molte situazioni, la tecnologia necessaria per risolverequeste difficolta.

• Uno statistico, ad esempio, sa combinare informazioni di tipo differente,e in grado di valutarne l’affidabilita, sa sintetizzare e presentare moltidati in maniera tale da evidenziare la storia che raccontano, sa costru-ire modelli (=visioni stilizzate di una parte di mondo) che facilitanol’interpretazione, e, per esempio, permettono di calcolare previsioni odi formulare ipotesi di decisione.

Informazioni, nuove conoscenze, decisioni

Necessita o desiderio di conoscenza Necessita diprendere una decisione

Raccolta informazioni/Osservazione/Sperimentazione

Informazioni elementari/Dati

Sintesi/Modelli

Nuove conoscenze/Ipotesi di decisione

Statistici, informazioni, nuove conoscenze, decisioni

2

Page 172: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Necessita o desiderio di conoscenza / Necessita di prendere unadecisione

Cosa rilevare (con altri)

Raccolta informazioni/Osservazione/Sperimentazione

Quanti e quali dati?

Informazioni elementari/Dati

Analisi dei dati

Sintesi/Modelli

Interpretazione (con altri)

Nuove conoscenze/Ipotesi di decisione

Stilizzazione dei problemi di cui si occupa la statistica ed un po’ diterminologia

• Un insieme (di individui o clienti o oggetti o titoli azionari o . . . )costituisce la parte del mondo che interessa, quella su cui dobbiamoprodurre nuove conoscenze, quella che e coinvolta nelle decisioni daprendere. Questo insieme viene chiamato convenzionalmente la popo-lazione di riferimento. Gli elementi della popolazione sono chiamatiunita statistiche.

• Alcune caratteristiche di tutte o di una parte delle unita statistichevengono rilevate/misurate. Il risultato di questo rilevare/misurare cos-tituisce quello che chiamiamo i dati. Le unita statistiche sono diso-mogenee rispetto ai fenomeni rilevati.

• L’obbiettivo e quello di trasformare i dati in nuove conoscenze od ipotesidi decisione. Ovvero, di trasformare i dati in affermazioni sul mondo(sulla popolazione di riferimento).

Ulteriore terminologia

• Le caratteristiche rilevate sulle unita statistiche vengono chiamate levariabili.

3

Page 173: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

• I valori distinti assunti da una variabile sono chiamate le modalitadella variabile stessa.

• Se le variabili di interesse non sono rilevate su tutte le unita statistiche,il sottoinsieme della popolazione oggetto della rilevazione e chiamato ilcampione.

Dati sperimentali vs dati osservazionaliNell’analisi dei dati e bene poi tenere presente il tipo di studio in cui sono

stati rilevati. In particolare, e importante la distinzione tra

• studi sperimentali ovvero situazioni in cui i dati sono stati raccolti insituazioni replicabili e controllate (esempio classico sono gli esperimentidi laboratorio);

• studi osservazionali ovvero situazioni in cui il ricercatore semplice-mente rileva dei dati gia esistenti (esempio: il numero di presenzealberghiere in una stagione, il prezzo di un’azione,... ).

Il problema principale degli studi osservazionali e che non controllando ifattori che possono influenzare il fenomeno sotto indagine risulta difficileessere ragionevolmente certi di averli individuati appropriatamente.

E incontrerete questo tipo di dati continuamente nel corso del vostrolavoro.

Piccolo esempio (per fissare la terminologia)Vogliamo avere un’idea sul numero di clienti e sul volume di vendite dei

negozi di una citta per tre categorie merceologiche ritenute simili. La popo-lazione di riferimento e l’insieme di tutti i negozi secondo le tre categoriemerceologiche. Le unita statistiche sono i negozi. I dati si presentano inquesta forma

negozio clienti vendite categoria1 907 11.2 A...

......

...10 420 6.12 B11 679 7.63 B...

......

...19 1010 11.77 C20 621 7.41 A

4

Page 174: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Piccolo esempio (per fissare la terminologia)Le variabili considerate nello studio sono tre:

clienti le cui modalita sono numeriche e discrete;

vendite (in migliaia di euro) le cui modalita sono numeriche e (con approssi-mazione) continue.

categoria le cui modalita sono sconnesse (A, B e C.)

“Statistica Descrittiva” vs “Inferenza Statistica”

Descrittiva: (“quasi” sinonimi: esplorazione statistica dei dati, statisticasenza modello probabilistico) Disponiamo di dati riferiti a tutta lapopolazione di riferimento.

Inferenza: I dati disponibili sono stati rilevati solamente su una parte delleunita statistiche (il campione da cui indagini campionarie). Vogliamoutilizzare le informazioni del campione per fare delle affermazioni sullecaratteristiche di tutta la popolazione.

“Statistica Descrittiva” vs “Inferenza Statistica”Tra Statistica Descrittiva ed Inferenza Statistica esiste una ovvia “fratel-

lanza” ed, in realta, nelle applicazioni, non sono facilmente separabili ancheperche i problemi di inferenza vengono normalmente affrontati in accordoallo schema

Descrizione dellecaratteristiche del

campione[1cm]

Affermazioni sullecaratteristiche di

tutta la popolazione

Induzione

2 Metodi di raccolta dei dati

Metodi di raccolta dei dati

1. Esperimenti in laboratorio

2. Interviste telefoniche

3. Questionari inviati per posta

5

Page 175: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

4. Porta a porta

5. Interviste per strada

6. ...

Esercizio 1. Provate a pensare ad un modo di raccogliere informazioni

Metodi di campionamento Probabilistici

1. Campionamento casuale semplice: e un metodo per selezionareindividui da una popolazione in maniera tale che ogni possibile cam-pione di una prefissata numerosita ha la medesima probabilita di es-sere selezionato. In questo caso il campionamento puo avvenire conreinserimento oppure senza.

2. Campionamento casuale stratificato: e ottenuto selezionando deicampioni casuali semplici da alcuni strati (ovvero sottopopolazioni mu-tuamente esclusive). Alcuni criteri per dividere una popolazione instrati sono: sesso (maschio, femmina); eta (under 18, 18 a 28, 29 a 39);tipologia di impiego (operaio, impiegato, quadro, dirigente).

Metodi di campionamento Probabilistici

3. Campionamento a grappoli: e un campionamento casuale semplicedi grappoli di individui. Il campionamento a grappoli e utile quando edifficile o costoso costruire un campione casuale semplice Per esempio,per stimare il reddito medio familiare in una grande citta si usa il cam-pionamento a grappoli, poiche per un campionamento casuale semplicee necessario avere una lista completa delle famiglie da cui estrarre ilcampione. Un campionamento stratificato necessita ancora di una listacompleta. Invece un modo meno dispendioso consiste nel dividere lacitta in blocchi. Un campione di blocchi viene selezionato e poi ognifamiglia all’interno del blocco viene intervistata.

Metodi di campionamento Non Probabilistici

1. Campionamento selettivo: In questo caso chi esegue il campiona-mento ha il diretto o indiretto controllo degli individui che intendeselezionare.

2. Campionamento per convenienza: Il campionamento e guidatoda criteri di semplicita, economicita.

6

Page 176: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

3. Campionamento per quote: il decisore richiede un campione conun certo numero di individui con una prefissata caratteristica. Moltisondaggi concernenti temi politici sono di questo tipo.

A questo punto cosa potete dire di quei sondaggi organizzati durante delletrasmissioni televisive in cui vi chiedono di telefonare ad un numero magaria pagamento ?

3 Indagini campionarie

Perche indagini di tipo campionario sono frequenti?

Esempio 1 (Tempo e/o costo). L’ISTAT fornisce informazioni sulla dis-

occupazione in Italia con cadenza trimestrale. Le informazioni provengono da

una indagine campionaria piuttosto ampia (parecchie decine di migliaia di nu-

clei familiari). Non pero esaustiva (non tutti sono infatti intervistati). Inter-

vistare tutti i cittadini italiani ogni tre mesi e infatti organizzativamente troppo

oneroso (richiederebbe una struttura organizzativa“immensa”). Il costo ovviamente

diminuirebbe se ci accontentassimo di una rilevazione fatta non ogni trimestre.

Ma in questo caso perderemmo la tempestivita dell’informazione. Quanto tempo

e denaro dovrebbe investire una azienda dolciaria per verificare, senza una rile-

vazione di tipo parziale, ovvero campionaria, se una nuova tortina potrebbe in-

contrare i gusti della clientela? Una rilevazione esaustiva richiederebbe di farla

assaggiare a tutti i residenti in Italia o, perche no, se il piano e di vendere la

tortina anche all’estero, in tutta Europa, in tutti i paesi occidentali, . . .

Esempio 2 (La popolazione di interesse puo essere infinita e vir-tuale). Nello studio di un nuovo farmaco e costituita dalla verifica che la tossic-

ita del farmaco sia sufficientemente piccola rispetto alla gravita della malattia che

vuole curare e alla tossicita di altri farmaci noti. Lasciando perdere i dettagli (an-

che se, in questo caso, sono importanti per ovvi aspetti etici), in pratica, questo si

concretizza nel somministrare il farmaco ad alcuni pazienti e nel rilevare gli effetti

secondari. La popolazione che ci interessa in questo caso e una popolazione teori-

camente infinita e solamente virtuale: l’insieme di tutti i pazienti a cui potremmo

voler somministrare il farmaco da oggi fino al giorno della fine del mondo. Non

e ovviamente sensato somministrare il farmaco a tutta la popolazione prima di

pronunciarci sulla tossicita del farmaco. Concludere con certezza, ovvero sulla

base di una somministrazione esaustiva, che il farmaco e troppo “tossico” il giorno

della fine del mondo e inutile. E per di piu potrebbe essere non etico: magari

qualche millenio prima lo potevamo gia dire e allora perche abbiamo continuato a

somministrarlo?

7

Page 177: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Esempio 3 (la rilevazione “distrugge” le unita statistiche e quindi,dopo una rilevazione esaustiva, la popolazione di partenza non in-teressa piu perche non esiste piu!). Una azienda farmaceutica produce tra

le altre cose delle “pasticche” antibiotiche. Tra i controlli effettuati c’e la verifica

a posteriori della titolazione delle “pasticche” prodotte in un determinato lotto di

produzione. Un certo numero di “pasticche” vengono analizzate per verificare se la

quantita di antibiotico che contengono e all’interno di un certo prescritto intervallo

di tolleranza che include ovviamente il titolo nominale (che e quello indicato sul-

la confezione, ad esempio 5mg di sostanza attiva per “pasticca”). La misurazione

della quantita di sostanza attiva richiede di norma la distruzione della “pillola” (la

pillola viene triturata, mescolata a solventi,. . . ). Se dovessimo farlo per tutte le

“pillole” prodotte in un certo giorno non avremmo piu pillole da dare ai pazienti!

Esempio 4 (Precisione dei risultati). Puo sembrare strano ma dellevolte e stato dimostrato che rilevazioni campionarie (incomplete) portanoa risultati piu precisi di rilevazioni esaustive.

E ad esempio il caso di rilevazioni semplici ma noiose fatte da operatoriumani (non da macchine). La noia provoca cali di attenzione e quindi errori.Percio . . .

Popolazione e campione: dobbiamo conoscere la relazione

• supponiamo che la popolazione di riferimento siate voi (gli studentipresenti a questa lezione del corso di Probabilita e Statistica presso lafacolta . . . )

• e che per qualche strano motivo io voglia conoscere la vostra altezzamedia ma che per qualche altro motivo ancora piu misterioso possamisurare l’altezza solamente di 10 di voi.

• Il primo problema diventa come scegliere i dieci da misurare; due trale molte possibilita “teoriche” sono:

A) scelgo completamente a caso 10 dei presenti (ad esempio, metto deifoglietti uguali con il vostro numero di matricola in un barattolo,mescolo bene, poi ne estraggo 10); misuro poi l’altezza dei 10sorteggiati;

B) vi faccio allineare lungo il muro, vi ordino dal piu alto al piu piccolo(visivamente), scelgo i 10 piu alti e misuro l’altezza di questi 10.

• In ambedue i casi, alla fine ci troviamo tra le mani 10 numeri (le al-tezze dei 10 studenti “misurati”). E pero intuitivamente chiaro che per

8

Page 178: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

stimare l’altezza media di tutti i presenti nell’aula non posso utilizzarequesti numeri (i nostri dati) nella stessa maniera.

• Ad esempio nel primo caso posso pensare di stimare l’altezza mediautilizzando la media aritmetica delle 10 misurazioni fatte. Se nonsono stato particolarmente sfortunato posso infatti pensare di non aversorteggiato tutti studenti bassi o tutti studenti alti e quindi che la mediadelle dieci misure “cada vicino” alla altezza media di tutti.

• Nel secondo caso pero non e sensato “stimare” l’altezza media nellastessa maniera: con certezza sappiamo che in questa maniera sovras-timeremo la quantita che vogliamo conoscere.

Popolazione e campione: dobbiamo conoscere la relazione

• E facile capire che quello che cambia nei due casi e la relazione tra ilcampione e la popolazione.

• In generale quindi non possiamo pensare di affrontare un problemadi inferenza senza sapere (e saper descrivere appropriatamente) la re-lazione tra il campione e la popolazione (o almeno tra quello che ab-biamo misurato sul campione e quello che della popolazione vogliamoconoscere).

Errare e l’unica certezza“Produrre” affermazioni esatte sulla popolazione conoscendo solamente

le caratteristiche di un sottoinsieme delle unita statistiche e impossibile (ameno che non supponiamo di avere ricevuto da Mago Merlino una sfera dicristallo!).

Quindi a priori sappiamo che commetteremo degli errori.Per rendere utili le nostre affermazioni dovremo allora occuparci anche di

capire di quanto sono sbagliate.

Esempio 5. Supponiamo di sperimentare un nuovo farmaco su 20 pazientie che solo uno di questi 20 pazienti mostri problemi gravi di tossicita (effettisecondari non voluti e non banali).

Sembra naturale, sulla base di questi dati, “stimare” la probabilita che ilfarmaco induca effetti tossici rilevanti in 5% (ovvero un paziente ogni venti).

In questo caso la popolazione di riferimento e data da tutti i pazienti acui potremmo pensare di somministrare il farmaco sotto analisi. E una popo-lazione virtuale e teoricamente infinita. E chiaro che non ci aspettiamo chela percentuale di tutti i possibili pazienti che potrebbero presentare problemi

9

Page 179: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

di tossicita sia esattamente uguale al 5%. Saremmo stati troppo fortunati.Non e pero irrilevante chiedere di quanto potrebbe essere differente (ovverodi quanto abbiamo sbagliato).

Si considerino difatti le seguenti due ipotetiche alternative:

i) sulla base dei dati, procedendo in qualche maniera strana ancora dastudiare, arriviamo a concludere che la percentuale incognita di pazi-enti della popolazione che potrebbero esibire problemi di tossicita ecompresa tra il 2% e il 77%;

ii) oppure, seconda alternativa, e compresa tra il 4,8% e il 5,8%.

Le due alternative sono differenti tra di loro per il “differente errore” cheattribuiscono alla “stima” di prima (5% di tossicita).

La differenza non e solo accademica.Infatti, se fosse vera la prima alternativa la conclusione a cui saremmo

arrivati e che, con i dati disponibili, della incognita probabilita di manifestaretossicita in realta non sappiamo praticamente niente.

Viceversa, nel caso arrivassimo alla seconda alternativa potremmo con-cludere che “certo la vera probabilita di manifestare tossicita non la conosci-amo esattamente ma che, sulla base dei dati possiamo dire che piu o meno euguale al 5%”.

Inferenza Statistica e ProbabilitaIl “trucco” alla base dell’inferenza statistica si concretizza nel descri-

vere la relazione tra la popolazione e il campione utilizzando il calcolo delleprobabilita.

Ovvero, nella sostanza, interpreteremmo i risultati sperimentali (ovvero idati disponibili) come uno dei tanti risultati che un meccanismo probabilistico(un esperimento casuale) poteva fornirci.

Questa costruzione cercheremo di illustrarla nel seguito del corso. Inutileentrare quindi ora nei dettagli.

Una conseguenza importante sara che potremmo utilizzare in manieranaturale il calcolo delle probabilita “per misurare gli errori”.

10

Page 180: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Corso di Probabilita e Statistica

Lezione 13

Claudio Agostinelli∗

[email protected]

Dipartimento di StatisticaUniversita Ca’ Foscari di Venezia

San Giobbe, Cannaregio 873, VeneziaTel. 041 2347446, Fax. 041 2347444

http://www.dst.unive.it/~claudio

A.A. 2004/2005, Versione 0.2 del 07 Maggio 2005

Indice

1 Controllo di qualita in un impianto che produce lastre dimetallo 1

2 Stima della “difettosita” 5

3 Stima puntuale 7

4 Intervalli di confidenza 14

5 Verifica d’ipotesi 19

1 Controllo di qualita in un impianto che pro-

duce lastre di metallo

Un primo esempio di inferenza statistica.

∗Lucidi per il corso. Ringrazio Guido Masarotto per avermi permesso di utilizzare partedel suo materiale didattico.

1

Page 181: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Stima del valore atteso, sua distribuzione campionaria, intervalli di confi-denza e verifica d’ipotesi nel caso di un campione tratto da una v.c. normaledi varianza nota.

Il problema ed i datiUna industria metallurgica produce, tra l’altro, delle lastre di metallo con

uno spessore nominale di 14mm. In realta esiste una tolleranza di ±0.5mm,ovvero, una lastra e considerata soddisfacente, per quello che riguarda lospessore, se

13.5 ≤ spessore ≤ 14.5. (1)

La produzione e organizzata in turni di 6 ore. All’inizio di ogni turno ven-gono estratte a caso da un operatore 5 lastre tra quelle prodotte nel turnoprecedente e ne viene misurato lo spessore.

Il problema ed i datiQueste 5 misure vengono utilizzate per decidere se le “macchine” stanno

lavorando in maniera soddisfacente, ovvvero se il numero di lastre che nonrispettano la (1) e sufficientemente piccolo. In particolare, se si decide per il sila produzione del nuovo turno inizia immediatamente. Viceversa se si decideper il no, la produzione viene bloccata e le macchine vengono “ritarate”.

I dati raccolti in un particolare turno (in mm) sono stati:

14.33 14.19 14.39 14.43 14.17 .

Nel seguito consideremo il problema di utilizzare questi dati per decidere sebloccare o non bloccare temporaneamente la produzione.

Una possibile formulazione del problema

Nessun processo produttivo e in grado di produrre lastre esattamentedello stesso spessore.

All’inizio della lavorazione di una lastra (o all’inizio del turno,. . . ) soloMago Merlino sarebbe in grado di indovinarne esattamente lo spessore.

Possiamo pero pensare che lo spessore sia il risultato di un esperimen-to casuale e descriverne le caratteristiche utilizzando il calcolo dellaprobabilita.

In particolare, potremmo guardare agli spessori che, in un determinatomomento, il processo“potrebbe produrre”come ad una variabile casualecontinua con funzione di densita f(·).

2

Page 182: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Il problema diventa allora quello di utilizzare i dati disponibili per direse la densita f(·) assegna una eccessiva probabilita all’evento “lastradifettosa” (= lastra il cui spessore non soddisfa la (1)). Si veda lapagina seguente, per alcuni esempi.

Se questo accade, e quindi se il processo sta, almeno potenzialmente,producendo “troppe” lastre difettose decidere di sospendere la pro-duzione.

Tre possibili situazioni

12.5 13.0 13.5 14.0 14.5 15.0 15.5

01

23

4

La densita disegnata con una linea continua indica una situazione soddisfacente: la probabilita di ottenere una lastra

difettosa (spessore inferiore a 13.5mm o maggiore di 14.5mm) e nulla (o quasi). Le altre due raccontano storie diverse:

l’impianto sta producendo una frazione non piccola di lastre o troppo sottili o troppo spesse.

Informazioni aggiuntive sul processoCercare di stimare l’intera funzione di densita utilizzando solo le nostre 5

osservazioni sembra un’operazione eccessivamente avventurosa.

3

Page 183: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Fortunamente nel caso in esame esistono delle informazioni aggiuntive.Infatti, precedentemente, le caratteristiche del processo sono state studiateraccogliendo alcune migliaia di misurazioni per alcune decine di turni.

Indicato con Y1, Y2, . . . le variabili casuali che descrivono lo spessore dellaprima lastra prodotto in un turno, della seconda e cosı via, le principaliconclusioni delle analisi condotte, sono:

non esiste nessun tipo di dipendenza tra le Yi;

tutte le Yi hanno la stessa distribuzione di probabilita;

questa distribuzione comune e ben approssimata da una normale convalore atteso µ e varianza 0.01 dove µ e un parametro ignoto che puoessere diverso da turno a turno.

Un modello e buono perche e utile non perche e veroNel seguito adotteremo come “esattamente” vere le conclusioni descritte

nel lucido 3.E’ importante pero rendersi conto che possono al piu essere considerate

una descrizione semplice ed operativamente utile di una realta complessa.Ad esempio la distribuzione dello spessore non puo essere esattamente

normale: una normale con varianza non nulla puo assumere qualsiasi valorereale, lo spessore e pero non negativo; dall’altra parte una normale puo asseg-nare una probabilita cosı piccola a valori negativi che possiamo considerarequest’ultima trascurabile da un punto di vista pratico.

Analogo discorso puo essere fatto per l’identica distribuzione e l’indipen-denza.

Stima del valore attesoLe informazioni aggiuntive ci portano a considerare le 5 misure dello spes-

sore come 5 determinazioni indipendenti “estratte”da una stessa variabile ca-suale Gaussiana con valore atteso µ ignoto e varianza nota ed uguale a 0.01.Un altra maniera di descrivere la situazione consiste nel dire che siamo inpresenza di determinazioni indipendenti ed identicamente distribuite(abbreviazione i.i.d.) tratte da una variabile normale. . . .

La funzione di densita dello spessore e quindi “quasi” nota. Ci manca soloil valore atteso. Sembra al proposito “ragionevole” utilizzare la media delleosservazioni come “stima” del vero valore atteso µ, ovvero porre

stima del valore atteso = y =14.33 + · · · + 14.17

5= 14.302.

4

Page 184: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Densita stimataIl grafico mostra la densita di una normale con valore atteso 14.302 e varianza

0.1. L’area evidenziata rappresenta la probabilita (stimata) di produrre una lastratroppo spessa. La probabilita (stimata) di produrre una lastra troppo sottile epraticamente nulla. I “cerchietti” sull’asse delle x indicano le osservazioni.

14.0 14.2 14.4 14.6

01

23

4

2 Stima della “difettosita”

Stima della “difettosita”Due eventi particolarmente importanti nel presente contesto sono

A = lastra troppo sottile = Y < 13.5B = lastra troppo spessa = Y > 14.5

dove Y indica la variabile casuale che descrive lo spessore. Ovviamente siaP(A) che P(B) sono funzione di µ. In particolare, ricordando che1

se Y ∼ N(µ, σ2) allora (Y − µ)/σ ∼ N(0, 1)

1Ci si ricordi che ∼ si legge “si distribuisce come”

5

Page 185: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

le probabilita di questi eventi possono agevolmente essere calcolate dallafunzione di ripartizione di una normale standard.

In particolare,

P(A) = P(Y < 13.5) =

= P

(

Y − µ

0.1<

13.5 − µ

0.1

)

=

= P

(

N(0, 1) <13.5 − µ

0.1

)

=

= P

(

N(0, 1) ≤ 13.5 − µ

0.1

)

.

Possiamo quindi scrivere

P(A) = Φ

(

13.5 − µ

0.1

)

dove con Φ(·) abbiamo indicato la funzione di ripartizione di una N(0, 1).Si noti che abbiamo usato il fatto che, se Y e una variabile casuale contin-ua, allora P(Y = y) = 0 per qualsivoglia valore y. Per l’altra probabilitatroviamo

P(B) = P(Y > 14.5) =

= 1 − P(Y ≤ 14.5) =

= 1 − P

(

Y − µ

0.1≤ 14.5 − µ

0.1

)

=

= 1 − P

(

N(0, 1) ≤ 14.5 − µ

0.1

)

= 1 − Φ

(

14.5 − µ

0.1

)

.

Possiamo ottenere delle stime di queste due quantita sostituendo a µ, chee ignoto, la sua stima y. Nel caso in esame

P(A) = Φ

(

13.5 − 14.302

0.1

)

= Φ(−8.02) ≈ 0

e

P(B) = 1 − Φ

(

14.5 − 14.302

0.1

)

= 1 − Φ(1.98) ≈ 0.024

ovvero, sulla base dei dati (e delle assunzioni fatte), stimiamo in 2.4% la prob-abilita di produrre una lastra troppo “alta” mentre valutiamo praticamenteirrilevante la probabilita di produrre una lastra troppo sottile.

6

Page 186: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Stima di qui, stima di la,. . . , ma se c’e una stima c’e un errore

Abbiamo incontrato due quantita: una “vera” µ (il valore atteso) euna media campionaria y; la prima la possiamo vedere come la mediadegli spessori di tutte le lastre che l’impianto potrebbe produrre secontinuasse per un tempo infinito a produrre nelle condizioni attuali;la seconda e la media degli spessori delle 5 lastre effetivamente misurate.

Abbiamo incontrato due probabilita di produrre una lastra troppo “al-ta”; una che calcoleremmo se conoscessimo il“vero”valore atteso, l’altrache possiamo calcolare (e difatti abbiamo calcolato) utilizzando y.

Ovvero abbiamo incontrato delle “vere” quantita (che hanno a che farecon la “vera” distribuzione di probabilita che ha generato i dati) e delle stimedelle“vere”quantita. Ma se y e solo una“stima”, ovvero una approssimazione,della “vera”media allora e spontaneo (e soprattutto interessante da un puntodi vista pratico) chiedere “quanto e buona?” ovvero “quanto e grande l’erroreche commettiamo?”

Esercizio 1. Si osservi che abbiamo sempre scritto vera tra virgolette. Lostudente ripensi a quanto detto nel lucido 4 e spieghi perche.

3 Stima puntuale

Stima e Stimatore

Definiamo stima di un parametro un valore (numerico) ottenuto daidati osservati del campione (y1, . . . , yn).

Nell’esempio precedente

y =14.33 + · · · + 14.17

5= 14.302.

La media campionaria, y, puo essere vista come una determinazionedi una variabile casuale. Infatti se i dati da cui e calcolata sono ilrisultato di un esperimento casuale anche y ovviamente lo e. Defini-amo stimatore di un parametro una variabile casuale funzione dellevariabili casuali Y1, . . . , Yn che generano i valori osservati del campioney1, . . . , yn.

Nel nostro caso

Y =Y1 + · · · + Yn

5e una variabile casuale.

7

Page 187: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Giudicheremo la bonta della nostra stima valutando le proprieta dellostimatore (in realta vale anche per le altre procedure inferenziali chevedremo piu avanti. . . ). In particolare, faremo riferimento al cosidettoprincipio del campionamento ripetuto, secondo il quale se noi ef-fettivamente replicassimo l’estrazione del campione per molte e moltevolte, e per ogni campione calcolassimo ad esempio la media aritmet-ica, allora effettivamente uno specifico valore della stima rappresen-terebbe una determinazione di una v.c.. Nella grande maggioranzadelle situazioni reali questa replica dell’esperimento non ha luogo, manoi ragioniamo come se si verificasse.

Notazione: indicheremo con θ sia la stima che lo stimatore del parametroθ. Sara il contesto a rendere chiaro a quale quantita ci riferiamo.

La distribuzione della media campionariaNelle ipotesi che stiamo facendo (normalita,. . . ) la distribuzione di Y

discende dal seguente risultato

Proposizione 1. Se Y1, . . . , Yn sono variabili casuali normali indipendentitra loro e se a0, . . . , an sono delle costanti reali qualsiasi, allora

a0 +n

i=1

aiYi ∼ N(a0 +n

i=1

aiµi,

n∑

i=1

a2

i σ2

i )

dove µi e σ2

i indicano il valore atteso e la varianza di Yi.

Quindi, se le n variabili casuali normali hanno tutte lo stesso valore attesoe varianza (diciamo µ e σ2) allora (lo studente lo dimostri)

Y =1

n

n∑

i=1

Yi ∼ N

(

µ,σ2

n

)

Si osservi che la distribuzione e la media sono quelle delle osservazionioriginarie (ovvero le Yi sono normali e Y e normale, le Yi hanno valore attesoµ e Y ha valore atteso µ) e che la varianza della media campionaria e lavarianza delle osservazioni originarie divisa per n (ovvero se il numero delleosservazioni e maggiore di 1 allora la media campionaria e meno variabiledelle osservazioni originarie). Il grafico mostra le due funzioni di densita nelcaso in cui µ = 14.3 e σ = 0.1.

8

Page 188: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

14.0 14.1 14.2 14.3 14.4 14.5 14.6

02

46

8 dati originalimedia campionaria

La distribuzione dell’errore di stimaIl risultato precedente ci permette di calcolare anche la distribuzione

dell’errore di stima, ovvero di Y − µ che risulta (lo studente lo dimostri)

Y − µ ∼ N(0, σ2/n).

Si noti che nel caso in esame, poiche σ2 e noto, la distribuzione dell’errore distima risulta anche essa nota ( e una normale di valore atteso 0 e varianza0.01/5 = 0.002). Si noti come il valore atteso dell’errore di stima sia zero.

La distribuzione dell’errore di stima

9

Page 189: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

−0.15 −0.10 −0.05 0.00 0.05 0.10 0.15

02

46

8

Stimatore o stimatori?Riprendiamo l’esempio precedente. L’idea di ricorrere alla media arit-

metica e un’idea piuttosto naturale ma consideriamo il caso di un’operatorepigro che non vuole fare la media ma utilizza soltanto la prima misura y1

realizzazione di Y1. Per stimare µ egli impiega questa sola misura e quindicommette un errore di stima

Y1 − µ ∼ N(0, σ2).

Alcune considerazioni:

Esistono piu modi di stimare un parametro (e conseguentemente piustimatori di un parametro).

Per ognuno di questi stimatori si commette sempre un errore ma ladistribuzione dell’errore e diversa.

Intuitivamente siete portati a considerare come “migliore” lo stimatoreY dello stimatore Y1 perche utilizza piu informazione.

Costruire stimatoriEsistono vari modi di ‘costruire stimatori’. Ad esempio:

Metodo dei MomentiVolendo stimare θ = E(Y ) abbiamo utilizzato

∑ni=1

Yi/n. Un tale stimatore ericavato secondo il metodo dei momenti. In generale si ha E[g(Y )] = a(θ)

10

Page 190: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

e lo stimatore dei momenti θ e ottenuto risolvendo rispetto a θ l’equazione(detta dei momenti)

a(θ) =n

i=1

g(Yi)

n,

[

θ =n

i=1

Yi

n⇒ θ =

n∑

i=1

Yi

n

]

Esercizio 2. Vogliamo stimare θ = V (Y ), ossia la varianza di una v.c. Y .Supponendo che la media di Y sia nulla (cioe che E(Y ) = 0), quale sara lostimatore di θ secondo il metodo dei momenti?

Metodo dei Minimi QuadratiAvremmo potuto stimare θ minimizzando

S(Y1, · · · , Yn; θ) =n

i=1

(Yi − θ)2

che e una funzione derivabile di θ. Possiamo cercare i punti stazionariderivando rispetto a θ e otteniamo:

∂θS(Y1, · · · , Yn; θ) = −2

n∑

i=1

(Yi − θ)

che equagliata a zero porta a θ =∑n

i=1Yi/n.

Proprieta degli stimatori

Potendo scegliere si vorrebbe che l’errore di stima sia nullo. Ma questae una richiesta insensata perche questo vorrebe dire conoscere cio chesi vuole stimare.

Un requisito piu ragionevole e la non distorsione

E[(θ − θ)] = E(θ) − θ = 0

ovvero il valore atteso dell’errore di stima (θ − θ) e nullo.

Nell’esempio precedente Y e Y1 sono due stimatori non distorti di µ.Invece (Y1 + Y2)/3 no in quanto E[(Y1 + Y2)/3] = 2µ/3

Questo ultimo esempio ci dice anche che la non distorsione puo nonessere valutabile, in quanto puo dipendere da quantita non note (quiµ).

11

Page 191: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

La non distorsione ci dice se gli errori (in media) si compensano, ma nullaci dicono di quanto (in media) questi possono essere grandi. Una misura diquesto e data dall’errore quadratico medio

EQM(θ) = E[(θ − θ)2]

Ragionevolmente preferiamo tra un insieme di stimatori quello con errorequadratico medio inferiore.

L’errore quadratico medio puo essere cosı decomposto

EQM(θ) = E[(θ − θ)2]

= E[(θ − E(θ) + E(θ) − θ)2]

= E[(θ − E(θ))2] + (E(θ) − θ)2

+ 2E[(θ − E(θ))(E(θ) − θ)]

poiche

E[(θ − E(θ))(E(θ) − θ)] = (E(θ) − θ)E[θ − E(θ)] = 0

= V (θ) + (E(θ) − θ)2 = varianza + (distorsione)2

EQM(Y ) = E[(Y − µ)2] = σ2/n

EQM(Y1) = E[(Y1 − µ)2] = σ2

EQM((Y1 + Y2)/3) = E[((Y1 + Y2)/3 − µ)2]

= E[((Y1 + Y2 − 3µ)2/9]

= E[((Y1 − µ) + (Y2 − µ) − µ)2/9]

= (V (Y1) + V (Y2))/9 + µ2 = 2σ2/9 + µ2

Alcune considerazioni:

1. L’errore quadratico puo dipendere da quantita non note.

2. Secondo questo criterio Y e preferibile rispetto a Y1.

3. Non sempre possiamo dire se uno stimatore e preferibile rispetto ad unaltro.

12

Page 192: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

5 10 15 20

12

34

µ=0.5 σ2=4

n

EQ

M

EQM(Y)EQM(Y1)EQM(((Y1 + Y2) 3 − µ)2)

Quando il numero di osservazioni (il nostro n) nel nostro campione aumen-ta, ci attendiamo che lo stimatore θn

2 si avvicini ovvero tenda al parametroθ che intendiamo stimare. Ma cosa vuol dire tendere?

Riprendendo quanto abbiamo visto poiche uno stimatore e una variabilecasuale possiamo considerare vari modi di convergenza. Diciamo che

1. uno stimatore e consistente in senso forte se

θnq.c.−→ θ,

2. uno stimatore e consistente in senso debole se

θnP−→ θ,

Una condizione sufficiente per la consistenza debole

2Utilizziamo qui la notazione θn in luogo di θ per sottolineare che lo stimatore dipendeanche dal numero di osservazioni.

13

Page 193: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

E possibile verificare la consistenza debole di uno stimatore θn verificandola seguente condizione sufficiente:

limn→∞

EQM(θn) = limn→∞

E(θn − θ)2 = 0 ⇒ θnP−→ θ

Abbiamo visto che l’errore quadratico medio di uno stimatore e la sommadella varianza dello stimatore e della sua distorsione al quadrato. Essendo idue addendi non negativi, la condizione appena vista puo essere riformulatacome:

limn→∞

E(θn) = θ

limn→∞

V (θn) = 0⇒ θn

P−→ θ

In pratica, se lo stimatore e (almeno quando n → ∞) non distorto e lasua varianza diventa sempre piu piccola (e cioe tende a 0), allora possiamodire che lo stimatore e consistente in senso debole.

Nel nostro esempio, lo stimatore Yn = 1

n

∑ni=1

Yi e tale che E(Y ) = µ eV (Y ) = 0.01/n. Quindi, essendo non distorto (per qualsiasi valore di n) losara anche al limite. Inoltre, e immediato vedere che lim

n→∞

V (Yn) = 0 e quindi

lo stimatore e consistente in senso debole.Invece lo stimatore Y1 e tale che E(Y1) = µ e V (Y1) = 0.01. Quindi, pur

essendo non distorto, la sua varianza non va a 0 al crescere di n e quindi nonpossiamo dire che lo stimatore sia consistente.

Esercizio 3. Utilizzando la condizione sufficiente appena vista, verificate chelo stimatore 1

n−1

∑ni=1

Yi, pur essendo distorto, e consistene in senso debole.

4 Intervalli di confidenza

Un intervallo di confidenzaPoiche la distribuzione dell’errore di stima e completamente nota pos-

siamo “costruire” delle affermazioni del tipo: “la probabilita che l’errore distima sia in valore assoluto minore di 0.1 e uguale a 0.975”. Infatti,

P(|Y − µ| < 0.1) = P(|N(0, 0.002)| < 0.1)

= P

(∣

N(0, 0.002)√0.002

<0.1√0.002

)

= P(|N(0, 1)| < 2.236)

= Φ(2.236) − Φ(−2.236)

= Φ(2.236) − (1 − Φ(2.236))

= 2 · Φ(2.236) − 1 ≈ 0.975

14

Page 194: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Si osservi ora che l’affermazione precedente puo essere anche scritta come“la probabilita che l’intervallo [Y − 0.1, Y + 0.1], includa il vero valore attesoµ e 0.975”.

Infatti

P(|Y − µ| < 0.1) = P(−0.1 < µ − Y < 0.1)

= P(Y − 0.1 < µ < Y + 0.1)

In generale un intervallo che contiene il vero valore di un parametro ignotocon probabilita 1−α viene chiamato un intervallo di confidenza di livello1 − α.

L’intervallo [Y − 0.1, Y + 0.1] e un intervallo casuale. Con i dati a nostradisposizione calcoliamo

[y − 0.1, y + 0.1] = [14.202 , 14.402].

Se potessimo ripetere in numero infinito di volte l’esperimento casuale inter-valli di questo tipo conterranno il vero valore µ nel 97.5% dei casi.

14.2 14.3 14.4 14.5

010

2030

4050

intervalli di condidenza

cam

pion

e

15

Page 195: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Gli intervalli di confidenza costituiscono forse la maniera piu semplice dicomunicare la precisione (od imprecisione) di una stima. Si confrontino adesempio le due affermazioni:

1. La stima della media e 14.302; la distribuzione dell’errore di stima euna normale di media nulla e varianza 0.002.

2. Con una“confidenza”molto alta, per la precisione 0.975, il “vero”valoredella media e compreso tra 14.202 e 14.402.

La prima affermazione e piu generale ma la sua “decodifica” richiedenozioni non note a tutti (quale strana bestia e una distribuzione normale? Ela varianza?). La seconda e molto piu facile da interpretare.

Intervalli di confidenza di livello prefissatoQuasi sempre si calcolano intervalli di confidenza con un livello fissato a

priori (le scelte piu comuni sono 0.5 , 0.9 , 0.95 e 0.99).In questo caso i passi da seguire sono i seguenti:

1. Ovviamente fissiamo un valore per 1 − α.

2. Determiniamo o utilizzando un programma o le tavole della normalestandard, il percentile 1 − α/2 di una normale standard, ovvero unpunto, indichiamolo con z1−α/2 tale che P(N(0, 1) ≤ z1−α/2) = 1−α/2.Per la simmetria della densita di una normale intorno alla sua mediaallora P(N(0, 1) ≤ −z1−α/2) = α/2. E quindi P(|N(0, 1)| ≤ z1−α/2) =1 − α. Si veda il grafico a pagina 16.

3. Ricordando che Y ∼ N(µ, σ2/n), possiamo allora scrivere

P(∣

∣(Y − µ)/

σ2/n∣

∣≤ z1−α/2

)

= 1 − α.

4. Con semplici passaggi otteniamo

P

(

Y − z1−α/2

σ√n≤ µ ≤ Y + z1−α/2

σ√n

)

= 1 − α.

L’intervallo[

Y − z1−α/2

σ√n

, Y + z1−α/2

σ√n

]

e quindi un intervallo di confidenza di livello 1 − α per µ.

16

Page 196: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

zα 2 0 z1−α 2

0.0

0.1

0.2

0.3

0.4

Ambedue le aree “annerite” sono uguali ad α/2. Quindi l’area “non annerita”e uguale a 1 − α.

EsempioSupponiamo di volere un intervallo di confidenza di livello 0.95. Allora,

α = 0.05 e 1−α/2 = 0.975. Dalle tavole della distribuzione normale standardtroviamo z0.975 = 1.96. Quindi l’intervallo risulta essere uguale a

14.302 ± 1.960.1√

5

ovvero [14.21, 14.39].Notiamo che se consideriamo un intervallo di confidenza di livello 1−α =

0.99, dovro utilizzare il quantile z0.995 = 2.575. L’intervallo sara quindi paria

14.302 ± 2.5750.1√

5= [14.19, 14.42] .

Viceversa, se il livello di confidenza fosse stato 1 − α = 0.90, il quantilenecessario sarebbe stato z0.95 = 1.645 con risultante intervallo di confidenza

14.302 ± 1.6450.1√

5= [14.23, 14.38] .

17

Page 197: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Esercizio 4. Commentate la relazione tra l’ampiezza dell’intervallo e il liv-ello di confidenza.

Inoltre, per un fissato livello di confidenza 1 − α, pensate a cosa accadeall’ampiezza dell’intervallo all’aumentare della numerosita del campione n.

Precisione nella stima della difettositaRicordiamoci che abbiamo ottenuto la formula

P(lastra troppo “alta”) = π(µ) = 1 − Φ

(

14.5 − µ

0.1

)

dove con l’introduzione della nuova notazione π(µ) vogliamo enfatizzare ilfatto che abbiamo un valore della probabilita di produrre una lastra troppo“alta” per ogni valore della media.

E’ facile verificare che π(µ) e una funzione monotona crescente (ci siricordi che Φ(y) e crescente in y). Quindi, l’evento

y : π

(

y − z1−α/2σ√n

)

≤ π(µ) ≤ π

(

y +z1−α/2σ√

n

)

coincide con l’evento

y : y − z1−α/2σ√n

≤ µ ≤ y +z1−α/2σ√

n

.

Ma allora i due eventi hanno la stessa probabilita e quindi

[

π

(

y − z1−α/2σ√n

)

, π

(

y +z1−α/2σ√

n

)]

e un intervallo di confidenza di dimensione 1 − α per π(µ). Si osservi che cibasta trasformare gli estremi di un intervallo di confidenza per µ.

Usando α = 0.05, l’intervallo che otteniamo e [0.002 , 0.135]. Ovvero seteniamo conto dell’errore di stima i risultati ottenuti (gli spessori misurati)sono compatibili anche senza fare riferimento ad eventi con probabilita par-ticolarmente piccola con una difettosita superiore al 10%. La conclusione eche sembra “prudente” bloccare la produzione3.

3Si tenga tra l’altro conto che π(14) ≈ 2/106, ovvero, che l’impianto, quando ben“tarato”, puo produrre un numero di lastre difettose realmente piccolo

18

Page 198: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

14.2 14.4 14.6 14.8

0.0

0.2

0.4

0.6

0.8

1.0

µ

π(µ)

14.20 14.25 14.30 14.35 14.40

0.00

0.05

0.10

0.15

µ

π(µ)

ZOOM

5 Verifica d’ipotesi

Un approccio diversoFino ad adesso ci siamo occupati di capire che cosa i dati ci potevano rac-

contare (e con quale affidabilita) sulla “vera” media e sulle “vere” probabilitadi produrre lastre difettose. L’idea era di bloccare la produzione e ritarare lemacchine quando i dati indicano che la “difettosita”dell’impianto e eccessiva.

19

Page 199: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Potremmo pero anche ragionare lungo le seguenti linee:

1. ad ogni manutenzione (ordinaria o straordinaria) l’impianto viene“tara-to” in maniera tale che la media degli spessori prodotti risulti 14mm;

2. quindi un valore di µ diverso, anche di poco, da 14mm indica unaqualche “sregolazione in corso”;

3. per questo motivo possiamo pensare di bloccare l’impianto appena idati suggeriscono che la media e cambiata.

Uno dei possibili vantaggi di questo approccio e che potremmo riuscire abloccare la produzione quando la “sregolazione” e iniziata ma la probabilitadi produrre lastre difettose e ancora piccola.

Sistema d’ipotesiUna maniera diversa di descrivere l’approccio appena suggerito consiste

nel dire che all’inizio di ogni turno vogliamo utilizzare i dati per decidere trale seguenti due ipotesi:

H0 : µ = 14mm

eH1 : µ 6= 14mm.

L’interpretazione delle due ipotesi e (ovviamente):

H0 : l’impianto produce al meglio

eH1 : l’impianto ha iniziato a “sregolarsi”.

Problemi di scelta tra due (o piu) alternative sono, in statistica, chiamatiproblemi di verifica di ipotesi. Le ipotesi (quando sono due) vengonospesso indicate come ipotesi nulla ed ipotesi alternativa. Lo “strumento”utilizzato per affrontare i problemi di verifica di ipotesi (ovvero la procedurache si segue per far“votare” i dati a favore o di H0 o di H1, ovvero per deciderequale ipotesi accettare o rifiutare) viene chiamato test statistico.

Analisi grafica

20

Page 200: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

13.6 13.8 14.0 14.2 14.4

01

23

4

La figura mostra la densita di una normale di media 14 e varianza 0.01(ovvero la distribuzione ipotizzata da H0) con i dati osservati “marcati” sul-l’asse delle x. Sembra improbabile che i dati siano stati generati dalla dis-tribuzione disegnata: sono troppo spostati a destra, anche in regioni a cuila distribuzione ipotizzata da H0 assegna probabilita quasi nulla. Dall’altraparte H1 “prevede” alcune distribuzioni (ad es. si veda il grafico a pagina 5)che sembrano “piu compatibili” con i dati. Quindi, i dati suggeriscono di rifi-utare H0. Sfortunatamente, una analisi grafica del tipo descritto e possibilesolo nelle situazioni piu semplici.

Un test statisticoVolendo definire una procedura “analitica”per scegliere tra le due ipotesi,

sembra ragionevole basarsi sulla differenza tra la media stimata, y, e la mediaipotizzata da H0, 14.

Ad esempio, potremmo pensare di usare una “regola” del tipo

−h ≤√

n(y − 14)

σ≤ h

simmmmm

vvmmmmmm noQQQQ

((QQQQQQ

accettiamoH0

rifiutiamoH0

Si osservi che abbiamo diviso la differenza per lo scarto quadratico mediodella media campionaria. Ovviamente, trattandosi nel nostro caso di una

21

Page 201: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

costante nota (n = 5 e σ2 = 0.01) cio non cambia l’interpretazione della“regola”. Per rendere operativa la “regola” dobbiamo decidere quale valoreassegnare alla soglia h.

Se H0 e vera. . .. . . vorremmo, ovviamente, rifiutare H1. In altre parole non ci dispiac-

erebbe cheP(accettare H0 quando H0 e vera) = 1 (2)

ovvero, che

P(−h ≤√

n(Y − 14)/σ ≤ h quando µ = 14) = 1. (3)

Ora, se µ = 14,√

n(y−14)/σ e una determinazione di una normale standard(lo studente spieghi perche). Quindi, la (3) e equivalente a

P(−h ≤ N(0, 1) ≤ h) = 1 (4)

e la (4) mostra che l’unico valore di h che garantisce la (2) e h = +∞ (cisi ricordi che la densita di una normale e diversa da zero su tutta la rettareale).

L’utilizzo di una soglia infinita non e pero molto sensato. Infatti se poni-amo h = +∞ non rifiuteremmo mai H0. In altre parole, se insistiamo sulla(2) finiamo con una “regola” per cui

P(accettare H0 quando H0 e falsa) = 1.

Un compromessoChiedere che la (2) sia esattamente vera ci porta a determinare un valore

di h inaccettabile. Sarebbe pero inacettabile anche una situazione in cui, adesempio,

P(accettare H0 quando H0 e vera) = 0.1

ovvero, una situazione in cui la (2) e pesantemente violata. Infatti, in questocaso, il test sbaglierebbe 9 volte su 10 quando l’ipotesi nulla e vera. E anchequesto sembra poco sensato.

Non ci rimane quindi che considerare il caso in cui la (2) e approssimati-vamente (ma non esattamente) rispettata, ovvero, in cui

P(accettare H0 quando H0 e vera) = 1 − α (5)

22

Page 202: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

per un valore “piccolo” di α. La (5) puo essere riscritta nella forma

P(−h ≤ N(0, 1) ≤ h) = 1 − α (6)

ed e facile verificare (lo studente si aiuti con il grafico a pagina 16) che lasoluzione in h della (6) e h = z1−α/2 dove con zp abbiamo indicato il percentilep-simo di una normale di media zero e varianza uno, ovvero il numero percui Φ(zp) = p.

Sintesi della procedura delineataIn definitiva, per verificare un sistema d’ipotesi del tipo

H0 : µ = µ0

H1 : µ 6= µ0

siamo arrivati alla seguente procedura:

scegliere α

²²

determinare z1−α/2

²²

calcolare test =

√n(y − µ0)

σ

²²

verificare se−z1−α/2 ≤ test ≤ z1−α/2

se la risposta e sioooooooo

wwoooooooooooose la risposta e no

OOOOOOOO

''OOOOOOOOOOOO

accettare H0 rifiutare H0

Nel caso in esame

23

Page 203: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

α = 0.01 (ad es.)

²²

z1−α/2 = z0.995 = 2.58

²²

test =

√5(14.302 − 14)

0.1= 6.75

²²

−2.58 ≤ 6.75 ≤ 2.58 ?

no

²²

rifiutiamo H0

Struttura di un testQuanto abbiamo fatto nel caso in esame illustra fedelmente la struttura

di un test statistico. E’ quindi conveniente “ricapitolare” la costruzione:

1. Abbiamo definito una statistica, ovvero una funzione dei dati, sceltain maniera tale che i valori che ci aspettiamo che la statistica assumaquando H0 e H1 sono vere siano “tendenzialmente” diversi. Nell’ambitodella teoria dei test, la statistica scelta viene chiamata, guarda caso,statistica test. Nell’esempio considerato, la statistica utilizzata e

T (Y1, . . . , Y5) =

√n(Y − µ0)

σ

e l’abbiamo scelta poiche ci aspettiamo che

ipotesi “vera” valori assunti dalla statistica testH0 intorno allo zeroH1 lontani dallo zero

2. L’idea euristica di “la statistica test assume differenti valori sotto H0 eH1” si manifesta e concretizza da un punto di vista formale nell’osser-vare che T ha una diversa distribuzione di probabilita nei due casi. Adesempio, nel caso in esame, se µ e la vera media degli spessori allora(lo studente lo dimostri utilizzando i risultati di pagina 8)

T ∼ N(√

n(µ − µ0)/σ, 1)

24

Page 204: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

ovvero, solo sotto H0, T ∼ N(0, 1) mentre, quando e vera H1 la dis-tribuzione e spostata o verso destra o verso sinistra (a seconda delsegno di µ − µ0).

3. A questo punto per decidere se H0 doveva essere accettata o rifiutataabbiamo essenzialmente “confrontato” il valore osservato della statisti-ca, ovvero il valore di T calcolato dai dati, con la distribuzione sottoH0 (si veda lucido seguente). Poiche il valore osservato della statisticaera “troppo estremo” (ovvero, troppo poco probabile) abbiamo decisodi rifiutare H0. In particolare, si osservi che, desiderando una rego-la precisa, nella procedura operativa descritta dall’albero a pagina 23abbiamo convenuto che “troppo estremo” significa |T | > z1−α/2 perqualche pre-scelto (e non troppo grande) valore di α.

Distribuzione sotto H0 e valore osservato della statistica test

z0.005 z0.995 T=6.753

0.0

0.1

0.2

0.3

0.4

Il valore osservato (6.75) non sembra essere stato generato dalla distribuzionedisegnata. Quindi rifiutiamo H0.

Si noti la somiglianza con quanto fatto a pagina 20. Solamente qui usiamola statistica test e non le osservazioni.

25

Page 205: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Esistono due tipi di errore

Si osservi che in un problema di verifica d’ipotesi esistono due possibilimodi con cui possiamo sbagliare. Infatti puo capitare di:

1. rifiutare H0 quando H0 e vera; questo e usualmente chiamato unerrore di primo tipo.

2. accettare H0 quando H0 e falsa; questo e usualmente chiamato unerrore di secondo tipo.

Ovviamente

P(errore 1 tipo) = 1 − P

(

accettare H0 quandoH0 e vera

)

Quindi, costruire un test che soddisfa la (5) equivale ad utilizzare untest in cui la probabilita di commettere un errore di 1 tipo sia α.

Si noti viceversa come nella costruzione delineata fino a questo puntola probabilita di commettere un errore di 2 tipo non e stata esplicita-mente considerata (con la sola eccezione di pagina 22 il cui contenutopuo essere parafrasato come “se vogliamo un test in cui la probabilitadi errore di primo tipo sia nulla finiamo per costruire un test in cui laprobabilita di errore di secondo tipo e uno”.)

Il motivo per cui ci si preoccupa di piu degli errori di 1 tipo e chespesso la domanda a cui si vuole rispondere con un test statistico e

A. Sono i dati sperimentali compatibili con H0?

piu che

B. Quale tra H0 e H1 e vera?

Tra l’altro, come vedremo, a volte H1 non e neanche specificabile.

Ovviamente esistono dei casi in cui B e la vera domanda. Diven-ta allora necessario considerare simultaneamente i due tipi di errore.Questo, all’interno della procedura delineata, puo essere fatto sceglien-do in maniera appropriata α e soprattutto, quando possibile, la nu-merosita compionaria (n). E’ infatti intuitivamente chiaro che piu n egrande piu possiamo sperare di rendere piccoli ambedue i tipi di errore.Lasciamo a corsi piu avanzati il mostrare come. Ci limitiamo a men-zionare che nel caso in esame il valore di n usato (ovvero 5) era statoscelto dall’impresa proprio sulla base di considerazioni di questo tipo.

26

Page 206: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Il livello di significativita osservatoAbbiamo visto che il test con livello di significativita fissato (α) si conclude

con l’accettazione o il rifiuto dell’ipotesi nulla H0, a seconda che il valore dellastatistica test appartenga o meno alla regione di accettazione (determinatain base al valore di α).

Un modo alternativo per verificare quanto i dati siano in accordo/disaccordocon l’ipotesi nulla H0 passa attraverso il livello di significativita osservato:

αoss = Pr(|T | > toss, quando H0 e vera)

che e la probabilita, se H0 e vera, di osservare un valore del test piu lontano daH0 del valore che abbiamo ottenuto nel nostro campione (ricordiamoci che Tassume valori vicino allo zero se H0 e vera e lontani dallo zero altrimenti. . . ).

E chiaro quindi che se αoss e piccolo vuol dire che i dati sono in disac-cordo con l’ipotesi nulla. Questo perche e improbabile ottenere un valore deltest ancora piu lontano da H0 del valore ottenuto nel campione osservato.Viceversa se αoss non e piccolo, significa che i dati non sono in disaccordocon l’ipotesi nulla.

Nel nostro esempio, toss = 6.75 e αoss ≈ 0 (calcolandolo, con un computer,sarebbe circa uguale a 0.0000000000147), confermando che i dati mostranouna forte evidenza contro H0.

Relazione tra αoss e α fissatoEsiste una relazione tra αoss e il test di livello fissatoSe αoss < α allora rifiuto H0 (con livello fissato α)

− z1−α 2 0 z1−α 2 toss

27

Page 207: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Se αoss > α allora accetto H0 (con livello fissato α)

− z1−α 2 0 toss z1−α 2

αoss ci dice anche “quanto” siamo lontani/vicini dall’ipotesi nulla.

Intervalli di confidenza e testEsiste una relazione tra un intervallo di confidenza per µ di livello 1 − α

e il test di livello di significativita fissato α.Infatti, l’intervallo di confidenza l’abbiamo costruito in modo tale che

Pr

(

Y − z1−α/2

σ√n≤ µ ≤ Y + z1−α/2

σ√n

)

= 1 − α ,

ossia

Pr

(

−z1−α/2 ≤√

n(Y − µ)

σ≤ z1−α/2

)

= 1 − α .

Se H0 : µ = µ0 e vera, abbiamo che l’ultima equazione diventa

Pr

(

−z1−α/2 ≤√

n(Y − µ0)

σ≤ z1−α/2

)

= 1 − α .

che e la probabilita di stare nella regione di accettazione quando H0 e vera.Quindi, una volta osservato il campione, la condizione

−z1−α/2 ≤ toss ≤ z1−α/2 ,

28

Page 208: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

che altro non e che la condizione di accettazione, e equivalente alla condizione

y − z1−α/2

σ√n≤ µ0 ≤ y + z1−α/2

σ√n

ossia a verificare se il valore di µ sotto l’ipotesi nulla (µ0) e contenuto nel-l’intervallo di confidenza di livello 1 − α.

Nel nostro esempio, l’intervallo di confidenza per µ di livello 1−α = 0.99era pari a [14.19, 14.42]: µ0 = 14 non appartiene a questo intervallo e quindirifiutiamo H0 ad un livello di significativita fissato α = 0.01.

29

Page 209: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Corso di Probabilita e Statistica

Lezione 14

Claudio Agostinelli∗

[email protected]

Dipartimento di StatisticaUniversita Ca’ Foscari di Venezia

San Giobbe, Cannaregio 873, VeneziaTel. 041 2347446, Fax. 041 2347444

http://www.dst.unive.it/~claudio

A.A. 2004/2005, Versione 0.1-1 del 10 Maggio 2005

Indice

1 Dove facciamo conoscenza con uno statistico birraio 1

2 Stima puntuale 3

3 Verifica delle Ipotesi 4

4 Intervalli di confidenza 9

1 Dove facciamo conoscenza con uno statis-

tico birraio

Saxon Plumbing companyLa Saxon Plumbing company1 e un’azienda di vendita all’ingrosso di for-

niture da bagno in una zona residenziale alla periferia di una citta del Nord

∗Lucidi per il corso. Ringrazio Guido Masarotto per avermi permesso di utilizzare parte

del suo materiale didattico.1Tratto da Levine, Krehbiel, Berenson (2002) Statistica, Apogeo.

1

Page 210: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Est degli Stati Uniti. Allo scopo di mantenere un controllo interno dellevendite, l’azienda ha stabilito che alle fatture di vendita venga allegato unoscontrino di trasferimento del magazzino, senza il quale le merci non pos-sono essere rimosse dal magazzino. Alla fine di ogni mese, viene estratto uncampione di fatture per valutarne l’ammontare medio riportato. Nel corsodegli ultimi 5 anni l’ammontare medio delle fatture delle fatture e stato di120 $. Dal momento che i costi di trasporto sono influenzati dalla distanzadi consegna, e importante mantenere un controllo dell’ammontare medio.

I dati seguenti si riferiscono agli ammontari di un campione di 12 fatture

108.98 152.22 111.45 110.59 127.46 107.26 93.32 91.97 111.56 75.71 128.58135.11

La media delle dodici fatture e 112.85$. Quindi, se restringiamo l’at-tenzione alle dodici fatture considerate vi e una diminuzione .

E pero spontaneo porsi la domanda: “sulla base di questi risultati ciaspettiamo che vi sia un calo dell’ammontare medio delle fatture ingenerale”

Un possibile modello di riferimento

Consideriamo l’insieme di tutte le fatture che avremmo potuto esam-inare. Si tratta ovviamente di un insieme molto grande ovvero unapopolazione molto grande.

L’ammontare della fattura e il risultato di una miriade di fattori (ilprodotto, il cliente che compra, . . . ). Ora se tutti questi fattori si“compongono” in maniera additiva possiamo pensare sulla base del teo-rema del limite centrale che la distribuzione dell’ ammontare nella popo-lazione possa essere ben approssimata da una distribuzione normale diappropriata media e varianza, diciamo µ e σ2.

Supponiamo inoltre che le fatture scelte non abbiano caratteristicheparticolari e quindi siano assimilabili ad individui estratti casualmentedalla popolazione. Ed anche che non si siano “condizionate” a vicenda.

Allora, se tutto questo e vero, possiamo vedere i dati osservati, indichi-amoli al solito con y1, . . . , y12, come delle determinazioni indipendentied identicamente distribuiti di una N(µ, σ2).

2

Page 211: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Due precisazioni

1. Nel seguito “lavoreremo” supponendo vera l’ipotesi di normalita. Nel-la realta, questa ipotesi dovrebbe prima essere verificata con i datidisponibili. Ovvero, il primo stadio dell’analisi dovrebbe consisterenell’utilizzare i dati per rispondere alla domanda: “E’ plausibile che idati osservati siano stati generati da una normale?”. Per rispondere aquesta domanda esistono tecniche grafiche ed analitiche (di cui non par-leremo). Puo, comunque, interessare lo studente che utilizzando questetecniche la risposta alla domanda precedente e: “Si. E’ plausibile.”.

2. Il modello che stiamo utilizzando per interpretare i dati e simile a quelloutilizzando nel “Controllo di qualita in un impianto che produce lastredi metallo”. La differenza e che in quel caso σ2 era noto (od almenoassunto tale). Qui e un parametro ignoto.

2 Stima puntuale

Stima dei parametri del modelloNelle ipotesi fatte, la distribuzione dei dati (e soprattutto del fenomeno

considerato nella popolazione) e nota con l’eccezione dei due parametri µe σ2. Sembra quindi ragionevole “iniziare” cercando di stimare questi dueparametri dai dati.

Le stime piu usati per µ e σ2 sono rispettivamente

y =1

n

n∑

i=1

yi ≈ 112.85

e

s2 =1

n − 1

n∑

i=1

(yi − y)2 ≈ 432.56

dove, al solito, n indica il numero delle osservazioni (per l’esperimento con-siderato n = 12).

Si noti che per stimare σ2 si usa dividere la somma dei quadrati degliscarti dalla media campionaria per n − 1 non per n. E’ infatti possibiledimostrare che dividere per n porterebbe ad uno stimatore che tenzialmente“sottostima” la vera varianza. Lo stesso viceversa non vale per s2. Infatti,sarebbe possibile dimostrare (ma non lo facciamo. . . ) che

E

(

1

n

n∑

i=1

(Yi − Y )2

)

=n − 1

nσ2

3

Page 212: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

e quindi, ponendo S2 = 1n−1

∑ni=1(Yi − Y )2, si ha

E(S2) = σ2 ,

e cioe S2 e uno stimatore non distorto di σ2.

3 Verifica delle Ipotesi

Un problema di verifica d’ipotesiUn sistema d’ipotesi interessante in questo caso e

H0 : µ = µ0

H1 : µ 6= µ0

con µ0 = 120. Accettare H0, infatti, equivale a dire che, in media, non c’estata variazione nell’ammontare delle fatture.

Nel caso del “Controllo di qualita in un impianto che produce lastre dimetallo” per verificare un sistema d’ipotesi avevamo utilizzato la statisticatest

T =

√n(Y − µ0)

σ.

Pero in questo caso noi non conosciamo σ. Quindi, con i dati a disposizione,non posso calcolare il valore osservato di T , e cioe toss.

D’altra parte, poiche abbiamo a disposizione una stima di σ una statisticatest analoga e data da

T =

√n(Y − µ0)

S.

Se H0 e vera ci aspettiamo che toss =√

n(y−µ0)s

assuma valori vicini a zero.Invece, se H1 e vera ci aspettiamo che toss cada lontano da zero.

Quanto deve essere lontano da zero toss per concludere che H0 eimplausibile?

Per rispondere alla domanda avremmo bisogno di sapere qual’e la dis-tribuzione di T quando H0 e vera. Infatti, questa distribuzione ci “racconta”quali sono i valori di toss che ci aspettiamo sotto l’ipotesi nulla.

Sappiamo che quando σ e noto, la distribuzione di T e normale. Potrem-mo percio pensare di approssimare la distribuzione di T con una N(0, 1)anche nel caso in esame (con σ ignoto). Ma la sostituzione del vero σ con snon puo non essere “indolore” soprattutto nel caso di piccoli campioni in cuil’errore con cui s stima σ potrebbe anche essere grande.

4

Page 213: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

E pero possibile nelle nostre ipotesi (normalita delle osservazioni, in-dipendenza,. . . ) determinare la distribuzione esatta di T . E’ stato fattoda W.S.Gosset uno statistico che lavorava alla birreria (nel senso di fabbricadi birra) Guiness. Poiche i suoi lavori furono pubblicati sotto lo pseudon-imo di Student, e Gosset, usava la lettera t per indicare la statistica test, ladistribuzione viene comunemente chiamata t di Student.

La distribuzione t di Student dipende da un solo parametro, chiamato igradi di liberta. Nel caso in esame (verifica sulla media di una distribuzionenormale) deve essere posto uguale a n − 1, ovvero, quello che Student hadimostrato e che

T ∼ tn−1 (t di Student con n − 1 gradi di liberta.)

Il test che stiamo descrivendo viene usualmente chiamato test t a uncampione.

Nel grafico della pagina seguente sono disegnate le densita di

(i) una t di Student con 2 gradi di liberta;

(ii) una con 20 gradi di liberta;

(iii) una normale standard.

Si osservi come:

(a) le densita delle t siano simmetriche intorno allo zero;

(b) abbiano delle “code” un po’ piu pesanti della normale e

(c) la t con 20 gradi di liberta sia molto vicina alla N(0, 1).

E’ possibile dimostrare che (a) e (b) valgono in generale (per qualsivogliagrado di liberta). L’osservazione (c) discende dal fatto che al divergere deigradi di liberta la distribuzione di una t di Student converge ad una N(0, 1).Il che tra l’altro e quello che ci aspettiamo. Infatti, piu n e grande piu s2

dovrebbe avvicinarsi a σ e quindi piu T dovrebbe avvicinarsi all’anologo testcalcolato con σ noto.

Grafico della densita della t di Student

5

Page 214: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

N(0, 1)t2t20

Nota: I pedici indicano i gradi di liberta.

Analisi grafica del risultato

6

Page 215: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

t

f(t)

Il valore osservato di T sui nostri dati e pari a toss = −1.19. Nel grafico ilvalore e indicato dal punto sull’asse delle ascisse. La curva mostra la densitadi una t di Student con 11 gradi di liberta. Non sembrano esserci elementiper dubitare che il valore osservato sia stato generato dalla distribuzionedisegnata. Ovvero, non abbiamo elementi nei dati per rifiutare H0.

Analisi mediante il livello di significativita osservato“Lontano da H0” equivale a “lontano da 120 in ambedue le direzioni”.

Quindi, nel nostro caso,

αoss = P (|t con 11 gradi di liberta| ≥ |toss|).

che, per la simmetria della t di Student, possiamo anche calcolare come

αoss = 2 × P (t con 11 gradi di liberta ≥ |toss|).

Disponendo solo di una tavola dei percentili possiamo determinare unintervallo che lo contiene.

7

Page 216: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

In particolare, dalla tabella vediamo che 1.19 e compreso tra il 75% e il90% percentile di una t con 11 gradi di liberta. Quindi,

0.10 < P (t con 11 gradi di liberta ≥ 1.19) < 0.25.

Ma allora0.2 < αoss < 0.5

Per quello che riguarda l’interpretazione la prima disuguaglianza e la piuimportante. Ci racconta infatti che se l’ammontare medio non e cambiatoallora noi ci aspetteremmo valori “piu lontani da H0 di quanto osservato” conuna frequenza superiore al 20%. Questo, vuol dire che il valore osservato ditoss non e “strano” quando H0 e vera.

Ad esempio, possiamo guardare al livello di significativita osservato inquesta maniera. Supponiamo:

(i) che sia vera l’ipotesi nulla,

(ii) di formare tutti i possibili campioni di numerosita 12 con gli individuiche fanno parte della popolazione e

(iii) di calcolare per ciascun campione toss.

Allora, il livello di significativa osservato e la percentuale di valori |toss|con un valore maggiore di 1.19. Il calcolo precedente ci dice che questapercentuale e maggiore di 0.2 (e minore di 0.5). Ma allora −1.19 e un valoreche “puo capitare quando H0 e vera”. Del resto, non riteniamo sorprendenteche il lancio di un dado equilibrato sia 3. Ma la percentuale di casi in cui unlancio ci da come risultato 3 e inferiore al 20%.

In conclusione, i dati ci dicono che non abbiamo elementi per rifiutarel’ipotesi nulla.

Una regola del tipo accetto/rifiuto

8

Page 217: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

scegliere un valore α

²²

determinare tn−1,1−α/2

²²

calcolare toss =

√n(y − µ0)

s

²²

se |toss| ≤ tn−1,1−α/2

alloraooooooooooo

wwoooooooooooo altrimentiOOOOOOOOOOO

''OOOOOOOOOOOO

accettare H0 rifiutare H0

Nell’albero tg,p indica il percentile p-simo di una t di Student con ggradi di liberta. E’ facile far vedere che l’albero fornisce una regola peraccettare/rifiutare l’ipotesi nulla che garantisce che

P (accettare H0 quando H0 e vera) = 1 − α

Con i dati sulle fattureSupponiamo di porre α = 0.01. Allora

tn−1,1−α/2 = t11,0.995 = 3.11

²²

toss = −1.19

²²

−3.11 ≤ −1.19 ≤ 3.11 ?

si

²²

accettiamo H0

4 Intervalli di confidenza

Un intervallo di confidenzaQuello che sappiamo e che se µ e il vero valore della media allora

P (−tn−1,1−α/2 ≤√

n(Y − µ)/S ≤ tn−1,1−α/2) = 1 − α.

9

Page 218: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Ma allora, scrivendo le due disuguglianze in termini di µ, troviamo che

P (Y − S tn−1,1−α/2/√

n ≤ µ ≤ Y + S tn−1,1−α/2/√

n) = 1 − α

ovvero che[

y − s tn−1,1−α/2√n

, y − s tn−1,1−α/2√n

]

e un intervallo di confidenza di livello 1 − α per la media.Supponiamo, ad esempio, di voler un intervallo di confidenza di livello

0.99. Allora, tn−1,1−α/2 = t11,0.995 = 3.11. Ricordando che y ≈ 112.85 e s2 ≈432.56 e quindi che s ≈

√432.56 ≈ 20.80, la semi-ampiezza dell’intervallo

richiesto e

18.67 =20.80 × 3.11√

12

mentre l’intervallo stesso e

[112.85 − 18.67 ; 112.85 + 18.67] = [94.18 ; 131.52]

Si osservi che l’intervallo include il valore µ = 120. Questo era attesovisto che avevamo visto, con il test discusso precedentemente, che il valore120 per µ era plausibile sulla base dei dati disponibili.

10

Page 219: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Corso di Probabilita e Statistica

Lezione 15

Claudio [email protected]

Dipartimento di StatisticaUniversita Ca’ Foscari di Venezia

San Giobbe, Cannaregio 873, VeneziaTel. 041 2347446, Fax. 041 2347444

http://www.dst.unive.it/~claudio

A.A. 2004/2005, Versione 0.1-1 del 10 Maggio 2005

Indice

1 Dove si incontrano un politico che dichiara: “Allora vinco” euno statistico 11.1 Stima puntuale . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2 Stima intervallare . . . . . . . . . . . . . . . . . . . . . . . . . 41.3 Verifica delle Ipotesi . . . . . . . . . . . . . . . . . . . . . . . 5

1 Dove si incontrano un politico che dichiara:

“Allora vinco” e uno statistico

Stima della probabilita di successo, intervalli di confidenza e verifica d’ipotesinel caso di una binomiale.

Il casoUn politico vuole candidarsi alle elezioni in una circoscrizione di 100000

elettori. Prima di candidarsi vuole pero sapere se ha buona probabilita disuccesso. Per questo commissiona ad una societa un sondaggio. La societacontatta 2500 elettori di questi 1328 si dichiarano favorevoli al candidato,

1

Page 220: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

ovvero il 1328/2500×100% ' 53%. Il candidato (C) discute con uno statistico(S) il risultato e come prima affermazione dice: allora vinco

Un dialogo

S. Piano con i proclami.

C. 1338 persone sono tante.

S. E’ vero, ma si tratta di un campione. E come e stato selezionato ilcampione ?

C. A caso. Ovvero sono state contattate delle persone per telefono.

S. Beh, allora proprio a caso il campione non e stato selezionato. Hannorisposto solo coloro che avevavo il telefono e intendevano rispondere.

C. Questo non lo so. E’ grave ?

S. Potrebbe esserlo.

C. Ma allora vinco ?

S. Sicurezza non le daro, ma ora le spiego il mio modo di vedere la cosa.

Un possibile modelloIndichiamo con y il numero di intervistati che sono favorevoli al candidato

e con n in numero totale di intervistati. Nel caso dell’esperimento descrittoy = 1328 e n = 2500. Vogliamo poter dire qualcosa su ϑ la percentualeincognita di elettori favorevoli.

Facciamo una prima ipotesi (in mancanza di altra informazione) ovveroche tutti gli elettori siano raggiungibili telefonicamente e che tutti inten-devano rispondere. Tutti saranno d’accordo che per la prima chiamata laprobabilita di estrazione di ‘Rossi Mario’ (o di un altra qualsiasi persona nel-la circoscrizione) sia di 1/100000. Nella seconda intervista non richiamiamopiu ‘Rossi Mario’ ma ‘Verdi Giuseppe’. La probabilita di estrazione di ‘VerdiGiuseppe’ (o di un altra qualsiasi persona nella circosrizione ad l’esclusionedi ‘Rossi Mario’) sia di 1/99999. Questo complica le cose. Tuttavia sem-plifichiamo ancora un po’ (non sembra grave) e ammettiamo che tutte gliintervistati hanno la stessa probabilita di entrare nel campione.

E ammettiamo che gli intervistati non usino il passaparola, ovvero che lerisposte siano tra loro indipendenti.

2

Page 221: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Possiamo assimilare il sondaggio all’estrazione casuale con reinserimentodi n elettori da un’urna costituita da tutti gli elettori. Se accettiamo questo,allora

Y ∼ B(n, ϑ) (1)

ovvero, il numero di favorevoli tra gli n estratti puo essere visto come determi-nazione, y, di una variabile casuale binomiale, Y , con probabilita di successoϑ e numero di prove n.

Si osservi che la (1) e cruciale perche precisa la relazione tra quello checonosciamo (y e n) e quello che vogliamo conoscere (ϑ).

Notiamo inoltre che il parere sul candidato (favorevole o non favorevole)di ogni singolo elettore poteva essere rappresentato attraverso una variabilecasuale Xi ∼ B(1, θ), per i = 1, . . . , n, e che Y altro non e che la somma dellen v.c. Xi: Y =

∑ni=1

Xi.

1.1 Stima puntuale

Stima di ϑLo stimatore piu“naturale”(forse l’unico“naturale”nel senso che qualsiasi

altra scelta sembra “innaturale”) per ϑ e

ϑ =Y

n

ovvero la proporzione di elettori favorevoli (il politico non era cosı sprovve-duto).

Esercizio 1. Verificate che lo stimatore ϑ coincide con lo stimatore ottenutocon il metodo dei momenti.

Nel caso in esame, la stima e pari a ϑ = y/n = 1328/2500 = 0.5312.Ovviamente, se Y e una variabile casuale anche ϑ e una variabile casuale.

Lo studio della sua distribuzione e importante perche permette di acquisireuna idea sulla dimensione dell’errore di stima.

Distribuzione esatta di ϑLa distribuzione esatta di ϑ e facile da determinare. Infatti, ϑ ∈ Θn =

0/n, 1/n, . . . , n/n e, per qualsivoglia a ∈ Θn, risulta

P(ϑ = a) = P(Y = na) =

(

n

na

)

ϑna(1 − ϑ)n−na.

3

Page 222: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Approssimazione normaleIl fatto che la distribuzione esatta sia facile da determinare non implica

che sia anche facile da maneggiare.La maniera piu “rapida” per determinare intervalli di confidenza e test si

basa sull’approssimazione normale alla binomiale.Il risultato di partenza e costituito dal fatto che per n non troppo piccolo

la distribuzione diϑ − ϑ

ϑ(1 − ϑ)/n

e approssimabile con quella di una normale standard nel senso che per ogniintervallo della retta reale [a, b]

P

(

a ≤ϑ − ϑ

ϑ(1 − ϑ)/n≤ b

)

≈ P(a ≤ N(0, 1) ≤ b)

Si ritiene che l’approssimazione normale“funzioni almeno decorosamente”quando sia nϑ che n(1 − ϑ) sono piu grandi di 5.

Distribuzione (approssimata) dell’errore di stimaSe (ϑ − ϑ)/

ϑ(1 − ϑ)/n e approssimatamente una normale standard al-lora, sempre approssimatamente,

(errore di stima) = (ϑ − ϑ) ∼ N(0, ϑ(1 − ϑ)/n).

Si osservi che, questa distribuzione, oltre ad essere approssimata e ancheparzialmente ignota. Infatti, la varianza della distribuzione dipende dal verovalore di ϑ.

Per acquisire delle informazioni sulla dimensione dell’errore di stima pos-siamo stimarne la varianza sostituendo ϑ a ϑ. Nel caso in esame troviamo

V (ϑ − ϑ) =ϑ(1 − ϑ)

n≈

0.5312(1 − 0.5312)

2500≈ (0.01)2

ovvero, approssimazione dopo approssimazione, siamo arrivati alla conclu-sione che l’errore di stima e, grossomodo, normale di media zero e scartoquadratico medio 0.01.

1.2 Stima intervallare

Intervalli di confidenzaLa distribuzione stimata per ϑ−ϑ puo essere usata per costruire intervalli

di confidenza approssimati di livello 1 − α.

4

Page 223: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Infatti se la distribuzione di ϑ − ϑ e approssimatamente una normale dimedia nulla e scarto quadratico medio 0.01 allora possiamo scrivere (perche?)

P(−0.01 × z1−α/2 ≤ ϑ − ϑ ≤ 0.01 × z1−α/2) ≈ 1 − α (2)

dove, al solito, con zp indichiamo il quantile p-simo di una normale standard.La (2) puo essere scritta come

P(ϑ − 0.01 × z1−α/2 ≤ ϑ ≤ ϑ + 0.01 × z1−α/2) ≈ 1 − α

ovvero, ci mostra, ricordando come avevamo calcolato lo scarto quadradicomedio dell’errore di stima, che

ϑ − z1−α/2

ϑ(1 − ϑ)

n, ϑ + z1−α/2

ϑ(1 − ϑ)

n,

costituisce (approssimatamente) un intervallo di confidenza di dimensione1 − α per ϑ.

Con i nostri datiSupponiamo di voler calcolare un intervallo di confidenza di livello 0.9.Allora, α = 0.1, 1 − α/2 = 0.95. Da una tavola della distribuzione

normale (o utilizzando un programma appropriato) troviamo che z0.95 ≈ 1.65.Sappiamo gia che ϑ = 0.5312 e che

0.5312 × (1 − 0.5312)

2500≈ 0.01.

Quindi, la semi-ampiezza dell’intervallo richiesto e 1.65 × 0.01 = 0.0165.Percio l’intervallo stesso e

[0.5312 − 0.0165 ; 0.5312 + 0.0165] = [0.5147 ; 0.5477].

1.3 Verifica delle Ipotesi

Ma allora vinco! ovvero la verifica dell’ipotesiSulla base dell’intervallo di confidenza al 90% il politico conclude che,

poiche 0.5 non e contenuto nell’intervallo, vi e una ragionevole aspettativache possa vincere.

S. Piano.

5

Page 224: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

C. Ancora non e finita?

S. Dobbiamo correttamente specificare il sistema d’ipotesi

Per quanto detto, il sistema d’ipotesi che sottintende il politico, e il seguente:

H0 : ϑ = ϑ0

H1 : ϑ > ϑ0

con ϑ0 = 0.50Il sistema e equivalente a

H0 : ϑ ≤ ϑ0

H1 : ϑ > ϑ0

Si noti che il sistema d’ipotesi ha una alternativa di tipo unilaterale.Volendo utilizzare un test statistico sembra ragionevole basare la decisione

sulla distanza tra la stima di ϑ calcolata dai dati e il valore per il parametroprevisto sotto H0.

Una possibile statistica test e quindi (Si osservi che, preferiamo lavorarecon una versione “standardizzata” della differenza; la cosa e pero irrilevantepoiche il tutto si concretizza nella divisione per una costante )

T =ϑ − ϑ0

ϑ0(1 − ϑ0)/n

Se l’ipotesi nulla e vera, per quanto ricordato a pagina 4, T ha una dis-tribuzione approssimatamente normale di media zero e varianza 1. Quindipossiamo confrontare il valore di T calcolato dai dati con questa distribuzione.Valore positivi di T ‘grandi’ ci indicheranno che H0 e implausibile (rispettoad H1).

Quindi, la regione di rifiuto sara data dai valori del test maggiori di z1−α,poiche fissiamo ad α la probabilita di commettere un errore di I tipo (e cioedi rifiutare H0 quando e la vera ipotesi)

P(T ≥ z1−α quando H0 e vera) ≈ α .

Nel nostro caso, se α = 0.05, z0.95 ≈ 1.65 e, poiche

toss = (0.5312 − 0.5)/√

0.5 × 0.5/2500 = 3.12

rifiutiamo l’ipotesi nulla in favore dell’ipotesi alternativa.

6

Page 225: Corso di Probabilit`a e Statistica - canoaclubsandona.itE0.e.statistica... · P. Baldi. Calcolo delle Probabilit`a e Statistica. McGraw–Hill, 1998. Testo di riferimento per il corso.

Il livello di significativita osservato e pari a

P(T ≥ toss quando H0 e vera) ≈ P(N(0, 1) ≥ 3.12)

≈ 0.00088

e quindi avremmo rifiutato H0 a qualsiasi livello fissato “ragionevole”.

0 z1−α toss

ACCETTAZIONE RIFIUTO

7