Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove...

126
Statistica I (Gb-M), (N-Sc), (Sd-Z), (Portogruaro) S. Campostrini, S. Tonellato, C. Varin e R. Vedaldi 1 Dipartimento di Statistica Universit` a Ca’ Foscari - Venezia [stefano.campostrini,stone,sammy,vedaldi]@unive.it Anno Accademico 2007/2008 1 Docenti dei corsi. Questo materiale, a parte qualche rielaborazione e aggiunta da parte di Claudio Agostinelli, Carlo Gaetan e Nicola Sartori, ` e dovuto a Guido Masarotto, che lo ha gentilmente reso disponibile. ii

Transcript of Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove...

Page 1: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Statistica I(Gb-M), (N-Sc), (Sd-Z), (Portogruaro)

S. Campostrini, S. Tonellato, C. Varin e R. Vedaldi 1

Dipartimento di StatisticaUniversita Ca’ Foscari - Venezia

[stefano.campostrini,stone,sammy,vedaldi]@unive.it

Anno Accademico 2007/2008

1Docenti dei corsi. Questo materiale, a parte qualche rielaborazione e

aggiunta da parte di Claudio Agostinelli, Carlo Gaetan e Nicola Sartori, e

dovuto a Guido Masarotto, che lo ha gentilmente reso disponibile.ii

Page 2: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Indice

A. Introduzione al corso, 1

La statistica nella societa dell’informazione, 2 Informazioni, nuove conoscenze, decisioni, 3 Statistici, informazioni,nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un po’ di terminologia, 5Ulteriore terminologia, 6 Dati qualitativi, dati numerici, dati . . . , 7 Il modo in cui sono raccolti i dati puo condi-zionare il loro tipo, 10 Dati sperimentali vs dati osservazionali, 11 Piccolo esempio (per fissare la terminologia), 12“Statistica Descrittiva” vs “Inferenza Statistica”, 13 Metodi di raccolta dei dati, 15 Metodi di campionamento, 16

B. Tre organizzazioni di un reparto di produzione, 19

Il problema, 20 I dati, 21 Organizzazione dei dati in una distribuzione di frequenza, 22 Frequenze assolute, 23Frequenze relative, 25 Tabelle di frequenza: notazioni, 27 Scrivere in forma compatta: il simbolo

∑(sommatoria), 28

Istogramma, 29 Diagrammi a bastoncini, 31 Funzione di ripartizione empirica, 32 Frequenze cumulate, 34

C. Ancora sugli istogrammi, 35

Numero degli intervalli, 36 Pochi intervalli, poche informazioni, 37 Troppi intervalli, troppi dettagli, 38 Un numeroragionevole di intervalli, 39 Suggerimenti pratici, 40 Intervalli di differenti lunghezze, 41 Organizzazione del lavo-ro. Intervalli piu piccoli nella parte centrale. Altezze dei rettangoli proporzionali alle frequenze., 42 Organizzazionedel lavoro. Intervalli piu piccoli nella parte centrale. Altezze dei rettangoli proporzionali alle densita., 43

D. Misure di posizione, 45

Misure o parametri di posizione, 46 La media aritmetica, 47 La mediana, 48 Media e mediana: il caso delle treriorganizzazioni del lavoro, 49 Quantili, 50 Diagrammi a scatola con baffi, 51 Tre organizzazioni della produzione:diagrammi a scatola con baffi, 52 La variante piu usata dei diagrammi a scatola con baffi, 53 Esempio di costruzionedi un boxplot, 54 Diagramma a scatola con baffi (esempio precedente), 55 La media aritmetica: alcune proprieta, 56Una non-proprieta (da non dimenticare) della media aritmetica, 61 Un difetto della media aritmetica, 62 Alcuneproprieta della mediana, 63 Esempi di calcolo della mediana, 64 Ambiguita nel calcolo dei quartili (e, quindi, di unquantile), 66 Dati raggruppati: approssimazione della media, 68 Esercizio-Interpretazione, 69

E. Numeri indici., 71

Medie ponderate , 72 Numeri indici, 73 Indici dei prezzi al consumo, 74 Inflazione e mezzi di comunicazione , 77

F. Misure di variabilita, 79

Esempio, 80 Commento, 82 La varianza, 83 Formula per il calcolo, 85 Varianza di trasformazioni lineari deidati, 87 Lo scarto quadratico medio, 88 Altre misure di variabilita, 89 Due tipologie di fondi: indici di variabi-lita, 91 Il coefficiente di variazione, 92 Standardizzazione dei dati, 93

iii

G. Cenno a simmetria e curtosi, 95

Simmetria, 96 Due insiemi di dati standardizzati: istogramma, 97 Due insiemi di dati standardizzati: boxplot, 98Indice di asimmetria, 99 Curtosi, 100 Due insiemi di dati standardizzati: istogramma, 101 Due insiemi di datistandardizzati: boxplot, 102

H. Esercizi ricettivi per area geografica, 103

I dati, 104 Frequenze assolute e relative, 105 La natura di questi dati e diversa da quelli visti in precedenza, 107Diagramma a barre: frequenze assolute, 108 Diagramma a torte: frequenze relative, 109 Mutabilita (idea di), 110Cenno agli indici di mutabilita, 112

I. Il disastro del Titanic, 117

Alcuni dati sul Titanic, 118 Una variabile, due variabili, . . . , 119 Titanic: una variabile alla volta, 120 Le duevariabili assieme: frequenze congiunte, 121 Frequenze congiunte: rappresentazione grafica, 122 Frequenze con-giunte: un’altra rappresentazione grafica , 123 Tabelle di contingenza, 124 Struttura generale, 126 Un po’ diterminologia, 127 Distribuzioni condizionate di Salvato dato Classe, 128 Distribuzioni condizionate di Classe da-to Salvato, 129 Dipendenza, indipendenza e distribuzioni condizionate, 130 Distribuzione marginale, distribuzionicondizionate e indipendenza, 133 X indipendente da Y e equivalente a Y indipendente da X, 134 Indipendenza:frequenze attese., 135 L’indice X2, 136 Il caso del Titanic, 137 Esercizi, 138 Appendice: strumenti di base, 140Sommatoria, 141 Produttoria, 142 Logaritmo, 143

J. Probabilita, 145

Cos’e la probabilita, 146 Esperimento casuale, spazio campionario e eventi, 147 Esempio piu complicato, 149Evento, 150 Richiami di insiemistica (diagrammi di Venn), 151 Operazioni tra insiemi, 152 Proprieta delleoperazioni tra insiemi, 154 Catalogo di sottoinsiemi di S, 156 Probabilita, 158 Gli assiomi della probabilita(di Kolmogorov), 160 Alcune conseguenze degli assiomi, 161 Esempio, 162 La probabilita condizionata, 163Teorema delle probabilita composte o regola moltiplicativa delle probabilita, 170 Il teorema di Bayes, 171 Esempioapplicativo della formula di Bayes e di quella delle probabilita totale, 172 Teorema di Bayes, 174 Indipendenzastocastica, 175 Ma come si calcola la probabilita? (digressione sul calcolo combinatorio), 176 Esempi, 181

K. Variabili casuali , 183

Definizione di variabile casuale, 184 Variabili casuali discrete, 187 Funzione di probabilita, 188 Il punteggio totaleriportato nel lancio di due dadi, 189 Una v.c. discreta che assume infiniti valori, 191 La funzione di ripartizione, 193Somma del punteggio di due dadi, 194 Valore atteso e varianza di una variabile casuale discreta, 196 Trasformazionedi una variabile casuale, 199 Ancora sul lancio dei due dadi, 200 La distribuzione binomiale, 202 La distribuzio-ne bernoulliana, 206 La distribuzione di Poisson, 207 Variabile casuali continue, 212 Funzione di densita, 215Funzione di ripartizione di una variabile continua, 217 Esempi, 218 Esempi, 219 Valore atteso e varianza, 220Esempio, 221 La variabile casuale uniforme, 222 La variabile casuale normale o gaussiana, 223 Calcolo dellaprobabilita per una variabile casuale normale, 225 Esempi di utilizzo della tavole, 227 Standardizzazione, 228

L. Variabili casuali bivariate, 229

Variabili casuali bivariate discrete , 230 Esempio, 232 Indipendenza stocastica di due variabili casuali, 234 Distribuzionicondizionate, 235 Esempio: distribuzioni condizionate, 236 Valori attesi condizionati, 237 Esempio: valori attesicondizionati, 238 Momenti di funzioni di variabili doppie, 239 Covarianza e correlazione, 241 Esempio: covarianzae correlazione, 244 Valori attesi condizionati: proprieta, 245 Esempio: valori attesi condizionati, 248

Page 3: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Unita A

Introduzione al corso

La statistica nella societa dell’informazione

� Tutti dicono che viviamo nella societa dell’informazione.

� Ma molti (tutti?) si lamentano che le informazioni sonotroppe. E’ facile raccoglierle, memorizzarle, distribuirle. E’difficile verificarle ed interpretarle.

� La statistica e, in molte situazioni, la tecnologia necessariaper risolvere queste difficolta.

� Uno statistico, ad esempio, sa combinare informazioni di tipodifferente, e in grado di valutarne l’affidabilita, sa sintetizzaree presentare molti dati in maniera tale da evidenziare la storiache raccontano, sa costruire modelli (=visioni stilizzate diuna parte di mondo) che facilitano l’interpretazione, e, peresempio, permettono di calcolare previsioni o di formulareipotesi di decisione.

Introduzione al corso 2

Page 4: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Informazioni, nuove conoscenze, decisioniInformazioni, nuove conoscenze, decisioni

Necessita o desiderio di conoscenzaNecessita di prendere una decisione

Raccolta informazioni/Osservazione/Sperimentazione

Informazioni elementari/Dati

Sintesi/Modelli

Nuove conoscenze/Ipotesi di decisione

5 Unita A:3 Unita A:

Statistici, informazioni, nuove conoscenze,decisioniStatistici, informazioni, nuove conoscenze,decisioni

Necessita o desiderio di conoscenzaNecessita di prendere una decisione

Cosa rilevare (con altri)

Raccolta informazioni/Osservazione/Sperimentazione

Quanti e quali dati?

Informazioni elementari/Dati

Analisi dei dati

Sintesi/Modelli

Interpretazione (con altri)

Nuove conoscenze/Ipotesi di decisione

Introduzione al corso 6Introduzione al corso 4

Page 5: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Stilizzazione dei problemi di cui si occupa lastatistica ed un po’ di terminologia

� Un insieme (di individui o animali o oggetti o squadre dipallavolo o. . . ) costituisce la parte del mondo che interessa,quella su cui dobbiamo produrre nuove conoscenze, quellache e coinvolta nelle decisioni da prendere. Questo insiemeviene chiamato convenzionalmente la popolazione diriferimento. Gli elementi della popolazione sono chiamatigenericamente unita statistiche.

� Alcune caratteristiche di tutte o di una parte delle unitastatistiche vengono rilevate/misurate. Il risultato di questorilevare/misurare costituisce quello che chiamiamo i dati.Le unita statistiche sono disomogenee rispetto ai fenomenirilevati.

� L’obbiettivo e quello di trasformare i dati in nuoveconoscenze od ipotesi di decisione. Ovvero, di trasformarei dati in affermazioni sul mondo (sulla popolazione diriferimento).

5 Unita A:

Ulteriore terminologia

� Le caratteristiche rilevate sulle unita statistiche vengonochiamate le variabili.

� I valori distinti assunti da una variabile sono chiamate lemodalita della variabile stessa.

� Se le variabili di interesse non sono rilevate su tutte le unitastatistiche, il sottoinsieme della popolazione oggetto dellarilevazione e chiamato il campione.

Introduzione al corso 6

Page 6: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Dati qualitativi, dati numerici, dati . . .

In statistica si parla di dati:

� qualitativi o categoriali quando le modalita utilizzateper descrivere il fenomeno analizzato prendono la forma diaggettivi o di altre espressioni verbali. A loro volta i datiqualitativi possono essere

– sconnessi se non esiste nessun ordinamento naturale trale modalita; esempi di dati sconnessi sono: (i) il sesso,(ii) il tipo di servizio offerto da un albergo;

– ordinali nel caso in cui un ordinamento naturale esiste;esempi di dati qualitativi ordinali sono: (i) il titolo distudio, (ii) il parere di un intervistato (ad es. classificatocome “mediocre”, “discreto”, “buono”).

Quando le modalita sono solamente due (esempi (i) maschiovs. femmina, (ii) vivo vs. morto; (iii) buono vs. difettoso)si parla di dati dicotomici o binari.

7 Unita A:

� numerici quando le modalita sono espresse da numeri. Dalpunto di vista dei modelli e delle tecniche utilizzate i datinumerici si suddividono a loro volta in dati

– interi quando le modalita sono esprimibili da numeriinteri; esempi sono: (i) il numero di clienti, (ii) il numerodi pezzi prodotti;

– continui o reali quando le modalita sono esprimibili danumeri reali; esempi sono: (i) il tempo d’attesa ad unosportello, (ii) il peso di un manufatto.

Introduzione al corso 8

Page 7: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Sempre per quanto riguarda i dati numerici si dice che si eutilizzata una

– scala intervallo quando l’origine della scala stessa earbitraria, ovvero, quando lo zero ha un’interpretazioneconvenzionale (esempio: la temperatura);

– scala rapporto nel caso contrario ovvero quandol’origine non e arbitraria (esempio: la lunghezza di unuovo).

Per comprendere quest’ultima suddivisione, trasversale allaprecedente e importante piu nella fase di interpretazione deirisultati che nel momento dell’analisi, si pensi ai due esempie si osservi che mentre possiamo dire che un uovo di 30mm elungo il doppio di un uovo di 15mm non possiamo, viceversa,dire che quando ci sono 30◦ Celsius la temperatura e doppiarispetto a quando ce ne sono 15. Ad esempio, proprio perla differente origine scelta, l’affermazione sarebbe falsa seusassimo una scala Fahrenheit. Infatti 30 e 15 sulla scalaCelsius corrispondono a 86 e 59 sulla scala Fahrenheit.

9 Unita A:

Il modo in cui sono raccolti i dati puocondizionare il loro tipo

Si consideri una macchina che deve forare delle lastre di metallo.Il diametro nominale dei fori e di 1mm con una tolleranza di0,06mm. Ovvero un foro e ben fatto se il suo diametro ecompreso tra 0,94mm e 1,06mm.

Allora, dati sulla qualita della produzione della macchina,potrebbero essere disponibili nella forma

1. “buono” vs. “difettoso” (dati dicotomici);

2. “troppo piccolo”, “buono”, “troppo grande” (datiqualitativi ordinali);

3. lunghezza del diametro (dati numerici continui).

Si osservi che le differenze non sono semplicemente dovutea come i dati vengono registrati ma possono anche esseredovute a come i diametri vengono effettivamente misurati.Ad esempio, raccogliere dati sui diametri nella forma (2) epiu rapido e richiede strumenti meno costosi (bastano duebastoncini metallici di diametro rispettivamente uguale ai dueestremi dell’intervallo di tolleranza) di quanto richiesto dallaforma (3).

Introduzione al corso 10

Page 8: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Dati sperimentali vs dati osservazionali

Nell’analizzare dei dati e bene poi tenere presente il tipo distudio in cui sono stati rilevati. In particolare, e importante ladistinzione tra

� studi sperimentali ovvero situazioni in cui i dati sonostati raccolti in situazioni replicabili e controllate (esempioclassico sono gli esperimenti di laboratorio);

� studi osservazionali ovvero situazioni in cui il ricercatoresemplicemente rileva dei dati gia esistenti (esempio: ilnumero di presenze alberghiere in una stagione, il prezzodi un’azione,... ).

Il problema principale degli studi osservazionali e che noncontrollando i fattori che possono influenzare il fenomeno sottoindagine risulta difficile essere ragionevolmente certi di averliindividuati appropriatamente.

E incontrerete questo tipo di dati continuamente nel corso deivostri studi.

11 Unita A:

Piccolo esempio (per fissare la terminologia)

Vogliamo avere un’idea sul numero di clienti e sul volume divendite dei negozi di una citta per tre categorie merceologi-che ritenute simili. La popolazione di riferimento e l’insieme ditutti i negozi secondo le tre categorie merceologiche. Le unitastatistiche sono i negozi. I dati si presentano in questa forma

negozio clienti vendite categoria1 907 11.2 A... ... ... ...

10 420 6.12 B11 679 7.63 B... ... ... ...

19 1010 11.77 C20 621 7.41 A

Le variabili considerate nello studio sono tre:

clienti le cui modalita sono numeriche e discrete;

vendite (in migliaia di euro) le cui modalita sono numeriche e(con approssimazione) continue.

categoria le cui modalita sono sconnesse (A, B e C.)

Introduzione al corso 12

Page 9: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

“Statistica Descrittiva” vs “InferenzaStatistica”

Descrittiva: (“quasi” sinonimi: esplorazione statistica deidati, statistica senza modello probabilistico) Disponiamo didati riferiti a tutta la popolazione di riferimento.

Inferenza: I dati disponibili sono stati rilevati solamentesu una parte delle unita statistiche (il campione da cuiindagini campionarie). Vogliamo utilizzare le informazionidel campione per fare delle affermazioni sulle caratteristichedi tutta la popolazione.

13 Unita A:

Tra Statistica Descrittiva ed Inferenza Statistica esiste unaovvia “fratellanza” ed, in realta, nelle applicazioni, non sonofacilmente separabili anche perche i problemi di inferenzavengono normalmente affrontati in accordo allo schema

Tra Statistica Descrittiva ed Inferenza Statistica esiste unaovvia “fratellanza” ed, in realta, nelle applicazioni, non sonofacilmente separabili anche perche i problemi di inferenzavengono normalmente affrontati in accordo allo schema

Descrizione dellecaratteristichedel campione

Affermazionisulle

caratteristiche ditutta la

popolazione

Induzione

Introduzione al corso 16Introduzione al corso 14

Page 10: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Metodi di raccolta dei dati

1. Esperimenti in laboratorio

2. Interviste telefoniche

3. Questionari inviati per posta

4. Porta a porta

5. Interviste per strada

6. ...

Esercizio 1 Provate a pensare ad un modo di raccogliereinformazioni

15 Unita A:

Metodi di campionamento

Probabilistici

1. Campionamento casuale semplice: e un metodo perselezionare individui da una popolazione in maniera tale cheogni possibile campione di una prefissata numerosita ha lamedesima probabilita di essere selezionato. In questo casoil campionamento puo avvenire con reinserimento oppuresenza.

2. Campionamento casuale stratificato: e ottenutoselezionando dei campioni casuali semplici da alcuni strati(ovvero sottopopolazioni mutualmente esclusive). Alcunicriteri per dividere una popolazione in strati sono: sesso(maschio, femmina); eta (under 18, 18 a 28, 29 a 39);tipologia di impiego (operaio, impiegato, quadro, dirigente).

3. Campionamento a grappoli: e un campionamentocasuale semplice di grappoli di individui. Il campionamen-to a grappoli e utile quando e difficile o costoso costruireun campione casuale semplice Per esempio, per stimareil reddito medio familiare in una grande citta si usa ilcampionamento a grappoli, poiche per un campionamentocasuale semplice e necessario avere una lista completa dellefamiglie da cui estrarre il campione. Un campionamentostratificato necessita ancora di una lista completa. Inveceun modo meno dispendioso consiste nel dividere la citta inblocchi. Un campione di blocchi viene selezionato e poi ognifamiglia all’interno del blocco viene intervistata.

Introduzione al corso 16

Page 11: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Non probabilistici:

1. Campionamento selettivo: In questo caso chi esegueil campionamento ha il diretto o indiretto controllo degliindividui che intende selezionare.

2. Campionamento per convenienza: Il campionamento eguidato da criteri di semplicita, economicita.

3. Campionamento per quote: il decisore richiede uncampione con un certo numero di individui con una prefissatacaratteristica. Molti sondaggi concernenti temi politici sonodi questo tipo.

A questo punto cosa potete dire di quei sondaggi organizzatidurante delle trasmissioni televisive in cui vi chiedono ditelefonare ad un numero magari a pagamento?

17 Unita A: Introduzione al corso 18

Page 12: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Unita B

Tre organizzazioni di un reparto di produzione

� Frequenze assolute, relative e cumulate

� Istogramma

� Diagramma a bastoncini

� Funzione di ripartizione empirica

Il problema

� In un reparto dove sono assemblati walkman vengono intre giorni diversi provate tre differenti organizzazioni dellelinee di produzione. Le tre diverse organizzazioni sonochiamate nel seguito vecchia (quella in uso al momentodell’esperimento), nuova 1 e nuova 2.

� Nei tre giorni, per ciascuno dei 288 addetti che lavorano nelreparto, viene rilevato

“il numero di operazioni completato”

che, ovviamente, puo essere visto come una misura dellaproduttivita.

� Domanda: qual e l’organizzazione del lavoro migliore?

Tre organizzazioni di un reparto di produzione 20

Page 13: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

I dati

Vecchia organizzazione725 724 710 724 700 724 713 692 683 712 684 707 703 691 709 702 705 715704 705 697 725 692 719 694 717 696 707 726 703 705 712 710 697 698 694701 715 701 707 706 701 687 708 719 713 699 702 694 708 712 704 703 687709 693 715 707 710 700 718 702 718 705 723 718 701 698 692 684 716 710708 707 695 726 710 709 692 707 717 709 710 718 708 720 705 714 687 707707 723 695 676 705 684 717 719 715 710 711 696 696 715 686 702 708 713701 692 713 700 704 726 702 706 706 700 700 687 696 694 699 709 704 704715 706 688 724 713 686 697 710 704 724 721 717 690 707 713 685 706 699687 702 701 708 704 705 702 701 699 699 685 712 678 706 706 695 707 718706 716 703 721 714 704 697 693 711 697 710 713 702 715 714 716 698 714704 717 700 692 718 699 698 690 710 703 702 719 710 725 721 713 699 703698 712 714 707 691 711 712 718 702 711 709 700 719 692 716 700 707 714717 714 703 709 711 704 689 712 714 711 692 720 697 698 700 689 693 707699 704 696 708 713 714 712 708 704 720 705 703 712 719 713 716 712 703717 695 711 697 693 701 699 697 724 713 706 705 704 707 704 719 711 700694 706 705 698 697 697 700 705 722 712 703 688 694 708 703 690 706 704

Organizzazione ‘‘nuova 1’’695 686 694 690 713 704 693 697 723 694 690 721 683 701 718 715 738 694692 704 728 697 711 706 714 710 717 729 709 695 699 714 691 698 680 720683 696 713 674 689 683 708 704 725 695 690 696 678 725 683 700 699 705688 714 709 693 681 717 691 706 684 684 693 719 731 706 686 698 710 679712 688 697 729 695 697 717 679 736 671 695 739 698 696 714 711 701 720686 706 722 695 688 709 693 756 677 712 670 693 695 683 713 672 706 708690 685 686 681 716 709 704 679 686 676 718 683 689 696 687 736 699 685698 700 723 681 713 700 708 705 718 692 743 715 745 700 693 676 723 712671 714 687 687 687 683 671 677 696 696 714 713 671 688 675 671 692 725690 680 693 703 733 708 720 704 688 732 711 685 714 704 686 682 699 708708 704 685 685 694 702 738 702 696 709 701 687 703 701 702 693 691 701735 721 705 691 741 685 716 716 737 687 732 697 670 684 693 711 685 705690 705 693 698 678 704 710 686 689 686 698 684 687 696 719 679 696 701712 691 686 704 744 705 718 709 725 699 721 690 678 713 714 705 681 721673 698 717 711 670 726 694 723 701 683 716 671 712 704 699 705 727 719702 692 708 694 670 694 697 682 718 705 699 709 695 711 688 717 699 686

Organizzazione ‘‘nuova 2’’698 715 675 710 731 721 705 718 693 702 713 730 707 710 744 725 724 701737 715 704 723 705 702 698 729 698 723 716 698 732 724 721 722 728 740727 709 724 746 704 740 729 708 721 714 739 713 752 732 713 692 734 727725 690 749 706 758 722 697 722 705 723 748 730 706 688 709 739 709 744704 716 748 713 744 721 723 733 707 723 702 734 690 715 711 705 718 702706 742 742 736 740 712 722 731 713 704 704 735 700 717 746 735 717 718691 696 720 735 716 745 714 698 709 704 704 684 749 747 715 717 731 700747 709 705 749 704 697 694 715 737 734 705 726 710 716 740 731 714 733726 752 714 710 714 753 749 728 696 733 731 728 686 706 710 729 729 730722 707 716 702 728 716 743 750 715 735 710 734 712 706 719 709 702 712710 729 728 720 721 752 715 712 717 692 724 720 739 719 712 713 734 734710 711 722 743 707 729 712 681 739 699 721 706 703 708 719 708 724 730726 731 734 739 727 759 718 716 715 719 693 729 738 710 730 726 719 726733 717 701 723 720 744 730 698 729 696 717 713 705 700 715 710 735 726732 701 707 724 708 730 721 720 706 700 735 706 725 725 735 695 709 705702 737 688 727 717 708 720 724 731 706 730 714 703 721 712 748 734 724

21 Unita B:

Organizzazione dei dati in una distribuzionedi frequenza

I dati non sono “tantissimi” rispetto ad altre situazioni chesi possono incontrare nelle applicazioni. Sono pero troppi percercare di capire qualcosa solamente “guardandoli”. Dobbiamoquindi cercare di “sintetizzarli” in qualche modo.

Un primo tentativo in questo senso consiste nel suddividerel’intervallo che contiene tutti i valori osservati ([670, 759]) inun certo numero di “sotto-intervalli” e poi semplicemente nel“contare” quante osservazioni cadono nei vari “sotto-intervalli”.

Utilizzando “sotto-intervalli” di lunghezza 5 ed aperti a destra,si ottiene la tabella della pagina seguente.

Tre organizzazioni di un reparto di produzione 22

Page 14: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Frequenze assolute

vecchia nuova 1 nuova 2[670,675) 0 13 0[675,680) 2 12 1[680,685) 4 20 2[685,690) 13 33 3[690,695) 23 33 8[695,700) 35 38 13[700,705) 55 27 24[705,710) 52 28 34[710,715) 50 28 32[715,720) 33 19 32[720,725) 15 12 34[725,730) 6 9 27[730,735) 0 4 30[735,740) 0 7 17[740,745) 0 3 12[745,750) 0 1 12[750,755) 0 0 5[755,760) 0 1 2

totale 288 288 288

23 Unita B:

Nota 1 alla tabella: La prima colonna mostra i sotto-intervalli utilizzati. Le altre mostrano il numero di addettiche hanno “completato un numero di operazioni” appartential sotto-intervallo considerato. Ad esempio, il 13 che comparenella prima riga alla colonna 3 indica che esattamente 13 dei288 addetti hanno, nel giorno in cui e stata sperimentatal’organizzione nuova 1, completato un numero di operazionimaggiore od uguale di 670 e minore (strettamente) di 675.

Nota 2 alla tabella: Le ultime tre colonne contengonodelle frequenze assolute. In generale, si usa questo termineper indicare il numero di unita statistiche che soddisfano unacerta condizione (nel nostro caso, che “appartengono” allaclasse (intervallo) della prima colonna). Le prime due colonne(quella che mostra gli intervalli e quella contenente le frequenzeassolute di vecchia) mostrano come gli addetti si sono distribuitinei vari intervallini nel giorno in cui e stato utilizzato vecchia.Per questo motivo quando prese congiuntamente sono chiamatela distribuzione di frequenza di vecchia.

Commento alla tabella: nuova 2 sembra l’organizzazionemigliore; nuova 1 e probabilmente l’organizzazione peggiore.

Tre organizzazioni di un reparto di produzione 24

Page 15: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Frequenze relative

Dividendo una frequenza assoluta per il numero totale diunita statistiche (288 nel nostro caso) otteniamo le cosidettefrequenze relative, ovvero

(frequenzerelative

)=

(frequenzeassolute

)(

numero totale diosservazioni

)Hanno il vantaggio, rispetto alle frequenze assolute, dipermettere di confrontare distribuzioni di frequenza basate sunumeri differenti di unita statistiche.

25 Unita B:

vecchia nuova 1 nuova 2[670,675) 0,000 0,045 0,000[675,680) 0,007 0,042 0,003[680,685) 0,014 0,069 0,007[685,690) 0,045 0,115 0,010[690,695) 0,080 0,115 0,028[695,700) 0,122 0,132 0,045[700,705) 0,191 0,094 0,083[705,710) 0,181 0,097 0,118[710,715) 0,174 0,097 0,111[715,720) 0,115 0,066 0,111[720,725) 0,052 0,042 0,118[725,730) 0,021 0,031 0,094[730,735) 0,000 0,014 0,104[735,740) 0,000 0,024 0,059[740,745) 0,000 0,010 0,042[745,750) 0,000 0,003 0,042[750,755) 0,000 0,000 0,017[755,760) 0,000 0,003 0,007

Frequenze relative per i dati considerati (consiglio: ricalcolatene almeno un

paio).

Tre organizzazioni di un reparto di produzione 26

Page 16: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Tabelle di frequenza: notazioni

yi modalita/classe i del carattere y, i = 1, 2, . . . , k (kmodalita/classi)

fi frequenza assoluta numero di unita statistiche che possiedonola modalita/classe yi

n numero totale di osservazioni (n = f1 + f2 + · · · + fk)

pi frequenza relativa (pi = fi/n)

modalita/classe frequenze assolute frequenze relativey1 f1 p1 = f1/ny2 f2 p2 = f2/n... ... ...yk fk pk = fk/n

Totale n 1

27 Unita B:

Scrivere in forma compatta: il simbolo∑

(sommatoria)

Cosa intendiamo per

n =

k∑i=1

fi

ovvero per ’Somma per i che va da 1 a k’ ?

n = f1 + f2 + · · · + fk

Alcune proprieta

1.∑k

i=1(yi + xi) =∑k

i=1 yi +∑k

i=1 xi (’distribuire il simbolo∑’)

2.∑k

i=1 ayi = a∑k

i=1 yi (’portare fuori dal simbolo∑

’)

fate attenzione:∑k

i=1 a = ak

Esercizio:∑k

i=1 pi =?

Tre organizzazioni di un reparto di produzione 28

Page 17: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Istogramma

Le differenze tra le tre distribuzioni di frequenza si colgonoancora meglio se le rappresentiamo graficamente. Unapossibilita e nella pagine seguente.

Il grafico e stato costruito ponendo

(base rettangoli) =

intervallini riportati nella 1◦

colonna delle tabelleprecedenti

(area rettangoli) ∝ (frequenze assolute)

Il simbolo ∝ significa “proporzionale a”.

Notiamo che, essendo l’area dei rettangoli uguale abase×altezza, se le gli intervalli hanno uguale ampiezza, difatto l’altezza coincide con (o e proporzionale a) la frequenzaassoluta:

(altezza rettangoli) = (frequenze assolute)

I diagrammi del tipo mostrato sono chiamati istogrammi.

29 Unita B:

prod[, x]

Fre

quen

ze

680 700 720 740 760

020

50

prod[, x]

Fre

quen

ze

680 700 720 740 760

020

50

prod[, x]

Fre

quen

ze

680 700 720 740 760

020

50

Commento al grafico: Il grafico suggerisce le stesseconsiderazioni fatte sulla base della tabella. La distribuzione dinuova 2 e, rispetto alle altre, quella piu spostata verso destra(ovvero verso livelli di maggiore produttivita). nuova 2 e quindil’organizzazione migliore (sulla base di questi dati).

Tre organizzazioni di un reparto di produzione 30

Page 18: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Diagrammi a bastoncini

Torneremo nel seguito sulla scelta delle classi (intervallini) e delloro numero.

Osserviamo comunque che avendo a che fare con dati cheassumono solo valori interi possiamo in questo caso ancheevitare del tutto la formazione delle classi.

Il grafico seguente (diagramma a bastoncini) e costruitodisegnando in corrispondenza di ogni valore osservato unbastoncino (perpendicolare all’asse delle x) di lunghezza ugualealla frequenza assoluta con cui quel valore e stato osservato.

680 700 720 740 760

24

68

1012

14

Vecchia organizzazione ! Diagramma a bastoncini

frequ

enze

ass

oulu

te

31 Unita B:

Funzione di ripartizione empirica

Una terza rappresentazione grafica di uso frequente e offertadalla funzione di ripartizione empirica (che, tra l’altro, haaltre importanti applicazioni).

funzione diripartizione

empirica calcolatain x

=

numero diosservazioni minori

o uguali a x

(

numero totale diosservazioni

)Per le tre organizzazioni del lavoro, il grafico di queste funzionie riportato nella pagina seguente. Il “messaggio” puo forsesembrare “a prima vista” meno evidente di quello contenutonegli istogrammi visti prima. Lo studente guardi pero ladefinizione precedente e il grafico fino a che non si convinceche il “messaggio” e il medesimo.

Tre organizzazioni di un reparto di produzione 32

Page 19: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

680 700 720 740 760

0.0

0.2

0.4

0.6

0.8

1.0

Funzione di ripartizione empirica

Operazioni completate

Fn(

x)

La curva centrale, tracciata con un tratto continuo, e riferita a vecchia. La curva “piu alta” (rossa) e quella riferita a

nuova 1. La curva “piu bassa” (blu) e quella di “nuova 2”.

33 Unita B:

Frequenze cumulate

� Sono essenzialmente analoghe alla funzione di ripartizioneempirica.

� Si ottengono “cumulando” progressivamente le frequenze.

� Possono essere “assolute” o “relative”. Quelle relativecoincidono con la funzione di ripartizione empirica alla finedi ogni intervallo.

Esempio di calcolo (nuova 1)fine intervallo frequenza assoluta frequenza cumulata

675 13 13

680 12 25 = 13 + 12

685 20 45 = 13 + 12 + 20... ... ...

755 0 287 = 13 + 12 + · · · + 0

760 1 288 = 13 + 12 + · · · + 0 + 1

Tre organizzazioni di un reparto di produzione 34

Page 20: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Unita C

Ancora sugli istogrammi

� Numero di intervalli in un istogramma.

� Intervalli di ampiezza diversa: densita non frequenze.

Numero degli intervalli

Nella costruzione di un istogramma esiste un elemento diarbitrarieta: la scelta di quanti e quali intervalli utilizzare.

E’ prematuro a questo punto affrontare il problema della sceltaottima (ed in parte inutile visto che andando avanti avremmostrumenti migliori per fare quello che l’istogramma fa).

E’ comunque necessario fare un po’ di attenzione. Vediamoalcuni esempi.

Ancora sugli istogrammi 36

Page 21: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Pochi intervalli, poche informazioni

Histogram of vo

vo

Freq

uenc

y

660 680 700 720 740

050

100

150

Vecchia organizzazione (vedi unita B).

Questo istogramma ci mostra che le frequenze diminuiscono bruscamente

quando ci si allontana da 720, in maniera essenzialmente erronea.

37 Unita C:

Troppi intervalli, troppi dettagli

Histogram of vo

vo

Freq

uenc

y

680 690 700 710 720

05

1015

Vecchia organizzazione (vedi unita B).

Usando troppi intervalli mostriamo molti dettagli. Forse troppi. Ad esempio,

le oscillazioni anche del 100% delle frequenze in intervalli adiacenti sono

probabilmente rumore, caratteristiche particolari dei dati disponibili piu che

del tipo di organizzazione.

Ancora sugli istogrammi 38

Page 22: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Un numero ragionevole di intervalli

Meno rumore

Histogram of vo

vo

Freq

uenc

y

680 690 700 710 720 730

010

2030

4050

Vecchia organizzazione (vedi unita B).

39 Unita C:

Suggerimenti pratici

� Quasi sempre e conveniente fare piu di un grafico. Provaredifferenti lunghezze per gli intervalli e poi scegliere.

� Si tenga presente che il numero degli intervalli devedipendere dal numero dei dati: ripartire 1000 osservazio-ni in 40 intervalli puo anche dare risultati sensati, usare glistessi 40 intervalli per 20 dati non puo che dare un risultatoerratico.

� Sono state suggerite varie regolette. Due tra le piu usatesono:

1. Sturges: (num. intervalli) = 1 + log2(num. dati)

2. Freedman & Diaconis: (lunghezza intervalli) =

2(scarto interquartile)(num. dati)−1/3

Vanno pero usate non in maniera automatica. Sono solo unpunto di partenza.

Ancora sugli istogrammi 40

Page 23: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Intervalli di differenti lunghezze

Puo capitare o per scelta (si vuole fornire informazioni piudettagliate su parte della distribuzione) o per necessita (i datisono gia stati raggruppati in classi da qualcuno) di costruiredegli istogrammi utilizzando intervalli di lunghezza differente.

In questo caso e importante capire che le altezze dei rettangoliche compongono l’istogramma non devono essere proporzionalialle frequenze osservate ma alla densita delle osservazioni nellesingole classi. La densita e definita come(

densitadi un intervallo

)=

frequenza dell’intervallo

lunghezza dell’intervallo.

Per capire la definizione si pensi alla popolazione. E’ ladensita della popolazione non il numero totale di abitanti checi dice quanto gli individui sono addensati in una certa regionegeografica.

L’uso della densita e anche legato al nostro cervello. In unistogramma percepiamo alto come sinonimo di tanti.

Due esempi (un po’ esasperati !) sono presentati nelle seguentidue figure.

41 Unita C:

Organizzazione del lavoro. Intervalli piupiccoli nella parte centrale. Altezze deirettangoli proporzionali alle frequenze.

Histogram of vo

vo

Freq

uenc

y

680 690 700 710 720

010

2030

40

Sembra esserci un buco al centro, esattamente dove leosservazioni sono piu addensate.

Ancora sugli istogrammi 42

Page 24: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Organizzazione del lavoro. Intervalli piupiccoli nella parte centrale. Altezze dei

rettangoli proporzionali alle densita.

Histogram of vo

vo

Dens

ity

680 690 700 710 720

0.00

0.01

0.02

0.03

0.04

0.05

0.06

0.07

Il buco al centro e sparito. Il grafico correttamente ci dice chele osservazioni sono addensate intorno a 705.

43 Unita C: Ancora sugli istogrammi 44

Page 25: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Unita D

Misure di posizione

� Media aritmetica

� Mediana

� Quantili, quartili e percentili

� Diagramma a scatola con baffi

Misure o parametri di posizione

Le distribuzioni dei pezzi prodotti differiscono, come visto,soprattutto per la diversa “posizione”.

Una domanda che sembra naturale e “di quanto?”. Adesempio, “Nuova 2” sembra con i dati a disposizione miglioredi “Vecchia”. Ma quanto migliore?

Una possibile maniera per rispondere a questo tipo di domandesi concretizza nel

1. Sintetizzare le singole distribuzioni in un unico numero che,in una qualche senso, indichi dove la distribuzione stessa e“posizionata”. Ovvero, calcolare per ogni distribuzione unamisura (o parametro o indice) di posizione.

2. Rispondere confrontando gli indici calcolati al puntoprecedente.

“Famosi” parametri di posizione sono: la media aritmetica,la mediana e i quantili.

Misure di posizione 46

Page 26: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

La media aritmetica

Supponiamo di aver rilevato un certo fenomeno (esprimibilenumericamente) su n unita statistiche diverse. Indichiamo cony1,y2,. . . ,yn i valori osservati (ovvero, i nostri dati).

La media aritmetica dei dati e

y =y1 + y2 + · · · + yn

n=

1

n

n∑i=1

yi

Esistono altri tipi di “medie”. Quella aritmetica e senza ognidubbio quella di utilizzo piu comune. Per questo motivo, vienecomunemente indicata come “la media” senza nessuna ulterioreaggettivazione.

47 Unita D:

La mediana

L’idea che e alla base della mediana e di cercare un numeroche sia piu grande di un 50% delle osservazioni e piu piccolodel restante 50%.

Ad esempio nel grafico seguente, supponendo che le osservazio-ni corrispondano ai punti disegnati con una ’o’, un possibilevalore per la mediana e stato indicato con una ’x’. Infatti,il punto cosı marcato lascia sia a sinistra che a destra 6osservazioni.

Misure di posizione 48

Page 27: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Media e mediana: il caso delle treriorganizzazioni del lavoro

Vecchia Nuova 1 Nuova 2media 705,5 700,8 719,2

mediana 706 699 718,5

Come si vede risulta confermato i risultati precedenti. Indicanoche nuova 2 potrebbe far aumentare la produzione di circa un2%.

49 Unita D:

Quantili

� Generalizzano la mediana.

� L’idea alla base di un quantile-p dove p ∈ [0, 1], indicatocon yp, e di cercare un numero che sia piu grande del 100×p% dei dati osservati e piu piccolo del restante 100 × (1 −p)%. Ad esempio, un quantile−0,1 deve essere un valoreche lascia a sinistra il 10% delle osservazioni ed a destra ilrestante 90%. Si osservi che, per costruzione, F (yp) ≈ p

dove con F (·) abbiamo indicato la funzione di ripartizioneempirica.

� I quantili con p uguale a 0,25, 0,50 e 0,75 vengono chiamatirispettivamente il primo, il secondo e il terzo quartile.Dividono la popolazione in quattro parti uguali. Si osserviche il 2◦ quartile coincide con la mediana. I quantili conp = 0,01, . . . , 0,99 si chiamano percentili.

Misure di posizione 50

Page 28: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Diagrammi a scatola con baffi

� Il nome deriva dall’inglese (box and whiskers plot spesso,anche in italiano, abbreviato in boxplot).

� Forniscono una idea schematica di un insieme di dati basatasui quantili. Sono costituiti, come dice il nome, da unascatola e da due baffi costruiti in accordo al disegnosottostante.

max (y1, …, yn)

min (y1, …, yn)

3° quartile

1° quartile

mediana

51 Unita D:

Tre organizzazioni della produzione:diagrammi a scatola con baffi

vecchia nuova1 nuova2

680

700

720

740

760

Misure di posizione 52

Page 29: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

La variante piu usata dei diagrammi ascatola con baffi

Spesso con un diagramma a scatola con baffi si vuole:(i) descrivere in maniera stilizzata la distribuzione dei dati (pernoi, in questo momento, la posizione e la variabilita) e anche(ii) evidenziare eventuali valori estremi.

Una variante del diagramma usata a questo scopo puo esserecostruita come segue:

1. la scatola e costruita come descritto precedentemente apartire dai tre quartili.

2. i baffi si estendono fino ai dati piu lontani che siano peronon piu distanti di k × (scarto interquartile) dalla scatola;lo scarto interquartile e la differenza tra il terzo e il primoquartile (ossia e l’ampiezza della scatola); k e una costantearbitraria tipicamente scelta uguale a 1,5. Ovvero nonaccettiamo baffi esageratamente lunghi.

3. Le osservazioni che sono oltre i baffi sono disegnateopportunamente sul grafico (ad. esempio utilizzando unpallino).

53 Unita D:

Esempio di costruzione di un boxplot

Dati (gia ordinati):

1,1 1,3 1,4 1,6 1,8 1,9 2,0 2,5 2,9 3,2 4,1 5,6

Percio (1◦ quartile) = 1,5, (2◦ quartile) = mediana = 1,95e (3◦ quartile) = 3,05. Quindi 1, 5 × (scarto interquartile) =1,5× 1,55 = 2,325. Allora:

1. la scatola si estende da 1,5 a 3,05 con la mediana indicatada una linea a 1,95.

2. il baffo inferiore si estende fino all’osservazione piu bassa traquelle maggiori di (1◦ quartile) − 2,325 = −0,825, ovverofino a 1,1.

3. il baffo superiore si estende fino all’osservazione piu alta traquelle minori di (3◦ quartile) + 2,325 = 5,375, ovvero fino a4,1.

4. sono da disegnare esplicitamente nel diagramma leosservazioni piu piccole di 1,1 o piu grandi di 5,375; in questocaso solamente l’osservazione risultata uguale a 5,6.

Misure di posizione 54

Page 30: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Diagramma a scatola con baffi (esempioprecedente)

12

34

5

55 Unita D:

La media aritmetica: alcune proprieta

Se i dati sono tutti uguali ad una costante, diciamo a, alloraanche la media e uguale ad a.

Infatti, sey1 = y2 = · · · = yn = a

allora

y =

n volte︷ ︸︸ ︷a + · · · + a

n=

na

n= a

Misure di posizione 56

Page 31: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

La media e sempre compresa tra il piu piccolo e il piu grandedei valori osservati

In simboli,y(1) ≤ y ≤ y(n)

dovey(1) = min {y1, . . . , yn}

ey(n) = max {y1, . . . , yn}

Infatti, ad esempio, per quanto riguarda la prima disuguglianza

y(1) =

n volte︷ ︸︸ ︷y(1) + · · · + y(1)

n≤ y1 + y2 + · · · + yn

n= y

57 Unita D:

La media di una trasformazione lineare dei dati e la stessatrasformazione lineare applicata alla media dei dati

Ovvero, se z1 = a + by1, z2 = a + by2,. . . ,zn = a + byn dovea e b sono due numeri qualsiasi, allora

z =1

n

n∑i=1

zi = a + by.

Si osservi come la relazione precedente permetta di calcolareagevolmente la media delle zi senza dover calcolare le zi stesse.

La dimostrazione e anche in questo caso immediata. Infatti

z =z1 + z2 + · · · + zn

n=

=(a + by1) + (a + by2) + · · · + (a + byn)

n=

=

n volte︷ ︸︸ ︷a + · · · + a

n+ b

y1 + y2 + · · · + yn

n= a + by.

Misure di posizione 58

Page 32: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

La somma, e quindi la media, delle differenze dei dati dallamedia (i cosidetti scarti) e sempre uguale a zero

Ovvero, in simboli,

n∑i=1

(yi − y) = (y1 − y) + (y2 − y) + · · · + (yn − y) = 0.

Si tratta di una conseguenza della proprieta precedente (bastaporre a = −y e b = 1).

59 Unita D:

Sia a un numero qualsiasi. Allora

n∑i=1

(yi − a)2 =

n∑i=1

(yi − y)2 + n(y − a)2 (D.1)

Infatti (tutte le sommatorie vanno da 1 a n)∑(yi − a)2 =

∑(yi − a + y − y)2 =

=∑

[(yi − y) + (y − a)]2 =

=∑[

(yi − y)2 + (y − a)2 + 2(y − a)(yi − y)]

=

=∑

(yi − y)2 +∑

(y − a)2 + 2(y − a)∑

(yi − y) =

=∑

(yi − y)2 + n(y − a)2 + 2(y − a)× 0.

La somma dei quadrati degli scarti da una costante e minimase e solo se la costante e posta uguale alla media

Si tratta di una conseguenza banale ma importante della (D.1).Infatti la (D.1) garantisce che

n∑i=1

(yi − a)2 >

n∑i=1

(yi − y)2 se a 6= y.

Misure di posizione 60

Page 33: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Una non-proprieta (da non dimenticare)della media aritmetica

La media di una trasformazione non-lineare dei dati non e, ingenere, uguale alla stessa trasformazione applicata alla media.

In formule, se f (·) e una qualsiasi funzione non lineare chetrasforma numeri in numeri, allora, in generale, non e veroche

1

n

n∑i=1

f (yi) = f

(1

n

n∑i=1

yi

)

Ad esempio, se f (x) = x2, in generale, non e vero che

1

n

n∑i=1

y2i =

(1

n

n∑i=1

yi

)2

ovvero che la media dei quadrati dei dati e uguale al quadratodella media. Lo si verifichi ad esempio ponendo n = 3, y1 =−1, y2 = 0 e y3 = 1.

61 Unita D:

Un difetto della media aritmetica

Non e del tutto infrequente trovare degli insiemi di daticontenenti una piccola frazione di osservazioni anomale oatipiche, ovvero, osservazioni che assumono valori lontani daquelli assunti dalla maggior parte delle altre osservazioni e che,quindi, sembrano provenire da una popolazione diversa o esserestate generate da un meccanismo differente.

In una situazione del tipo descritto, bisogna tenere presente chela media aritmetica puo essere molto sensibile alla presenza delleosservazioni anomale potendo anche, a volte, fornire risultatinon molto sensati.

Infatti, come e facile capire dalla definizione stessa, una solaosservazione molto grande o molto piccola puo dominare ilvalore assunto dalla media.

Esercizio: Si supponga di avere 10.000 osservazioni, y1,. . . , y10.000, tali

che yi ∈ [0, 1] quando 2 ≤ i ≤ 10.000 (ovvero, tutte le osservazioni con la

possibile eccezione della prima sono comprese tra 0 e 1. Mostrare che

limy1→−∞

1

n

n∑i=1

yi = −∞

e commentare il risultato.

Misure di posizione 62

Page 34: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Alcune proprieta della mediana

1. Siano y1, . . . , yn dei numeri reali qualsiasi e sia m un valoretale che

(numero dati < m) = (numero dati > m).

Alloran∑

i=1

|yi −m| ≤n∑

i=1

|yi − a|

per qualsivoglia costante a.Ovvero, la mediana e il numero che minimizza la sommadei valori assoluti degli scarti di un insieme di dati da unacostante.

2. La mediana e, come si usa dire, resistente, ovvero, nonmolto sensibile alla presenza di valori anomali.

63 Unita D:

Esempi di calcolo della mediana

Minori problemi di calcolo possono sorgere dato che (i) non e detto che

esista un valore maggiore di un 50% esatto dei dati e minore dei restanti

oppure (ii) puo esistere ma non essere unico. Illustriamo i vari casi e delle

ragionevoli soluzioni con semplici esempi numerici.

1. Dati: 1, 4, 2, 9, 3.

Dati ordinati: 1, 2, 3, 4, 9.

5 osservazioni, non esiste un numero che lascia esattamente un 50% di

osservazioni sulla destra ed un 50% sulla sinistra; pero la terza osservazio-

ne dal basso lascia a sinistra e a destra lo stesso numero di dati. Sembra

quindi sensato porre (mediana) = 3.

2. Dati: 1, 2, 1, 5.

Dati ordinati: 1, 1, 2, 5.

4 dati; qualsiasi numero tra 1 e 2 lascia a sinistra e a destra esattamente

un 50% delle osservazioni; tipicamente si pone

mediana =

(punto centrale

dell’intervallo

),

ovvero, in questo caso, (mediana) = (1 + 2)/2 = 1,5

3. Dati: 4, 3, 2, 2, 5, 2, 6, 5, 1, 3.

Dati ordinati: 1, 2, 2, 2, 3, 3, 4, 5, 5, 6

Il numero di osservazioni e pari come nel caso 2 precedente. La

presenza di osservazioni ripetute rende pero la situazione simile a quella

dell’esempio 1. Sembra in questo caso sensato porre (mediana) = 3.

Misure di posizione 64

Page 35: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

4. Supponiamo in questo caso di avere i seguenti dati raggruppati :

(0, 1] (1, 2] (2, 3] (3, 4] (4, 5]

frequenze assolute 1 4 4 2 1

I dati sono 12. La mediana dovrebbe essere scelta tra la 6◦ e la 7◦

osservazione dal basso. Sulla base dei dati disponibili possiamo quindi

affermare che la mediana in questo caso appartiene all’intervallo (2, 3].

Volendo assegnarle un valore numerico preciso, potremmo supporre

che i quattro dati appartenenti al terzo intervallo siano equidistribui-

ti ed, ad esempio, uguali a 2,25, 2,50, 2,75, 3,001. Sotto questa

assunzione, ricordiamoci arbitraria, la 6◦ e la 7◦ osservazione dal basso

sarebbero rispettivamente uguali a 2,25 e a 2,50. Potremmo quindi porre

(mediana) = 2,375.

1Si osservi che e facile inventarsi altri ipotetici valori equidistribuiti. Ad esempio 2,2,2,4, 2,6, 2,865 Unita D:

Ambiguita nel calcolo dei quartili (e, quindi,di un quantile)

Un valore con esattamente la proprieta richiesta ad un quantile puo non

esistere o, viceversa, non essere unico. Per il calcolo si vedano, i seguenti

esempi, oltre a quelli sulla mediana.

Dati (gia ordinati): 6,4 6,7 6,8 7,0 7,3 7,5 7,5 7,6 7,9 8,1

La mediana deve cadere tra 7, 3 e 7, 5. Tradizionalmente, si sceglie il punto

centrale dell’intervallo, ovvero si pone mediana = 7,4.

La determinazione del primo (e del terzo) quartile e piu ambigua. Il

primo quartile dovrebbe lasciare sulla sinistra il 25% delle osservazioni,

ovvero in questo caso 2,5 osservazioni. Questo e ovviamente impossibile

da raggiungere esattamente. Esistono vari ragionamenti che possono essere

utilizzati per sciogliere l’ambiguita. Ad esempio,

1. potremmo decidere di interpretare “lasciare a sinistra 2,5 osservazio-

ni” come “posizionarsi sul punto intermedio tra la seconda e la terza

osservazione (dal basso)” ovvero di assegnare al primo quartile il valore

di 6,75. Allora, in maniera analoga potremmo assegnare al terzo quartile

il valore di 7,75 (= punto intermedio tra l’ottava e la nona osservazione).

2. oppure, potremmo decidere che il primo quartile deve dividere le

osservazioni alla sinistra della mediana in due parti uguali. Quindi,

poiche abbiamo alla sinistra della mediana 5 osservazioni, decidere di

porre il primo quartile uguale al terzo dato dal basso (ovvero a 6,8).

Argomentando in maniera analogo assegneremo al terzo quartile il valore

7,6 (= terza osservazione dal basso nel gruppo a destra della mediana).

Misure di posizione 66

Page 36: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Nessuna delle due scelte e migliore dell’altra. Si tenga comunque presente

che, a meno di casi particolari, piu il numero di osservazioni diventa grande,

piu le varie possibilita tendono ad avvicinarsi. Ad esempio, supponiamo di

avere 99 gia ordinati in senso crescente

y1, . . . , y24, y25, . . . y49, y50, y51, . . . , y99.

Allora il primo quartile dovrebbe lasciare (25×99)/100 = 24,75 osservazioni

a sinistra. Questo e impossibile. Le due “soluzioni” viste prima continuano

a dare “soluzioni” diverse:

1. nel primo caso infatti potremmo interpretare “lasciare 24,75 osservazioni

a destra” come “posizionarsi a tre quarti dell’intervallo [y24, y25] ovvero

calcolare il primo quartile come 0,25y24 + 0,75y25;

2. nel secondo caso, viceversa, calcoleremmo il primo quartile come la

mediana di y1, . . . , y49 e quindi gli assegneremmo il valore di y25.

Pero piu e elevato il numero di osservazioni piu ci aspettiamo che l’intervallo

in cui ha senso scegliere il primo quartile sia piccolo. Infatti, piu osservazioni

abbiamo piu ce le aspettiamo addensate.

67 Unita D:

Dati raggruppati: approssimazione dellamedia

Supponiamo di non conoscere i dati individuali (ovvero riferitialle singole unita statistiche) ma solo una distribuzione difrequenza per intervalli del tipo

intervalli [a0, a1) [a1, a2) · · · [ak−1, ak)frequenze assolute f1 f2 · · · fk

dove k indica il numero degli intervalli.

La media non puo essere calcolata esattamente.

Una approssimazione spesso usata in questi casi e

k∑i=1

mifi

k∑i=1

fi

=1

n

k∑i=1

mifi

dove mi e il punto centrale dell’intervallo i-simo, ovvero

mi =ai−1 + ai

2

Misure di posizione 68

Page 37: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Esercizio-Interpretazione

Si mostri come l’approssimazione per la media appena vistapossa essere ottenuta facendo finta o che (i) tutte le osservazio-ni nell’intervallo i-simo siano tutte uguali a mi o che (ii) leosservazioni appartenti all’intervallo i-simo siano equidistribuitenell’intervallo stesso (equidistribuite = uguale distanza tra leosservazioni successive).

Si dica inoltre quale delle seguenti due affermazioni e vera equale e falsa:

1. Piu gli intervalli sono grandi (lunghi) piu l’approssimazionee accurata.

2. Piu piccoli (corti) sono gli intervalli piu l’approssimazione eaccurata.

69 Unita D: Misure di posizione 70

Page 38: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Unita E

Numeri indici.

� Medie ponderate

� Numeri indici

� Numeri indici dei prezzi al consumo

Medie ponderate

La media aritmetica calcolata per dati raggruppati e un esempiodi media aritmetica ponderata

mw =

k∑i=1

yiwi

k∑i=1

wi

dove ad ogni modalita yi assegnamo un peso non negativowi. I pesi wi possono essere di natura qualsiasi. Vediamo oraun’applicazione interessante della media aritmetica ponderata.

Numeri indici. 72

Page 39: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Numeri indici

I numeri indici rappresentano una soluzione al problema delconfronto fra misure o gruppi di misure, ad esempio prezzi oproduzioni, riferite a tempi, a luoghi e, in generale, a situazionidifferenti.

Caratteristiche:

1. i numeri indici sono basati su rapporti (forniscono variazionirelative);

2. sono sempre positivi;

3. sono numeri puri (indipendenti dall’unita di misura in cuisono espresse le grandezze considerate).

4. e prassi moltiplicare il rapporto per 100, per facilitare ilconfronto in termini percentuali.

Con

0It =yt

y0

indichiamo il numero indice semplice della grandezza nellasituazione t, yt rispetto alla grandezza nella situazione base,y0, che per convenzione indichiamo con 0.

73 Unita E:

Indici dei prezzi al consumo

Tra i numeri indici in campo economico e sociale calcolatidall’Istituto Nazionale di Statistica (Istat) 1 quelli di cuiaccenneremo sono i numeri indici dei prezzi al consumo chemisurano le variazioni nel tempo dei prezzi di un panieredi beni e servizi destinati al consumo finale delle famigliepresenti sul territorio economico nazionale e acquistabili sulmercato attraverso transazioni monetarie (sono escluse quindile transazioni a titolo gratuito, gli autoconsumi, i fitti figurativi,ecc.). (Note Informative - Istat)

Gli indici dei prezzi calcolati con questo metodo sono tre:

1. l’indice Nazionale dei prezzi al consumo per l’InteraCollettivita (NIC). E’ l’indice utilizzato per misurarel’inflazione a livello di intero sistema economico.

2. l’indice dei prezzi al consumo per le Famiglie di Operai eImpiegati (FOI). Ad esso fa riferimento la maggior parte dellenorme nazionali che prevedono l’adeguamento periodico divoci quali affitti e assegni dovuti al coniuge separato;

3. l’indice dei Prezzi al Consumo Armonizzato per i paesidell’Unione Europea (IPCA)

1Per saperne di piu si veda www.istat.it/DATI/Prezzi/Aproposito/Main.htmNumeri indici. 74

Page 40: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Supponiamo di voler confrontare i prezzi di n beni o servizinei due tempi 0 e t (anni, trimestri, mesi, ...), in modo damisurare la variazione media complessiva intervenuta tra i dueistanti temporali, tenuto conto delle corrispondenti quantitascambiate. Indichiamo con pit il prezzo del bene i al tempot e con qit la quantita scambiata del bene i al tempo t e

0I(i)t = pit/pi0

il numero indice elementare del bene i.

La media ponderata dei numeri indici con pesi pari ai valoripi0qi0 e detta numero indice dei prezzi di Laspeyres (L0 It)

L0 It =

∑ni=1 0I

(i)t · pi0qi0∑n

i=1 pi0qi0=

∑ni=1

pitpi0· pi0qi0∑n

i=1 pi0qi0=

∑ni=1 pitqi0∑ni=1 pi0qi0

L’indice di Laspeyres richiede che nel tempo vengano rilevatisolo i prezzi e non le quantita (fissate pari a quelle del tempo 0).L’uso di una ponderazione costante migliora la confrontabilitanel tempo degli indici. D’altra parte, il sistema di pesi si logorae perde di significato nel tempo. Soluzione possibile: cambioperiodico della base.

75 Unita E:

Si noti che l’indice di Laspeyres tende a dare un peso maggioreai prezzi che registrano un aumento e minore a quelli cheregistrano una diminuzione. Infatti in un periodo di inflazione,ovvero in una fase in cui i prezzi aumentano, il consumatoretende a sostituire nel consumo i beni i cui prezzi crescono piuvelocemente con quelli i cui prezzi crescono piu lentamente(cambiano le quantita). Questo significa che un indice diLaspeyres sovrastima il tasso di crescita dei prezzi, ovverol’inflazione.

Numeri indici. 76

Page 41: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Inflazione e mezzi di comunicazione

Ecco alcuni titoli (piu o meno ad effetto)2

� “Inflazione annuale al 2.21%”

ovvero piu propriamente un tasso di variazione

L0 It −L

0 It−1

L0 It−1

= 0.0221

moltiplicato per 100.

15

5. CHE COSA CI RACCONTA L’IPC DELL’INFLAZIONE?

Variazione percentuale 2002/2001: + 2,5%

Variazione percentuale Dic. 2002/Dic. 2001: + 2,8%

Variazione percentuale Gen. 2003/Gen. 2002: + 2,8%

La dinamica dell’IPC (variazioni percentuali rispetto allo stesso mese dell’anno precedente):

– Variazione percentuale 2002/2001: 2.5%

– Variazione percentuale Dic. 2002/Dic. 2001: 2.8%

– Variazione percentuale Gen. 2003/Gen. 2002: 2.8%

2Si rimanda a Come si misura l’inflazione? di Ugo Trivellato (www.lavoce.info)per altre considerazioni.77 Unita E:

� “L’inflazione scende ma i prezzi aumentano!” Infatti untasso di variazione puo diminuire nel tempo senza che questoimplichi una diminuzione dei prezzi.

� “Rovigo e risultata la citta piu cara perche ha avutol’inflazione piu elevata.”

Pensate di comperare un panino a Milano e a Rovigo e ditequale ragionevolmente e la citta piu cara. Un numero indicemisura il cambiamento in riferimento alla situazione base.E importante osservare che non da nessuna informazionesull’ordine di grandezza del fenomeno nelle due situazioni aconfronto.

Numeri indici. 78

Page 42: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Unita F

Misure di variabilita

� Concetto di variabilita

� Varianza e scarto quadratico medio

� Altre misure di variabilita (campo di variazione, scartointerquartile, MAD)

� Standardizzazione

� Il coefficiente di variazione

Esempio

Per confrontare le performance di due tipologie di fondi,etichettate come A e B abbiamo preso in considerazione irendimenti di 30 fondi per ciascuna tipologia. Riportiamo diseguito i diagrammi a scatola dei rendimenti

Gruppo A1.643 2.117 1.897 1.836 2.294 1.929 2.243 1.777 1.922 1.945 2.156 2.265 2.177 1.941 2.198 1.922 1.828 2.4222.151 1.790 2.427 1.687 2.000 2.327 1.700 2.160 1.963 2.636 1.546 2.077

Gruppo B2.752 1.805 2.290 2.105 2.472 1.087 3.435 0.816 1.705 1.516 2.094 2.957 1.689 1.468 1.829 1.949 2.289 2.4142.656 2.089 2.852 1.712 1.649 1.870 2.962 1.892 1.429 2.392 1.424 2.119

A B

1.0

1.5

2.0

2.5

3.0

3.5

Misure di variabilita 80

Page 43: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

e le rispettive funzioni di ripartizione

0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0

0.0

0.2

0.4

0.6

0.8

1.0

Funzione di ripartizione empirica

Rendimenti

Fn(

x)

AB

81 Unita F:

Commento

1. Ambedue le tipologie sembrano produrre ’in media’ lo stessorendimento che i due insiemi di dati si distribuiscono intornoal valore 2%.

2. Pero i rendimenti della tipologia B sembrano essere piudifformi tra di loro. Infatti in questo caso i dati sono piudispersi intorno al valore 2%. Ovvero, come si usa dire,mostrano una variabilita superiore.

Nota: E’ importante che lo studente cerchi di capire che l’incrocio delle due

funzioni di ripartizione empiriche e dovuto alla differente variabilita dei due

insiemi di dati.

Misure di variabilita 82

Page 44: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

La varianza

Cosı come per la posizione, e interessante disporre di indici checi permettano di valutare in maniera sintetica la variabilita diun insieme di dati.

Il piu usato prende il nome di varianza:

varianza(y1, . . . , yn) =1

n

n∑i=1

(yi − y)2

dove con y = (y1, . . . , yn) abbiamo indicato i dati osservati,con n il loro numero e con y la loro media aritmetica, ovvero

y =1

n

n∑i=1

yi.

Nel seguito varianza(y1, . . . , yn) verra abbreviato in var(y).

83 Unita F:

La varianza e quindi una misura di quanto i dati siano distantidalla media aritmetica. La distanza e valutata usando i quadratidelle differenze. Puo comunque anche essere interpretata comeuna media delle differenze al quadrato tra tutte le possibilicoppie di dati. Infatti

var(y) =1

2n2

n∑i=1

n∑j=1

(yi − yj)2

Dimostrazione.

1

n2

n∑i=1

n∑j=1

(yi − yj)2 =

=1

n2

n∑i=1

n∑j=1

[(yi − y)− (yj − y)]2 =

=1

n2

n∑i=1

n∑j=1

(yi − y)2 +1

n2

n∑i=1

n∑j=1

(yj − y)2 −

− 2

n2

n∑i=1

n∑j=1

(yi − y)(yj − y) =

=2n

n2

n∑i=1

(yi − y)2 − 2

[1

n

n∑i=1

(yi − y)

]2

= 2var(y).

Misure di variabilita 84

Page 45: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Formula per il calcolo

Si osservi che

var(y) =1

n

n∑i=1

(yi − y)2 =

=1

n

n∑i=1

y2i +

1

n

n∑i=1

y2 − 1

n

n∑i=1

2yyi =

=1

n

n∑i=1

y2i +

ny2

n− 2y

n

n∑i=1

yi =

=1

n

n∑i=1

y2i + y2 − 2y2

e quindi che possiamo scrivere

var(y) =

(1

n

n∑i=1

y2i

)− y2

ovvero

(varianza) =

(media deiquadrati

)−(

quadrato dellamedia

).

85 Unita F:

Esempio di utilizzo

dati: 1, 3, 2, 5.

media: 1 + 3 + 2 + 54 = 2,75.

media dei quadrati: 12 + 32 + 22 + 52

4 = 9,75.

varianza: 9,75− 2,752 = 2,19.

Esercizio: Si dia una formula generale della varianza nelcaso di una tabella di frequenza. Si verifichi che nella tabellaseguente

yi fi

4 26 87 3

var(y) ' 0.840.

Misure di variabilita 86

Page 46: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Varianza di trasformazioni lineari dei dati

Dati: y = (y1, . . . , yn).

Dati trasformati: z = (z1, . . . , zn) con z1 = a + by1, . . . , zn =a + byn, dove a e b sono due costanti qualsiasi.

Alloravar(z) = b2var(y).

Sappiamo infatti che

z = a + by.

Quindi,

var(z) =1

n

n∑i=1

(a + byi − a− by)2 =

=b2

n

n∑i=1

(yi − y)2 = b2var(y).

Esercizio: La formula mostra che la varianza delle zi nondipende da a (“l’intercetta” della trasformazione). Si spieghiperche il contrario sarebbe stato quantomeno bizzarro e, permolti versi, preoccupante.

87 Unita F:

Lo scarto quadratico medio

La radice quadrata della varianza e usualmente chiamatascarto quadratico medio. Useremo l’abbreviazione sqm(y).Quindi

sqm(y) =√

var(y).

Si osservi che mentre l’unita di misura della varianza e uguale alquadrato dell’unita di misura dei dati originali, l’unita di misuradello scarto quadratico medio coincide con l’unita di misura deidati.

Misure di variabilita 88

Page 47: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Altre misure di variabilita

In aggiunta alla varianza sono stati suggeriti e sono utilizzatiuna molteplicita di indici (misure) di variabilita.

Ne elechiamo tre tra i piu diffusi:

1. Campo di variazione. Campo divariazione(range)

= max(y1, . . . , yn)−min(y1, . . . , yn).

Veloce da calcolare ma pericoloso perche troppo sensibile apossibili valori anomali.

2. Scarto interquartile.

Scarto interquartile = (3◦ quartile)− (1◦ quartile).

E’ molto piu resistente della varianza in presenza di pocheosservazioni estreme. Per questo motivo e usato soprattuttonelle situazioni in cui si sospetta la possibile presenza diosservazioni anomale.

89 Unita F:

3. MAD.

MAD = mediana(|y1 − y0,5|, . . . , |yn − y0,5|)

dove y0,5 indica la mediana dei dati. L’acronimo derivadall’inglese (Median Absolute Deviations). Anche questoindice e poco sensibile alla presenza di valori anomali.

Misure di variabilita 90

Page 48: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Due tipologie di fondi: indici di variabilita

A Bvarianza 0,06 0,34scarto quadratico medio 0,25 0,58campo di variazione 1,09 2,62scarto interquartile 0,34 0,72MAD 0,31 0,58

La tabella mostra chiaramente come tutti gli indiciconsiderati evidenzino la maggiore variabilita dei rendimenti(leggi ’rischio’) dei fondi di tipo B.

91 Unita F:

Il coefficiente di variazione

La variabilita guarda alle differenze tra le unita sperimentali.E’ pero evidente che il significato pratico delle differenze puodipendere dal livello del fenomeno considerato. Si pensi, adesempio, al reddito. Una differenza di 30 milioni nel redditoannuo e importante se stiamo confrontando il reddito di dueindividui, uno con un reddito di 20 milioni e l’altro con unreddito di 50 milioni. La stessa differenza e praticamen-te irrilevante se stiamo confrontando il reddito di due ultramiliardari.

Puo quindi essere interessante disporre di una qualche misuradi variabilita aggiustata in qualche maniera per tenere contodel livello del fenomeno.

Il piu diffuso prende il nome di coefficiente di variazioneed e definito come(

coefficientedi variazione

)=

(scarto quadratico medio)

(media aritmetica)

Misure di variabilita 92

Page 49: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Standardizzazione dei dati

A volte e utile trasformare un insieme di dati y1, . . . , yn inmaniera tale che i dati trasformati, indichiamoli z1, . . . , zn,abbiano media nulla e varianza unitaria.

E’ facile verificare (lasciamo la dimostrazione come esercizio;si usino le proprieta della media e della varianza) che unatrasformata appropriata consiste nel porre per i = 1, . . . , n,

zi =yi −media(y1, . . . , yn)

scarto quadratico medio(y1, . . . , yn).

I dati cosı trasformati vengono usualmente chiamatistandardizzati.

93 Unita F: Misure di variabilita 94

Page 50: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Unita G

Cenno a simmetria e curtosi

Consideriamo brevemente in questa unita due aspetti di unadistribuzione di frequenza a volte interessanti di per se masoprattutto, che saranno utili nella la scelta di un appropriatomodello statistico.

Simmetria

Le seguenti due pagine mostrano rispettivamente gli istogrammie i boxplot costruiti a partire da due insiemi di dati (A e B)standardizzati nella maniera brevemente descritta alla fine dellaunita precedente.

I due insiemi di dati sono percio almeno approssimativa-mente omogenei per quanto riguarda posizione e variabilita.Quantomeno, hanno ambedue media nulla e varianza unitaria.

Nonostante questo le due distribuzioni sono diverse. La prima epiu o meno simmetrica rispetto allo zero. Viceversa, la codaverso i valori alti della seconda e molto piu lunga della codaverso i valori bassi. Si parla in questo caso di asimmetriapositiva. Ovviamente, nel caso opposto (coda sinistra piulunga di quella destra) parleremo di asimmetria negativa.

Cenno a simmetria e curtosi 96

Page 51: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Due insiemi di dati standardizzati:istogramma

A

Frequenza

−4 −2 0 2 4

0400

800

1200

B

Frequenza

−4 −2 0 2 4

0400

800

1200

97 Unita G:

Due insiemi di dati standardizzati: boxplot

A B

−4

−2

02

4

Nota: la lunghezza massima dei baffi e stata posta uguale a 1,5× (scarto interquartile) ma non sono state evidenziate le

osservazioni esterne ai baffi stessi.

Cenno a simmetria e curtosi 98

Page 52: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Indice di asimmetria

La misura di asimmetria di uso piu comune e il cosidetto indicedi asimmetria standardizzato definito come

1

nsqm(y)3

n∑i=1

(yi − y)3

dove, come al solito y = (y1, . . . , yn) indica i dati osservati, nil loro numero e sqm(y) lo scarto quadratico medio.

L’interpretazione e agevole. Nei casi in cui i dati si distribuisca-no in maniera esattamente simmetrica intorno alla media itermini positivi e negativi nella sommatoria si compenseran-no tra di loro e quindi l’indice sara nullo. Viceversa, nei casi diasimmetria positiva i termini positivi predomineranno e quindil’indice assumera valori positivi. Opposta la situazione nei casidi asimmetria negativa.

Nel nostro esempio, l’indice e pari a −0.012 per l’insieme didati A e a 1.300 per l’insieme di dati B.

L’indice, per costruzione, e invariante rispetto a trasformazio-ni lineari dei dati. Ovvero, otteniamo lo stesso risultato sialavorando con i dati originali che con dati trasformati del tipozi = a + byi, i = 1, . . . , n. Lo studente lo verifichi comeesercizio.

99 Unita G:

Curtosi

Anche i grafici nelle seguenti due pagine confrontano datistandardizzati (l’insieme A e un nuovo insieme C). In questocaso, ambedue le distribuzioni sono (almeno approssimati-vamente) simmetriche. Pero, nonostante l’uguaglianza dellevarianze, la prima distribuzione a delle code piu pesanti dellaseconda. Questa caratteristica (maggiore o minore peso dellecode non dovuto ad una maggiore o minore variabilita) e spessoindicata con il termine curtosi.

Il principale indice usato e l’indice di curtosi standardizzatodefinito come

1

nsqm(y)4

n∑i=1

(yi − y)4.

Si osservi che questo indice puo essere visto come un rapportotra due indici di variabilita. L’indice a numeratore (la mediadelle potenze quarte degli scarti dalla media aritmetica) e sceltoin maniera tale da essere piu sensibile alla presenza di codepesanti dell’indice a numeratore (la potenza quarta dello scartoquadratico medio).

Cenno a simmetria e curtosi 100

Page 53: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Due insiemi di dati standardizzati:istogramma

A

Frequenza

−4 −2 0 2 4

0400

800

1200

C

Frequenza

−4 −2 0 2 4

0400

800

1200

101 Unita G:

Due insiemi di dati standardizzati: boxplot

A C

−4

−2

02

4

Nota: la lunghezza massima dei baffi e stata posta uguale a 1,5× (scarto interquartile) ma non sono state evidenziate le

osservazioni esterne ai baffi stessi.

L’indice di asimmetria per i due insiemi di dati e pari a−0.012 e a 0.003 rispettivamente (le due distribuzioni sonosostanzialmente simmetriche).

L’indice di curtosi e invece pari a 2.956 e a 2.085, rispettiva-mente per l’insieme A e B, indicando che la distribuzionedell’insieme A ha code piu pesanti di quella dell’insieme B.

Cenno a simmetria e curtosi 102

Page 54: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Unita H

Esercizi ricettivi per area geografica

� Moda

� Diagramma a barre

� Diagramma a torta

� Mutabilita

I dati

I dati si riferiscono ad un’indagine ISTAT condotta nel2001 e per esercizi ricettivi si intendono alberghi ed esercizicomplementari cioe campeggi, villaggi turistici, alloggi agro-turistici ed altri esercizi (ostelli, case per ferie, rifugi alpini,.etc.) Questi esercizi sono stati divisi per area geografica.

I dati prendono la forma di una lunga tabella di questo tipo:

esercizio tipo area geografica1 albergo Nord2 camp. e vill. tur. Sud... ... ...

Per ogni esercizio (unita statistica) sono state rilevate duevariabili: il tipo di esercizio e l’area geografica dell’esercizio.

Esercizi ricettivi per area geografica 104

Page 55: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Frequenze assolute e relative

La tabella della pagina precedente e poco maneggevole e nonviene riportata dall’ISTAT che riporta la seguente tabella difrequenze assolute.

area geograficatipo Nord Centro Sud TOTALEAlberghi 21.568 6.234 5.536 33.338Campeggi e villaggi turistici 992 494 885 2.371Alloggi agro-turistici 3.194 3.392 1.183 7.769Altri esercizi 57.978 3.334 1.415 62.727TOTALE 83.732 13.454 9.019 106.205

Ad esempio, 992 e il numero di campeggi e villaggi turisticicensiti nel Nord.

Questa tabella ci permette lo studio congiunto delle duevariabili. Vedremo nella prossima unita come fare questo tipodi analisi. Per il momento, limitiamoci a studiare le due variabiliseparatamente.

105 Unita H:

La variabile tipo ha la seguente distribuzione di frequenze

tipo frequenza frequenza relativaAlberghi 33.338 0,314Campeggi e villaggi turistici 2.371 0,022Alloggi agro-turistici 7.769 0,073Altri esercizi 62.727 0,591TOTALE 106.205 1,00

La variabile area geografica ha invece la seguente distribuzionedi frequenze

area geografica frequenza frequenza relativaNord 83.732 0,788Centro 13.454 0,127Sud 9.019 0,085TOTALE 106.205 1,00

Esercizi ricettivi per area geografica 106

Page 56: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

La natura di questi dati e diversa da quellivisti in precedenza

� Nei precedenti esempi avevamo dati numerici. In questocaso sono espressi da aggettivi. Sono dei dati qualitativi ocategoriali.

� Questo cambia quello che possiamo e non possiamo fare.Ad esempio, non ha senso chiederci quanto vale la mediaaritmetica dell’area geografica per gli esercizi. O quanto egrande la varianza.

� Volendo sintetizzare ogni variabile in un unico valoreprobabilmente useremo la moda della variabile. Definiamola moda come la modalita con la piu alta frequenza. Inquesto caso, la moda della variabile tipo e la modalita Altriesercizi, con frequenza relativa pari a 0,591. La moda dellavariabile area geografica e invece la modalita Nord, confrequenza relativa pari a 0,788.

� Si osservi che la moda puo essere usata per qualsiasidistribuzione di frequenza. Anche per quelle delle unitaprecedenti basate su dati numerici.

107 Unita H:

Diagramma a barre: frequenze assolute

Alberghi Campeggi e villaggi turistici Alloggi agro−turistici Altri esercizi

tipo

010

000

2000

030

000

4000

050

000

6000

0

Nord Centro Sud

area geografica

020

000

4000

060

000

8000

0

La rappresentazione grafica piu utilizzata e il diagramma abarre, in cui ogni modalita e rappresentata da una barra dialtezza pari alla frequenza (assoluta o relativa) della modalita.Si osservi che i rettangoli, contrariamente al caso di unistogramma, sono disegnati staccati.

Notiamo che, se la variabile non e ordinale, l’ordine dellemodalita nell’asse delle ascisse del grafico e arbitrario.

Esercizi ricettivi per area geografica 108

Page 57: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Diagramma a torte: frequenze relative

Una diversa rappresentazione grafica per variabili qualitative edato dal diagramma a torta, in cui ogni modalita e rappresenta-ta da una fetta di torta proporzionale alla sua frequenzarelativa:

angolo = 360 · frequenza relativa

AlberghiCampeggi e villaggi turistici

Alloggi agro−turistici

Altri esercizi

tipo

Nord

Centro

Sud

area geografica

109 Unita H:

Mutabilita (idea di)

� Analogo della variabilita per dati qualitativi.

� Non possiamo guardare alle differenze tra i valori osservati.Possiamo pero guardare alle differenze tra le frequenze.

� Si definisce come situazione di minima mutabilita unasituazione in cui tutte le unita statistiche si concentranonella stessa modalita. In questo caso le unita statistiche sonoperfettamente omogenee rispetto al fenomeno considerato.Si osservi che in questo caso la distribuzione delle frequenzerelative si presenta come

modalita c1 · · · ci · · · ck

frequenza relativa 0 · · · 1 · · · 0

dove abbiamo supposte che le modalita siano k e che la i-sima sia quella in cui le unita statistiche si sono concentrate.

� La situazione opposta (massima mutabilita) la troviamoinvece quando le unita statistiche si ripartiscono in manierauguale tra le varie modalita. In questo caso la distribuzionedelle frequenze relative diventa

modalita c1 · · · ci · · · ck

frequenza relativa1

k· · · 1

k· · · 1

k

Esercizi ricettivi per area geografica 110

Page 58: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Ad esempio, per la variabilie area geografica, le tre situazioni diminima mutabilita sono rappresentate nei seguenti grafici

Nord Centro Sud

area geografica

0.0

0.2

0.4

0.6

0.8

1.0

Nord Centro Sud

area geografica

0.0

0.2

0.4

0.6

0.8

1.0

Nord Centro Sud

area geografica

0.0

0.2

0.4

0.6

0.8

1.0

mentre la situazione di massima mutabilita corrispondeall’equidistribuzione tra le diverse modalita

Nord Centro Sud

area geografica

0.0

0.2

0.4

0.6

0.8

1.0

111 Unita H:

Cenno agli indici di mutabilita

� Tabella delle frequenze relative.

modalita c1 · · · ci · · · ck

frequenza relativa p1 · · · pi · · · pk

� Indice di Gini.

G =

k∑i=1

pi(1− pi)

– Si annulla in corrispondenza di una tabella di minimamutabilita. Lo studente se ne convinca.

– Si dimostra che assume valore massimo nelle situazionidi massima mutabilita. Ovvero che, qualsiasi siano lefrequenze relative,

G ≤k∑

i=1

1

k

(1− 1

k

)=

(1− 1

k

).

Esercizi ricettivi per area geografica 112

Page 59: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

– Spesso si usa la versione normalizzata di G

Gnorm =G

massimo valore possibile per G=

k

k − 1G

L’indice normalizzato varia tra 0 ed 1. In particolare,assume valore 0 in presenza di minima mutabilita e,viceversa, valore 1 in presenza di massima mutabilita.

– Nel caso in cui sia disponibile la tabella delle frequenzeassolute

modalita c1 · · · ci · · · ck totalefrequenza assoluta f1 · · · fi · · · fk n =

∑fi

puo essere calcolato utilizzando la formula

G = 1− 1

n2

k∑i=1

f 2i .

Lasciamo la semplice verifica di questa formula comeesercizio allo studente.

– Per la variabile area geografica si ha G = 0,3557 eGnorm = 0,5335.

113 Unita H:

� Entropia di Shannon.

H = −k∑

i=1

pi log(pi)

dove, se pi = 0 poniamo pi log(pi) = 0.

– Proviene dalla teoria dell’informazione dove vieneutilizzato per misurare la complessita di un messaggio.

– Si annulla, come e facile verificare, nelle situazioni diminima mutabilita.

– E’ possibile inoltre dimostrare che anche questo indiceassume valore massimo nelle situazioni di massimamutabilita:

H ≤ −k∑

i=1

1

klog

(1

k

)= − log

(1

k

)= log(k).

– Puo quindi essere eventualmente normalizzato ponendoHnorm = H/ log(k).

– Se sono note le frequenze assolute possiamo calcolare Hutilizzando la formula

H = log(n)− 1

n

k∑i=1

fi log(fi).

– Per la variabile area geografica si ha H = 0,6594 eHnorm = 0,6002.

Esercizi ricettivi per area geografica 114

Page 60: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

� Esercizio: Provate a calcolare gli indici normalizzatidi mutabilita per la variabile tipo di esercizio.

115 Unita H: Esercizi ricettivi per area geografica 116

Page 61: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Unita I

Il disastro del Titanic

� Piu variabili rilevate insieme

� Tabelle di contingenza.

� Distribuzioni congiunta, marginali e condizionate.

� Indipendenza in distribuzione

� Frequenza attese. X2 di Pearson.

Alcuni dati sul Titanic

Dopo il disastro, una commissione d’inchiesta del British Boardof Trade ha compilato una lista di tutti i 1316 passeggeri conalcune informazioni aggiuntive riguardanti: se e stato salvato(SI, NO), la classe (I, II, III) in cui viaggiavano, il sesso,l’eta,. . . .

In questa unita ci limitiamo a considerare le informazionisull’esito e la classe. Quindi dal nostro punto di vista i datisono costituiti da una lunga lista del tipo

Passeggero Classe Salvatonome 1 II SInome 2 III NOnome 3 I NO

... ... ...nome 1316 III SI

Il disastro del Titanic 118

Page 62: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Una variabile, due variabili, . . .

Possiamo incontrare situazioni in cui su ogni unita statistica erilevata una sola variabile, oppure sono rilevate due variabili,oppure . . . . Si parla in questo caso di dati univariati,bivariati, . . . , multivariati1.

Nel caso generale (m variabili rilevate, m ≥ 1), possiamopensare di organizzare i dati grezzi in una matrice (chiamatausualmente la matrice dei dati) del tipo

1◦unita· · ·

i◦unita· · ·

n◦unita

y11 · · · y1j · · · y1m

· · · · · · · · · · · · · · ·yi1 · · · yij · · · yim

· · · · · · · · · · · · · · ·yn1 · · · ynj · · · ynm

in cui ogni riga corrisponde ad una unita statistica mentre ognicolonna ad una variabile.

Nel seguito considereremo come trattare due variabiliqualitative (o riconducibili a tali) rilevate congiuntamente.

1Ovviamente “multivariato” include “bivariato”119 Unita I:

Titanic: una variabile alla volta

La variabile Salvato ha la seguente distribuzione di frequenze

Salvato Freq. assolute Freq. relativeSI 499 0,379NO 817 0,621

1316 1,000

La variabile Classe ha invece la seguente distribuzione

Classe Freq. assolute Freq. relativeI 325 0,247II 285 0,216III 706 0,537

1316 1,00

SI NO

Titanic

Salvato

0.0

0.1

0.2

0.3

0.4

0.5

0.6

I II III

Titanic

Classe

0.0

0.1

0.2

0.3

0.4

0.5

Il disastro del Titanic 120

Page 63: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Le due variabili assieme: frequenzecongiunte

La prima sintesi che possiamo operare consiste nel costruire unatabella del tipo

ClasseSalvato I II III totale

SI 203 118 178 499NO 122 167 528 817

totale 325 285 706 1316

dove consideriamo tutti i possibili incroci di modalita delle duevariabili (2 × 3 = 6). Quindi, ad esempio, 203 e il numero(frequenza assoluta) di passeggeri che viaggiavano in I classe eche sono sopravissuti al disastro.

Possiamo anche considerare le frequenze relative, ottenutesemplicemente dividendo le frequenze assolute per il numerototale n = 1316 di unita

ClasseSalvato I II III totale

SI 0,154 0,090 0,135 0,38NO 0,093 0,127 0,401 0,62

totale 0,247 0,217 0,536 1,000

121 Unita I:

Frequenze congiunte: rappresentazionegrafica

Possiamo rappresentare le frequenze (sia assolute che relative)della tabella attraverso un appropriato diagramma a barre.

La stessa informazione puo essere rappresentata in due modidiversi (“per riga” o “per colonna”):

SI NO

IIIIII

Distribuzione (relativa) congiunta di Classe e Salvato

Salvato

0.00.1

0.20.3

0.40.5

0.6

I II III

SINO

Distribuzione (relativa) congiunta di Classe e Salvato

Classe

0.00.1

0.20.3

0.40.5

0.6

Il disastro del Titanic 122

Page 64: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Frequenze congiunte: un’altrarappresentazione grafica

Possiamo rappresentare le frequenze (sia assolute che relative)della tabella attraverso un diagramma a bolle (bubbleplot).

Ogni cella della tabella viene rappresentata con un cerchio la cuiarea e uguale (in realta proporzionale) alla frequenza osservatain quella cella:

frequenza = raggio2 · π ⇒ raggio =

√frequenza

π.

Per i dati del Titanic si ha

Titanic: diagramma a bolle

Classe

Sal

vato

I II III

NO

SI

123 Unita I:

Tabelle di contingenza

Una tabella del tipo visto viene usualmente chiamata dicontingenza. In generale, una tabella di contingenza mostrala distribuzione delle unita statistiche classificate sulla base didue o piu variabili.

Si osservi che una tabella di contingenza contiene variedistribuzioni di frequenza. Infatti:

� Se consideriamo il “cuore” della tabella (in questo caso le 2righe e le 3 colonne centrali) la tabella ci mostra il numero diindividui che presentano una particolare modalita della primavariabile congiuntamente ad una particolare modalitadella seconda variabile. Ad esempio, 122/1316 = 0,093 ela frazione di passeggeri che simultaneamente viaggiavanoin I classe e sono periti nel disastro.

� Se concentriamo l’attenzione sulla 1◦ colonna, vediamol’esito del disastro per i passeggeri della I classe. Ad esempio,122/325 = 0,38 e la frazione di viaggiatori della primaclasse periti nel disastro. Un discorso analogo possiamofare per la 2◦ e per la 3◦ colonna. Quindi, queste colonnemostrano l’esito del disastro condizionatamente al fattodi considerare solamente individui che viaggiavano in unadeterminata classe.

Il disastro del Titanic 124

Page 65: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

� Se, viceversa ci concentriamo sulla 1◦ (o sulla 2◦) riga,vediamo la distribuzione tra le varie classi dei viaggiatorisopravvissuti (o non sopravvissuti) al disastro. Ad esempio,guardando alla 2◦ riga possiamo fare affermazioni del tipo“il 15% (≈ (100 × 122)/817) dei passegeri periti neldisastro viaggiava in I classe”. Ovvero, guardiamo alla classecondizionatamente all’esito.

� l’ultima colonna (riga), invece, mostra la distribuzione deipasseggeri marginalmente rispetto all’esito (alla classe)a prescindere dall’altra variabile. Possiamo quindi fareaffermazioni del tipo “solo il 38% (= (100 × 499)/1316)dei passeggeri del Titanic e sopravvissuto all’incidente”. Siosservi che in questo caso guardiamo a tutti i passeggeri delTitanic non a quelli che viaggiavano in I (o in II o in III)classe. Quindi, l’ultima colonna e l’ultima riga rappresenta-no rispettivamente le distribuzioni della variabile Salvato edella variabile Classe prese singolarmente (una alla volta).

125 Unita I:

Struttura generale

In generale, una tabella di contingenza (con due variabili) sipresenta nella forma

YX y1 · · · yj · · · yc totalex1 f11 · · · f1j · · · f1c f1+... ... ... ... ...xi fi1 · · · fij · · · fic fi+... ... ... ... ...xr fr1 · · · frj · · · frc fr+

totale f+1 · · · f+j · · · f+c n

dove(i) X e Y sono le due variabili considerate,(ii) {x1, . . . , xr} e {y1, . . . , yc} indicano le modalita rispettiva-mente di X e di Y ,(iii) fij e il numero di unita statistiche che presentanosimultaneamente la modalita xi di X e la modalita yj di Y ,(iv) f+j, j = 1, . . . , c, e fi+, i = 1, . . . , r sono i totalirispettivamente delle colonne e delle righe, ovvero, f+j =∑r

i=1 fij e fi+ =∑c

j=1 fij.

Il disastro del Titanic 126

Page 66: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Un po’ di terminologia

Per le varie distribuzioni di frequenza evidenziate nel caso deidati sul Titanic, sono in uso i seguenti termini (evidenziati ingrassetto):• La tabella nel suo complesso ci mostra la distribuzionecongiunta di X e Y . Le fij, i = 1, . . . , r, j = 1, . . . , c,sono chiamate le frequenze congiunte.• La j-sima colonna mostra la distribuzione di Xcondizionata a Y = yj o, equivalentemente, la distribuzio-ne di X dato Y = yj. Puo essere indicata compattamentecon la notazione (X|Y = yj) dove “|” si legge “dato”. Siosservi che esiste una distribuzione condizionata (di X dato Y )per ogni modalita di Y .• In maniera simmetrica, la i-sima riga mostra la distribuzio-ne di Y condizionata a X = xi o, equivalentemente, ladistribuzione di Y dato X = xi. Puo essere indicatacompattamente con la notazione (Y |X = xi).• L’ultima colonna (riga) viene chiamata la distribuzionemarginale di X (Y ). Ci fornisce la distribuzione di X (Y )a prescindere da Y (X).

127 Unita I:

Distribuzioni condizionate di Salvato datoClasse

Ci sono tre distribuzioni condizionate di Salvato dato Classe (letre colonne), una per ogni modalita di Classe (I, II, II).Le distribuzioni condizionate relative si ottengono dividendoogni colonna per il totale di colonna

ClasseSalvato I II III

SI 203 118 178NO 122 167 528

totale 325 285 706

ClasseSalvato I II III

SI 0,62 0,41 0,25NO 0,38 0,59 0,75

totale 1,00 1,00 1,00

I II III

SINO

Distribuzioni condizionate di Salvato dato Classe

Classe

0.0

0.2

0.4

0.6

0.8

1.0

Il disastro del Titanic 128

Page 67: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Distribuzioni condizionate di Classe datoSalvato

Ci sono due distribuzioni condizionate di Classe dato Salvato(le due righe), una per ogni modalita di Salvato (SI, NO).Le distribuzioni condizionate relative si ottengono dividendoogni riga per il totale di riga

Classe

Salvato I II III totale

SI 203 118 178 499

NO 122 167 528 817

Classe

Salvato I II III totale

SI 0,41 0,24 0,36 1,00

NO 0,15 0,20 0,65 1,00

SI NO

IIIIII

Distribuzioni condizionate di Classe dato Salvato

Salvato

0.0

0.2

0.4

0.6

0.8

1.0

129 Unita I:

Dipendenza, indipendenza e distribuzionicondizionate

Riguardiamo la tabella sul disastro del Titanic. Abbiamo notatoche la sopravvivenza dipende dalla classe in cui viaggiava ilpasseggero visto che la frazione di sopravvissuti all’incidentevaria al variare della classe.

Indichiamo con Y la Classe (I, II, III) e con X la variabileSalvato (SI, NO). Allora, usando la terminologia appenaintrodotta, una affermazione sostanzialmente analoga a quellacontenuta nel precedente paragrafo e:

Poiche le distribuzioni di X condizionate ad Y sono tra diloro diverse, X dipende da Y

L’affermazione va nella direzione giusta. Deve pero essereprecisata meglio.

Il disastro del Titanic 130

Page 68: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Supponiamo infatti, per un momento, che la distribuzionecongiunta non sia quella gia mostrata ma, viceversa, la seguente

classesalvato I II III totale

SI 150 200 300 650NO 300 400 600 1300

totale 450 600 900 1950

Le varie colonne (ovvero le distribuzioni di X dato Y ) sonoin un certo senso diverse visto che le frequenze assolute sonodiverse. In questo caso non sembrerebbe pero sensato affermareche la sopravvivenza dipenda dalla classe.

Infatti, le distribuzioni condizionate (relative) di Salvato datoClasse sono tutte uguali tra loro

ClasseSalvato I II III

SI 0,33 0,33 0,33NO 0,67 0,67 0,67

totale 1,00 1,00 1,00

Per tutte e tre le classi e esattamente 1/3 la frazione deisopravvissuti. Sembra quindi ragionevole affermare che quellamostrata dalla tabella e una situazione in cui non esistedipendenza di X da Y .

131 Unita I:

Si osservi che passare da frasi del tipo “Si sono salvati 150passegeri di prima classe” a “Si sono salvati un terzo deipasseggeri della prima classe” equivale a guardare non lefrequenze assolute ma quelle delle distribuzioni condizionate.

La frase prima evidenziata deve quindi essere precisata nellaseguente maniera:

X (la sopravvivenza) dipende da Y (la classe in cuiviaggiava il passeggero) poiche le distribuzioni di Xcondizionate ad Y sono diverse nel senso che hannofrequenze relative diverse

Questo discorso giustifica la seguente definizione generale (cisi ricordi che fij/f+j e la frequenza relativa di xi nelladistribuzione di X condizionata a Y = yj):

Diciamo che X e indipendente in distribuzione da Yse, per ogni i (i = 1, . . . , r),

fi1

f+1=

fi2

f+2= · · · =

fij

f+j= · · · =

fic

f+c. (I.1)

Se la (I.1) non e vera diremo che X dipende indistribuzione da Y .

Il disastro del Titanic 132

Page 69: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Distribuzione marginale, distribuzionicondizionate e indipendenza

Dalla (I.1) discende immediatamente che

Se le distribuzioni condizionate di X dato Y sono uguali tradi loro, allora sono anche uguali alla distribuzione marginaledi X.

L’uguaglianza, al solito, deve essere intesa nel senso dellefrequenze relative.

Per dimostrare la proposizione ci basta far vedere che la (I.1)implica

fi+

n=

fi1

f+1, i = 1, . . . , r.

Ora, dalla (I.1) segue che fij = (fi1f+j)/f+1. Quindi,

fi+

n=

∑cj=1 fij

n=

∑cj=1 fi1f+j

nf+1=

=fi1

∑cj=1 f+j

nf+1=

nfi1

nf+1=

fi1

f+1.

133 Unita I:

X indipendente da Y e equivalente a Yindipendente da X

Per quanto detto nella pagina precedente, se X e indipendenteda Y allora

fij

f+j=

fi+

n, i = 1, . . . , r; j = 1, . . . , c. (I.2)

La (I.2) puo essere riscritta nella forma

fij

fi+=

f+j

n, i = 1, . . . , r; j = 1, . . . , c

ovvero, mostra che l’indipendenza in distribuzione di X da Yimplica l’uguaglianza di tutte le distribuzioni condizionate diY dato X alla distribuzione marginale di Y . Quindi, tutte ledistribuzioni condizionate di Y dato X sono tra di loro uguali.Possiamo percio parlare tranquillamente di indipendenza indistribuzione tra X e Y senza indicare la “direzione”.

Il disastro del Titanic 134

Page 70: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Indipendenza: frequenze attese.

Poniamo

fij =fi+f+j

n.

Sempre dalla (I.2) segue che se esiste indipendenza tra le duevariabili, fij = fij per qualsivoglia i e per qualsivoglia j, ovvero,

le fij sono le frequenze che ci aspettiamo di trovare quandoesiste indipendenza. Si osservi che, come e ovvio, dipendonodalle frequenze marginali. Ovvero le fij ci mostrano come itotali marginali dovrebbero “distribuirsi” tra le varie celle dellatabella nel caso di indipendenza in distribuzione. Per questomotivo, le fij sono chiamate le frequenze attese (sottol’ipotesi di indipendenza in distribuzione).

135 Unita I:

L’indice X2

Sul confronto tra frequenze attese e frequenze osservate e anchebasato l’indice di uso piu comune per misurare la dipendenzain distribuzione. Si tratta del cosidetto X2 di Pearson che edefinito come

X2 =

r∑i=1

c∑j=1

(fij − fij)2

fij

.

X2 e sempre maggiore o uguale a zero ed e uguale a 0 in caso diindipendenza (fij = fij, per ogni i e per ogni j) e cresce manmano che le frequenze osservate si allontano da quelle attese.

Si puo dimostrare che X2 ≤ n · min(r − 1, c − 1) e quindi sipuo costruire un indice normalizzato

X2 =X2

n ·min(r − 1, c− 1)

che assumera valori tra 0 e 1: 0 ≤ X2 ≤ 1.

Notiamo pero che il massimo (X2 = 1) non esempre raggiungibile e quindi l’interpretazione dell’entitadell’allontanamento da 0 di X2 non e sempre agevole.

Il disastro del Titanic 136

Page 71: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Il caso del Titanic

Per il Titanic, le frequenza attese e X2 valgono

classesalvato I II III totale

SI 123,2 108,1 267,7 499NO 201,8 176,9 438,3 817

totale 325 285 706 1316

X2 =(203− 123, 2)2

123, 2+

(118− 108, 1)2

108, 1+

(178− 267, 7)2

267, 7

+(122− 201, 8)2

201, 8+

(167− 176, 9)2

176, 9+

(528− 438, 3)2

438, 3= 133, 05

X2 =133, 05

1316 ·min(1, 2)= 0, 1011 .

Quindi, sembra esserci evidenza contro l’ipotesi di indipendenzatra le due variabili.

Il confronto con le frequenze osservate e particolarmenteistruttivo. Ad esempio, ci indica che, senza la preferenzaaccordata ai passeggeri di I classe, si sarebbero salvati uncentinaio di passeggeri di III classe in piu.

137 Unita I:

Esercizi

1. Lo studente ricalcoli frequenze attese e X2 a partire dai datidella tabella data all’inizio.

2. Potrebbe venire il dubbio che la preferenza accordata alla Iclasse sia dipesa dal fatto che in I classe viaggiava un numeropiu elevato di donne e di bambini e quindi che quello cheabbiamo osservato era semplicemente una manifestazione diuna “politica di salvataggio” del tipo prima le donne e ibambini.

La seguente tabella si riferisce solo alle donne e ai bimbi.

classesalvato I II III

SI 146 105 103NO 4 13 141

Lo studente prima commenti questa nuova tabella, poicalcoli

(a) le distribuzioni marginali;

(b) le frequenze attese;

(c) l’X2 di Pearson.

Il disastro del Titanic 138

Page 72: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

3. Lo studente ricostruisca dai dati gia forniti in questa unitala distribuzione congiunta di esito e classe riferita solo aimaschi adulti e la analizzi con le tecniche studiate.

4. Ripetere l’analisi fatta sui dati del Titanic sulla tabellacongiunta a pagina 105, riguardante le tipologie di esercizidivisi per aree geografiche.

139 Unita I:

Appendice: strumenti di base

Il disastro del Titanic 140

Page 73: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Sommatoria

Siano ai e bi, i = 1, . . . , n, due serie di numeri e c una costantequalsiasi. Si definisce la sommatoria nel modo seguente:

n∑i=1

ai = a1 + a2 + . . . + an .

Alcune proprieta

1.∑n

i=1 c = c + c + . . . + c = n c .

2.∑n

i=1 c ai = c a1+c a2+. . .+c an = c (a1+a2+. . .+an) =c∑n

i=1 ai .

3.∑n

i=1(ai + bi) =∑n

i=1 ai +∑n

i=1 bi .

4. (∑n

i=1 ai)c 6=∑n

i=1 aci .

Ad esempio, con n = 2 e c = 2, si ha (∑n

i=1 ai)2

= (a1 +a2)

2 = a21 + 2 a1 a2 + a2

2 6= a21 + a2

2 =∑n

i=1 a2i .

5.∑n

i=1(ai bi) 6=∑n

i=1 ai

∑ni=1 bi .

Ad esempio, con n = 2, si ha∑n

i=1(ai bi) = a1 b1 + a2 b2 6=(a1 + a2) (b1 + b2) = a1 b1 + a1 b2 + a2 b1 + a2 b2 =∑n

i=1 ai

∑ni=1 bi .

141 Unita I:

Produttoria

Siano ai e bi, i = 1, . . . , n, due serie di numeri e c una costantequalsiasi. Si definisce la produttoria nel modo seguente:

n∏i=1

ai = a1 a2 . . . an .

Alcune proprieta

1.∏n

i=1 c = c c . . . c = cn .

2.∏n

i=1 c ai = c a1 c a2 . . . c an = cn (a1 a2 . . . an) =cn∏n

i=1 ai .

3.∏n

i=1(ai bi) =∏n

i=1 ai

∏ni=1 bi .

4. (∏n

i=1 ai)c=∏n

i=1 aci .

5.∏n

i=1(ai + bi) 6=∏n

i=1 ai +∏n

i=1 bi .

Il disastro del Titanic 142

Page 74: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Logaritmo

Il logaritmo in base b del numero reale positivo x, l = logb x,si definisce come l’esponente l da dare a b per ottenere x,ossia: x = bl. Le basi piu comunemente utilizzate sono quellanaturale, ossia il numero neperiano e = 2.7183 . . ., e la base10.

Alcune proprieta

1. logb 1 = 0 .

2. logb b = 1 .

3. limx→0+

logb x = −∞; limx→+∞

logb x = +∞

4. logb(x y) = logb x + logb y

(piu in generale, logb (∏n

i=1 xi) =∑n

i=1 logb xi).

5. logb(xc) = c logb x.

6. logb(x/y) = logb(x y−1) = logb x + logb y−1 = logb x −logb y.

7. Cambio di base: logb x = logb c logc x.

143 Unita I: Il disastro del Titanic 144

Page 75: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Unita J

Probabilita

La prova genera l’evento con una certa probabilita.(Giuseppe Pompilj).

� Esperimento casuale, spazio campionario e eventi.

� Richiami di insiemistica

� La probabilita

� La probabilita condizionata

� Teorema di Bayes

� Indipendenza stocastica.

Cos’e la probabilita

� Tutti i fenomeni (riguardanti le scienze fisiche, naturali,umane,. . . ) che sono caratterizzati da incertezza relativa aipossibili esiti di determinate azioni coinvolgono il concettodi probabilita.

� La probabilita e un concetto primitivo (come il tempo, lospazio,. . . ), cioe originario per l’essere umano perche innatoe sempre presente nelle sue regole di comportamento.

� La probabilita e anche una misura perche associa al concettoprimitivo una valutazione numerica.

� Concetto e misura sono due cose distinte: quasi tutti siamoin grado di dire che la probabilita di una cinquina al lottoe piu bassa della probabilita di un ambo; tuttavia, pochepersone sarebbero in grado di determinare con immediatezzala misura di queste probabilita.

� La necessita di prendere decisioni in condizioni diincertezza implica la necessita di “quantificare” (misurare) laprobabilita e quindi di studiare la Teoria (assiomatica) dellaProbabilita (intesa come disciplina matematica).

� Nel seguito definiremo gli elementi costitutivi della Teoriadelle Probabilita, le relazioni che legano questi elementi einfine introdurremo gli assiomi della probabilita.

Probabilita 146

Page 76: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Esperimento casuale, spazio campionario eeventi

� Esperimento casuale: una qualunque azione il cui risultatonon e certo.

Esempi:

1. Un lancio di un dado

2. Un lancio di una moneta

3. La prima estrazione del lotto

4. Sostenere un esame

5. Il riuscire negli studi

6. Il rendimento di un titolo

� Evento elementare: il risultato piu semplice di unesperimento casuale

1. Una delle facce di un dado

2. Testa o croce

3. Un numero da 1 a 90

4. Riuscire o non riuscire

5. Laurearsi o non laurearsi

6. Un qualunque numero reale compreso tra -1 e +1.

147 Unita J:

� Spazio campionario: l’insieme di tutti i possibili eventielementari. Viene indicato con S.

1. S = {1, 2, 3, 4, 5, 6}2. S = {T, C}3. S = {1, 2, 3, . . . , 90}4. S = {OK, KO}5. S = {OK, KO}6. S = {x|x ∈ [−1, 1]}

Probabilita 148

Page 77: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Esempio piu complicato

1. Esperimento casuale: due lanci di un dado

2. Evento elementare: poiche i lanci sono due, il piu semplicerisultato dell’esperimento e una coppia di numeri (i, j) coni = 1, . . . , 6 e j = 1, . . . , 6. In ogni coppia il primo numeroindica il risultato del primo lancio ed il secondo quello delsecondo lancio.

3. Quindi lo spazio campionario e

S = { (1, 1) (1, 2) (1, 3) (1, 4) (1, 5) (1, 6)(2, 1) (2, 2) (2, 3) (2, 4) (2, 5) (2, 6)(3, 1) (3, 2) (3, 3) (3, 4) (3, 5) (3, 6)(4, 1) (4, 2) (4, 3) (4, 4) (4, 5) (4, 6)(5, 1) (5, 2) (5, 3) (5, 4) (5, 5) (5, 6)(6, 1) (6, 2) (6, 3) (6, 4) (6, 5) (6, 6)}

S e quindi costituito da 36 eventi elementari.

Attenzione: l’evento elementare (1, 2) e considerato diversoda (2, 1) perche conta l’ordine di estrazione.

149 Unita J:

Evento

Un evento e un insieme di eventi elementari, cioe un qualunquesottoinsieme dello spazio campionario.

Un evento si verifica quando si verifica un evento elementareche lo compone.

Nell’esempio dei due lanci del dado un evento e “almeno unafaccia e pari”, cioe l’insieme A costituito da:

A = { (1, 2) (1, 4) (1, 6) (2, 1) (2, 2) (2, 3) (2, 4) (2, 5) (2, 6)

(3, 2) (3, 4) (3, 6) (4, 1) (4, 2) (4, 3) (4, 4) (4, 5) (4, 6)

(5, 2) (5, 4) (5, 6) (6, 1) (6, 2) (6, 3) (6, 4) (6, 5) (6, 6)}

che e un sottoinsieme di S, costituito da 27 eventi elementari.

L’evento A puo essere visto come composto da altri eventi, cioeda altri sottoinsiemi di S. Per esempio:

B1 = {solo la prima faccia e pari}= {(2, 1) (2, 3) (2, 5) (4, 1) (4, 3) (4, 5) (6, 1) (6, 3) (6, 5)}

B2 = {solo la seconda faccia e pari}= {(1, 2) (1, 4) (1, 6) (3, 2) (3, 4) (3, 6) (5, 2) (5, 4) (5, 6)}

B3 = {entrambe le facce sono pari}= {(2, 2) (2, 4) (2, 6) (4, 2) (4, 4) (4, 6) (6, 2) (6, 4) (6, 6)}

Nella terminologia dell’insiemistica l’insieme A e pari all’unionedi B1, B2 e B3.

In definitiva “lavorare” con gli eventi e possibile mediantel’algebra dell’insiemistica.

Probabilita 150

Page 78: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Richiami di insiemistica (diagrammi di Venn)

� a ∈ A significa che l’evento elementare a appartieneall’insieme A.

Richiami di insiemistica(diagrammi di Venn)

a ∈ A significa che l’evento elementare a appartieneall’insieme A.

SA

a

B e un sottoinsieme di A, B ⊂ A, significa che tuttigli eventi elementari contenuti in B appartengono ancheall’evento A.

Operazioni tra insiemi

a. L’unione di due insiemi e l’insieme costituito daglielementi appartenenti o ad un insieme o ad un altro esi indica con A ∪ B.

Probabilita 152

� B e un sottoinsieme di A, B ⊆ A, significa che tuttigli eventi elementari contenuti in B appartengono ancheall’evento A. Ossia x ∈ B ⇒ x ∈ A (per ogni eventoelementare x in B)

Richiami di insiemistica(diagrammi di Venn)

a ∈ A significa che l’evento elementare a appartieneall’insieme A.

B e un sottoinsieme di A, B ⊂ A, significa che tuttigli eventi elementari contenuti in B appartengono ancheall’evento A.

SA

B

Operazioni tra insiemi

a. L’unione di due insiemi e l’insieme costituito daglielementi appartenenti o ad un insieme o ad un altro esi indica con A ∪ B.

Probabilita 152

Notiamo che

A = B ⇔ A ⊆ B e B ⊆ A

151 Unita J:

Operazioni tra insiemi

a. L’unione di due insiemi e l’insieme costituito dagli elementiappartenenti o ad un insieme o ad un altro e si indica conA ∪B.

Richiami di insiemistica(diagrammi di Venn)

a ∈ A significa che l’evento elementare a appartieneall’insieme A.

B e un sottoinsieme di A, B ⊂ A, significa che tuttigli eventi elementari contenuti in B appartengono ancheall’evento A.

SA

B

Operazioni tra insiemi

a. L’unione di due insiemi e l’insieme costituito daglielementi appartenenti o ad un insieme o ad un altro esi indica con A ∪ B.

SA ∪ B

139 Unita J:A ∪B = {x : x ∈ A o x ∈ B}

b. L’intersezione di due insiemi e l’insieme costituito daglielementi appartenenti sia ad un insieme sia all’altro e siindica con A ∩B

L’intersezione di due insiemi e l’insieme costituito daglielementi appartenenti sia ad un insieme sia all’altro e siindica con A ∩ B

SA B

Due insiemi sono tra loro disgiunti o mutualmenteescludentesi se A ∩ B = ∅.

Insieme complementare: il complementare dell’insieme A,indicato con A o Ac, e l’insieme degli elementi di S (spaziocampionario) non appartenenti ad A.

A

B = Ac

Valgono le seguenti proprieta: A ∩ Ac = ∅ e A ∪ Ac = S.

Insieme differenza:Probabilita 140

A ∩B = {x : x ∈ A e x ∈ B}

Due insiemi (eventi) sono tra loro disgiunti (incompatibili)se A ∩ B = ∅, dove ∅ rappresenta l’insieme vuoto(evento impossibile).

Probabilita 152

Page 79: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

c. Insieme complementare (o negazione): il complementa-re dell’insieme A, indicato con A o Ac, e l’insieme deglielementi di S (spazio campionario) non appartenenti ad A.

L’intersezione di due insiemi e l’insieme costituito daglielementi appartenenti sia ad un insieme sia all’altro e siindica con A ∩ B

SA B

Due insiemi sono tra loro disgiunti o mutualmenteescludentesi se A ∩ B = ∅.

Insieme complementare: il complementare dell’insieme A,indicato con A o Ac, e l’insieme degli elementi di S (spaziocampionario) non appartenenti ad A.

A

B = Ac

Valgono le seguenti proprieta: A ∩ Ac = ∅ e A ∪ Ac = S.

Insieme differenza:Probabilita 140

Ac = A = {x : x /∈ A}

Valgono le seguenti proprieta: A ∩ Ac = ∅ e A ∪ Ac = S.

d. Insieme differenza: e l’insieme degli elementi di A che nonappartengono a B, indicato con A−B.

SA B

A−B e l’insieme degli elementi di A che non appartengonoa B

141 Unita J:

A−B = {x : x ∈ A e x /∈ B}

Dalla definizione stessa deriva che A−B = A ∩Bc.

153 Unita J:

Proprieta delle operazioni tra insiemi

a. Idempotenza:

A ∪ A = A ,

A ∩ A = A .

b. Commutativa:

A ∪B = B ∪ A ,

A ∩B = B ∩ A .

c. Associativa:

A ∪ (B ∪ C) = (A ∪B) ∪ C ,

A ∩ (B ∩ C) = (A ∩B) ∩ C .

d. Distributiva:

A ∪ (B ∩ C) = (A ∪B) ∩ (A ∪ C) ,

A ∩ (B ∪ C) = (A ∩B) ∪ (A ∩ C) .

Probabilita 154

Page 80: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

e. Evento impossibile

A ∪ ∅ = A ,

A ∩ ∅ = ∅ .

f. Spazio campionario

A ∪ S = S ,

A ∩ S = A .

g. Leggi di De Morgan

(A ∪B)c = Ac ∩Bc ,

(A ∩B)c = Ac ∪Bc ,

(Ac)c = A .

Piu in generale, dati gli insiemi A1, A2, . . . , An, si ha che

(

n⋃i=1

Ai)c =

n⋂i=1

Aci ,

(

n⋂i=1

Ai)c =

n⋃i=1

Aci ,

Esercizio 1 Alcune di queste proprieta sono abbastanzaintuitive. Altre, invece, sono meno ovvie: provate a dimostrarele proprieta c., d. e g. utilizzando i diagrammi di Venn.

155 Unita J:

Catalogo di sottoinsiemi di S

Costruiamo un “catalogo” (o “lista”, o “algebra”) di sottoinsie-mi dello spazio campionario, mettendo in essa anche S stessoe l’insieme vuoto ∅.

Per esempio considerando l’esperimento casuale “lancio di unamoneta”, gli eventi elementari sono {T} e {C}. Considerandoanche S = {T, C} e l’insieme vuoto, allora il catalogo, indicatoda F e dato da

F = {∅, {T}, {C}, {T, C}}.

Il catalogo F e, quindi, un insieme i cui elementi sono a lorovolta degli insiemi: un insieme di insiemi.

Questo catalogo deve soddisfare le seguenti proprieta:

1. Se A ∈ F , allora Ac ∈ F (chiusura rispetto alcomplementare).

2. ∅ ∈ F e S ∈ F

3. Se si hanno n eventi A1, A2, A3, . . . , An in F allora⋃ni=1 Ai ∈ F (chiusura rispetto all’unione finita).

Quest’ultima proprieta deve valere anche se gli eventisono infiniti:

⋃∞i=1 Ai ∈ F (chiusura rispetto all’unione

numerabile).

Probabilita 156

Page 81: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Esercizio 2 Utilizzando le leggi di De Morgan e le proprieta 1.e 3. di F , mostrate che se A1, A2, A3, . . . , An appartengonoad F , allora

⋂ni=1 Ai ∈ F (chiusura rispetto all’intersezione

finita).

Inciso (culturale): Noi non possiamo dire molto di piu su com’e fatto

F senza entrare in un campo della matematica denominato teoria della

misura. Una cosa che possiamo dire e che quando lo spazio campionario Se numerabile, cioe i suoi elementi sono in corrispondenza biunivoca (1 ad 1)

con i numeri naturali, allora F e costituito da tutti i possibili sottoinsiemi

di S, S stesso e l’insieme vuoto. Se il numero degli eventi elementari e

finito e pari ad n, allora il numero di elementi di F e pari a 2n (si consideri

l’esempio del lancio di una moneta).

Purtroppo ci sono molte situazioni empiriche in cui non e possibile

considerare F come costituito da tutti i possibili sottoinsiemi di S. Questo

e vero in particolare quando il numero degli elementi di S e infinito e

non e numerabile (si pensi ad un esperimento casuale, il cui risultato e

un qualunque numero reale). In queste situazioni, se considerassimo tutti i

possibili sottoinsiemi di S, allora la funzione di probabilita che definiremo tra

poco non soddisferebbe gli assiomi della probabilita (vedi dopo). In queste

situazioni F contiene soltanto alcuni sottoinsiemi di S.

Per i nostri scopi e sufficiente dire che il catalogo F e tale che gli assiomi

della probabilita sono soddisfatti.

157 Unita J:

Probabilita

La probabilita e una funzione che assegna ad ogni elemento diF un numero reale appartenente all’intervallo chiuso [0, 1]

P : F → [0, 1]A → Pr(A)

La probabilita, quindi, deve essere vista come una funzione, condominio F e codominio l’intervallo chiuso [0, 1]. Il modo concui questa funzione viene costruita dipende dal problema che sista analizzando.

Per esempio nel lancio di una moneta, se questa e perfettamentebilanciata, si puo costruire la probabilita come il rapporto tra ilnumero totale di casi favorevoli ed il numero totale dei casi:

Pr(A) =]di eventi elementari che portano alla realizzazione dell’evento A

]totale di eventi elementari

Si ha quindi:

∅ −→ 0

{T} −→ 1/2

{C} −→ 1/2

{T, C} −→ 1

Questo approccio (detto classico) e senz’altro valido quandosi trattano casi in cui il numero di elementi di S e finito (o eun’infinita numerabile).Probabilita 158

Page 82: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Un diverso approccio nell’interpretazione della probabilita (equindi anche nella sua assegnazione agli eventi) e il cosidettoapproccio frequentista.

In particolare, si assume di poter ripetere l’esperimento unnumero grande (infinito!) di volte e di contare il numero divolte in cui si verifica l’evento A. La probabilita dell’evento Asara pari al rapporto (frequenza) tra il numero di volte in cui Asi e verificato e il numero di esperimenti eseguiti:

Pr(A) =]di esperimenti in cui A si e verificato

]totale degli esperimenti svolti

E plausibile pensare che nell’esempio del lancio della moneta siarriverebbe ad assegnare le stesse probabilita ottenute secondol’approccio classico.

Un ulteriore interpretazione della probabilita e dovutaall’approccio soggettivista, secondo il quale la probabilita diun determinato evento A va interpretata (assegnata) comela valutazione che il singolo individuo puo coerentemen-te formulare, in base alle proprie conoscenze, del grado diavverabilita dell’evento.

Anche in questo caso, se il soggetto non ha ragione di pensareche la moneta sia truccata, sara plausibile che assegni egualeprobabilita al verificarsi dell’esito testa e dell’esito croce.

In determinati contesti, l’interpretazione soggettivista puoessere piu sensata degli altri due approcci. Si pensi, ad esempio,a come definire la probabilita che il Venezia batta il Real Madridin un (MOLTO) ipotetico incontro di Champions League.

159 Unita J:

Gli assiomi della probabilita (di Kolmogorov)

Qualunque funzione, indipendentemente da come la costruisco,che ad ogni elemento di F associa un numero reale puo essereconsiderata una probabilita, se essa soddisfa i seguenti assiomi:

1o Assioma. Ogni evento ha probabilita maggiore o uguale a0:

Pr(A) ≥ 0

2o Assioma. La probabilita dello spazio campionario e pari ad1

Pr(S) = 1

3o Assioma. La probabilita dell’unione di eventi disgiunti deveessere pari alla somma delle probabilita

Pr(A ∪B) = Pr(A) + Pr(B) se A ∩B = ∅

Quest’ultima proprieta deve valere anche

1. per successioni finite di eventi mutualmente disgiunti, cioe

Pr(⋃n

i=1 Ai) =∑n

i=1 Pr(Ai) se Ai ∩ Aj = ∅ per ogni i 6= j

2. per successioni infinite di eventi mutualmente disgiunti,cioe

Pr(⋃∞

i=1 Ai) =∑∞

i=1 Pr(Ai) se Ai ∩ Aj = ∅ per ogni i 6= j

Probabilita 160

Page 83: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Alcune conseguenze degli assiomi

Gli assiomi della probabilita hanno una serie di conseguenze(facilmente dimostrabili):

a. Pr(∅) = 0

b. Pr(A) ≤ 1

c. Pr(Ac) = 1− Pr(A)

d. Se A ⊆ B allora Pr(A) ≤ Pr(B)

e. Pr(A ∪B) = Pr(A) + Pr(B)− Pr(A ∩B)

Notiamo che, se A e B sono incompatibili (cioe se A∩B =∅), riotteniamo il terzo assioma.

Piu in generale invece, Pr(A∩B) ≥ 0, e quindi Pr(A∪B) ≤Pr(A) + Pr(B).

Suggerimento: provate a verificare queste relazioni anchefacendo ricorso ai diagrammi di Venn (l’area dell’insiemenel diagramma rappresenta la probabilita del corrispondenteevento. . . )

161 Unita J:

Esempio

In un’urna vi sono quattro palline, ognuna contrassegnata conun numero, da 1 a 4. L’esperimento consiste nell’estrazione diuna pallina.

Lo spazio campionario: S = {1, 2, 3, 4};

Il catalogo:

F = {∅, {1}, {2}, {3}, {4}, {1, 2}, {1, 3}, {1, 4}, {2, 3}, {2, 4}, {3, 4}{1, 2, 3}, {1, 2, 4}, {1, 3, 4}, {2, 3, 4}, {1, 2, 3, 4}︸ ︷︷ ︸

=S

}

Si hanno 16 = 24 elementi di F .

La funzione di probabilita:

Pr(A) =]di eventi elementari che portano alla realizzazione dell’evento A

]totale di eventi elementari

per cui, ad esempio:

Pr(i) =1

4per i = 1, 2, 3, 4

Pr(estrarre o 1 o 2) = Pr(1, 2) = Pr(1) + Pr(2) =2

4=

1

2

Pr(estrarre o 1 o 2 o 3) = Pr(1, 2, 3) = Pr(1) + Pr(2) + Pr(3) =3

4

Pr(estrarre un numero pari) = Pr(2, 4) =1

2

Probabilita 162

Page 84: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

La probabilita condizionata

Si vuole valutare la probabilita di un evento sapendo che si egia realizzato un altro evento.

La probabilita condizionata

Si vuole valutare la probabilita di un evento sapendo che si egia realizzato un altro evento.

SA B

Sappiamo che si e gia realizzato B.Vogliamo sapere che probabilita hala realizzazione di A. Ma, se sie gia realizzato B, gli unici eventielementari che si possono ancorarealizzare sono quelli di A contenutianche in B.

Questo vuol dire che si ha un nuovo spazio campionarioS∗ = B. Volendo valutare la probabilita di A dato che si erealizzato B, allora occorre considerare gli eventi elementaricomuni ad A ed a B, cioe quelli appartenenti alla lorointersezione. Chiaramente non possiamo prendere tout courtla probabilita dell’intersezione, perche questa si riferisce allospazio campionario S e non al nuovo. La probabilita dell’inter-sezione va, dunque, “normalizzata”, in modo che la probabilitadel nuovo spazio campionario si pari ad uno.

Probabilita 164

Sappiamo che si e gia realizzato B.Vogliamo sapere che probabilita hala realizzazione di A. Ma, se sie gia realizzato B, gli unici eventielementari che si possono ancorarealizzare sono quelli di A contenutianche in B.

Questo vuol dire che si ha un nuovo spazio campionarioS∗ = B. Volendo valutare la probabilita di A dato che si erealizzato B, allora occorre considerare gli eventi elementaricomuni ad A ed a B, cioe quelli appartenenti alla lorointersezione. Chiaramente non possiamo prendere tout courtla probabilita dell’intersezione, perche questa si riferisce allospazio campionario S e non al nuovo. La probabilita dell’inter-sezione va, dunque, “normalizzata”, in modo che la probabilitadel nuovo spazio campionario si pari ad uno.

163 Unita J:

La formula della probabilita condizionata e data da:

Pr(A|B) =Pr(A ∩B)

Pr(B)se Pr(B) 6= 0

dove Pr(A|B) indica la probabilita di A dato B o subordinatao condizionata a B. L’evento B si dice “condizionante”.Chiaramente la probabilita condizionata e definita se e solo sel’evento condizionante, B, ha probabilita diversa da zero direalizzarsi.

Esempio 1: il lancio di un dado. Sapendo che si e realizzatauna faccia pari, si vuole calcolare la probabilita che si realizziun 2.

a. L’evento condizionante B e dato da: B = {2, 4, 6} ed hauna probabilita di realizzarsi pari a Pr(B) = 3/6 = 1/2.

b. L’evento A e dato da: A = {2}.c. L’evento intersezione e

A ∩B = {si realizza una faccia pari ed essa e uguale a 2}= {2} = A

perche A ⊂ B. La sua probabilita e

Pr(A ∩B) = Pr(A) =1

6Probabilita 164

Page 85: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

d. La probabilita di A dato B e

Pr(A|B) =Pr(A ∩B)

Pr(B)=

1/6

1/2=

1

3

D’altra parte, se sappiamo che si e realizzata una facciapari, i possibili risultati sono soltanto {2, 4, 6} e laprobabilita che tra questi si realizzi il 2 e pari a 1/3.

Esempio 2: due estrazioni da un’urna. Un’urna contiene5 palline: 3 bianche, indicate con w1, w2, w3, e 2 rosse, r1

e r2. L’esperimento casuale consiste nell’estrarre due pallineuna alla volta, ma senza reinserire la prima estratta.

Poiche le estrazioni sono due, gli eventi elementari sono lecoppie e lo spazio campionario e dato da:

S = { (w1, w2), (w1, w3), (w1, r1), (w1, r2), (w2, w1),

(w2, w3), (w2, r1), (w2, r2), (w3, w1), (w3, w2),

(w3, r1), (w3, r2), (r1, w1), (r1, w2), (r1, w3),

(r1, r2), (r2, w1), (r2, w2), (r2, w3), (r2, r1)}

Si hanno quindi 20 casi possibili. Si noti che in S

1. non sono presenti le coppie con elementi uguali, tipo(w1, w1), perche la seconda estrazione avviene senza ilreinserimento della prima;

2. occorre tener conto dell’ordine, cioe ad esempio l’eventoelementare (w1, r1) e diverso da (r1, w1), perche si fannodue estrazioni.

165 Unita J:

Si vuole determinare la probabilita di avere nella secondaestrazione una pallina rossa sapendo che la prima estratta estata una pallina bianca.

a. L’evento condizionante e

B = {la prima estratta e una pallina bianca}= {(w1, w2), (w1, w3), (w1, r1), (w1, r2), (w2, w1),

(w2, w3), (w2, r1), (w2, r2), (w3, w1), (w3, w2), (w3, r1), (w3, r2)}

con 12 eventi elementari favorevoli. Dunque la suaprobabilita e data da

Pr(B) =12

20=

3

5

b. L’evento

A = {nella seconda estrazione si ottiene una pallina rossa}

e dato da

A = {(w1, r1), (w1, r2), (w2, r1), (w2, r2),

(w3, r1), (w3, r2), (r1, r2), (r2, r1)}

c. La sua intersezione con B e data da

A ∩B = {(w1, r1), (w1, r2), (w2, r1), (w2, r2), (w3, r1), (w3, r2)}

e la probabilita di realizzarsi di A ∩B e:

Pr(A ∩B) =6

20=

3

10Probabilita 166

Page 86: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

d. allora la probabilita condizionata di A dato B e pari a

Pr(A|B) =Pr(A ∩B)

Pr(B)=

3/10

3/5=

1

2

D’altra parte, se nella prima estrazione si e realizzatauna pallina bianca, poiche questa non viene reinseritanell’urna, lo spazio campionario per la seconda estrazionee:

S∗ = {(w1, w2), (w1, w3), (w1, r1), (w1, r2), (w2, w1), (w2, w3),

(w2, r1), (w2, r2), (w3, w1), (w3, w2), (w3, r1), (w3, r2)}= B

con 12 eventi elementari. I casi favorevoli ad ottenerein S∗ una pallina rossa sono 6, quindi la probabilita diestrarre da S∗ una pallina rossa e 6/12 = 1/2.

167 Unita J:

Esempio 3: il gioco del lotto (semplificato). Due estrazionida un’urna contenente 4 palline uguali, numerate da 1 a4. Dopo la prima estrazione la pallina estratta non vienereinserita nell’urna.

Gli eventi elementari sono le coppie di numeri (i, j) con i =1, 2, 3, 4 e j = 1, 2, 3, 4.

Lo spazio campionario contiene tutti gli eventi elementariesclusi quelli per i quali i = j. Infatti non si possonorealizzare gli eventi (1, 1), (2, 2), (3, 3) e (4, 4), poiche nonviene reinserito il primo estratto.

S =

(1, 2) (1, 3) (1, 4)

(2, 1) (2, 3) (2, 4)(3, 1) (3, 2) (3, 4)(4, 1) (4, 2) (4, 3)

S contiene 12 elementi.

Vogliamo calcolare la probabilita che nella secondaestrazione si realizzi un 2, dato che nella prima si e realizzatoun 1.

a. L’evento B = {il primo numero estratto e 1} ha treeventi favorevoli e la sua proabilita e pari a:

Pr(B) =3

12=

1

4

b. L’intersezione tra l’evento B e l’evento

A = {nella seconda estrazione si ha un 2}Probabilita 168

Page 87: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

e costituita dal’evento (1, 2) per cui la sua probabilita epari a:

Pr(A ∩B) =1

12

c. la probabilita dell’evento A subordinata a B e allora paria:

Pr(A|B) =1/12

1/4=

1

3

Controllate che lo stesso risultato si ottiene consideran-do lo spazio campionario che si forma dopo la primaestrazione.

169 Unita J:

Teorema delle probabilita composte o regolamoltiplicativa delle probabilita

Dalla formula della probabilita condizionata:

Pr(A ∩B) = Pr(A|B) Pr(B)

ma anchePr(A ∩B) = Pr(B|A) Pr(A).

• Legge delle probabilita totali

Se una successione di eventi Ai, con i = 1, · · · , n, costituisceuna partizione dello spazio campionario S, cioe

⋃ni=1 Ai = S e

Ai ∩ Aj = ∅ per i 6= j, allora la probabilita di un qualunqueevento B e data da:

Pr(B) =

n∑i=1

Pr(B|Ai) · Pr(Ai)

Nella figura ilcaso n = 3

B ∩A1

B ∩A2

B ∩A3

B

A1

A2

A3

S

Pr(B) = Pr(B ∩ A1) + Pr(B ∩ A2) + Pr(B ∩ A3)

= Pr(B|A1) · Pr(A1) + Pr(B|A2) · Pr(A2) + Pr(B|A3) · Pr(A3) .

Probabilita 170

Page 88: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Il teorema di Bayes

• Il teorema di Bayes.

Dalla formula della probabilita condizionata sappiamo che

Pr(A ∩B) = Pr(A|B) Pr(B) = Pr(B|A) Pr(A)

da cui le due possibili formule

Pr(A|B) =Pr(B|A) Pr(A)

Pr(B)e

Pr(B|A) =Pr(A|B) Pr(B)

Pr(A)

Formule di Bayes

entrambe valide se i denominatori sono diversi da zero.

171 Unita J:

Esempio applicativo della formula di Bayes edi quella delle probabilita totale

Si hanno 4 scatole di pezzi di ricambio con la seguentecomposizione:

Prima scatola: contiene 2000 pezzi di cui 100 difettosiSeconda scatola: contiene 500 pezzi di cui 200 difettosiTerza scatola: contiene 1000 pezzi di cui 100 di difettosiQuarta scatola: contiene 1000 pezzi di cui 100 difettosi

Viene scelta a caso una scatola, da cui viene estratto un pezzo.

a. Qual e la probabilita che questo componente sia difettoso?

Le quattro scatole rappresentano la partizione dello spaziocampionario, i cui eventi elementari sono tutti i pezzi diricambio.

Tutte le scatole hanno la stessa probabilita di essere estratteed essa e pari a:

Pr(Scatolai) =1

4La percentuale di pezzi difettosi in ogni scatola costituisce laprobabilita di estrarre un pezzo difettoso dato che si e sceltauna particolare scatola, cioe

Pr(pezzo difettoso|Scatola1) = 100/2000 = 0,05

Pr(pezzo difettoso|Scatola2) = 200/500 = 0,40

Pr(pezzo difettoso|Scatola3) = 100/1000 = 0,10

Pr(pezzo difettoso|Scatola4) = 100/1000 = 0,10

Probabilita 172

Page 89: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Applicando la formula delle probabilita totali si ottiene laprobabilita di estrarre un pezzo difettoso qualunque sia lascatola da cui esso e stato estratto:

Pr(pezzo difettoso) = Pr(pezzo difettoso|Scatola1) · Pr(Scatola1)

+ Pr(pezzo difettoso|Scatola2) · Pr(Scatola2)

+ Pr(pezzo difettoso|Scatola3) · Pr(Scatola3)

+ Pr(pezzo difettoso|Scatola4) · Pr(Scatola4)

= (0,05) · (0,25) + (0,4) · (0,25)

+(0,1) · (0,25) + (0,1) · (0,25)

= 0,1625

b. Esaminiamo il pezzo e lo troviamo difettoso. Qual e laprobabilita che provenga,ad esempio, dalla scatola 2.

Pr(Scatola2|pezzo difettoso) =Pr(pezzo difettoso|Scatola2) Pr(Scatola2)

Pr(pezzo difettoso)

=0,4 · 0,25

0,1625= 0,615 (Formula di Bayes)

Notiamo che, senza sapere che il pezzo e difettoso, laprobabilita di aver estratto il pezzo dalla seconda scatolacoincide con la probabilita di aver scelto la seconda scatola,e cioe 1/4 = 0,25. Invece, sapendo che il pezzo e difettoso,questa probabilita viene aggiornata e cresce notevolmente.

Provate a calcolare l’analoga probabilita anche per le altre trescatole.

173 Unita J:

Teorema di Bayes

Il teorema di Bayes precedentemente visto puo essereriformulato in modo piu’ generale come segue:

Sia B ∈ F e siano A1, A2, . . . , An n eventi in F checostituiscono una partizione di S. Se conosciamo le probabilitaPr(Ai) e Pr(B|Ai), con i = 1, . . . , n, allora

Pr(Ai|B) =Pr(B|Ai) Pr(Ai)∑n

j=1 Pr(B|Aj) Pr(Aj)

Probabilita 174

Page 90: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Indipendenza stocastica

Due eventi sono stocasticamente indipendenti se e solo se

Pr(A ∩B) = Pr(A) · Pr(B) .

L’indipendenza stocastica significa che il conoscere A non alterala probabilita di B (e vero anche il viceversa).

Infatti, applicando la formula della probabilita condizionata etenendo conto della condizione di indipendenza, si ha

Pr(A|B) =Pr(A ∩B)

Pr(B)=

Pr(A) · Pr(B)

Pr(B)= Pr(A),

Pr(B|A) =Pr(A ∩B)

Pr(A)=

Pr(A) · Pr(B)

Pr(A)= Pr(B) .

Tre eventi sono stocasticamente indipendenti se e solo se

a. Pr(A1 ∩ A2 ∩ A3) = Pr(A1) Pr(A2) Pr(A3)

b. Pr(Ai ∩ Aj) = Pr(Ai) · Pr(Aj) per i 6= j.

Entrambe le condizioni devono essere soddisfatte. Quest’ultimorisultato e generalizzabile a piu di tre eventi.

175 Unita J:

Ma come si calcola la probabilita?(digressione sul calcolo combinatorio)

La probabilita di un evento secondo l’approccio classico sidefinisce come il rapporto tra il numero di casi (eventielementari) favorevoli al verificarsi dell’evento e il numero deicasi possibili.

Il calcolo combinatorio serve a contare i casi favorevoli e i casipossibili quando abbiamo a che fare con un numero finito dielementi.

Quindi vogliamo contare quante siano, a partire da un insiemeS di n elementi, le composizioni che si possono formare con kelementi di S.

Possiamo supporre, per semplicita, di avere un’urna con npalline e di estrarne k.

Il numero di possibili k-ple dipende dal tipo di estrazione: sedopo aver estratto una pallina la reinseriamo nell’urna primadi procedere ad una nuova estrazione si parla di estrazioni conreinserimento; viceversa, se non reinseriamo le palline, si parladi estrazioni in blocco o senza reinserimento.

Indipendentemente dal tipo di estrazione, il numero di k-pledipende anche dal fatto di considerare due k-ple diverse sehanno gli stessi elementi ma in ordine diverso.

Probabilita 176

Page 91: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Disposizioni con ripetizione di n oggetti in classe k:numero di gruppi di k oggetti di S che si possono formareconsiderando diversi gruppi formati da elementi diversi o daimedesimi elementi purche disposti in modo diverso (l’ordineimporta), ammettendo la possibilita che in essi un elementopossa ripetersi (estrazioni con reinserimento).

D′n,k = nk

Numero di coppie di numeri che si possonoottenere dal lancio di due dadi: 62 = 36

S = {A, B, C}, n = 3, k = 2

A AA BA CB AB BB CC AC BC C

177 Unita J:

Disposizioni senza ripetizione di n oggetti in classe k:numero di gruppi di k oggetti di S che si possono formareconsiderando diversi gruppi formati da elementi diversi o daimedesimi elementi purche disposti in modo diverso (l’ordineimporta), negando la possibilita che in essi un elementopossa ripetersi (estrazioni senza reinserimento).

Dn,k = n · (n− 1) · . . . · (n− k + 2) · (n− k + 1)

=

k−1∏i=0

(n− i)

S = {A, B, C}, n = 3, k = 2

A BA CB AB CC AC B

Probabilita 178

Page 92: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Permutazioni di n oggetti: numero di gruppi di n oggettidi S, distinti per l’ordine con cui essi si dispongono.

Pn = n · (n− 1) · . . . · 2 · 1= n! (n fattoriale)

(0! = 1 per convenzione)

Pn e equivalente a Dn,n.

S = {A, B, C}, n = 3

A B CA C BB A CB C AC A BC B A

NOTA: le disposizioni semplici si possono scrivere in terminidi fattoriali

Dn,k =n!

(n− k)!

=n · (n− 1) · . . . · (n− k + 2) · (n− k + 1) · (n− k)!

(n− k)!= n · (n− 1) · . . . · (n− k + 2) · (n− k + 1) .

179 Unita J:

Combinazioni semplici di n oggetti in classe k: numerodi gruppi di k oggetti di S che si possono formare consideran-do diversi gruppi formati da elementi diversi, a prescinderedall’ordine con cui essi si dispongono (l’ordine non importa) enegando la possibilita che in essi un elemento possa ripetersi(estrazioni senza reinserimento).

Cn,k =n!

k!(n− k)!

=Dn,k

k!

=

∏k−1i=0 (n− i)

k!

=

(n

k

)

S = {A, B, C}, n = 3, k = 2 A BA CB C

Probabilita 180

Page 93: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Esempi

Carte. Supponiamo di giocare a scopone scientifico. Il mazzoha 40 carte e ne vengono assegnate 10 ad ogni giocatore.Quanti sono i possibili gruppi di 10 carte che un giocatorepuo ricevere?

L’estrazione delle carte e evidentemente in blocco (senzareinserimento) e, ai fini del gioco, non ha rilevanza in cheordine il giocatore riceve le 10 carte. Quindi dobbiamoconsiderare le combinazioni di 40 elementi in classe 10:

C40,10 =

(40

10

)=

40!

10! 30!= 847660528 .

Se vogliamo calcolare la probabilita che un giocatore abbiatutti e quattro gli assi, il numero di casi favorevoli a questoevento sono tutti i gruppi di 10 carte che hanno al lorointerno i quattro assi e un qualsiasi sottogruppo di 6 cartescelto tra le rimanenti 36:

C36,6 =

(36

6

)=

36!

6! 30!= 1947792 .

La probabilita e quindi pari a:

Pr(“avere 4 assi”) =1947792

847660528= 0,002297844 .

181 Unita J:

Lotto Si estraggono 5 numeri da un’urna contenente i primi90 numeri. Nelle estrazioni del lotto le palline estrattenon vengono reinserite nell’urna ed e importante saperel’ordine in cui i vari numeri vengono estratti (si pensial Superenalotto, che considera il primo estratto di certeestrazioni).

Il numero di possibili cinquine ordinate e pari alle disposizionidi 90 oggetti in classe 5:

D90,5 = 90 · 89 · 88 · 87 · 86 = 5273912160 .

Quindi la probabilita di estrarre una particolare cinquina(ordinata), ad esempio (34, 53, 12, 1, 89), e pari a

Pr{(34, 53, 12, 1, 89)} =1

5273912160= 1,896126e− 10 ,

e cioe prossima a zero.

Probabilita 182

Page 94: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Unita K

Variabili casuali

Definizione di variabile casuale

Lo spazio campionario puo non essere un insieme di numeri. Illancio di una moneta non da luogo ad un numero.

Vogliamo definire una variabile Y che conta il numero di testeche si possono avere nel lancio di una moneta. Questa variabilepuo assumere i valori 0 o 1. Ad ogni elemento dello spaziocampionario S = {T, C} associamo 0 se otteniamo Croce, 1se otteniamo Testa.

Y (s) =

{0, se s = C1, se s = T

Definiamo ora una funzione che associa ad un qualunque spaziocampionario un insieme numerico.

Una variabile casuale Y (indicata per brevita anche con v.c.)in uno spazio campionario S e una qualunque funzione definitain S e con valori nell’insieme dei numeri reali (e tale che l’immagine

inversa di ogni intervallo di numeri reali sia un evento - ma questo discorso

ci porterebbe lontano).

Variabili casuali 184

Page 95: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Come assegnamo le probabilita ai valori di Y ? Se ammettiamoche la moneta sia equilibrata, allora e naturale porre

Pr(Y (s) = 1) = Pr(T ) = 1/2, Pr(Y (s) = 0) = Pr(C) = 1/2.

Supponiamo ora di avere un diverso esperimento: lanciamo undado (regolarmente bilanciato) e costruiamo la variabile casuale

Y (s) =

{0, se s = numero pari1, se s = numero dispari

In questo caso, S = {1, 2, 3, 4, 5, 6} e ci sono piu eventielementari che danno luogo allo stesso valore di Y . Quindisi ha

Pr(Y (s) = 1) = Pr({1, 3, 5}) = Pr(1 ∪ 3 ∪ 5)

= Pr(1) + Pr(3) + Pr(5) =1

6+

1

6+

1

6=

1

2Pr(Y (s) = 0) = Pr({2, 4, 6}) = Pr(2 ∪ 4 ∪ 6)

= Pr(2) + Pr(4) + Pr(6) =1

6+

1

6+

1

6=

1

2.

Notiamo che due diversi esperimenti hanno portato allacostruzione della stessa variabile casuale Y . Nel secondo caso,a differenza del primo, non c’e corrispondenza biunivoca tra glielementi di S e i valori di Y .

185 Unita K:

In generale, si avra che a diversi elementi di S corrispondera lostesso numero a. Per cui definiremo la probabilita che Y siauguale ad a, e scriveremo

Pr(Y = a),

come la probabilita dell’unione di tutti gli eventi elementari chela funzione Y associa al valore a:

Pr(Y = a) = Pr({s ∈ S : Y (s) = a}) .

Piu in generale, se a < b, si avra ad esempio che

Pr(a < Y ≤ b) = Pr({s ∈ S : a < Y (s) ≤ b}) .

Variabili casuali 186

Page 96: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Variabili casuali discrete

Sia Y una variabile casuale e supponiamo per ora che Y assumasolo un numero finito di valori (reali):

Y (S) = {y1, y2, . . . , yk}

L’insieme di valori che Y puo assumere e detto anche supportodella variabile casuale.

Assegnamo ad ogni yi le probabilita

Pr(Y = yi) = Pr({s ∈ S : Y (s) = yi})

quantita che scriviamo piu semplicemente come p(yi)

Questo definisce una funzione p(·) in Y (S), funzione che haqueste proprieta (conseguenze degli assiomi della probabilita):

a. 0 ≤ p(yi) ≤ 1, (per i = 1, . . . , k)

b.∑k

i=1 p(yi) = 1

che chiamiamo funzione di probabilita della variabile casuale(discreta) Y .

187 Unita K:

Funzione di probabilita

Una v.c. discreta e nota se si conoscono i valori che puoassumere (supporto) e le rispettive probabilita (funzione diprobabilita).

Possiamo rappresentare la funzione di probabilita con unatabella

y1 y2 · · · yk

p(y1) p(y2) · · · p(yk)

Notate qualche analogia con concetti gia visti?

Graficamente si puo rappresentare con un diagramma abastoncini:

y1 y2 y3 ..... yk

0

p(y)

Funzione di probabilita’

Variabili casuali 188

Page 97: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Il punteggio totale riportato nel lancio didue dadi

Il nostro esperimento casuale consiste nel lancio di due dadiequilibrati. Abbiamo pertanto uno spazio campionario finitocon eventi elementari equiprobabili costituito da 36 coppieordinate

S = {(1, 1), (1, 2), . . . , (6, 5), (6, 6)}Sia Y la funzione che ad ogni elemento di S associa la sommadei punti riportati sulle due facce

Y (a, b) = a + b

Allora Y e una variabile casuale con valori

Y (S) = {2, 3, . . . , 12}

(si sarebbe potuto definire un’altra variabile casuale, ad esempioY (a, b) = a/

√b, ma forse non incontreremo mai questa

variabile casuale. . . ).

189 Unita K:

La funzione di probabilita e la seguente

Pr(Y = 2) = Pr{(1, 1)} =1

36,

Pr(Y = 3) = Pr{(1, 2) ∪ (2, 1)} = Pr{(1, 2)} + Pr{(2, 1)}

=1

36+

1

36=

2

36,

...

Pr(Y = 12) = Pr{(6, 6)} =1

36.

yi 2 3 4 5 6 7 8 9 10 11 12p(yi)

136

236

336

436

536

636

536

436

336

236

136

2 4 6 8 10 120.

040.

060.

080.

100.

120.

140.

16

y

f(y)

Funzione di probabilita‘

Variabili casuali 190

Page 98: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Una v.c. discreta che assume infiniti valori

Una v.c. discreta puo assumere anche un numero infinito divalori, purche numerabile.

Consideriamo il seguente esperimento:un’urna contiene N palline nere e R palline bianche.Supponiamo di fare estrazioni con reinserimento da quest’urna edi considerare la v.c. Y =“numero di estrazioni necessarieper ottenere una pallina nera la prima volta”.

Se indichiamo con Ei l’evento “pallina nera all’i-esimaestrazione”, si ha θ = Pr(Ei) = N/(N+R), ∀i. La v.c. Y puoassumere i valori {1, 2, 3, . . . , i, . . .} con le seguenti probabilita:

Pr(Y = 1) = Pr(E1) = θ ,

Pr(Y = 2) = Pr(Ec1 ∩ E2) = Pr(Ec

1) Pr(E2) = (1− θ) · θPr(Y = 3) = Pr(Ec

1 ∩ Ec2 ∩ E3) = Pr(Ec

1) Pr(Ec2) Pr(E3) = (1− θ)2θ

...

Pr(Y = i) = Pr(Ec1 ∩ · · · ∩ Ec

i−1 ∩ Ei) = Pr(Ec1) · · ·Pr(Ec

i−1) Pr(Ei)

= (1− θ)i−1θ...

yi 1 2 3 · · · i · · ·p(yi) θ (1− θ)θ (1− θ)2θ · · · (1− θ)i−1θ · · ·

191 Unita K:

Essendo 0 < θ < 1, e ovvio che p(yi) ≥ 0.

Inoltre, sfruttando le proprieta della serie geometrica, e facilevedere che

∞∑i=1

p(yi) =

∞∑i=1

(1− θ)i−1θ =θ

1− θ

∞∑i=1

(1− θ)i = 1 .

Grazie a questo legame con la serie geometrica, la v.c. Y sidice avere distribuzione geometrica.

Possiamo calcolare la probabilita di qualsiasi evento di interesse;per esempio, si puo calcolare la probabilita che siano necessariepiu di 4 estrazioni:

Pr(Y > 4) = 1− Pr(Y ≤ 4)

= 1− [Pr(Y = 1) + Pr(Y = 2) + Pr(Y = 3) + Pr(Y = 4)]

= 1− [θ + (1− θ)θ + (1− θ)2θ + (1− θ)3θ]

= 1− 4θ + 6θ2 − 4θ3 + θ4

= (1− θ)4 .

D’altra parte, questo risultato era ovvio, pensando che l’evento(Y > 4) si verifica se e solo se non si estrae una pallina neranelle prime 4 estrazioni. Quindi:

Pr(Y > 4) = Pr(Ec1 ∩ Ec

2 ∩ Ec3 ∩ Ec

4)

= Pr(Ec1) Pr(Ec

2) Pr(Ec3) Pr(Ec

4)

= (1− θ)(1− θ)(1− θ)(1− θ)

= (1− θ)4 .

Variabili casuali 192

Page 99: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

La funzione di ripartizione

A questo punto risulta naturale introdurre la funzione diripartizione della variabile casuale Y tramite la formula

F (y) = Pr(Y ≤ y) =∑yi≤y

p(yi).

Questa funzione e tale che

a. e non decrescente, ovvero se a ≤ b, F (a) ≤ F (b).

b. F (y) = 0 se y < min(yi) e F (y) = 1 se y ≥ max(yi).

c. F (y) e continua a destra: limy→y+

0

F (y) = F (y0)1.

La proprieta 1. e ovvia, la 2. e una conseguenza del fatto checomunque la funzione di ripartizione e una probabilita e quindie compresa tra il limite inferiore 0 e quello superiore 1. Infine,la proprieta 3. ci dice che, se la v.c. e discreta, la funzionedi ripartizione presenta delle discontinuita nei punti y in cuiPr(Y = y) > 0.

1y → y+0 vuol dire che y tende a y0 da destra

193 Unita K:

Somma del punteggio di due dadi

F (y) =

0, y < 2

1/36, 2 ≤ y < 3

3/36, 3 ≤ y < 4

6/36, 4 ≤ y < 5

10/36, 5 ≤ y < 6

15/36, 6 ≤ y < 7

21/36, 7 ≤ y < 8

26/36, 8 ≤ y < 9

30/36, 9 ≤ y < 10

33/36, 10 ≤ y < 11

35/36, 11 ≤ y < 12

1, y ≥ 122 4 6 8 10 12

0.0

0.2

0.4

0.6

0.8

1.0

Funzione di ripartizione

y

F(y

)

Notiamo che, ad esempio,

limy→3+

F (y) = F (3) = 3/36

malim

y→3−F (y) = 1/36,

infatti Pr(Y = 3) = 2/36.

Variabili casuali 194

Page 100: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

A partire della funzione di ripartizione possiamo calcolarefacilmente per a < b

F (b) = Pr(Y ≤ b) = Pr({Y ≤ a} ∪ {a < Y ≤ b})= Pr({Y ≤ a) + Pr(a < Y ≤ b)

= F (a) + Pr(a < Y ≤ b)

e quindiPr(a < Y ≤ b) = F (b)− F (a)

Quindi, ad esempio,

Pr(4 < Y ≤ 10.2) = F (10.2)− F (4) =33

36− 6

36=

27

36.

Bisogna stare attenti ai “salti” di F(y)! Ad esempio,

Pr(4 ≤ Y ≤ 10.2) = F (10.2)− F (4−) =33

36− 3

36=

30

36.

Notiamo infine che p(y) e F (y) sono in corrispondenzabiunivoca

p(y0) = Pr(Y = y0) = Pr(y0 ≤ Y ≤ y0) = F (y0)− F (y−0 ) .

195 Unita K:

Valore atteso e varianza di una variabilecasuale discreta

Data una v.c. discreta Y con supporto (per semplicita finito){y1, y2, . . . , yk} e con funzione di probabilita p, chiamiamovalore atteso di Y la quantita

E(Y ) =

k∑i=1

yi p(yi)

ovvero E(Y ) e una media pesata dei k valori yi, con pesi p(yi),analogamente al caso della media aritmetica y.

Va osservata, tuttavia, la grande differenza tra i due concetti:

� y e il valore associato ad un particolare (e reale) insieme didati;

� E(Y ) esiste indipendentemente da qualsiasi rilevazionedei dati (prima di effettuare l’esperimento che genera Ypossiamo calcolare E(Y )).

Si suole porre µ = E(Y ).

Variabili casuali 196

Page 101: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Nel caso dell’esempio del lancio dei due dadi abbiamo

E(Y ) = 21

36+ 3

2

36+ 4

3

36+ 5

4

36+ 6

5

36+ 7

6

36

+ 85

36+ 9

4

36+ 10

3

36+ 11

2

36+ 12

1

36= 7

come si poteva dedurre dal grafico della funzione didistribuzione.

Analogamente a quanto succede per y, si ha

Proposizione 1

E(a + bY ) = a + bE(Y ) ,

dove a e b sono due costanti.

Dimostrazione.

k∑i=1

(a + byi)p(yi) = a

k∑i=1

p(yi) + b

k∑i=1

yip(yi) = a + bE(Y )

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .�

Piu in generale, definiamo il valore atteso di h(Y ), dove h euna funzione qualsiasi, la quantita

E(h(Y )) =

k∑i=1

h(yi)p(yi) .

197 Unita K:

Esempi:

� h(Y ) = Y ⇒ E(h(Y )) = E(Y ) = µ

� h(Y ) = Y r, r = 1, 2, . . . momento di ordine r

� h(Y ) = (Y − µ)r, r = 1, 2, . . . momento centrato diordine r

La varianza di Y corrisponde al caso h(Y ) = (Y − µ)2.

Var(Y ) =

k∑i=1

(yi − µ)2p(yi) = E((Y − µ)2)

La quantita sqm(Y ) =√

Var(Y ) e detta scarto quadraticomedio di Y . Valgono qui considerazioni analoghe a quelle fattea proposito della coppia y, E(Y ). Di solito si scrive σ2 perindicare Var(Y ) e σ per sqm(Y ). Si dimostra facilmente che

Var(Y ) = E(Y 2)− [E(Y )]2

e che

Proposizione 2

Var(a + bY ) = b2Var(Y ) .

Variabili casuali 198

Page 102: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Trasformazione di una variabile casuale

Una funzione h di una variabile casuale Y e a sua volta unavariabile casuale.

Infatti, ponendo X = h(Y ), questa e una funzione dai numerireali nei numeri reali. Tuttavia, Y e una funzione che assegnaad ogni evento elementare ω un numero reale. Quindi, si ha

ωY−−−−→ Y (ω)

h−−−−→ h(Y (ω))

che puo essere riscritto come la composizione delle funzioni he Y

ωX=h◦Y−−−−−−−→ X(ω) .

Quindi X e una funzione che assegna ad ogni evento elementareun numero reale: X e una variabile casuale.

Conoscendo la funzione di probabilita di Y si puo ottenere lafunzione di probabilita di X nel modo seguente:

pX(x) = Pr(X = x) = Pr(Y ∈ {y : h(y) = x})

e cioe sommando la probabilita di tutti i valori di Y che vengonoassegnati al valore x dalla funzione h.

199 Unita K:

Ancora sul lancio dei due dadi

Abbiamo gia definito la v.c. Y che rappresenta il punteggiototale ottenuto dal lancio di due dadi:

y 2 3 4 5 6 7 8 9 10 11 12pY (y) 1

36236

336

436

536

636

536

436

336

236

136

Definiamo la v.c. X = h(Y ) = Y − E(Y ) = Y − 7 che e unatrasformazione lineare (una semplice traslazione) della v.c. Y .

Dalla Proposizione 1 sappiamo gia che E(X) = E(Y ) − 7 =7−7 = 0. Determiniamo adesso l’intera funzione di probabilitadi X; in questo caso, essendo X una funzione biunivoca di Y ,e banale determinare pX(x):

y 2 3 4 5 6 7 8 9 10 11 12x -5 -4 -3 -2 -1 0 1 2 3 4 5

pX(x) 136

236

336

436

536

636

536

436

336

236

136

pX(x) = Pr(X = x) = Pr(Y − 7 = x) = Pr(Y = 7 + x)

= pY (7 + x) , x = −5, . . . , 5

Quindi, ad esempio, pX(−3) = pY (7− 3) = pY (4) = 3/36.

Variabili casuali 200

Page 103: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Definiamo un’ulteriore v.c., considerando la seguente trasformazio-ne della v.c. X appena definita: Z = g(X) = |X|, ossia lafunzione valore assoluto di X.

In questo caso la funzione non e biunivoca, in quanto ci possonoessere diversi valori di X che portano allo stesso valore di Z:

x -5 -4 -3 -2 -1 0 1 2 3 4 5z 5 4 3 2 1 0 1 2 3 4 5

pX(x) 136

236

336

436

536

636

536

436

336

236

136

La funzione di probabilita di Z si ottiene nel modo seguente:

pZ(0) = Pr(Z = 0) = Pr(X = 0) = pX(0) = 6/36

pZ(1) = Pr(Z = 1) = Pr({X = −1} ∪ {X = 1})= Pr(X = −1) + Pr(X = 1) = pX(−1) + pX(1) = 10/36...

pZ(5) = pX(−5) + pX(5) = 2/36

z 0 1 2 3 4 5pZ(z) 6

361036

836

636

436

236

Esercizio 3 Verificare che

E(Z) =

6∑j=1

zjpZ(zj) =

11∑i=1

|xi|pX(xi) .

201 Unita K:

La distribuzione binomiale

Consideriamo il seguente problema:

“qual e la probabilita di ottenere esattamente 3 volte il 4 in 15lanci di un dado ?”

Il problema puo sembrare poco interessante o perlomenoaccademico, ma la sua risoluzione ci porta all’incontro con unavariabile casuale di grande importanza nelle applicazioni.

Il problema rientra nella classe di problemi in cui un esperimentoelementare con due possibili risultati, detti successo einsuccesso, viene ripetuto indipendentemente m volte e cichiediamo qual e la probabilita di ottenere k successi sapendoche la probabilita di successo in ogni prova e p.

Nel nostro caso l’esperimento elementare e il lancio del dado,il successo e “appare il 4”, l’insuccesso e “non appare il 4”, me 15 , k e 3 e p ammettendo equiprobabilita delle facce e 1/6.

Una precisazione: qui l’esperimento casuale e l’insieme dei 15lanci (supposti indipendenti l’uno dell’altro: possiamo anchepensare di lanciare simultaneamente 15 dadi), cioe l’insiemedei 15 esperimenti elementari.

Variabili casuali 202

Page 104: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Lo spazio campionario e quindi costituito dalle sequenze deltipo

fffffsffffsffff

dove s sta per successo (esce il 4) e f sta per fallimento (nonesce il 4). Il numero di queste sequenze e 215 = 32768.

Ritornando al caso generale, lo spazio campionario S e l’insiemecostituito dalle 2m sequenze di f e s di lunghezza m enoi definiamo una variabile casuale B, in questo modo: sesequenza ∈ S

B(sequenza) = numero di s nella sequenza

cioe, la variabile casuale B “conta” il numero di successi in mprove indipendenti. E chiaro che

B(S) = {0, 1, . . . ,m}

e vogliamo ora determinare la funzione di probabilita di B.

Dobbiamo determinare Pr(B = k) con 0 ≤ k ≤ m e questonon e altro che risolvere nel caso generale il problema che cieravamo posti per il dado.

B e uguale a k se si verifica una sequenza con k lettere s e m−klettere f . Ad esempio, se m = 3 e k = 2, le possibili sequenzesono: ssf , sfs, fss. Inoltre, ognuna di queste sequenze ha lastessa probabilita di verificarsi.

203 Unita K:

In generale, dobbiamo calcolare, per ogni k tra 0 e m, laprobabilita dell’evento A ⊂ S costituito da tutte le sequenzecon k lettere s e m − k lettere f . Ora, A possiede

(mk

)=

m!k!(m−k)! sequenze e la probabilita di ognuna di esse e data da

pk(1− p)m−k. Pertanto la probabilita cercata e

Pr(B = k) =

(m

k

)pk(1− p)m−k.

In genere Pr(B = k) si indica con Bin(k; m, p).

I due parametri m e p sono importanti.

0 2 4 6 8 10

0.00

0.10

0.20

m=10, p=0.5

k

P(K=k)

0 5 10 15 20

0.00

0.10

m=20, p=0.5

k

Pr(K=k)

0 2 4 6 8 10

0.00

0.10

0.20

0.30

m=10, p=0.2

k

Pr(K=k)

0 2 4 6 8 10

0.00

0.10

0.20

0.30

m=10, p=0.8

k

Pr(K=k)

Variabili casuali 204

Page 105: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Se B e una variabile casuale che si distribuisce in accordo alladistribuzione binomiale (piu brevemente B ∼ B(m, p)) allorasi puo dimostrare che

E(B) = mp, Var(B) = mp(1− p).

Nel caso del dado, B ∼ B(15, 1/6) e la probabilita richiesta e

Bin(3; 15, 1/6) =

(15

3

)(1

6

)3(5

6

)12

=15!

3!12!

(1

6

)3(5

6

)12

' 0.2363

Inoltre, il valore atteso e E(B) = 15 · 1/6 = 2,5 e lo scartoquadratico medio e pari a

√15 · 1/6 · 5/6 = 1,4434.

Possiamo anche calcolare, ad esempio,

Pr(“almeno un 4”) = 1− Pr(“nessun 4”)

Pr(B ≥ 1) = 1− Pr(B < 1) = 1− Pr(B = 0)

= 1−(

15

0

) (1

6

)0 (5

6

)15

= 0,9351 .

oppure

Pr(2 ≤ B < 5) = Pr(B = 2) + Pr(B = 3) + Pr(B = 4)

= provate da soli. . .

205 Unita K:

La distribuzione bernoulliana

Nel caso particolare in cui m = 1, la v.c. binomiale (B ∼B(1, p)) viene chiamata v.c. di Bernoulli (o bernoulliana): B ∼Ber(p).

La v.c. bernoulliana puo assumere solo due valori, 0 e 1,rispettivamente con probabilita’ p e 1− p.

Il valore atteso e pari a

E(B) = 1 p + 0 (1− p) = p

e la varianza e pari a

Var(B) = E(B2)−E(B)2 = [12p+02(1−p)]−p2 = p(1−p) .

Dalla definizione di v.c. binomiale e immediato notare che lasomma di m v.c. indipendenti Bi ∼ Ber(p), i = 1, . . . ,m, euna v.c. binomiale: B =

∑mi=1 Bi ∼ B(m, p).

Variabili casuali 206

Page 106: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

La distribuzione di Poisson

Nell’esempio precedente abbiamo visto quale variabile aleatoriapuo essere utilizzata per descrivere il numero di successi in mprove bernoulliane di probabilita θ.

Cosa succede a questa v.a., qui indicata con P , quando ilnumero di prove m tende all’infinito e la probabilita θm decrescein modo che il prodotto mθm tenda a una costante, cioeθm = λ/m ?

La risposta, per un m fissato, viene ancora fornita dalladistribuzione binomiale:

Pr(P = k) =

(m

k

)(λ

m

)k(1− λ

m

)m−k

=m!

mk(m− k)!

λ

k!

k(1− λ

m

)m(1− λ

m

)−k

Facendo tendere m all’infinito otteniamo

limm→∞

m!

mk(m− k)!

λ

k!

k(1− λ

m

)m(1− λ

m

)−k

=λke−λ

k!

207 Unita K:

Infatti,

limm→∞

m!

mk(m− k)!= lim

m→∞

m(m− 1) · · · (m− k + 1)

mk

= limm→∞

[1

(1− 1

m

)· · ·(

1− k − 1

m

)]= 1 ,

limm→∞

(1− λ

m

)m

= e−λ ,

limm→∞

(1− λ

m

)−k

= 1 .

L’espressione trovata e la funzione di probabilita di una variabilealeatoria discreta che puo assumere i valori interi 0, 1, 2, . . .(infatti in un numero infinito di prove bernoulliane possiamoavere un numero infinito di successi).Tale variabile viene chiamata di Poisson di parametro λ > 0e viene indicata con Pois(λ). Riassumendo la funzione diprobabilita e

Pr(P = k) =λke−λ

k!k = 0, 1, 2, . . .

Variabili casuali 208

Page 107: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

0 10 20 30

0.0

0.3

0.6

λ=0.5

k

Pr(

P=

k)

0 10 20 30

0.00

0.15

λ=2

k

Pr(

P=

k)

0 10 20 30

0.00

0.10

λ=5

k

Pr(

P=

k)

0 10 20 30

0.00

0.06

λ=15

k

Pr(

P=

k)

Il parametro λ determina i momenti della distribuzione, inparticolare

E(P ) = λ Var(P ) = λ

cosı, λ e sia la media che la varianza della variabile.

209 Unita K:

La variabile di Poisson, come vedremo meglio nel corso diStatistica II, puo essere utilizzata per descrivere molti fenomeni,ad esempio:

� Il numero di telefonate che arrivano ad una centralinatelefonica in un’ora,

� Il numero di messaggi di posta elettronica che arrivano adun utente in un giorno

� Il numero di decessi di titolari di una polizza di assicurazionesulla vita occorsi in un anno.

� Il numero di transazioni bancarie effettuate da uno sportelloal giorno.

Variabili casuali 210

Page 108: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Il calcolo della funzione di probabilita puo essere fatta in modoricorsivo, infatti:

Pr(P = k + 1)

Pr(P = k)=

e−λλk+1/(k + 1)!

e−λλk/k!=

λ

k + 1.

Iniziando da Pr(P = 0) = e−λ allora abbiamo

Pr(P = 1) = λ Pr(P = 0)

Pr(P = 2) =λ

2Pr(P = 1)

...

Pr(P = k + 1) =λ

k + 1Pr(P = k)

Supponiamo, per esempio di dover calcolare la funzione diripartizione in k = 6 di una variabile di Poisson di parametroλ = 5 allora

F (6) = Pr(P ≤ 6)

=

6∑k=0

Pr(P = k) = Pr(P = 0) + · · · + Pr(P = 6)

= e−5 + 5e−5 +5

25e−5 +

5

3

5

25e−5 + · · · + 5

6

5

5

5

4

5

3

5

25e−5

= 0.006738 + 0.033690 + · · · + 0.146223

= 0.762

211 Unita K:

Variabile casuali continue

Consideriamo ora il caso in cui lo spazio campionario S e infinitoe Y (S) e l’insieme dei numeri reali o un intervallo di numerireali, comunque un continuo di numeri (cioe un insieme nonnumerabile).

Per fissare le idee e per spiegare cosa intendiamo nella praticacon una situazione del genere, pensiamo alla misura del tempoimpiegato per portare a termine una transazione finanziaria.

Supponiamo ora di osservare un milione di transazioni (sonotante e possono dare l’idea di un numero infinito, tuttaviaquesto numero non e una esagerazione in mercati telematici).

Supponiamo (questa sı e una esagerazione) che il nostrostrumento di misura del tempo fornisca valori con 20 cifredecimali e che le transazioni si distribuiscano intorno ai 2,3secondi.

Variabili casuali 212

Page 109: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Data la straordinaria precisione dello strumento di misura equasi certo che non avremo due dati uguali e pertanto serappresentiamo i nostri dati con un diagramma a bastonciniotteremo

y

freq

1.0 1.5 2.0 2.5 3.0 3.5

1

213 Unita K:

Se prendiamo un qualunque numero compreso tra 0.5 e 3.8siamo quasi certi che questo numero non corrisponde ad undato, ma siamo altrettanto certi che il nostro numero e vicinoad un dato. Anzi se il nostro numero e preso nella zona centraleesso trova molti dati vicini, o, il che e sostazialmente lo stessotrova un dato molto vicino.

Abbiamo quindi una variabile casuale Y (S) che ad ognitransazione associa il valore (numerico) del tempo ditransazione, ossia un numero nell’intervallo [0.5,3.8] e ilragionamento precedente ci “autorizza” a dire che ogni numerodi questo intervallo e un dato, cioe corrisponde ad un campione.

Diciamo allora che siamo in presenza di una variabile casualecontinua. Nella pratica potremmo avere un numero limitatodi dati ma continuiamo a pensare in termini di variabili casualicontinue supponendo che i dati in esame siano alcuni degliinfiniti dati che avremmo potuto ottenere.

Variabili casuali 214

Page 110: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Funzione di densita

Supponiamo di rappresentare i dati mediante istogrammi conun numero sempre maggiore di classi. Non e difficile convincersiche facendo crescere indefinitamente il numero di classi siarriva (al limite) alla curva nel grafico in basso a destra

Istogramma 1

y

f(y)

0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0

0.0

0.2

0.4

0.6

0.8

1.0

Istogramma 2

y

f(y)

0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0

0.0

0.2

0.4

0.6

0.8

1.0

Istogramma 3

y

f(y)

1.0 1.5 2.0 2.5 3.0 3.5 4.0

0.0

0.2

0.4

0.6

0.8

1.0

Densita’

y

f(y)

0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0

0.0

0.2

0.4

0.6

0.8

1.0

Indichiamo questa funzione con f (y) e la chiamiamo funzionedi densita.

215 Unita K:

Come facciamo a rendere l’intervallo Y (S) = [0.5, 3.8] unospazio di probabilita?

E chiaro che la probabilita associata a ciascuno degli y ∈[0.5, 3.8] e zero, ma pensando alla genesi della curva ovveroche l’area sotto la curva e uguale a 1 e che l’area sotto la curvaper y ∈ [a, b], essendo la somma delle aree dei rettangolinicon base contenuta in [a, b] e pari alla frequenza relativa deicampioni con tempi tra a e b, otteniamo che

Pr(a < Y ≤ b) = area sotto la curva f (y) tra a e b

=

∫ b

a

f (t)dt

Densità

y

f(y)

0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0

0.0

0.2

0.4

0.6

0.8

1.0

Analogamente al caso discreto, si ha:

a. f (y) ≥ 0, ∀y ∈ R.

b.∫ +∞−∞ f (t)dt = 1.

Variabili casuali 216

Page 111: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Funzione di ripartizione di una variabilecontinua

Possiamo definire quindi la funzione di ripartizione per unavariabile casuale continua

F (y) = Pr(Y ≤ y) =

∫ y

−∞f (t)dt.

e otteniamo

Pr(a < Y ≤ b) = F (b)− F (a) =

∫ b

−∞f (t)dt−

∫ a

−∞f (t)dt.

Se la funzione di ripartizione e una funzione continua allora

Pr(Y = y0) = limε→0

Pr(y0 < Y ≤ y0 + ε)

= limε→0

F (y0 + ε)− F (y0) = 0

e cioe ogni singolo punto ha probabilita nulla. Questo implicache

Pr(a < Y ≤ b) = Pr(a ≤ Y < b) = Pr(a < Y < b) = Pr(a ≤ Y ≤ b) .

Se la funzione di ripartizione e derivabile possiamo calcolare lafunzione di densita semplicemente derivando

f (y) =dF (y)

dy.

217 Unita K:

Esempi

a. Sia

f (y) =

{1, 0 < y < 10, altrimenti

allora

F (y) =

∫ y

−∞f (t)dt =

0, y ≤ 0y, 0 < y < 11, y ≥ 1

b. Sia

f (y) =

{y/2, 0 < y < 20, altrimenti

allora

F (y) =

∫ y

−∞f (t)dt =

0, y ≤ 0y2/4, 0 < y < 2

1, y ≥ 2

c. Sia

f (y) =

{e−y, y > 00, altrimenti

allora

F (y) =

∫ y

−∞f (t)dt =

{0, y ≤ 0

1− e−y, y > 0

Variabili casuali 218

Page 112: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Esempi

−0.2 0.2 0.6 1.0

0.00.2

0.40.6

0.81.0

y

f(y)

Funzione di densita’

−0.2 0.2 0.6 1.0

0.00.2

0.40.6

0.81.0

y

F(y)

Funzione di ripartizione

0.0 0.5 1.0 1.5 2.0

0.00.2

0.40.6

0.81.0

y

f(y)

Funzione di densita’

0.0 0.5 1.0 1.5 2.0

0.00.2

0.40.6

0.81.0

y

F(y)

Funzione di ripartizione

0 5 10 15

0.00.2

0.40.6

0.81.0

y

f(y)

Funzione di densita’

0 5 10 15

0.00.2

0.40.6

0.81.0

y

F(y)

Funzione di ripartizione

219 Unita K:

Valore atteso e varianza

Per il calcolo di queste quantita si procede in modo analogo aquanto fatto nel caso discreto (con le sommatorie che vengono“sostituite” da integrali. . . ).

Quindi, ammesso che gli integrali esistano (non e sempre vero!),si ha

µ = E(Y ) =

∫ +∞

−∞y f (y) dy

σ2 = Var(Y ) =

∫ +∞

−∞(y − µ)2f (y)dy

= E(Y 2)− E(Y )2

=

∫ +∞

−∞y2 f (y) dy − µ2 .

Piu in generale per una generica funzione h (sempre chel’integrale esista!), si ha

E(h(Y )) =

∫ +∞

−∞h(y)f (y)dy .

Variabili casuali 220

Page 113: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Esempio

Sia

f (y) =

{e−y, y > 00, altrimenti

allora, integrando per parti, si ha

µ =

∫ +∞

−∞yf (y)dy =

∫ +∞

0

y e−ydy

=[−y e−y

]+∞0

+

∫ ∞

0

e−ydy = 1

e ∫ +∞

−∞y2f (y)dy =

∫ +∞

0

y2 e−ydy

=[−y2 e−y

]+∞0

+ 2

∫ ∞

0

y e−ydy = 2

Quindi, µ = 1 e σ2 = 2− (1)2 = 1.

Esercizio 4 Provate a calcolare valore atteso e varianza ancheper le v.c. degli esempi 1. e 2. visti in precendenza.

221 Unita K:

La variabile casuale uniforme

Sia Y una variabile casuale la cui funzione di densita e

f (y) =

{1

b−a se a ≤ y ≤ b0 altrimenti

Diciamo allora che Y si distribuisce uniformemente in [a, b].

E facile vedere (provate!) che

µ =a + b

2, σ2 =

(b− a)2

12

0 1 2 3 4 5 6 7

0.0

0.1

0.2

0.3

0.4

y

f(y)

Funzione di densita’

0 1 2 3 4 5 6 7

0.0

0.2

0.4

0.6

0.8

1.0

y

F(y

)

Funzione di ripartizione

L’esempio 1. visto in precendenza era una v.c. uniforme cona = 0 e b = 1.

Variabili casuali 222

Page 114: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

La variabile casuale normale o gaussiana

La piu importante distribuzione continua e la distribuzionenormale o gaussiana, che ha le seguente densita

f (y; µ, σ2) =1

σ√

2πe−

12(

y−µσ )

2

Il parametro µ rappresenta il valore atteso della variabilementre il parametro σ2 rappresenta la varianza della variabile.Noteremo con Y ∼ N (µ, σ2) una variabile casuale normale divalore atteso µ e varianza σ2.

Vediamo ora come cambia la forma densita al variare delparametro varianza (σ2)

−15 −10 −5 0 5 10 15 20

0.0

0.1

0.2

0.3

0.4

Funzione di densità

y

f(y)

N(3,4)N(3,1)N(3,25)

223 Unita K:

e al variare del parametro media (µ)

−5 0 5 10

0.00

0.05

0.10

0.15

0.20

0.25

Funzione di densità

y

f(y)

N(3,4)N(1,4)N(5,4)

Osservazioni:

� la funzione di densita e simmetrica rispetto alla media;

� media (≡ valore atteso), moda e mediana coincidono;

� Una particolare distribuzione e la distribuzione normalestandard (Z ∼ N (0, 1)), ossia con media pari a 0 evarianza pari a 1 e densita

f (z) =1√2π

e−12z2

.

Variabili casuali 224

Page 115: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Calcolo della probabilita per una variabilecasuale normale

In generale vorremmo calcolare degli integrali del tipo

F (y) =1

σ√

∫ y

−∞e−

12(

t−µσ )

2

dt

ma non e possibile dare una rappresentazione analitica. Perquesto, facciamo ricorso a delle tavole del tipo

.00 .01 .02 .03 .04 .05 .06 .07 .08 .09.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389

1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.86211.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.88301.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.90151.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.91771.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.93191.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.94411.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.95451.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.96331.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.97061.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.97672.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.98172.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.98572.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.98902.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.99162.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.99362.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.99522.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.99642.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.99742.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.99812.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.99863.0 0.99865 0.99869 0.99874 0.99878 0.99882 0.99886 0.99889 0.99893 0.99896 0.999003.1 0.99903 0.99906 0.99910 0.99913 0.99916 0.99918 0.99921 0.99924 0.99926 0.999293.2 0.99931 0.99934 0.99936 0.99938 0.99940 0.99942 0.99944 0.99946 0.99948 0.999503.3 0.99952 0.99953 0.99955 0.99957 0.99958 0.99960 0.99961 0.99962 0.99964 0.999653.4 0.99966 0.99968 0.99969 0.99970 0.99971 0.99972 0.99973 0.99974 0.99975 0.999763.5 0.99977 0.99978 0.99978 0.99979 0.99980 0.99981 0.99981 0.99982 0.99983 0.999833.6 0.99984 0.99985 0.99985 0.99986 0.99986 0.99987 0.99987 0.99988 0.99988 0.999893.7 0.99989 0.99990 0.99990 0.99990 0.99991 0.99991 0.99992 0.99992 0.99992 0.999923.8 0.99993 0.99993 0.99993 0.99994 0.99994 0.99994 0.99994 0.99995 0.99995 0.999953.9 0.99995 0.99995 0.99996 0.99996 0.99996 0.99996 0.99996 0.99996 0.99997 0.99997

225 Unita K:

La tavola raccoglie le probabilita degli intervalli −∞ < Z ≤ z,cioe l’area sotto la curva data dalla densita di una variabilecasuale normale standard. Ad esempio

Pr(−∞ < Z ≤ 0.23) = 0.5910

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

z

F(z

)

−4 −2 0 2 4

0.0

0.2

0.4

0.6

0.8

1.0

z

F(z

)

Notiamo che i valori zp relativi alle probabilita p della tavolasono i quantili di ordine p della variabile casuale Z:

Pr(Z ≤ zp) = p .

Infatti zp e il valore di Z che lascia esattamente probabilita palla sua sinistra (e quindi 1− p alla sua destra).

Variabili casuali 226

Page 116: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Esempi di utilizzo della tavole

a. Pr(Z > 0.23) = 1− Pr(Z ≤ 0.23) = 1− 0.5910 = 0.4090

b. Pr(Z ≤ −0.23) = Pr(Z ≥ 0.23) = 0.4090 (abbiamoutilizzato la simmetria)

c. Pr(−0.15 < Z ≤ 0.23) = Pr(Z ≤ 0.23) − Pr(Z ≤−0.15) = 0.5910 − (1 − Pr(Z ≤ 0.15)) = 0.5910 − (1 −0.5596) = 0.1506

d. Pr(Z ≤ −0.15 ∪ Z > 0.23) = Pr(Z ≤ −0.15) + Pr(Z >0.23) = (1− 0.5596) + (1− 0.5910) = 0.8494

e. Qual e il valore di z0.975?Nelle tavole, il valore della probabilita p e crescente a partiredal primo elemento della prima riga e procedendo per riga.Quindi basta arrivare alla posizione in cui troviamo p =0.975 e leggere che z0.975 = 1.96 (1.9 dalla riga + 0.06dalla colonna).

f. Se vogliamo trovare z0.005 dobbiamo tener conto che zp =−z1−p (per la simmetria), poiche le tavole riportano solovalori di p ≥ 0.50. Quindi z0.005 = −z0.995 = −2.57.

227 Unita K:

Standardizzazione

Da una qualunque variabile casuale Y normale di media µ evarianza σ2 possiamo ottenere la variabile normale standard,attraverso la seguente semplice trasformazione lineare

Z =Y − µ

σ.

In base a questo risultato ci e sufficiente conoscere la funzionedi ripartizione della variabile Z per ottenere ogni probabilitadesiderata. Infatti se indichiamo con

z0 =y0 − µ

σ

Pr(Y ≤ y0) = Pr

(Y − µ

σ≤ y0 − µ

σ

)= Pr

(Z ≤ y0 − µ

σ

)= Pr(Z ≤ z0)

Ad esempio: y0 = 5, µ = 3, σ2 = 4 ⇒ z0 = (5− 3)/2 = 1

Pr(Y ≤ 5) = Pr(Z ≤ 1) = 0.8413

Variabili casuali 228

Page 117: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Unita L

Variabili casuali bivariate

Variabili casuali bivariate discrete

Consideriamo due variabili casuali X e Y con valori{x1, . . . , xh}, {y1, . . . , yk}1.La funzione di probabilita congiunta delle variabili X e Y ,pX,Y (·, ·), indica la probabilita che la variabile X assuma ilvalore xi e congiuntamente la variabile Y assuma il valoreyj e puo essere definita come segue

pX,Y (xi, yj) = Pr({X = xi} ∩ {Y = yj})= Pr(X = xi, Y = yj)

i = 1, . . . , h, j = 1, . . . , k

La funzione di probabilita bidimensionale puo essere rappresenta-ta molto chiaramente mediante una tabella a doppiaentrata

X \ Y y1 · · · yj · · · yk

x1 pX,Y (x1, y1) · · · pX,Y (xi, yj) · · · pX,Y (x1, yk)... ... ... ...xi pX,Y (xi, y1) · · · pX,Y (xi, yj) · · · pX,Y (x1, yk)... ... ... ...

xh pX,Y (xh, y1) · · · pX,Y (xh, yj) · · · pX,Y (xh, yk)

1Per semplicita consideriamo v.c. con insiemi di valori finito. In generale i risultatirestano validi anche per v.c. che assumono insiemi infinito numerabili di valori.Variabili casuali bivariate 230

Page 118: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

La funzione di ripartizione di due variabili casuali discrete edata da:

FX,Y (x, y) = Pr(X ≤ x, Y ≤ y) =∑xi≤x

∑yj≤y

pX,Y (xi, yj).

Possiamo ricavare le funzioni di probabilita delle singole variabili(funzioni di probabilita marginali)

pX(xi) = Pr(X = xi) =

k∑j=1

pX,Y (xi, yj), i = 1, . . . , h

pY (yj) = Pr(Y = yj) =

h∑i=1

pX,Y (xi, yj), , j = 1, . . . , k .

e quindi possiamo completare la tabella precedente con

X \ Y y1 · · · yj · · · yk pX(x)

x1 pX,Y (x1, y1) · · · pX,Y (xi, yj) · · · pX,Y (x1, yk) pX(x1)... ... ... ... ...

xi pX,Y (xi, y1) · · · pX,Y (xi, yj) · · · pX,Y (xi, yk) pX(xi)... ... ... ... ...

xh pX,Y (xh, y1) · · · pX,Y (xh, yj) · · · pX,Y (xh, yk) pX(xh)

pY (y) pY (y1) · · · pY (yj) · · · pY (yk) 1

Notiamo che, in generale

FX(x) = Pr(X ≤ x) = Pr(X ≤ x, Y ≤ +∞) = FX,Y (x, +∞) ,

FY (y) = Pr(Y ≤ y) = Pr(X ≤ +∞, Y ≤ y) = FX,Y (+∞, y) .

231 Unita L:

Esempio

Si consideri il lancio di un dado e sia

X =

0, “esce un numero dispari”1, “esce un numero pari minore di 4”2, “esce un numero pari maggiore o uguale di 4”

e

Y =

{1, “esce un numero multiplo di 3”0, “non esce un numero multiplo di 3”

Calcoliamo la funzione di probabilita e di ripartizione della v.c.doppia Z = (X, Y ).

I possibili risultati dell’esperimento, le relative probabilita e ivalori delle due variabili casuali sono riassunti nella seguentetabella:

evento 1 2 3 4 5 6prob. 1/6 1/6 1/6 1/6 1/6 1/6X 0 1 0 2 0 2Y 0 0 1 0 0 1

Variabili casuali bivariate 232

Page 119: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

E facile determinare la funzione di probabilita e di ripartizionedi X ed Y considerate singolarmente; infatti abbiamo

x 0 1 2pX(x) 3/6 1/6 2/6

FX(x) =

0, x < 03/6, 0 ≤ x < 14/6, 1 ≤ x < 21, x ≥ 2

y 0 1pY (y) 4/6 2/6

FY (y) =

0, y < 04/6, 0 ≤ y < 11, y ≥ 1

Congiuntamente invece abbiamo che la funzione di probabilitapX,Y (x, y) e

YX 0 1 pX(x)0 2/6 1/6 3/61 1/6 0 1/62 1/6 1/6 2/6

pY (y) 4/6 2/6 1

mentre la funzione di ripartizione congiunta FX,Y (x, y) e

YX 0 1 FX(x)0 2/6 3/6 3/61 3/6 4/6 4/62 4/6 1 1

FY (y) 4/6 1

233 Unita L:

Indipendenza stocastica di due variabilicasuali

L’indipendenza di due variabili casuali X e Y viene definitagrazie alla probabilita per eventi indipendenti. Dati due eventiindipendenti A e B, la probabilita che questi due eventisi verifichino congiuntamente e data dal prodotto delle loroprobabilita:

Pr(A ∩B) = Pr(A) Pr(B)

Considerati i due eventi A = {X = xi} e B = {Y = yj}possiamo definire l’indipendenza di due variabili casuali discreteX e Y se per ogni coppia di possibili risultati (xi, yj) dellevariabili casuali X e Y vale la relazione

Pr(X = xi, Y = yj) = Pr(X = xi) Pr(Y = yj)

o equivalentemente

pX,Y (xi, yj) = pX(xi)pY (yj),

dove pX(xi) e pY (yj) sono le relative distribuzioni di probabilitamarginali.

Nell’esempio precedente si ha, ad esempio,

1/6 = pX,Y (1, 0) 6= pX(1)pY (0) = 1/6 · 4/6 = 1/9 ,

il che prova che X ed Y sono stocasticamente dipendenti.Variabili casuali bivariate 234

Page 120: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Distribuzioni condizionate

Sia (X, Y ) una v.a. doppia discreta con funzione di probabilita

pX,Y (x, y) = Pr({X = x} ∩ {Y = y})

allora in accordo con la definizione di probabilita condizionata

pY |X(y|x) = Pr({Y = y}|{X = x})

=Pr({X = x} ∩ {Y = y}

Pr({X = x})

=pX,Y (x, y)

pX(x)

con pX(x) > 0.

Per ogni valore fissato di x la funzione pY |X(y|x) prende il nomedi probabilita condizionata di Y dato che X ha assunto ilvalore x.

Se X e Y sono indipendenti allora

pY |X(y|x) =pX,Y (x, y)

pX(x)=

pX(x)pY (y)

pX(x)= pY (y)

se pX(x) > 0 , analogamente

pX|Y (x|y) = pX(x)

se pY (y) > 0.235 Unita L:

Esempio: distribuzioni condizionate

Calcoliamo le funzioni di probabilita condizionate pY |X(y|x)(una per ogni valore x).

YX 0 1 pX(x)0 2/6 1/6 3/61 1/6 0 1/62 1/6 1/6 2/6

pY (y) 4/6 2/6 1

YX pY |X(0|x) pY |X(1|x)0 2/3 1/31 1 02 1/2 1/2

dove, ad esempio,

pY |X(1|0) =pX,Y (0, 1)

pX(0)=

1/6

3/6= 1/3 .

Calcoliamo anche le probabilita condizionate pX|Y (x|y)

YX 0 1

pX|Y (0|y) 1/2 1/2pX|Y (1|y) 1/4 0pX|Y (2|y) 1/4 1/2

Variabili casuali bivariate 236

Page 121: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Valori attesi condizionati

La funzione Y |x2 e una v.c. con funzione di probabilitapY |X(y|x).

Possiamo costruire la funzione di ripartizione condizionataapplicando la definizione nel modo usuale

FY |X(y|x) =∑yi≤y

pY |X(yi|x) .

Inoltre, ha senso definire il valore atteso condizionato

E(Y |x) =

k∑j=1

yjpY |X(yj|x)

e la varianza condizionata

Var(Y |x) =

k∑j=1

[yj − E(Y |x)]2pY |X(yj|x)

= E(Y 2|x)− E(Y |x)2 .

Si noti che le due quantita ottenute sono, in generale, unafunzione della v.c. condizionante X. E quindi, al variare deivalori di X, E(Y |X) e Var(Y |X) sono variabili casuali.

2Per brevita indichiamo Y |x per Y |X = x237 Unita L:

Esempio: valori attesi condizionati

Continuando l’esempio si calcoli ad esempio E(Y |x) eVar(Y |x)

E(Y |0) = 0 · 2/3 + 1 · 1/3 = 1/3

E(Y |1) = 0 · 1 + 1 · 0 = 0

E(Y |2) = 0 · 1/2 + 1 · 1/2 = 1/2

Var(Y |0) = (0− 1/3)2 · 2/3 + (1− 1/3)2 · 1/3 = 2/9

Var(Y |1) = 0

Var(Y |0) = (0− 1/2)2 · 1/2 + (1− 1/2)2 · 1/2 = 1/4 .

Le funzioni di ripartizione invece sono

FY |X(y|0) =

0, y < 02/3, 0 ≤ y < 11, y ≥ 1

FY |X(y|1) =

{0, y < 01, y ≥ 0

FY |X(y|2) =

0, y < 01/2, 0 ≤ y < 11, y ≥ 1

Variabili casuali bivariate 238

Page 122: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Momenti di funzioni di variabili doppie

Proposizione 3 Siano X e Y due v.c. discrete e g unafunzione di due variabili, allora vale il seguente risultato

E(g(X, Y )) =

h∑i=1

k∑j=1

g(xi, yj)pX,Y (xi, yj)

Ecco alcune interessanti risultati che si possono derivare dallaproposizione precedente.

Proposizione 4

E(aX + bY ) = aE(X) + bE(Y )

Infatti g(X, Y ) = aX + bY e

E(aX + bY ) =

h∑i=1

k∑j=1

(axi + byj)pX,Y (xi, yj)

= a

h∑i=1

k∑j=1

xipX,Y (xi, yj) + b

h∑i=1

k∑j=1

yjpX,Y (xi, yj)

= a

h∑i=1

xi

k∑j=1

pX,Y (xi, yj) + b

k∑j=1

yj

h∑i=1

pX,Y (xi, yj)

= a

h∑i=1

xipX(xi) + b

k∑j=1

yjpY (yj) = aE(X) + bE(Y )

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . �239 Unita L:

Proposizione 5 Se X e Y sono indipendenti e u e v sonodue funzioni a valori reali

E(u(X) · v(Y )) = E(u(X)) · E(v(Y ))

Dimostrazione. g(X, Y ) = u(X) · v(Y ) e

E(u(X) · v(Y )) =

h∑i=1

k∑j=1

u(xi)v(yj)pX,Y (xi, yj)

grazie all’indipendenza

=

h∑i=1

k∑j=1

u(xi)v(yj)pX(xi)pY p(yj)

=

[h∑

i=1

u(xi)pX(xi)

] k∑j=1

v(yj)pY p(yj)

= E(u(X)) · E(v(Y ))

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . �

Facilmente si ottiene la seguente

Proposizione 6 Se X e Y sono indipendenti

E(X · Y ) = E(X) · E(Y )

Variabili casuali bivariate 240

Page 123: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Covarianza e correlazione

Un’altra applicazione del risultato precedente e costituita dalcalcolo della covarianza

Cov(X, Y ) = E[(X − E(X))(Y − E(Y ))]

e si puo dimostrare che

Cov(X, Y ) = E(X · Y )− E(X) · E(Y )

Si noti

Proposizione 7 Se X e Y sono indipendenti, Cov(X, Y ) = 0

Si noti che non e vero il viceversa. Infatti sia X una v.c.che assume i valori {−1, 0, 1}, ciascuno con probabilita 1/3.Facilmente si verifica che E(X) = 0. Sia Y la v.c. Y = X2 .Per definizione quindi Y dipende da X. Calcoliamo

E(XY ) = (−1 · 1)1/3 + (0 · 0)1/3 + (1 · 1)1/3 = 0

per cui concludiamo che Cov(X, Y ) = 0

In forza della proposizione 7 la Cov(X, Y ) assume il ruolo diun indice di dipendenza. La dipendenza che viene misurata esolo quella di tipo lineare (si veda piu avanti).241 Unita L:

Come indice di dipendenza lineare la Cov(X, Y ) mal si prestaai confronti in quanto questa puo assumere dei valori nell’inter-vallo (−∞,∞). In realta sappiamo dire qualcosa di piucirca il suo intervallo di variazione, con disuguaglianza diCauchy-Schwarz

[E(XY )]2 ≤ E(X2)E(Y 2)

Grazie a questa, si ha

[Cov(X, Y )]2 ≤ Var(X)Var(Y )

Cio ha portato alla definizione di un indice detto indice dicorrelazione

ρ(X, Y ) =Cov(X, Y )√

Var(X) · Var(Y )

che assume valori nell’intervallo [−1, 1].

Supponiamo che Y = a+ bX , ovvero che tra X e Y ci sia unarelazione lineare, allora

ρ(X, Y ) =Cov(X, a + bX)√

Var(X) · Var(a + bX)

ma

Cov(X, a + bX) = E(X · (a + bX))− E(X) · E(a + bX))

= b[E(X2)− (E(X))2]

= bVar(X)Variabili casuali bivariate 242

Page 124: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

e quindi

ρ(X, Y ) =bVar(X)√

Var(X) · b2Var(X)= segno(b) · 1

Quindi ρ = ±1 a seconda che b ≷ 0.

Proposizione 8 Varianza di una combinazione lineare

Var(aX + bY ) = a2Var(X) + b2Var(Y ) + 2abCov(X, Y )

Dimostrazione.

Var(aX + bY ) = E{[(aX + bY )− E(aX + bY )]2}= E{[(a(X − E(X)) + b(Y − E(Y ))]2}= a2E(X − E(X))2 + b2E(Y − E(Y ))2

+2abE(X − E(X))(Y − E(Y ))

= a2Var(X) + b2Var(Y ) + 2abCov(X, Y )

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . �

In particolare se X e Y sono incorrelate (Cov(X, Y ) = 0)allora

Var(aX + bY ) = a2Var(X) + b2Var(Y )

243 Unita L:

Esempio: covarianza e correlazione

Nel nostro esempio abbiamo

E(X · Y ) = 0 · 0 · 2/6 + 0 · 1 · 1/6 + 1 · 0 · 1/6

+1 · 1 · 0 + 2 · 0 · 1/6 + 2 · 1 · 1/6

= 2/6

E(Y ) = 0 · 4/6 + 1 · 2/6 = 2/6

E(X) = 0 · 3/6 + 1 · 1/6 + 2 · 2/6 = 5/6

Cov(X, Y ) = E(X · Y )− E(X)E(Y ) = 2/6− 10/36 = 1/18 .

Inoltre

E(Y 2) = 0 · 4/6 + 1 · 2/6 = 2/6

E(X2) = 0 · 3/6 + 1 · 1/6 + 4 · 2/6 = 9/6

Var(Y ) = E(Y 2)− E(Y )2 = 2/6− 4/36 = 2/9

Var(X) = E(X2)− E(X)2 = 9/6− 25/36 = 29/36 ,

e quindi

ρ(X, Y ) =1/18√

2/9 · 29/36=

1√58

= 0.1313 .

Variabili casuali bivariate 244

Page 125: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Valori attesi condizionati: proprieta

Proposizione 9

E(E(Y |X)) = E(Y )

Dimostrazione.

E(E(Y |X)) =

h∑i=1

k∑j=1

yjpY |X(yj|xi)

pX(xi)

poiche pX,Y (xi, yj) = pY |X(yj|xi)pX(xi)

=

h∑i=1

k∑j=1

yjpX,Y (xi, yj)

=

k∑j=1

yj

[h∑

i=1

pX,Y (xi, yj)

]=

k∑j=1

yjpY (yj) = E(Y )

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . �

Proposizione 10

E(h(x)g(Y )|x)) = h(x)E(g(Y )|x)

Dimostrazione.

E(h(x)g(Y )|x)) =

k∑j=1

h(x)g(yj)pY |X(yj|x)

= h(x)

k∑j=1

g(yj)pY |X(yj|x) = h(x)E(g(Y )|x)

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . �245 Unita L:

La seguente uguaglianza e detta scomposizione dellavarianza, ed e molto importante in Statistica.

Proposizione 11

Var(Y ) = E(Var(Y |X)) + Var(E(Y |X))

Dimostrazione.

Var(Y ) =

k∑j=1

[yj − E(Y )]2pY (yj)

=

k∑j=1

[yj − E(Y )]2h∑

i=1

pX,Y (xi, yj)

=

k∑j=1

h∑i=1

[yj − E(Y |xi) + E(Y |xi)− E(Y )]2pX,Y (xi, yj)

=

k∑j=1

h∑i=1

[yj − E(Y |xi)]2pX,Y (xi, yj)

+

k∑j=1

h∑i=1

[E(Y |xi)− E(Y )]2pX,Y (xi, yj)

+2

k∑j=1

h∑i=1

[yj − E(Y |xi)][E(Y |xi)− E(Y )]pX,Y (xi, yj)

Variabili casuali bivariate 246

Page 126: Statistica I - venus.unive.itvenus.unive.it/stone/stat1/lucidi/statisticaI-x2.pdf · nuove conoscenze, decisioni, 4 Stilizzazione dei problemi di cui si occupa la statistica ed un

Var(Y ) =

h∑i=1

k∑j=1

[yj − E(Y |xj)]2pY |X(yj|xi)

pX(xi)

+

h∑i=1

k∑j=1

[E(Y |xi)− E(E(Y |X))]2pY |X(yj|xi)

pX(xi)

+0

= E(Var(Y |X)) + Var(E(Y |X))

Rimane da mostrare

2

k∑j=1

h∑i=1

[yj − E(Y |xi)][E(Y |xi)− E(Y )]pX,Y (xi, yj) = 0

infatti

= 2

k∑j=1

h∑i=1

[yj − E(Y |xi)][E(Y |xi)− E(Y )]pX,Y (xi, yj)

=

h∑i=1

[E(Y |xi)− E(Y )]

k∑

j=1

[yj − E(Y |xi)]pY |X(yj|xi)

pX(xi)

=

h∑i=1

[E(Y |xi)− E(Y )]

k∑j=1

yjpY |X(yj|xi)− E(Y |xi)

pX(xi)

=

h∑i=1

[E(Y |xi)− E(X)] [E(Y |xi)− E(Y |xi)] pX(xi)

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . �

247 Unita L:

Esempio: valori attesi condizionati

Riprendendo l’esempio precedente abbiamo

E(Var(Y |X)) = 2/9 · 3/6 + 0 · 1/6 + 1/4 · 2/6

= 1/9 + 0 + 1/12

= 7/36

E(E(Y |X)) = 1/3 · 3/6 + 0 · 1/6 + 1/2 · 2/6

= 2/6 = E(Y )

Var(E(Y |X)) = (1/3− 2/6)23/6 + (0− 2/6)21/6

+(1/2− 2/6)22/6

= 0 · 3/6 + 1/9 · 1/6 + 1/36 · 2/6

= 1/36

Quindi

Var(Y ) = E(Var(Y |X))+Var(E(Y |X)) = 1/36+7/36 = 2/9 .

Considerando direttamente la distribuzione marginale si aveva

E(Y ) = 0 · 4/6 + 1 · 2/6 = 2/6

Var(Y ) = (0− 2/6)24/6 + (1− 2/6)22/6 = 2/9 .

Variabili casuali bivariate 248