Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini...

75
1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Statistica a cura di Bruno Bertaccini insegnamento di Metodi quantitativi per il Turismo CdS in Scienze del Turismo Materiale didattico a disposizione degli studenti, scaricabile all’indirizzo http://local.disia.unifi.it/bertaccini ultimo aggiornamento: 25 settembre 2020 È vietata la riproduzione non autorizzata a fini commerciali. Il docente Bruno Bertaccini ([email protected]) Dipartimento di Statistica, Informatica, Applicazioni «G. Parenti» v.le Morgagni, 59 – Firenze ricevimento: su appuntamento (fissando data e modalità di contatto)

Transcript of Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini...

Page 1: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

1

È vietata la riproduzione non autorizzata a fini commerciali.

Note di Statistica

a cura di Bruno Bertaccini

insegnamento di Metodi quantitativi per il Turismo

CdS in Scienze del Turismo

Materiale didattico a disposizione degli studenti,scaricabile all’indirizzo http://local.disia.unifi.it/bertaccini

ultimo aggiornamento: 25 settembre 2020

È vietata la riproduzione non autorizzata a fini commerciali.

Il docente

Bruno Bertaccini ([email protected])Dipartimento di Statistica, Informatica, Applicazioni «G. Parenti»v.le Morgagni, 59 – Firenze

ricevimento: su appuntamento (fissando data e modalità di contatto)

Page 2: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

2

È vietata la riproduzione non autorizzata a fini commerciali.

Testo di riferimento e altro materiale didattico queste dispense

predisposte con l’obiettivo d’essere d’ausilio alla studio delle nozioni impartite a lezionedell’Ateneo o all’indirizzo http://local.disia.unifi.it/bertaccini

È vietata la riproduzione non autorizzata a fini commerciali.

Modalità d’esame

Test erogato tramite piattaforma web, con domande di varia natura (vero/falso; risposta multipla, esercizi brevi). Eventuale discussione orale dell’esito dello scritto.

Appelli

Gli esami di profitto si svolgono in tre diverse sessioni in relazione alle date comunicate dalla Segreteria

Page 3: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

3

È vietata la riproduzione non autorizzata a fini commerciali.

INDICE (programma del corso) Introduzione alla statistica I Principi della Probabilità I Principi dell’Inferenza Note di Campionamento statistico Note di Inferenza parametrica (stima puntuale e per intervallo)

È vietata la riproduzione non autorizzata a fini commerciali.

Lezione 1

Introduzione

Page 4: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

4

È vietata la riproduzione non autorizzata a fini commerciali.

è la disciplina che si occupa dell'elaborazione dei risultati dell'osservazione di uno o più caratteri posseduti dagli elementi di un insieme determinato, con l'intento di

esprimere un giudizio e/o prendere una decisione

in merito ad alcuni aspetti di una realtà di interesse che, in quanto riferita ad un insieme e non ai singoli elementi che lo compongono, viene chiamata fenomeno collettivo.

I fenomeni collettivi sono tutti quei fenomeni che presentano una pluralità di manifestazioni diverse

la Statistica…

È vietata la riproduzione non autorizzata a fini commerciali.

la Statistica quindi …è l’insieme delle metodologie per raccogliere, organizzare, sintetizzare, analizzare, interpretare le manifestazioni dei fenomeni collettivi e, laddove, ve ne siano le condizioni, generalizzare le evidenze osservate e trasformarle in informazioni utili per i processi decisionali

Page 5: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

5

È vietata la riproduzione non autorizzata a fini commerciali.

La ragion d'essere della statistica è la presenza di un certo livello di variabilità nei dati(altrimenti, paradossalmente, la comprensione del fenomeno sarebbe possibile ricorrendo ad una sola osservazione)

nello studio dei fenomeni collettivi si è consapevoli che al variare dell'unità statistica u entro una certa popolazione P = { u } variano certe caratteristiche misurate su u

in altre parole, per lo studio di un fenomeno caratterizzato da assenza di variabilità non serve scomodare uno statistico

L’essenza della Statistica

È vietata la riproduzione non autorizzata a fini commerciali.

Alcuni semplici esempi: altezza e peso degli studenti di una classe reddito dei parlamentari votazioni riportate all’esame di Statistica dagli studenti

di un certo corso di studi universitario valutazione dell’efficacia dei titoli di studio universitaridurata delle lampadine ad alto risparmio energetico soddisfazione nei confronti del trasporto pubblico localepreferenze dei cittadini per i partiti politici valutazione dell’efficacia di un nuovo farmaco efficacia di una campagna pubblicitaria…

L’essenza della Statistica

Page 6: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

6

È vietata la riproduzione non autorizzata a fini commerciali.

… è quindi il fondamento logico e metodologico

per la risoluzione dei problemi decisionali

in condizioni di incertezza

la Statistica…

È vietata la riproduzione non autorizzata a fini commerciali.

Le branche della Statistica (1)

Statistica DescrittivaIn questo settore rientrano i metodi per sintetizzarecon opportune grandezze le caratteristiche salienti dei fenomeni collettivi. La descrizione passa attraverso le fasi di formazione del dato statistico e del trattamento matematico dello stesso.

Per formazione del dato statistico si può intendere: l’elaborazione di dati preesistenti in natura (dati

anagrafici, indici aziendali di bilancio, dati di produzione industriale ecc.)

la necessità di procedere all’effettiva rilevazione delle informazioni necessarie alla comprensione del fenomeno di interesse

Page 7: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

7

È vietata la riproduzione non autorizzata a fini commerciali.

Il processo di rilevazione delle informazioni

Il processo di rilevazione delle informazioni è generalmente distinto nelle fasi di: definizione del piano di rilevazione, raccolta delle informazioni, spoglio e classificazione.

La fase più delicata è senza dubbio la prima, soprattutto in relazione al tipo di fenomeno collettivo che si vuole indagare:

altezza -> metro; peso -> bilancia reddito dei parlamentari -> modello 730 performance esami di profitto -> voto conseguito durata lampadine -> cronometro soddisfazione nei confronti del trasporto pubblico locale -> ???

È vietata la riproduzione non autorizzata a fini commerciali.

La Statistica Descrittiva …

È l’insieme di metodologie statistiche che si occupano della descrizione, cioè dell’organizzazione e della sintesi, dei dati osservati.

Le informazioni tratte dal processo di organizzazione e sintesi consentono di pervenire ad una conoscenza del fenomeno collettivo studiato che è limitata all’insieme di dati osservati

Tipologie di caratteri o variabili

Page 8: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

8

È vietata la riproduzione non autorizzata a fini commerciali.

Caratteri statistici o variabili

- I caratteri (statistici) o variabili rappresentano i fenomeni collettivi oggetto di studio

- Una variabile è una qualunque caratteristica misurata sulle unità statistiche

- Una variabile può assumere modalità (valori) differenti in corrispondenza delle diverse unità statistiche della popolazione

- L’insieme dei valori della variabile deve essere esaustivo e i valori che la variabile può assumere non devono sovrapporsi

Carattere statistico = variabile

Esaustività: l’insieme dei valori della variabile deve includere tutti i possibili valori teoricamente osservabili della stessaNon sovrapposizione: la variabile non può assumere valori diversi su una stessa unità statistica

È vietata la riproduzione non autorizzata a fini commerciali.

Classificazione delle variabili

- II valori (detti livelli o categorie) della variabile sono espressi da parole (nomi e/o attributi)

- Opportunità di usare codici

esempi: sesso, professione, mezzo impiegato per raggiungere il luogo di lavoro, titolo di studio, livello di soddisfazione

Variabile qualitativa (categoriale)

Variabile quantitativa- II valori della variabile sono di tipo numerico (numeri)- Si ottengono da operazioni di conteggio o di misurazione

esempi: età, peso, altezza, reddito, numero di figli, numero di anni di istruzione

Page 9: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

9

È vietata la riproduzione non autorizzata a fini commerciali.

Sotto-classificazione delle variabili qualitative

- È misurabile su scala nominale- Date due modalità, è possibile solo dire se sono uguali o

diverse

esempi: sesso, professione, mezzo impiegato per raggiungere il luogo di lavoro

Variabile qualitativa sconnessa

Variabile qualitativa ordinata - È misurabile su scala ordinale- Date due modalità, è possibile definire un ordine (ma non una

distanza)

esempi: titolo di studio, livello di soddisfazione

È vietata la riproduzione non autorizzata a fini commerciali.

- L’insieme delle modalità è un sottoinsieme di numeri interi- I possibili valori della variabile formano un insieme di numeri

distinti, come 0, 1, 2, 3, …

esempi: età in anni compiuti, numero di figli, numero di anni di istruzione

Variabile quantitativa discreta

Variabile quantitativa continua - L’insieme delle modalità è un sottoinsieme di numeri reali- La variabile può assumere come valore ogni possibile numero

reale incluso in un continuum infinito

esempi: età (esatta), peso, altezza, reddito

Sotto-classificazione delle variabili quantitative

Page 10: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

10

È vietata la riproduzione non autorizzata a fini commerciali.

È l’insieme di tutte le unità statistiche oggetto di studio

Popolazione

CampioneÈ un qualsiasi sottoinsiemeproprio delle unità statistiche che costituiscono la popolazione

Popolazione e campione

È vietata la riproduzione non autorizzata a fini commerciali.

La POPOLAZIONE

Popolazione (P ): insieme finito o infinito di unità che non interessano prese singolarmente ma per il contributo che danno allo studio del fenomeno collettivo d’interesse (carattere) F .

Se si è interessati alla conoscenza di un certo fenomeno F si possono rappresentare le sue possibili manifestazioni (modalità del carattere) come punti dell'insieme P. Ovviamente non tutti i punti avranno lo stesso peso, perché può accadere che una determinata manifestazione si realizzi più frequentemente di un'altra.

N dimensione della Popolazione

Page 11: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

11

È vietata la riproduzione non autorizzata a fini commerciali.

Le rilevazioni campionarie

Rilevazioni complete (censuarie)esempio: censimento generale della popolazione e delle abitazioni; censimento generale dell’industria, del commercio, dei servizi e dell’artigianato; censimento generale dell’agricoltura (ISTAT)

Rilevazioni campionarie

Stabilito con quale strumento misurare F :

NB: la rilevazione completa è teoricamente sempliceIn realtà, motivazioni legate: alla numerosità della Popolazione (sovente non finita), ai costi e/o ai tempi d’indagine

inducono a optare per la strategia campionaria.

È vietata la riproduzione non autorizzata a fini commerciali.

Le rilevazioni campionarie

Fondamentale diviene quindi in statistica il ruolo dell'esperimento campionario.

Campione: un qualsiasi aggregato (sottoinsieme proprio) di unità statistiche appartenenti ad una certa popolazione e selezionate mediante una certa procedura.

n dimensione del campione

NB1: la strategia campionaria è la sola possibile quando:

NB2: la popolazione da cui si estrae il campione, detta popolazione campionata, non sempre coincide con la popolazione obiettivo.

la popolazione è virtualmente infinita; l’osservazione è distruttiva.

Page 12: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

12

È vietata la riproduzione non autorizzata a fini commerciali.

Le rilevazioni campionarie

I principali vantaggi derivanti dall’adozione di una strategia di campionamento

contenere i costi dell'indagine entro limiti accettabili; svolgere l'indagine in tempi relativamente brevi; raccogliere per ogni unità inclusa nell'indagine un maggior

numero di informazioni; raccogliere le informazioni con maggior accuratezza grazie

all'utilizzazione di personale qualificato e/o di tecniche specialistiche.

È vietata la riproduzione non autorizzata a fini commerciali.

Le rilevazioni campionarie

Distorsioni dovute alla risposte: a causa di risposte non corrette o quesiti mal posti;

Distorsioni dovute alle non-risposte: a causa di soggetti campionati che rifiutano di partecipare o rispondere ad alcune domande del questionario.

… però, distorsione indotta dal campionamento:

Inoltre :

in generale, un campione non costituisce quasi mai una riproduzione fedele della popolazione su piccola scala

Page 13: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

13

È vietata la riproduzione non autorizzata a fini commerciali.

Le rilevazioni campionarie

come estrarre il campione (secondo quale tecnica)?distinzione tra campionamento probabilistico e

non probabilistico distinzione tra studi sperimentali e studi

osservazionali

come estendere i risultati campionari all’intera popolazione?

… quindi (dato che molto spesso non possiamo fare a meno di condurre un’indagine campionaria):

È vietata la riproduzione non autorizzata a fini commerciali.

Le rilevazioni campionarie

Le fasi relative alla selezione del campione costituiscono il cosiddetto disegno di campionamento.

Disegno di indagine definizione della popolazione obiettivo; scelta dei caratteri da studiare e dello strumento per misurarli; scelta dei domini spazio-temporali dell’indagine; definizione del disegno di campionamento; definizione dei metodi di raccolta, codifica ed elaborazione dati; definizione dei costi e dei livelli di precisione desiderati; definizione dei metodi di stima e di calcolo degli errori

campionari; definizione dei metodi di controllo degli errori non campionari; analisi e presentazione dei risultati.

Page 14: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

14

È vietata la riproduzione non autorizzata a fini commerciali.

Le rilevazioni campionarie

Importante distinzione:

Campioni probabilistici: è possibile definire l’insieme (Universo) di tutti i possibili

campioni che potrebbero formarsi seguendo una determinata procedura di estrazione di tipo randomizzato;

è possibile associare a ciascun campione una probabilità di selezione nota;

è possibile attribuire ad ogni unità componente la popolazione una probabilità strettamente positiva di essere estratta.

Campioni non probabilistici: tutti gli altri…

È vietata la riproduzione non autorizzata a fini commerciali.

Campioni probabilistici Campione casuale semplice (CCS):

ogni possibile campione di n unità distinte che può essere estratto dalla popolazione ha un’uguale probabilità di selezione

È lo schema di campionamento più semplice: corrisponde all’estrazione da un’urna (es. estrazione di numeri della tombola)

Nel CCS ciascun campione ha la stessa probabilità degli altri di essere scelto

Nel CCS ogni singola unità della popolazione ha la stessa probabilità di entrare a far parte del campione

Le unità vengono selezionate casualmente da una lista completa di unità

Page 15: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

15

È vietata la riproduzione non autorizzata a fini commerciali.

Campione stratificato: la popolazione è divisa in k strati in funzione di uno o più caratteri osservabili (es., sesso, fascia di età) correlati con quelli indagati; da ogni strato si estrae un CCS di unità

Campione a grappoli: la popolazione è divisa in grappoli, cioè sottoinsiemi di unità unite da vincoli di contiguità spaziale o di altro tipo (es., zone geografiche, famiglie); si estrae un CCS di grappoli e si selezionano tutte le unità appartenenti ai grappoli estratti

Campione a due stadi: si estrae un CCS di grappoli e, per ogni grappolo selezionato, un CCS di unità

Campioni probabilistici

È vietata la riproduzione non autorizzata a fini commerciali.

Campioni non probabilistici

Campione a scelta ragionata o per testimoni privilegiati: le unità vengono individuate mediante criteri logici di rappresentatività, autorevolezza, conoscenza specifica del problema

Campione per quota: le unità vengono scelte dal rilevatore in modo che il campione rispetti delle proporzioni predefinite da chi ha pianificato l’indagine

Campione di volontari: le unità decidono autonomamente se far parte del campione

Campione a valanga: poche unità con una certa caratteristica rara (es., una certa malattia) vengono usate per individuare, a catena, altre unità con la stessa caratteristica

Page 16: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

16

È vietata la riproduzione non autorizzata a fini commerciali.

Le branche della Statistica (2)

Statistica InferenzialeSe l'estrazione del campione è casuale, i dati possono fornire informazioni sulla variabilità della popolazione e sulla fiducia da accordare a tali informazioni. Questi problemi sono oggetto della Statistica Inferenziale o Induttiva.

Il termine inferenza deriva dal latino e letteralmente significa: argomentare, desumere.

L’inferenza statistica è quindi l’insieme delle metodologie statistiche che consentono di generalizzare all’intera Popolazione la conoscenza acquisita sui dati osservati su un campione.

È vietata la riproduzione non autorizzata a fini commerciali.

La Statistica InferenzialeCon l’inferenza statistica si opera un processo di induzione(dal particolare al generale) della conoscenza, che si contrappone al processo deduttivo (dal generale al particolare)

NB: le generalizzazioni però non sono certe

Le conclusioni inferenziali sono, infatti, sempre accompagnate da una certo margine di errore dovuta alle caratteristiche del campione estratto (errore campionario).

Page 17: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

17

È vietata la riproduzione non autorizzata a fini commerciali.

Inferenza statistica e probabilità

L'inferenza è quindi un processo d'azzardo e l'incertezza è misurabile in

termini probabilistici (NB: solo se il campione è di tipo probabilistico).

La PROBABILITÀ è il fondamento logico per fare inferenza sulla Popolazione oggetto d’indagine.

Ma …

che cos’è la PROBABILITÀ?

È vietata la riproduzione non autorizzata a fini commerciali.

Lezione 2

I Principi della Probabilità

Page 18: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

18

È vietata la riproduzione non autorizzata a fini commerciali.

… è un concetto primitivo.Per definirla occorre introdurre alcuni ingredienti: esperimento casuale (es: lancio del dado o di una moneta)

evento

spazio degli eventi B

La probabilità è una funzione matematica su Bcon certe proprietà

La Probabilità…

spazio dei possibili risultati dell’ esperimento

È vietata la riproduzione non autorizzata a fini commerciali.

Si definisce esperimento casuale un qualsiasi esperimento per il quale sia possibile a priori elencarne tutti i possibili risultati, senza la certezza di cosa si realizzerà ad esperimento concluso.Esempi:

Giochi di sorte: lancio di una moneta, lancio di un dado, estrazione di un numero al lotto, estrazione di un numero alla roulette

Esperimenti di laboratorio: test di durata di un componente meccanico, somministrazione di un principio attivo a una cavia

Misurazioni fisiche: temperatura minima di domani in una certa stazione metereologica

Fenomeni economici e sociali: opinioni, PIL italiano fra 5 anni, voto a un esame

In generale, tutte le prove, operazioni, attività, fenomeni il cui esito non è prevedibile con certezza sono esperimenti casuali

Esperimento casuale

Page 19: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

19

È vietata la riproduzione non autorizzata a fini commerciali.

Con riferimento a un esperimento casuale si possono considerare tutti i possibili esiti dell’esperimento. L’insieme dei possibili esiti, esaustivi e mutualmente esclusivi, viene chiamato spazio campionario

I possibili, distinti, esiti dell’esperimento sono detti eventi elementari

Un qualsiasi sottoinsieme dello spazio campionario (quindi costituito da uno o più eventi elementari) è detto evento

Eventi elementari ed eventi

È vietata la riproduzione non autorizzata a fini commerciali.

Spazio campionario: esempi

Lancio di una moneta: = {Testa, Croce}

Esito di un esame: = {non superato, superato}

Estrazione di un numero al lotto: = {1, 2, …, 90}

Lancio di un dado: = Le facce del dado = {1, 2, 3, 4, 5, 6}

Voto a un esame: = {18, 19, …, 30 e lode}

Numero di casi di influenza il prossimo anno: = {0, 1, 2, …}

Tempo di attesa alla fermata dell’autobus: = {0, +∞}

Page 20: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

20

È vietata la riproduzione non autorizzata a fini commerciali.

Eventi: esempi

Esperimento: lancio di un dado Spazio campionario: = Le sei facce del dado =

{1, 2, 3, 4, 5, 6} Risultato: esce la faccia del dado col numero 2 Gli eventi A = «esce una faccia col numero pari» =

{2, 4, 6} e B = «esce una faccia numero inferiore a 4» = {1, 2, 3} si sono verificati

L’evento C = «esce una faccia col numero dispari» = {1, 3, 5} non si è verificato

È vietata la riproduzione non autorizzata a fini commerciali.

Eventi: esempi

Esperimento: voto conseguibile da uno studente al prossimo appello di Statistica

- Spazio campionario: = {18, 19, …, 30 e lode}- Risultato: Voto = 28- Gli eventi A = «voto maggiore di 25», B = «voto inferiore a

29», C = «voto compreso tra 24 e 29» si sono verificati- L’evento D = «voto inferiore a 26» non si è verificato

Page 21: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

21

È vietata la riproduzione non autorizzata a fini commerciali.

La rappresentazione degli eventi

Diagramma di Venn

A B

È vietata la riproduzione non autorizzata a fini commerciali.

Operazione tra eventi

Negazione (o complementazione) di un evento

L’evento , che si legge «non A» o «A negato», è l’insieme degli esiti dell’esperimento che non appartengono ad A. Pertanto , si verifica quando non si verifica A.

Esempio: nel lancio di un dado, se A è pari, è dispari.

A

A

A

Page 22: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

22

È vietata la riproduzione non autorizzata a fini commerciali.

Operazione tra eventi

Intersezione di due eventi

L’evento intersezione , che si legge «A e B», è l’insieme degli esiti dell’esperimento che appartengono sia (contemporaneamente) ad A e a B.

Esempio: nel lancio di un dado, sa A={1, 2, 3} e B={2, 3, 4} allora .

A B

A B

2,3A B

È vietata la riproduzione non autorizzata a fini commerciali.

Operazione tra eventi

Unione di due eventi

L’evento unione , che si legge «A o B», è l’insieme degli esiti dell’esperimento che appartengono sia ad A oppure a B.

Esempio: nel lancio di un dado, sa A={1, 2, 3} e B={2, 3, 4} allora . 1,2,3,4A B

A B

Page 23: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

23

È vietata la riproduzione non autorizzata a fini commerciali.

Alcuni eventi particolari

Evento impossibile

È l’evento che non può mai verificarsi e si indica con . Ad esempio, l’intersezione di un qualsiasi evento con la sua negazione è l’evento impossibile

A A

Evento certo

È l’evento che si verifica sempre perché coincide con . Ad esempio, l’unione di un qualsiasi evento con la sua negazione è l’evento certo.

A A

È vietata la riproduzione non autorizzata a fini commerciali.

Alcuni eventi particolari

Eventi incompatibili

Due eventi A e B si dicono incompatibili se l’evento intersezione di A e B coincide con l’evento impossibile.

Due eventi sono quindi incompatibili quando non hanno elementi in comune. In queste situazioni, notare che il verificarsi di uno esclude l’altro.

A B

Page 24: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

24

È vietata la riproduzione non autorizzata a fini commerciali.

La probabilitàDato un esperimento casuale, un evento A si verifica con probabilità P(A)

Esempio 1Esperimento casuale: lancio di una monetaEventi elementari: Testa, CroceQual è la probabilità che esca testa?

Esempio 2Esperimento casuale: lancio di un dado a sei facceEventi elementari: le sei facce del dadoQual è la probabilità che esca il numero 5?

Esempio 3Esperimento casuale: selezione di un individuo da una popolazione di adolescentiEventi elementari: fuma o non fumaQual è la probabilità che l’adolescente selezionato fumi?

È vietata la riproduzione non autorizzata a fini commerciali.

La probabilità

Approcci alla probabilità (in ordine cronologico):

impostazione Classica;es: moneta impostazione Frequentista;

es: moneta truccata impostazione Soggettiva;

es: uomo su Marte

impostazione Assiomatica

Page 25: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

25

È vietata la riproduzione non autorizzata a fini commerciali.

L’impostazione assiomatica delle Probabilità (Kolmogorov)

1) ( ) 0

2 ) ( ) 1

3) ( ) ( ) ( )

( )4 ) ( / )

( )

P A

P

P A B P A P B

sse A B

P A BP A B

P B

È una formalizzazione matematica di concetti intuitivi

Principio delle Probabilità condizionate

È vietata la riproduzione non autorizzata a fini commerciali.

L’impostazione assiomatica delle Probabilità (Kolmogorov)

( ) (A ) ( ) ( )P A B P P B P A B In generale ( Principio delle Probabilità Totali ):

AA B

B

se A B assioma 3NB:

Page 26: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

26

È vietata la riproduzione non autorizzata a fini commerciali.

Dato un evento A qualsiasi

La probabilità dell’evento impossibile è 0:

Se

Se

Dalla precedente, ponendo , ne deriva

0 (A) 1P

Alcune conseguenze degli assiomi

( ) 0P

A B (A B)=P( ) 1P (A)=1-P(A)PB=A

A B (A B)=0P

È vietata la riproduzione non autorizzata a fini commerciali.

Esercizio

Nell’ambito di uno studio sull’abbandono degli studi universitari entro la fine del primo anno di università, è noto che il collettivo degli studenti di un certo corso di studi è così caratterizzato

Abbandono degli studi Totali

Borsa di studio Sì NoSì 400 1600 2000No 1225 2275 3500Totali 1625 3875 5500

Estraendo casualmente dal collettivo uno studente, si considerino gli eventi:

A = «Ottenere la borsa di studio»B = «Abbandonare gli studi»

Page 27: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

27

È vietata la riproduzione non autorizzata a fini commerciali.

Esercizio

Calcolare:

la probabilità di non abbandonare gli studi quindi è

2000(A) 0,364 36, 4%

5500P

1625(B) 0, 295 29,5%

5500P

1625 5500 1625(B) 1 (B) 1

5500 55003875

0,705 70,5%5500

P P

È vietata la riproduzione non autorizzata a fini commerciali.

EsercizioGli eventi A e B sono incompatibili?

No perché, se lo fossero, dovrebbe essere impossibile osservare studenti che hanno ottenuto la borse e abbandonato gli studi. Invece:

Pertanto, la probabilità di non abbandonare gli studi senza aver ottenuto la borsa è:

400(A B) 0,073 7,3%

5500P

1 (A B) 1 [ (A) (B) (A B)]

22751 [0,364 0, 295 0,073] 0, 414 41, 4%

5500

P P P P

Page 28: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

28

È vietata la riproduzione non autorizzata a fini commerciali.

EsercizioQual è la probabilità che uno studente abbandoni gli studi dato che ha ottenuto la borsa?

E qual è la probabilità che uno studente avesse ottenuto la borsa tra quelli che hanno abbandonato gli studi?

(B A) 400 5500 400(B | A) 0, 2 20%

(A) 2000 / 5500 2000

PP

P

(A B) 400 5500 400(A | B) 0, 246 24,6%

(B) 1625 / 5500 1625

PP

P

È vietata la riproduzione non autorizzata a fini commerciali.

Eventi incompatibili e indipendenti

( / ) ( )

se A B

P A B P A

A e B sono eventi incompatibili

A e B sono eventi indipendentiovvero il verificarsi di B non incide sulla

probabilità di A

se( )

( / ) ( )( )

( ) ( ) ( )

P A BP A B P A

P B

P A B P A P B

come visto in precedenza:

Invece, se vale la condizione che:

Page 29: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

29

È vietata la riproduzione non autorizzata a fini commerciali.

EsercizioCon riferimento ai dati della tabella precedente, gli eventi A e B sono indipendenti?

No perché: (A | B) (A)P P

È vietata la riproduzione non autorizzata a fini commerciali.

Il gioco delle tre cartine colorate

V1

V2

G2

G3G1

V3

Si mescolano le carte e le facce (che, al di là del colore, sonoindistinguibili), per cui mentre si mescola si possono anche ruotare lecarte.

Quindi si estrae una carta e la si pone su un tavolo. Il colore che lacarta mostra è il VERDE.

Ci si chiede quale sia la probabilità che quella carta mostri lo stessocolore anche sull’altra faccia.

Page 30: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

30

È vietata la riproduzione non autorizzata a fini commerciali.

Il gioco delle tre cartine colorate

V1

V2

G2

G3G1

V3

1 2 3

1 21 2

1 2

3(osservare ) ( )

6

( )

1/ 3 2

3 / 6 3

P VERDE P V V V

P V V VERDEP V V VERDE

P VERDE

P V V

P VERDE

È vietata la riproduzione non autorizzata a fini commerciali.

dal Principio delle Probabilità condizionate…

( )( / )

( )

P A BP A B

P B

( )( / )

( )

P A BP B A

P A

( / ) ( )( )

( / ) ( )

P A B P BP A B

P B A P A

( ) ( ) ( )P A B P A P B

e, in caso di indipendenza tra A e B:

Page 31: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

31

È vietata la riproduzione non autorizzata a fini commerciali.

Gioco del lotto: prob. che esca 23 al secondo estratto Mazzo di 40 carte: prob. che esca un K alla seconda estraz. Le 3 buste I 3 prigionieri35 studenti su uno scuolabus: prob. che almeno 2

abbiano stessa data di nascita (gg/mm) Il valore atteso ed il Paradosso di San Pietroburgo Come misurare l’area di un lago

Un po’ di svago:

È vietata la riproduzione non autorizzata a fini commerciali.

Un po’ di svago: le 3 buste

A B CSolo una contiene un grosso premio; le altre due sono vuote.Giochiamo con Gino e proponiamo a Gino di scegliere una busta.

Gino sceglie la busta A.

Una volta scelta, facciamo vedere a Gino, aprendola, che una tra le buste B e C è vuota.

Offriamo a Gino la possibilità di poter cambiare la busta A con la busta chiusa rimasta sul tavolo.

Il dubbio di Gino: cosa conviene fare?

Page 32: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

32

È vietata la riproduzione non autorizzata a fini commerciali.

Un po’ di svago: le 3 buste

( ) ( ) ( ) 1 3vince vince vinceP A P B P C Inizialmente:

Supponiamo a Gino venga mostrato che B è vuota; Gino lo considera un evento e condiziona la sua decisione a questo.

( )( )

( )

( ) ( )

( )

( ) ( )

( ) ( ) ( ) ( )

11 131 1 21 13 3

vince vuotavince vuota

vuota

vuota vince vince

vuota

vuota vince vince

vuota vince vince vuota vince vince

P A BP A B

P B

P B A P A

P B

P B A P A

P B A P A P B C P C

ovvero sapendo che “B è vuota”è indifferente conservare A o operare lo scambio

È vietata la riproduzione non autorizzata a fini commerciali.

Un po’ di svago: le 3 buste

Proviamo a consideriamo invece l’evento “mostriamo B vuota”e condizioniamo la decisione di Gino a questo:

( )( )

( )

( ) ( )

( )

( ) ( )

( ) ( ) ( ) ( )

1 1 1 12 3 61 1 1 3 312 3 3 6

vince vuotavince vuota

vuota

vuota vince vince

vuota

vuota vince vince

vuota vince vince vuota vince vince

P A mBP A mB

P mB

P mB A P A

P mB

P mB A P A

P mB A P A P mB C P C

ovvero il vero evento non è quello che Gino vede, ma l’azione che noi facciamo a seguito della scelta iniziale di Gino.

È certamente conveniente operare lo scambio.

si è indifferenti tra mostrare a Gino la busta B o la C, se A è la vincente.

Page 33: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

33

È vietata la riproduzione non autorizzata a fini commerciali.

Un po’ di svago: i tre prigionieri

Tre prigionieri A, B e C l’indomani saranno condannati a morte.

Il Governatore decide di graziarne uno e comunica la sua scelta al secondino S, obbligandolo al silenzio sulla scelta fatta.

A chiede ad S di rivelargli il nome di chi si salverà.S non può parlare pena la sua esecuzione.

In alternativa, A chiede ad S di comunicargli il nome di chi degli altri due verrà sicuramente condannato.S accetta ritenendo di non contravvenire agli ordini ricevuti.

A adesso ritiene che la sua probabilità di salvarsi sia pari a ½.

È vietata la riproduzione non autorizzata a fini commerciali.

Un po’ di svago: i tre prigionieri

( ) ( ) ( ) 1 3P A P B P C Dopo la grazia del Governatore:

( )( )

( )

( ) ( )

( )

( ) ( )

( ) ( ) ( ) ( )

?

diceBdiceB

diceB

diceB

diceB

diceB

diceB diceB

P A SP A S

P S

P S A P A

P S

P S A P A

P S A P A P S C P C

Occorre fare delle ipotesi. In primis, assumiamo che S non dica bugie …

Page 34: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

34

È vietata la riproduzione non autorizzata a fini commerciali.

Un po’ di svago: i tre prigionieri

S è indifferente tra B e C:

( )( )

( )

( ) ( )

( )

( ) ( )

( ) ( ) ( ) ( )

1 12 3 1

31 1 112 3 3

diceBdiceB

diceB

diceB

diceB

diceB

diceB diceB

P A SP A S

P S

P S A P A

P S

P S A P A

P S A P A P S C P C

La probabilità di A non cambia

(risultato analogo al gioco delle tre buste)

È vietata la riproduzione non autorizzata a fini commerciali.

Un po’ di svago: i tre prigionieri

Ad S è estremamente antipatico B, per cui se può fa il suo nome:

( )( )

( )

( ) ( )

( )

( ) ( )

( ) ( ) ( ) ( )

11 3 121 11 13 3

diceBdiceB

diceB

diceB

diceB

diceB

diceB diceB

P A SP A S

P S

P S A P A

P S

P S A P A

P S A P A P S C P C

La probabilità di A sale a ½.S se può fa il

nome di B

S è costretto a fare il nome di B

perché è C a salvarsi

Page 35: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

35

È vietata la riproduzione non autorizzata a fini commerciali.

Un po’ di svago: i tre prigionieri

Ad S è estremamente antipatico C, per cui se può fa il suo nome:

( )( )

( )

( ) ( )

( )

( ) ( )

( ) ( ) ( ) ( )

10 3 01 10 13 3

diceBdiceB

diceB

diceB

diceB

diceB

diceB diceB

P A SP A S

P S

P S A P A

P S

P S A P A

P S A P A P S C P C

A è sicuramente condannato

perché se S dice B, è certo che è stato costretto a dirlo

visto che C si salverà

Se è A a salvarsi, S farebbe il nome di C per cui, in

tal caso, la probabilità che dica B è zero

È vietata la riproduzione non autorizzata a fini commerciali.

Le variabili casuali Sinonimi: variabile casuale (V.C.), variabile aleatoria,

variabile stocastica

Dato un qualsiasi esperimento casuale: una V.C. è una funzione matematica a valori reali che associa ad ogni elemento dello spazio campionario uno ed un solo numero reale

NB: per ogni esperimento casuale possono essere create infinite V.C

Una V.C. è quindi un modello (probabilistico) che ci permette di descrivere in maniera semplice ma rigorosa un qualsiasi fenomeno collettivo di nostro interesse

Page 36: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

36

È vietata la riproduzione non autorizzata a fini commerciali.

Le variabili casualiUna V.C. risulta completamente identificata: dai valori che essa può assumere (dominio o supporto)

V.C. discrete: assumono un numero finito o un’infinità numerabile di valori (si può sempre stabilire una corrispondenza biunivoca tra il loro supporto e un qualsiasi sottoinsieme dei numeri Naturali)

V.C. continue: assumono un’infinità non numerabile di valori

e dalle probabilità ad essi associate nel caso di V.C. discrete: funzione di massa di

probabilità nel caso di V.C. continue: funzione di densità di

probabilità

È vietata la riproduzione non autorizzata a fini commerciali.

Esperimento: lanciare 2 monete bilanciate. Sia X = # teste.

C

C

4 possibili risultati

C

C

T

T

T T

Distribuzione di Probabilità

0 1 2 x

Valori x Probabilità

0 1/4 = .25

1 2/4 = .50

2 1/4 = .25

.50

.25

Pro

bab

ilità

Calcoliamo f(x) , cioè P(X = x) , per tutti i valori di x:

Funzione di

probabilità

Funzione di massa di probabilità

Page 37: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

37

È vietata la riproduzione non autorizzata a fini commerciali.

(La notazione indica che la sommatoria si estende a tutti i possibili valori di x)

Due proprietà necessarie della funzione di massa di probabilità: f(x) 0 per ogni valore di x

Le probabilità sommano a 1: ( ) 1x

f x

Funzione di massa di probabilità

È vietata la riproduzione non autorizzata a fini commerciali.

La funzione di ripartizione (o cumulativa) esprime la probabilità che X non superi il valore x0

Relazione con la funzionedi probabilità:

0 0( ) ( )F x P X x

0

0( ) ( )x x

F x f x

Valori x Prob. Cumul.

0 0.25

1 0.75

2 1.00

Funzione di ripartizione

es: lanciare 2 monete bilanciate. Sia X = # teste.

Funzione di ripartizione

Page 38: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

38

È vietata la riproduzione non autorizzata a fini commerciali.

In analogia con quanto visto per le distribuzioni di frequenze, anche per le distribuzioni di probabilità è utile avere degli indici di sintesi

Indici di posizione: media (nel caso delle v.a. chiamato anche valore atteso)

Indici di variabilità: varianza e deviazione standard

Sintesi delle distribuzioni

È vietata la riproduzione non autorizzata a fini commerciali.

Il valore atteso di una distribuzione discreta è la media dei possibili valori pesata con le rispettive probabilità

Esempio: Lanciare 2 monete, X = # di teste,

calcoliamo il valore atteso di X:

E(X) = (0 x0 .25) + (1 x 0.50) + (2 x0 .25) = 1.0

x f(x)

0 0.25

1 0.50

2 0.25

( ) ( )x

E X xf x

Il valore atteso

Page 39: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

39

È vietata la riproduzione non autorizzata a fini commerciali.

Esempio roulette: 18 rossi, 18 neri, 2 verdi (numeri 0 e 00):

X = somma disponibile a seguito della puntata di 1 euro sul rosso

P(X = 2) = 18/38 P(X = 0) = 20/38,

E(X) = 0*20/38+2*18/38 = 36/38 = 0.947

L’equivalente certo della scommessa è 0.947 euro con questo costo il gioco sarebbe equo: poiché la puntata costa 1 euro il gioco è a favore del banco (perdita attesa di 0.053 euro)

Il valore atteso

È vietata la riproduzione non autorizzata a fini commerciali.

Il valore atteso approssima la media dei valori che si otterrebbero ripetendo molte volte l’esperimento in modo indipendente e in identiche condizioni

Nell’esempio della roulette la perdita attesa è di 0.053 euro a puntata

In una singola puntata tale valore è poco significativo: infatti, o si vince 1 euro o si perde 1 euro!!

Invece, in una lunga serie di n puntate le frequenze relative di successo e insuccesso convergono a 18/38 e 20/38 e quindi la perdita media in n puntate converge a 0.053 euro: ad es. n=1000 è una serie sufficientemente lunga per avere una buona approssimazione dopo 1000 puntate la perdita media per puntata sarà approssimativamente di 0.053 euro (per una perdita totale di circa 53 euro)

Il valore atteso

Page 40: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

40

È vietata la riproduzione non autorizzata a fini commerciali.

Varianza di una variabile casuale discreta X:

Deviazione standard (o scarto quadratico medio) di una variabile casuale discreta X:

2 2( ) ( )x

x f x

2 2 2( ) ( ) ( )x

E X x f x

NB: la Dev.Std. è un indice di variabilità (= dispersione attorno alla media), e quindi di incertezza. Dev.std. grande media poco “affidabile”

Varianza e deviazione standard

È vietata la riproduzione non autorizzata a fini commerciali.

Esempio: Lanciare 2 monete, X = # di teste,

Calcoliamo la deviazione standard

Poiché m = 1 si ottiene

2 2 2σ ( ) (.25) ( ) (.500 1 21 1 1) ( ) (.25) .50 .707

Numero possibile di teste (0, 1, 2)

2( ) ( )x

x f x

Varianza e deviazione standard

Page 41: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

41

È vietata la riproduzione non autorizzata a fini commerciali.

Per una variabile aleatoria degenere che certamente assume il valore a valore atteso= a varianza= 0

Cambiamento di scala: se una v.a. viene moltiplicata per una costante b, il valore atteso risulta moltiplicato per b e la varianza per b2

( ) ( ) 0E a a Var a

2( ) ( ) ( ) ( )E bX bE X Var bX b Var X

Valore atteso: proprietà

È vietata la riproduzione non autorizzata a fini commerciali.

Sia X una variabile aleatoria con media µX e varianza s2X

siano a e b due costanti. sia Y = a + bX una nuova variabile casuale ottenuta come

trasformazione di Xallora la media e varianza di Y sono:

La deviazione standard di Y è allora

( )Y XE a bX a b

2 2 2( )Y XVar a bX b

Y Xb

Combinazioni lineari di variabili casuali

Page 42: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

42

È vietata la riproduzione non autorizzata a fini commerciali.

Data una qualunque v.a. X con media X e deviazione standard X , si definisce standardizzata la v.a. Z

Per costruzione, si ha Z = 0 e Z = 1 (si dimostra usando le proprietà delle trasformazioni lineari di v.a.)La trasformazione inversa è

X

X

XZ

X XX Z

Standardizzazione

È vietata la riproduzione non autorizzata a fini commerciali.

Le variabili casualiTra le principali V.C. in questo corso ci interesseremo alla: Bernoulli nel discreto, Normale nel continuo.

Page 43: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

43

È vietata la riproduzione non autorizzata a fini commerciali.

La distribuzione Bernoulli è la famiglia parametrica (l’unica possibile) per le variabili binarie, cioè variabili che indicano se un certo evento A è vero o falso X = 1 l’evento A si è verificato (cosiddetto SUCCESSO) X = 0 l’evento A non si è verificato (cosiddetto INSUCCESSO)

esempio: favorevole/contrario, soddisfatto/insoddisfatto, buono/difettoso

NB: la definizione di A e quindi di ciò che debba intendersi per SUCCESSO è arbitraria

esempio: in un problema di customer satisfaction si possono scegliere le due alternative:

A = SUCCESSO (X = 1) quando un cliente si dice «soddisfatto» A = SUCCESSO (X = 1) quando si dice «insoddisfatto»

Distribuzione di Bernoulli

È vietata la riproduzione non autorizzata a fini commerciali.

Indichiamo con p(0,1) la probabilità di SUCCESSO, cioè P(X=1) = pDi conseguenza la probabilità di INSUCCESSO è 1-p, cioè P(X=0) = 1-pIn forma compatta si può dunque scrivere:

1( ) (1 ) 0,1 (0,1)x xP X x p p x p

sostituendo x con 0 1-psostituendo x con 1 p

supporto spazio parametrico

Notazione: X~B(p)(si legge: la v.a. X ha una distribuzione Bernoulli con probabilità di successo p)

Distribuzione di Bernoulli

Page 44: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

44

È vietata la riproduzione non autorizzata a fini commerciali.

Media (valore atteso) e varianza:

( ) 0(1 ) 1E X p p p 2 2 2( ) (0 ) (1 ) (1 ) (1 )Var X p p p p p p

Per una qualunque v.c. della famiglia Bernoulli la media coincide con la probabilità di successo pIl grafico illustra la relazione tra varianza e media

0 10.5p

p(1-p)

0.25

Distribuzione di Bernoulli

È vietata la riproduzione non autorizzata a fini commerciali.

Si riportano alcune sequenze di 20 numeri 0-1: tre sequenze sono casuali, generate da prove bernoulliane

con p=0.5 due sequenze non sono casuali

Quali sono verosimilmente le due sequenze non casuali? Che caratteristiche hanno le tre sequenze casuali?

A 1 1 0 1 1 0 0 1 1 0 1 1 0 1 0 1 1 0 0 1

B 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1

C 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0

D 0 0 0 1 0 0 1 0 0 0 1 1 0 0 0 0 0 1 1 1

E 1 0 1 1 1 1 0 1 1 1 1 1 1 0 1 1 0 1 0 0

Distribuzione di Bernoulli

Page 45: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

45

È vietata la riproduzione non autorizzata a fini commerciali.

È la distribuzione nel continuo più usata perché descrive bene molti fenomeni in ambito antropologico e

sociale ha proprietà matematiche che la rendono agevole da

trattare

Distribuzione Normale

È stata proposta da F. Gauss (1809), che la utilizzò per primo nello studio degli errori di misurazione relativi alla traiettoria dei corpi celesti (per questo è chiamata anche gaussiana)

È vietata la riproduzione non autorizzata a fini commerciali.

Forma campanulare Simmetrica Media, Mediana e Moda

coincidono

La tendenza centrale è determinata dal parametro μ (media)

La variabilità è determinata dal parametro σ(deviazione std)

La variabile aleatoria ha un campo di variazione teoricamente infinito: da a +

Media = Mediana

= Moda

x

f(x)

μ

σ

Distribuzione Normale

Page 46: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

46

È vietata la riproduzione non autorizzata a fini commerciali.

Famiglia parametrica di distribuzioni continue su supporto (- ,+)

Per ogni coppia ( , 2) la funzione di densità della Normale è

2

2

1 ( )

2

2

1( )

2

x

f x e

2( , ) [0, ) 2~ ( , )X N

e 2.71828

π 3.14159

Distribuzione Normale

È vietata la riproduzione non autorizzata a fini commerciali.

x

f(x)

Cambiando la distribuzione si sposta verso sinistra o destra

Cambiando aumenta o diminuisce la dispersione, ovvero si schiaccia o si appuntisce la campana

Nella distribuzione Normale la media e la varianza sono due parametri distinti la varianza non dipende dalla media, come invece accade per molte distribuzioni (es. la Bernoulli)

Distribuzione Normale

Page 47: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

47

È vietata la riproduzione non autorizzata a fini commerciali.

Distribuzioni Normali con valori differenti dei parametri e

[la distribuzione è individuata indifferentemente usando 2 o , es. si può dire Normale di media 0 e varianza 9 o Normale di media 0 e deviazione standard 3]

Distribuzione Normale

È vietata la riproduzione non autorizzata a fini commerciali.

L’ area totale sottesa alla curva è pari a 1, e la curva è simmetrica, perciò metà è al di sopra della media, e metà è al di sotto

f(x)

0.50.5

( ) 1P X

( ) 0.5P X ( ) 0.5P X

Distribuzione Normale

Page 48: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

48

È vietata la riproduzione non autorizzata a fini commerciali.

Per ogni coppia ( , ) la f. di probabilità della Normale ha le seguenti caratteristiche:

È positiva per ogni x reale

L’area sottesa alla curva è 1 La media (valore atteso) coincide con il parametro (il simbolo del

parametro non è stato scelto a caso!) È simmetrica unimodale, per cui non è solo la media, ma anche

la mediana ( lascia a sinstra e a destra un’area pari a 0.5) e la moda (x= è il punto in cui la curva ha la massima altezza)

La varianza coincide con il parametro e quindi la deviazione standard è (anche qui il simbolo del parametro non è stato scelto a caso!)

La curva ha due punti di flesso (cambia la concavità) in ±

Quando x o x la curva tende a zero (senza mai diventare esattamente zero: l’asse delle ascisse è un asintoto della curva)

Proprietà di ogni densità

Distribuzione Normale

È vietata la riproduzione non autorizzata a fini commerciali.96

xbμa

xbμa

xbμa

( ) ( ) ( )P a X b F b F a

( ) ( )F a P X a

( ) ( )F b P X b La probabilità relativa ad un intervallo di valori è misurata dall’area sottesa alla curva e può essere espressa come differenza tra la funzione di ripartizione calcolata negli estremi dell’intervallo

Ma la funzione di ripartizione della Normale è un integrale senza soluzione analitica non esiste una formula per calcolare le probabilità cumulate!

Distribuzione Normale

Page 49: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

49

È vietata la riproduzione non autorizzata a fini commerciali.

Dato che non esiste una formula per la funzione di ripartizione è necessario ricorrere ad una approssimazione numericaPrima vediamo il calcolo tramite approssimazione numerica per la Normale Standard (ovvero il membro della famiglia con media 0 e dev.std. 1) uso delle tavolePoi affrontiamo il problema per una Normale generica (ovvero con media e dev.std. qualunque) la soluzione si basa sulla standardizzazione (si tratta di riformulare il problema in termini di Normale Standard)

Distribuzione Normale

È vietata la riproduzione non autorizzata a fini commerciali.

La Normale standard Z, il membro con media 0 e varianza 1, funge da “rappresentante” della famiglia

funzione di densità:

funzione di ripartizione:

2

21

( )2

x

x e

20

20

1( )

2

x x

x e dx

~ (0,1)Z N

Distribuzione Normale Standard

Page 50: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

50

È vietata la riproduzione non autorizzata a fini commerciali.

La tavola della Normale standard fornisce i valori della funzione di ripartizione della distribuzione normale ottenuti tramite approssimazione numerica

Per un dato valore a di Z, la tavola fornisce F(a)(l’area sottesa alla curva da meno infinito al valore a)

Distribuzione Normale Standard

z0 a

( ) ( )F a P Z a

È vietata la riproduzione non autorizzata a fini commerciali.

Page 51: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

51

È vietata la riproduzione non autorizzata a fini commerciali.

Esempio:

P(Z < 2.00) = .9772

La tavola della Normale Standard fornisce la probabilità F(a) per qualunque valore a tra 0 e 4.49

Z0 2.00

.9772

P(Z < 4.49) è quasi 1 la tavola riporta 1.0000

Per un valore più grande di 4.49 la probabilità è ancora più vicina a 1 la tavola non riporta il valore

Es. P(Z < 5.22) si approssima con il valore 1

Distribuzione Normale Standard

È vietata la riproduzione non autorizzata a fini commerciali.

Per valori negativi di Z, usiamo il fatto che la distribuzione è simmetrica per trovare la probabilità desiderata:

z0-2.00

Esempio:

P(Z < -2.00) = 1 – 0.9772

= 0.0228

z0 2.00

.9772

.0228

.9772.0228

In simboli (z)=1(z)

Distribuzione Normale Standard

Page 52: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

52

È vietata la riproduzione non autorizzata a fini commerciali.

Lezione 3

I Principi dell’Inferenza

È vietata la riproduzione non autorizzata a fini commerciali.

Deduttiva: è un metodo per derivare informazioni da fatti accertati; le conclusioni cui si arriva con l’inferenza deduttiva sono definitive. È l’inferenza che in matematica si usa per dimostrare i teoremi.es: SE un triangolo rettangolo ha un angolo di 90° e il triangolo A è rettangolo ALLORA il triangolo A ha un angolo di 90°

Induttiva: si generalizza l’esperimento singolo alla classe di tutti gli esperimenti simili operando una sorta di estensione dal particolare al generale. Le generalizzazioni però non sono certe.L’inferenza induttiva è un processo d’azzardo e l’incertezza viene misurata in termini probabilistici.

Inferenza…

Page 53: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

53

È vietata la riproduzione non autorizzata a fini commerciali.

Uno dei compiti della statistica è quello di fornire metodi per fare delle inferenze induttive e misurarne il grado di incertezza.

Inferenza Statistica Parametricasi presuppone di conoscere il modello probabilistico caratterizzante il fenomeno oggetto di studio, ma non si conoscono i suoi parametri.

Inferenza Statistica Non Parametricanon si conosce neanche il modello probabilistico caratterizzante il fenomeno oggetto di studio.

Inferenza induttiva

È vietata la riproduzione non autorizzata a fini commerciali.

Scopo dell’Inferenza Statistica Parametrica…

… è utilizzare i risultati dell’esperimento campionario per giungere alla conoscenza (dei parametri) della Popolazione che ha generato quei risultati

dai dati osservati per un campione

ad affermazioni che riguardano la popolazione

Page 54: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

54

È vietata la riproduzione non autorizzata a fini commerciali.

Popolazioni finiteUna Popolazione finita è un insieme di unità su cui si può osservare un certo carattere. (es: gli investimenti annui di tutte le aziende di un paese; il numero di figli di ogni famiglia italiana)

I parametri della popolazionesono delle costanti che descrivono aspetti caratteristici della distribuzione del carattere nella popolazione stessa.

Es:media e varianza della popolazione

La Popolazione e i suoi parametriPopolazioni infiniteUna Popolazione infinita è composta da tutte le unità potenzialmente osservabili e nonnecessariamente già esistenti fisicamente. Il carattere d’interesse può essere rappresentato da una variabile casuale con una certa distribuzione di probabilità. In questo caso si indicherà con “popolazione Y” la v.c. Y.

I parametri della popolazione sono le costanti caratteristiche della distribuzione di probabilità della v.c. Y

È vietata la riproduzione non autorizzata a fini commerciali.

Parametri (costanti) di maggior interesse:

Totali (occupati, forza lavoro, ...) Medie (reddito pro-capite, …) Proporzioni (% di laureati, % di soddisfatti, …) Rapporti (tra totali, tra medie, ecc.)

La Popolazione e i suoi parametri

Page 55: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

55

È vietata la riproduzione non autorizzata a fini commerciali.

Teoria della StimaAttraverso l’osservazione di un campione si cerca di valutare un parametro (una costante) della Popolazione.

Stima Puntuale Stima per Intervallo

Verifica o Test di Ipotesi (non in programma)

NB: tutte le affermazioni della statistica inferenziale sono incerte, ma certe probabilisticamente

È vietata la riproduzione non autorizzata a fini commerciali.

(domani) si estrae un campione casuale oggi i valori estratti non sono noti per cui è una v.c.

si utilizza un’opportuna funzione di riduzione dei dati Tn

Tn è detta statistica campionaria se NON dipende da altre quantità incognite

La statistica campionaria Tn è una v.c., in quanto è funzione delle v.c. .

Tn assume valori nell’universo dei campioni per cui la sua distribuzione di probabilità è detta distribuzione campionaria.

1 2, , , nnY Y Y R

: nnT R R

1 2, , , nY Y Y

1 2, , , nY Y Y

Teoria della Stima puntuale

Page 56: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

56

È vietata la riproduzione non autorizzata a fini commerciali.

Media campionaria:

i valori che potrà assumere saranno in numero uguale al numero dei campioni e varieranno in funzione di tali campioni

la distribuzione di dipenderà dalla distribuzione della Popolazione Y e sarà caratterizzata, come tutte le distribuzioni di probabilità, da una sua media, una sua varianza, …

Un esempio di statistica (campionaria): la media campionaria

11

( ,..., )n

in n

i

YT Y Y y

n

1

ni

i

yy

n

oggi è una v.c. domani è un numero

y

y

1 1 1

2

21 1

1

n n nii

i i i

n ni

ii i

E YYE y E

n n n

YVar y Var Var Y

n n n

NB: questa uguaglianza è vera SOLO se le estrazioni sono indipendenti

È vietata la riproduzione non autorizzata a fini commerciali.

Stima puntualeStimatore: è una statistica (ovvero una funzione di v.c.

che è essa stessa v.c.) utilizzata per stimare il parametro incognito

1 2

1 2

, , ,

, , ,

n

n

T Y Y Y

T y y y t

oggi è una v.c.

domani è un numero ovvero una stima di

2 0

per esempio:

Supponendo di voler stimarequal è il miglior stimatore che possiamo utilizzare?

Page 57: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

57

È vietata la riproduzione non autorizzata a fini commerciali.

Idealmente vorremmo che, domani, la stima

qualunque sia il campione che estrarremo e qualunque sia il valore di .

Stimatori e stime

NB: non esiste alcun metodo di stima che garantisca stimatori ottimali in tutte le situazioni

1 2, , , nT y y y

d t

T stimatore ottimale

Errore campionario o errore di stima

È vietata la riproduzione non autorizzata a fini commerciali.

L’errore di stima d non può in generale essere azzerato nell’indagine campionaria; d = 0 solo nei censimenti (in assenza di non riposte).

Come cercare di ridurre d nell’indagine campionaria?

dimensione n del campione

Piano di campionamento

NB: per quanto detto in precedenza n non può essere aumentato a piacere.

Stimatori e stime

n d

Page 58: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

58

È vietata la riproduzione non autorizzata a fini commerciali.

Una proprietà degli stimatori

Uno stimatore T è NON DISTORTO sse

E T

La non distorsione è da considerarsi più come un vincolo che come una proprietà auspicabile

È vietata la riproduzione non autorizzata a fini commerciali.

Lezione 4

Note di Inferenza parametrica(stima puntuale e per intervallo)

Page 59: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

59

È vietata la riproduzione non autorizzata a fini commerciali.

Prima ipotesi di lavoroIpotesi sulla Popolazione:

se non diversamente indicato, nel proseguo della trattazione supporremoche quella di riferimento sia una Popolazione infinita

ad ogni estrazione, la popolazione NON subisce un cambiamento in termini di frequenze relative per cui le Yi sono v.c. I.I.D. ovvero indipendenti e con identica distribuzione di probabilità

2? ,Y

È vietata la riproduzione non autorizzata a fini commerciali.

Stima puntuale: stimatori di uso frequente nel caso di variabili I.I.D.

Stimatore per la media

1

1 n

ii

Y Yn

o è non distorto:

o ha varianza:

1 1 1

1 1 1n n n

i i ii i i

nE Y E Y E Y E Y

n n n n

2 2

2 2 21 1 1

1 1 1n n n

i i ii i i

nVAR Y VAR Y VAR Y VAR Y

n n n n n

Page 60: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

60

È vietata la riproduzione non autorizzata a fini commerciali.

Stimatore per la varianza 2

22

1

n

ii

Y Yn

o è distorto!!!!!

22 2 2

1

1 1ˆ ...

n

ii

nE E Y Y

n n

Stimatore non distorto della varianza 2

2 22 2

1 1

1 1ˆ

1 1 1

n n

i ii i

n nS Y Y Y Y

n n n n

Stima puntuale: stimatori di uso frequente nel caso di variabili I.I.D.

È vietata la riproduzione non autorizzata a fini commerciali.

Alcuni teoremi utiliTeorema 1:Se alloraUna trasformazione lineare di una normale è ancora una Normale

2,Y YY N 2 2,Y YW a bY N a b b

Teorema 2:Se sono n v.c. indipendentiallora

La somma di n v.c. Normali indipendenti è ancora una distribuzione Normale

2,i i iY N

2

1 1 1

,n n n

i i ii i i

W Y N

Page 61: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

61

È vietata la riproduzione non autorizzata a fini commerciali.

-4 -2 0 2 4

0.0

0.2

0.4

0.6

0.8

x

sam

ple

mean d

ens

ity

Seconda ipotesi di lavoroIpotesi sulla distribuzione della Popolazione:

se non diversamente indicato, nel proseguo della trattazione supporremoche la Popolazione si distribuisca secondo una Normale

2

1

1,

n

ii

Y Y Nn n

0,1Y

YZ N

n

per i teoremi precedenti:

È vietata la riproduzione non autorizzata a fini commerciali.

La distribuzione t di Student

Se sostituiamo il parametro con una sua stimaottenuta mediante:

( NB: è ora la varianza elementare del campione )

S

22

1

1

1

n

ii

S S Y Yn

1n

YT t

S

n

t di Student

con n - 1 gradi di libertà

2S

Page 62: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

62

È vietata la riproduzione non autorizzata a fini commerciali.

La distribuzione t di Student

-6 -4 -2 0 2 4 6

0.0

0.1

0.2

0.3

0.4

x

densi

ty

Al crescere di n(gradi di libertà) la t tende alla Normale N(0,1) in colore rosso

per n>30l’approssimazione è da

considerarsi buona

È vietata la riproduzione non autorizzata a fini commerciali.

Stime per intervalloValgono le ipotesi distributive sulla Popolazione fatte in precedenza.

Supponiamo di voler costruire una stima per intervallo per il parametro della Popolazione

cioè supponiamo di voler costruire un intervallo di confidenza per

Il livello di confidenza è la probabilità che cada in tale intervallo.

Confidenza Fiducia

Page 63: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

63

È vietata la riproduzione non autorizzata a fini commerciali.

Intervalli di confidenza

In generale, l’intervallo di confidenza per risultadefinito da

con:

Pr 1l L

1 2

1 2

, , ,

, , ,

1

n

n

l f Y Y Y

L g Y Y Y

limite inferiore

limite superiore

Livello di confidenza

Probabilità di sbagliare

l e L prima dell’estrazione del campione sono 2 V.C.,una volta estratto il campione sono numeri

È vietata la riproduzione non autorizzata a fini commerciali.

Intervalli di confidenza

Livello di confidenza: la probabilità che l’intervallo casuale contenga al suo interno il parametroè pari a

Informatività dell’intervallo: sarà tanto più alta quanto più è stretto l’intervallo

1 1, , , , ,n nl Y Y L Y Y

1

Situazione ottimale: Intervallo stretto Livello di confidenza elevato

Se aumenta il livello di confidenza, aumenta l’ampiezza dell’intervallo MA diminuisce l’informatività dello stesso,

a meno che non si aumenti la dimensione del campione

Page 64: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

64

È vietata la riproduzione non autorizzata a fini commerciali.

Intervalli di confidenza

Per determinare l’intervallo di confidenza per un generico parametro, si cerca una espressione (quantità pivotale):

in cui deve comparire solo il parametro da stimare e non altri parametri incogniti (o di disturbo);

la cui distribuzione è perfettamente nota.

Una volta individuata questa espressione si può, isolando il parametro, costruire l’intervallo di confidenza (questo metodo è detto metodo del pivot).

È vietata la riproduzione non autorizzata a fini commerciali.

Se la varianza della Popolazione è nota:

2

1

1,

n

ii

Y Y Nn n

Non è quantità pivotale perché solo la forma della distribuzione è nota ma non la distribuzione esatta

Standardizziamo : Y

0,1Y

N

n

Questa è quantità pivotale, perché la distribuzione è perfettamente nota (tabulata) e l’espressione contiene un unico parametro incognito

possiamo applicare il Metodo del Pivot

Intervalli di confidenza per ( nota) 2

Page 65: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

65

È vietata la riproduzione non autorizzata a fini commerciali.

Partiamo da un’affermazione probabilisticamente vera relativa alla quantità pivotale:

2 2Pr 1

Yz z

n

NB: date le proprietà della distribuzione, questo è il più piccolo intervallo ottenibile al livello di probabilità desiderato

Intervalli di confidenza per ( nota) 2

È vietata la riproduzione non autorizzata a fini commerciali.

Pivotiamo rispetto al parametro incognito :

2 2

2 2

2 2

Pr 1

Pr 1

Pr 1

z Y zn n

Y z Y zn n

Y z Y zn n

Intervallo di confidenza per la media di una Popolazione Normale con varianza nota

Intervalli di confidenza per ( nota) 2

Page 66: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

66

È vietata la riproduzione non autorizzata a fini commerciali.

Intervalli di confidenza per ( nota): esempio 2

È vietata la riproduzione non autorizzata a fini commerciali.

Se la varianza della Popolazione NON è nota:

2

1

1,

n

ii

Y Y Nn n

Non è quantità pivotale perché solo la forma della distribuzione è nota ma non la distribuzione esatta

Standardizziamo : Y

0,1Y

N

n

Neanche questa è quantitàpivotale, perché la distribuzione non è nota in quanto l’espressione contiene il parametro incognito ed un parametro di disturbo.

sostituiamo il parametro di disturbo (incognito) con una sua stima

Intervalli di confidenza per ( NON nota) 2

Page 67: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

67

È vietata la riproduzione non autorizzata a fini commerciali.

Partiamo da un’affermazione probabilisticamente vera relativa alla quantità pivotale:

, 1 , 12 2

Pr 1n n

Yt t

Sn

possiamo applicare il Metodo del Pivot

1n

Yt

S

n

Questa è quantità pivotale, perché la distribuzione è perfettamente nota (tabulata) e l’espressione contiene un unico parametro incognito

La t di Student ha le stesse proprietà della Normale, per cui questo è il più piccolo intervallo ottenibile al livello di probabilità desiderato

Intervalli di confidenza per ( NON nota) 2

È vietata la riproduzione non autorizzata a fini commerciali.

, 1 , 12 2

, 1 , 12 2

, 1 , 12 2

Pr 1

Pr 1

Pr 1

n n

n n

n n

S St Y t

n n

S SY t Y t

n n

S SY t Y t

n n

Intervallo di confidenza per la media di una Popolazione Normale con varianza NON nota

Pivotiamo rispetto al parametro incognito :

Intervalli di confidenza per ( NON nota) 2

Page 68: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

68

È vietata la riproduzione non autorizzata a fini commerciali.

Intervalli di confidenza per ( NON nota): esempio 2

È vietata la riproduzione non autorizzata a fini commerciali.

Teorema Limite CentraleSupponiamo ora che NON valga più l’ipotesi sulla Normalità della Popolazione.

Se sono n v.c. I.I.D.con parametri finiti, allora

1, , nY Y 2? ,

0,1nY

N

n

ovvero la standardizzazione della media campionaria tende, al crescere di n, a distribuirsi come una Normale

standard

2

,n

Y Nn

Corollario al TLC:

Page 69: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

69

È vietata la riproduzione non autorizzata a fini commerciali.

Teorema Limite CentraleEsempio: Popolazione di tipo Bernoulliano ( p = 0.1 )

n = 20 n = 30

n = 40 n = 50

Central LimitTheorem

Den

sity

-1 0 1 2 3 4 5

0.0

0.1

0.2

0.3

0.4

0.5

Central LimitTheorem

Den

sity

-2 -1 0 1 2 3 4

0.0

0.1

0.2

0.3

Central LimitTheorem

Den

sity

-2 -1 0 1 2 3 4 5

0.0

0.1

0.2

0.3

0.4

Central LimitTheorem

Den

sity

-2 0 2 4

0.0

0.1

0.2

0.3

Universo dei campioni simulato mediante 10000 estrazioni di campioni di dimensione n

È vietata la riproduzione non autorizzata a fini commerciali.

Teorema Limite CentraleEsempio: Popolazione di tipo Bernoulliano ( p = 0.3 )

Central LimitTheorem

Den

sity

-3 -2 -1 0 1 2 3 4

0.0

0.1

0.2

0.3

0.4

Central LimitTheorem

Den

sity

-2 0 2 4

0.0

0.1

0.2

0.3

0.4

Central LimitTheorem

Den

sity

-2 0 2 4

0.0

0.1

0.2

0.3

0.4

Central LimitTheorem

Den

sity

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

n = 20 n = 30

n = 40 n = 50

Universo dei campioni simulato mediante 10000 estrazioni di campioni di dimensione n

Page 70: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

70

È vietata la riproduzione non autorizzata a fini commerciali.

Teorema Limite CentraleEsempio: Popolazione di tipo Bernoulliano ( p = 0.5 )

n = 20 n = 30

n = 40 n = 50

Universo dei campioni simulato mediante 10000 estrazioni di campioni di dimensione n

Central LimitTheorem

Den

sity

-4 -2 0 2

0.0

0.1

0.2

0.3

0.4

Central LimitTheorem

Den

sity

-4 -2 0 2

0.0

0.1

0.2

0.3

0.4

Central LimitTheorem

Den

sity

-2 0 2 4

0.0

0.1

0.2

0.3

0.4

Central LimitTheoremD

ensi

ty

-4 -2 0 2

0.0

0.1

0.2

0.3

0.4

È vietata la riproduzione non autorizzata a fini commerciali.

Central LimitTheorem

Den

sity

-4 -2 0 2 4

0.0

0.1

0.2

0.3

Central LimitTheorem

Den

sity

-4 -2 0 2

0.0

0.1

0.2

0.3

0.4

Central LimitTheorem

Den

sity

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

Central LimitTheorem

Den

sity

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

Teorema Limite CentraleEsempio: Popolazione di tipo Uniforme (0,1)

n = 20 n = 30

n = 40 n = 50

Universo dei campioni simulato mediante 10000 estrazioni di campioni di dimensione n

Page 71: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

71

È vietata la riproduzione non autorizzata a fini commerciali.

Se la Popolazione è Bernoulliana e le v.c. sono I.I.D.:

1

n

ii

Y Y pn

La media campionaria è la proporzione campionaria di successi osservati nel campione

Intervalli di confidenza per ( = )p

2

ˆ

ˆ

E Y E p p

pqVAR Y VAR p

n n

una Bernoulli ha media pe varianza pq

Per il T.L.C.:

ˆ0,1

np pN

pqn

NB: questa NON è quantitàpivotale, perché la distribuzione non è nota in quanto l’espressione contiene il parametro incognito sia a numeratore che a denominatore.

È vietata la riproduzione non autorizzata a fini commerciali.

Partiamo da un’affermazione probabilisticamente vera relativa alla quantità pivotale:

2 2

ˆP r 1

ˆ ˆ

p pz z

pqn

possiamo applicare il Metodo del Pivot

Questa è quantità pivotale, perché la distribuzione è perfettamente nota (tabulata) e l’espressione contiene un unico parametro incognito

ˆ0,1

ˆ ˆ

Ap pN

pqn

Intervalli di confidenza per p

Page 72: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

72

È vietata la riproduzione non autorizzata a fini commerciali.

2 2

2 2

ˆ ˆ ˆ ˆˆPr 1

ˆ ˆ ˆ ˆˆ ˆPr 1

pq pqz p p z

n n

pq pqp z p p z

n n

Intervallo di confidenza per la proporzione di una Popolazione Bernoulliana

Pivotiamo rispetto al parametro incognito :p

Intervalli di confidenza per p

È vietata la riproduzione non autorizzata a fini commerciali.

Intervalli di confidenza per : esempio ( = )p

Page 73: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

73

È vietata la riproduzione non autorizzata a fini commerciali.

2 2

, 1 , 12 2

2 2

Pr 1

Pr 1

ˆ ˆ ˆ ˆˆ ˆPr 1

n n

Y z Y zn n

S SY t Y t

n n

pq pqp z p p z

n n

Intervalli di confidenza: riepilogo

per , noto 2

per , non noto 2

per p

Livello di confidenza2

z

.90 1.645

.95 1.96

.99 2.576

Livello di confidenza , 12n

t

.90

.95

.99

dipende dai gradi di libertà della t

È vietata la riproduzione non autorizzata a fini commerciali.

2

ME zn

Intervalli di confidenza: determinazione della dimensione campionariacaso: intervallo per , noto

chiamiamo ME la semi-ampiezza dell’intervallo

2

Intervallo confidenza = stima puntuale ± MEME = MARGINE d’ERRORE

ME lo stabilisce il ricercatore nel momento in cui valuta l’informatività dell’intervallo in relazione al suo livello di confidenza. Tali considerazioni consentono di determinare la numerosità campionaria adeguata in relazione a livello di confidenza e ME desiderati.

22

2

n zME

Page 74: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

74

È vietata la riproduzione non autorizzata a fini commerciali.

Determinazione della dimensione campionariacaso: intervallo per , noto: esempio 2

È vietata la riproduzione non autorizzata a fini commerciali.

Intervallo confidenza = stima puntuale ± MEdove:

2

ˆ ˆ(1 )p pME z

n

Intervalli di confidenza: determinazione della dimensione campionariacaso: intervallo per p

22

2

ˆ ˆ(1 )p pn z

ME

Però non è calcolabile se non dopo aver estratto il campione;e per estrarre il campione occorre conoscere n.

ˆ ˆ(1 )p p

Page 75: Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini commerciali. Note di Inferenza Statistica a cura di Bruno Bertaccini insegnamento di StatisticaCdS

75

È vietata la riproduzione non autorizzata a fini commerciali.

Intervalli di confidenza: determinazione della dimensione campionariacaso: intervallo per p

22

2

0.25n z

ME

Si sostituisce a il massimo valore assumibile dalla varianza nel caso di distribuzione di Bernoulli.

se 0.5 0.25p pq

ˆ ˆ(1 )p p

È vietata la riproduzione non autorizzata a fini commerciali.

Intervalli di confidenza: determinazione della dimensione campionariacaso: intervallo per p

esempio: quante unità occorre selezionare da una popolazione bernoulliana (infinita o ad essa equiparabile) per stimare la proporzione di successi nella popolazione con un margine di errore del 4% ?

22

22

22

0.251.645 422.74 423

0.040.25

1.96 600.25 6010.04

0.252.576 1036.70 1037

0.04

n

n

n

.90

.95

.99

livello di confidenza