Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini...
Transcript of Note di Inferenza Statistica - UniFI...1 È vietata la riproduzione non autorizzata a fini...
1
È vietata la riproduzione non autorizzata a fini commerciali.
Note di Statistica
a cura di Bruno Bertaccini
insegnamento di Metodi quantitativi per il Turismo
CdS in Scienze del Turismo
Materiale didattico a disposizione degli studenti,scaricabile all’indirizzo http://local.disia.unifi.it/bertaccini
ultimo aggiornamento: 25 settembre 2020
È vietata la riproduzione non autorizzata a fini commerciali.
Il docente
Bruno Bertaccini ([email protected])Dipartimento di Statistica, Informatica, Applicazioni «G. Parenti»v.le Morgagni, 59 – Firenze
ricevimento: su appuntamento (fissando data e modalità di contatto)
2
È vietata la riproduzione non autorizzata a fini commerciali.
Testo di riferimento e altro materiale didattico queste dispense
predisposte con l’obiettivo d’essere d’ausilio alla studio delle nozioni impartite a lezionedell’Ateneo o all’indirizzo http://local.disia.unifi.it/bertaccini
È vietata la riproduzione non autorizzata a fini commerciali.
Modalità d’esame
Test erogato tramite piattaforma web, con domande di varia natura (vero/falso; risposta multipla, esercizi brevi). Eventuale discussione orale dell’esito dello scritto.
Appelli
Gli esami di profitto si svolgono in tre diverse sessioni in relazione alle date comunicate dalla Segreteria
3
È vietata la riproduzione non autorizzata a fini commerciali.
INDICE (programma del corso) Introduzione alla statistica I Principi della Probabilità I Principi dell’Inferenza Note di Campionamento statistico Note di Inferenza parametrica (stima puntuale e per intervallo)
È vietata la riproduzione non autorizzata a fini commerciali.
Lezione 1
Introduzione
4
È vietata la riproduzione non autorizzata a fini commerciali.
è la disciplina che si occupa dell'elaborazione dei risultati dell'osservazione di uno o più caratteri posseduti dagli elementi di un insieme determinato, con l'intento di
esprimere un giudizio e/o prendere una decisione
in merito ad alcuni aspetti di una realtà di interesse che, in quanto riferita ad un insieme e non ai singoli elementi che lo compongono, viene chiamata fenomeno collettivo.
I fenomeni collettivi sono tutti quei fenomeni che presentano una pluralità di manifestazioni diverse
la Statistica…
È vietata la riproduzione non autorizzata a fini commerciali.
la Statistica quindi …è l’insieme delle metodologie per raccogliere, organizzare, sintetizzare, analizzare, interpretare le manifestazioni dei fenomeni collettivi e, laddove, ve ne siano le condizioni, generalizzare le evidenze osservate e trasformarle in informazioni utili per i processi decisionali
5
È vietata la riproduzione non autorizzata a fini commerciali.
La ragion d'essere della statistica è la presenza di un certo livello di variabilità nei dati(altrimenti, paradossalmente, la comprensione del fenomeno sarebbe possibile ricorrendo ad una sola osservazione)
nello studio dei fenomeni collettivi si è consapevoli che al variare dell'unità statistica u entro una certa popolazione P = { u } variano certe caratteristiche misurate su u
in altre parole, per lo studio di un fenomeno caratterizzato da assenza di variabilità non serve scomodare uno statistico
L’essenza della Statistica
È vietata la riproduzione non autorizzata a fini commerciali.
Alcuni semplici esempi: altezza e peso degli studenti di una classe reddito dei parlamentari votazioni riportate all’esame di Statistica dagli studenti
di un certo corso di studi universitario valutazione dell’efficacia dei titoli di studio universitaridurata delle lampadine ad alto risparmio energetico soddisfazione nei confronti del trasporto pubblico localepreferenze dei cittadini per i partiti politici valutazione dell’efficacia di un nuovo farmaco efficacia di una campagna pubblicitaria…
L’essenza della Statistica
6
È vietata la riproduzione non autorizzata a fini commerciali.
… è quindi il fondamento logico e metodologico
per la risoluzione dei problemi decisionali
in condizioni di incertezza
la Statistica…
È vietata la riproduzione non autorizzata a fini commerciali.
Le branche della Statistica (1)
Statistica DescrittivaIn questo settore rientrano i metodi per sintetizzarecon opportune grandezze le caratteristiche salienti dei fenomeni collettivi. La descrizione passa attraverso le fasi di formazione del dato statistico e del trattamento matematico dello stesso.
Per formazione del dato statistico si può intendere: l’elaborazione di dati preesistenti in natura (dati
anagrafici, indici aziendali di bilancio, dati di produzione industriale ecc.)
la necessità di procedere all’effettiva rilevazione delle informazioni necessarie alla comprensione del fenomeno di interesse
7
È vietata la riproduzione non autorizzata a fini commerciali.
Il processo di rilevazione delle informazioni
Il processo di rilevazione delle informazioni è generalmente distinto nelle fasi di: definizione del piano di rilevazione, raccolta delle informazioni, spoglio e classificazione.
La fase più delicata è senza dubbio la prima, soprattutto in relazione al tipo di fenomeno collettivo che si vuole indagare:
altezza -> metro; peso -> bilancia reddito dei parlamentari -> modello 730 performance esami di profitto -> voto conseguito durata lampadine -> cronometro soddisfazione nei confronti del trasporto pubblico locale -> ???
È vietata la riproduzione non autorizzata a fini commerciali.
La Statistica Descrittiva …
È l’insieme di metodologie statistiche che si occupano della descrizione, cioè dell’organizzazione e della sintesi, dei dati osservati.
Le informazioni tratte dal processo di organizzazione e sintesi consentono di pervenire ad una conoscenza del fenomeno collettivo studiato che è limitata all’insieme di dati osservati
Tipologie di caratteri o variabili
8
È vietata la riproduzione non autorizzata a fini commerciali.
Caratteri statistici o variabili
- I caratteri (statistici) o variabili rappresentano i fenomeni collettivi oggetto di studio
- Una variabile è una qualunque caratteristica misurata sulle unità statistiche
- Una variabile può assumere modalità (valori) differenti in corrispondenza delle diverse unità statistiche della popolazione
- L’insieme dei valori della variabile deve essere esaustivo e i valori che la variabile può assumere non devono sovrapporsi
Carattere statistico = variabile
Esaustività: l’insieme dei valori della variabile deve includere tutti i possibili valori teoricamente osservabili della stessaNon sovrapposizione: la variabile non può assumere valori diversi su una stessa unità statistica
È vietata la riproduzione non autorizzata a fini commerciali.
Classificazione delle variabili
- II valori (detti livelli o categorie) della variabile sono espressi da parole (nomi e/o attributi)
- Opportunità di usare codici
esempi: sesso, professione, mezzo impiegato per raggiungere il luogo di lavoro, titolo di studio, livello di soddisfazione
Variabile qualitativa (categoriale)
Variabile quantitativa- II valori della variabile sono di tipo numerico (numeri)- Si ottengono da operazioni di conteggio o di misurazione
esempi: età, peso, altezza, reddito, numero di figli, numero di anni di istruzione
9
È vietata la riproduzione non autorizzata a fini commerciali.
Sotto-classificazione delle variabili qualitative
- È misurabile su scala nominale- Date due modalità, è possibile solo dire se sono uguali o
diverse
esempi: sesso, professione, mezzo impiegato per raggiungere il luogo di lavoro
Variabile qualitativa sconnessa
Variabile qualitativa ordinata - È misurabile su scala ordinale- Date due modalità, è possibile definire un ordine (ma non una
distanza)
esempi: titolo di studio, livello di soddisfazione
È vietata la riproduzione non autorizzata a fini commerciali.
- L’insieme delle modalità è un sottoinsieme di numeri interi- I possibili valori della variabile formano un insieme di numeri
distinti, come 0, 1, 2, 3, …
esempi: età in anni compiuti, numero di figli, numero di anni di istruzione
Variabile quantitativa discreta
Variabile quantitativa continua - L’insieme delle modalità è un sottoinsieme di numeri reali- La variabile può assumere come valore ogni possibile numero
reale incluso in un continuum infinito
esempi: età (esatta), peso, altezza, reddito
Sotto-classificazione delle variabili quantitative
10
È vietata la riproduzione non autorizzata a fini commerciali.
È l’insieme di tutte le unità statistiche oggetto di studio
Popolazione
CampioneÈ un qualsiasi sottoinsiemeproprio delle unità statistiche che costituiscono la popolazione
Popolazione e campione
È vietata la riproduzione non autorizzata a fini commerciali.
La POPOLAZIONE
Popolazione (P ): insieme finito o infinito di unità che non interessano prese singolarmente ma per il contributo che danno allo studio del fenomeno collettivo d’interesse (carattere) F .
Se si è interessati alla conoscenza di un certo fenomeno F si possono rappresentare le sue possibili manifestazioni (modalità del carattere) come punti dell'insieme P. Ovviamente non tutti i punti avranno lo stesso peso, perché può accadere che una determinata manifestazione si realizzi più frequentemente di un'altra.
N dimensione della Popolazione
11
È vietata la riproduzione non autorizzata a fini commerciali.
Le rilevazioni campionarie
Rilevazioni complete (censuarie)esempio: censimento generale della popolazione e delle abitazioni; censimento generale dell’industria, del commercio, dei servizi e dell’artigianato; censimento generale dell’agricoltura (ISTAT)
Rilevazioni campionarie
Stabilito con quale strumento misurare F :
NB: la rilevazione completa è teoricamente sempliceIn realtà, motivazioni legate: alla numerosità della Popolazione (sovente non finita), ai costi e/o ai tempi d’indagine
inducono a optare per la strategia campionaria.
È vietata la riproduzione non autorizzata a fini commerciali.
Le rilevazioni campionarie
Fondamentale diviene quindi in statistica il ruolo dell'esperimento campionario.
Campione: un qualsiasi aggregato (sottoinsieme proprio) di unità statistiche appartenenti ad una certa popolazione e selezionate mediante una certa procedura.
n dimensione del campione
NB1: la strategia campionaria è la sola possibile quando:
NB2: la popolazione da cui si estrae il campione, detta popolazione campionata, non sempre coincide con la popolazione obiettivo.
la popolazione è virtualmente infinita; l’osservazione è distruttiva.
12
È vietata la riproduzione non autorizzata a fini commerciali.
Le rilevazioni campionarie
I principali vantaggi derivanti dall’adozione di una strategia di campionamento
contenere i costi dell'indagine entro limiti accettabili; svolgere l'indagine in tempi relativamente brevi; raccogliere per ogni unità inclusa nell'indagine un maggior
numero di informazioni; raccogliere le informazioni con maggior accuratezza grazie
all'utilizzazione di personale qualificato e/o di tecniche specialistiche.
È vietata la riproduzione non autorizzata a fini commerciali.
Le rilevazioni campionarie
Distorsioni dovute alla risposte: a causa di risposte non corrette o quesiti mal posti;
Distorsioni dovute alle non-risposte: a causa di soggetti campionati che rifiutano di partecipare o rispondere ad alcune domande del questionario.
… però, distorsione indotta dal campionamento:
Inoltre :
in generale, un campione non costituisce quasi mai una riproduzione fedele della popolazione su piccola scala
13
È vietata la riproduzione non autorizzata a fini commerciali.
Le rilevazioni campionarie
come estrarre il campione (secondo quale tecnica)?distinzione tra campionamento probabilistico e
non probabilistico distinzione tra studi sperimentali e studi
osservazionali
come estendere i risultati campionari all’intera popolazione?
… quindi (dato che molto spesso non possiamo fare a meno di condurre un’indagine campionaria):
È vietata la riproduzione non autorizzata a fini commerciali.
Le rilevazioni campionarie
Le fasi relative alla selezione del campione costituiscono il cosiddetto disegno di campionamento.
Disegno di indagine definizione della popolazione obiettivo; scelta dei caratteri da studiare e dello strumento per misurarli; scelta dei domini spazio-temporali dell’indagine; definizione del disegno di campionamento; definizione dei metodi di raccolta, codifica ed elaborazione dati; definizione dei costi e dei livelli di precisione desiderati; definizione dei metodi di stima e di calcolo degli errori
campionari; definizione dei metodi di controllo degli errori non campionari; analisi e presentazione dei risultati.
14
È vietata la riproduzione non autorizzata a fini commerciali.
Le rilevazioni campionarie
Importante distinzione:
Campioni probabilistici: è possibile definire l’insieme (Universo) di tutti i possibili
campioni che potrebbero formarsi seguendo una determinata procedura di estrazione di tipo randomizzato;
è possibile associare a ciascun campione una probabilità di selezione nota;
è possibile attribuire ad ogni unità componente la popolazione una probabilità strettamente positiva di essere estratta.
Campioni non probabilistici: tutti gli altri…
È vietata la riproduzione non autorizzata a fini commerciali.
Campioni probabilistici Campione casuale semplice (CCS):
ogni possibile campione di n unità distinte che può essere estratto dalla popolazione ha un’uguale probabilità di selezione
È lo schema di campionamento più semplice: corrisponde all’estrazione da un’urna (es. estrazione di numeri della tombola)
Nel CCS ciascun campione ha la stessa probabilità degli altri di essere scelto
Nel CCS ogni singola unità della popolazione ha la stessa probabilità di entrare a far parte del campione
Le unità vengono selezionate casualmente da una lista completa di unità
15
È vietata la riproduzione non autorizzata a fini commerciali.
Campione stratificato: la popolazione è divisa in k strati in funzione di uno o più caratteri osservabili (es., sesso, fascia di età) correlati con quelli indagati; da ogni strato si estrae un CCS di unità
Campione a grappoli: la popolazione è divisa in grappoli, cioè sottoinsiemi di unità unite da vincoli di contiguità spaziale o di altro tipo (es., zone geografiche, famiglie); si estrae un CCS di grappoli e si selezionano tutte le unità appartenenti ai grappoli estratti
Campione a due stadi: si estrae un CCS di grappoli e, per ogni grappolo selezionato, un CCS di unità
Campioni probabilistici
È vietata la riproduzione non autorizzata a fini commerciali.
Campioni non probabilistici
Campione a scelta ragionata o per testimoni privilegiati: le unità vengono individuate mediante criteri logici di rappresentatività, autorevolezza, conoscenza specifica del problema
Campione per quota: le unità vengono scelte dal rilevatore in modo che il campione rispetti delle proporzioni predefinite da chi ha pianificato l’indagine
Campione di volontari: le unità decidono autonomamente se far parte del campione
Campione a valanga: poche unità con una certa caratteristica rara (es., una certa malattia) vengono usate per individuare, a catena, altre unità con la stessa caratteristica
16
È vietata la riproduzione non autorizzata a fini commerciali.
Le branche della Statistica (2)
Statistica InferenzialeSe l'estrazione del campione è casuale, i dati possono fornire informazioni sulla variabilità della popolazione e sulla fiducia da accordare a tali informazioni. Questi problemi sono oggetto della Statistica Inferenziale o Induttiva.
Il termine inferenza deriva dal latino e letteralmente significa: argomentare, desumere.
L’inferenza statistica è quindi l’insieme delle metodologie statistiche che consentono di generalizzare all’intera Popolazione la conoscenza acquisita sui dati osservati su un campione.
È vietata la riproduzione non autorizzata a fini commerciali.
La Statistica InferenzialeCon l’inferenza statistica si opera un processo di induzione(dal particolare al generale) della conoscenza, che si contrappone al processo deduttivo (dal generale al particolare)
NB: le generalizzazioni però non sono certe
Le conclusioni inferenziali sono, infatti, sempre accompagnate da una certo margine di errore dovuta alle caratteristiche del campione estratto (errore campionario).
17
È vietata la riproduzione non autorizzata a fini commerciali.
Inferenza statistica e probabilità
L'inferenza è quindi un processo d'azzardo e l'incertezza è misurabile in
termini probabilistici (NB: solo se il campione è di tipo probabilistico).
La PROBABILITÀ è il fondamento logico per fare inferenza sulla Popolazione oggetto d’indagine.
Ma …
che cos’è la PROBABILITÀ?
È vietata la riproduzione non autorizzata a fini commerciali.
Lezione 2
I Principi della Probabilità
18
È vietata la riproduzione non autorizzata a fini commerciali.
… è un concetto primitivo.Per definirla occorre introdurre alcuni ingredienti: esperimento casuale (es: lancio del dado o di una moneta)
evento
spazio degli eventi B
La probabilità è una funzione matematica su Bcon certe proprietà
La Probabilità…
spazio dei possibili risultati dell’ esperimento
È vietata la riproduzione non autorizzata a fini commerciali.
Si definisce esperimento casuale un qualsiasi esperimento per il quale sia possibile a priori elencarne tutti i possibili risultati, senza la certezza di cosa si realizzerà ad esperimento concluso.Esempi:
Giochi di sorte: lancio di una moneta, lancio di un dado, estrazione di un numero al lotto, estrazione di un numero alla roulette
Esperimenti di laboratorio: test di durata di un componente meccanico, somministrazione di un principio attivo a una cavia
Misurazioni fisiche: temperatura minima di domani in una certa stazione metereologica
Fenomeni economici e sociali: opinioni, PIL italiano fra 5 anni, voto a un esame
In generale, tutte le prove, operazioni, attività, fenomeni il cui esito non è prevedibile con certezza sono esperimenti casuali
Esperimento casuale
19
È vietata la riproduzione non autorizzata a fini commerciali.
Con riferimento a un esperimento casuale si possono considerare tutti i possibili esiti dell’esperimento. L’insieme dei possibili esiti, esaustivi e mutualmente esclusivi, viene chiamato spazio campionario
I possibili, distinti, esiti dell’esperimento sono detti eventi elementari
Un qualsiasi sottoinsieme dello spazio campionario (quindi costituito da uno o più eventi elementari) è detto evento
Eventi elementari ed eventi
È vietata la riproduzione non autorizzata a fini commerciali.
Spazio campionario: esempi
Lancio di una moneta: = {Testa, Croce}
Esito di un esame: = {non superato, superato}
Estrazione di un numero al lotto: = {1, 2, …, 90}
Lancio di un dado: = Le facce del dado = {1, 2, 3, 4, 5, 6}
Voto a un esame: = {18, 19, …, 30 e lode}
Numero di casi di influenza il prossimo anno: = {0, 1, 2, …}
Tempo di attesa alla fermata dell’autobus: = {0, +∞}
20
È vietata la riproduzione non autorizzata a fini commerciali.
Eventi: esempi
Esperimento: lancio di un dado Spazio campionario: = Le sei facce del dado =
{1, 2, 3, 4, 5, 6} Risultato: esce la faccia del dado col numero 2 Gli eventi A = «esce una faccia col numero pari» =
{2, 4, 6} e B = «esce una faccia numero inferiore a 4» = {1, 2, 3} si sono verificati
L’evento C = «esce una faccia col numero dispari» = {1, 3, 5} non si è verificato
È vietata la riproduzione non autorizzata a fini commerciali.
Eventi: esempi
Esperimento: voto conseguibile da uno studente al prossimo appello di Statistica
- Spazio campionario: = {18, 19, …, 30 e lode}- Risultato: Voto = 28- Gli eventi A = «voto maggiore di 25», B = «voto inferiore a
29», C = «voto compreso tra 24 e 29» si sono verificati- L’evento D = «voto inferiore a 26» non si è verificato
21
È vietata la riproduzione non autorizzata a fini commerciali.
La rappresentazione degli eventi
Diagramma di Venn
A B
È vietata la riproduzione non autorizzata a fini commerciali.
Operazione tra eventi
Negazione (o complementazione) di un evento
L’evento , che si legge «non A» o «A negato», è l’insieme degli esiti dell’esperimento che non appartengono ad A. Pertanto , si verifica quando non si verifica A.
Esempio: nel lancio di un dado, se A è pari, è dispari.
A
A
A
22
È vietata la riproduzione non autorizzata a fini commerciali.
Operazione tra eventi
Intersezione di due eventi
L’evento intersezione , che si legge «A e B», è l’insieme degli esiti dell’esperimento che appartengono sia (contemporaneamente) ad A e a B.
Esempio: nel lancio di un dado, sa A={1, 2, 3} e B={2, 3, 4} allora .
A B
A B
2,3A B
È vietata la riproduzione non autorizzata a fini commerciali.
Operazione tra eventi
Unione di due eventi
L’evento unione , che si legge «A o B», è l’insieme degli esiti dell’esperimento che appartengono sia ad A oppure a B.
Esempio: nel lancio di un dado, sa A={1, 2, 3} e B={2, 3, 4} allora . 1,2,3,4A B
A B
23
È vietata la riproduzione non autorizzata a fini commerciali.
Alcuni eventi particolari
Evento impossibile
È l’evento che non può mai verificarsi e si indica con . Ad esempio, l’intersezione di un qualsiasi evento con la sua negazione è l’evento impossibile
A A
Evento certo
È l’evento che si verifica sempre perché coincide con . Ad esempio, l’unione di un qualsiasi evento con la sua negazione è l’evento certo.
A A
È vietata la riproduzione non autorizzata a fini commerciali.
Alcuni eventi particolari
Eventi incompatibili
Due eventi A e B si dicono incompatibili se l’evento intersezione di A e B coincide con l’evento impossibile.
Due eventi sono quindi incompatibili quando non hanno elementi in comune. In queste situazioni, notare che il verificarsi di uno esclude l’altro.
A B
24
È vietata la riproduzione non autorizzata a fini commerciali.
La probabilitàDato un esperimento casuale, un evento A si verifica con probabilità P(A)
Esempio 1Esperimento casuale: lancio di una monetaEventi elementari: Testa, CroceQual è la probabilità che esca testa?
Esempio 2Esperimento casuale: lancio di un dado a sei facceEventi elementari: le sei facce del dadoQual è la probabilità che esca il numero 5?
Esempio 3Esperimento casuale: selezione di un individuo da una popolazione di adolescentiEventi elementari: fuma o non fumaQual è la probabilità che l’adolescente selezionato fumi?
È vietata la riproduzione non autorizzata a fini commerciali.
La probabilità
Approcci alla probabilità (in ordine cronologico):
impostazione Classica;es: moneta impostazione Frequentista;
es: moneta truccata impostazione Soggettiva;
es: uomo su Marte
impostazione Assiomatica
25
È vietata la riproduzione non autorizzata a fini commerciali.
L’impostazione assiomatica delle Probabilità (Kolmogorov)
1) ( ) 0
2 ) ( ) 1
3) ( ) ( ) ( )
( )4 ) ( / )
( )
P A
P
P A B P A P B
sse A B
P A BP A B
P B
È una formalizzazione matematica di concetti intuitivi
Principio delle Probabilità condizionate
È vietata la riproduzione non autorizzata a fini commerciali.
L’impostazione assiomatica delle Probabilità (Kolmogorov)
( ) (A ) ( ) ( )P A B P P B P A B In generale ( Principio delle Probabilità Totali ):
AA B
B
se A B assioma 3NB:
26
È vietata la riproduzione non autorizzata a fini commerciali.
Dato un evento A qualsiasi
La probabilità dell’evento impossibile è 0:
Se
Se
Dalla precedente, ponendo , ne deriva
0 (A) 1P
Alcune conseguenze degli assiomi
( ) 0P
A B (A B)=P( ) 1P (A)=1-P(A)PB=A
A B (A B)=0P
È vietata la riproduzione non autorizzata a fini commerciali.
Esercizio
Nell’ambito di uno studio sull’abbandono degli studi universitari entro la fine del primo anno di università, è noto che il collettivo degli studenti di un certo corso di studi è così caratterizzato
Abbandono degli studi Totali
Borsa di studio Sì NoSì 400 1600 2000No 1225 2275 3500Totali 1625 3875 5500
Estraendo casualmente dal collettivo uno studente, si considerino gli eventi:
A = «Ottenere la borsa di studio»B = «Abbandonare gli studi»
27
È vietata la riproduzione non autorizzata a fini commerciali.
Esercizio
Calcolare:
la probabilità di non abbandonare gli studi quindi è
2000(A) 0,364 36, 4%
5500P
1625(B) 0, 295 29,5%
5500P
1625 5500 1625(B) 1 (B) 1
5500 55003875
0,705 70,5%5500
P P
È vietata la riproduzione non autorizzata a fini commerciali.
EsercizioGli eventi A e B sono incompatibili?
No perché, se lo fossero, dovrebbe essere impossibile osservare studenti che hanno ottenuto la borse e abbandonato gli studi. Invece:
Pertanto, la probabilità di non abbandonare gli studi senza aver ottenuto la borsa è:
400(A B) 0,073 7,3%
5500P
1 (A B) 1 [ (A) (B) (A B)]
22751 [0,364 0, 295 0,073] 0, 414 41, 4%
5500
P P P P
28
È vietata la riproduzione non autorizzata a fini commerciali.
EsercizioQual è la probabilità che uno studente abbandoni gli studi dato che ha ottenuto la borsa?
E qual è la probabilità che uno studente avesse ottenuto la borsa tra quelli che hanno abbandonato gli studi?
(B A) 400 5500 400(B | A) 0, 2 20%
(A) 2000 / 5500 2000
PP
P
(A B) 400 5500 400(A | B) 0, 246 24,6%
(B) 1625 / 5500 1625
PP
P
È vietata la riproduzione non autorizzata a fini commerciali.
Eventi incompatibili e indipendenti
( / ) ( )
se A B
P A B P A
A e B sono eventi incompatibili
A e B sono eventi indipendentiovvero il verificarsi di B non incide sulla
probabilità di A
se( )
( / ) ( )( )
( ) ( ) ( )
P A BP A B P A
P B
P A B P A P B
come visto in precedenza:
Invece, se vale la condizione che:
29
È vietata la riproduzione non autorizzata a fini commerciali.
EsercizioCon riferimento ai dati della tabella precedente, gli eventi A e B sono indipendenti?
No perché: (A | B) (A)P P
È vietata la riproduzione non autorizzata a fini commerciali.
Il gioco delle tre cartine colorate
V1
V2
G2
G3G1
V3
Si mescolano le carte e le facce (che, al di là del colore, sonoindistinguibili), per cui mentre si mescola si possono anche ruotare lecarte.
Quindi si estrae una carta e la si pone su un tavolo. Il colore che lacarta mostra è il VERDE.
Ci si chiede quale sia la probabilità che quella carta mostri lo stessocolore anche sull’altra faccia.
30
È vietata la riproduzione non autorizzata a fini commerciali.
Il gioco delle tre cartine colorate
V1
V2
G2
G3G1
V3
1 2 3
1 21 2
1 2
3(osservare ) ( )
6
( )
1/ 3 2
3 / 6 3
P VERDE P V V V
P V V VERDEP V V VERDE
P VERDE
P V V
P VERDE
È vietata la riproduzione non autorizzata a fini commerciali.
dal Principio delle Probabilità condizionate…
( )( / )
( )
P A BP A B
P B
( )( / )
( )
P A BP B A
P A
( / ) ( )( )
( / ) ( )
P A B P BP A B
P B A P A
( ) ( ) ( )P A B P A P B
e, in caso di indipendenza tra A e B:
31
È vietata la riproduzione non autorizzata a fini commerciali.
Gioco del lotto: prob. che esca 23 al secondo estratto Mazzo di 40 carte: prob. che esca un K alla seconda estraz. Le 3 buste I 3 prigionieri35 studenti su uno scuolabus: prob. che almeno 2
abbiano stessa data di nascita (gg/mm) Il valore atteso ed il Paradosso di San Pietroburgo Come misurare l’area di un lago
Un po’ di svago:
È vietata la riproduzione non autorizzata a fini commerciali.
Un po’ di svago: le 3 buste
A B CSolo una contiene un grosso premio; le altre due sono vuote.Giochiamo con Gino e proponiamo a Gino di scegliere una busta.
Gino sceglie la busta A.
Una volta scelta, facciamo vedere a Gino, aprendola, che una tra le buste B e C è vuota.
Offriamo a Gino la possibilità di poter cambiare la busta A con la busta chiusa rimasta sul tavolo.
Il dubbio di Gino: cosa conviene fare?
32
È vietata la riproduzione non autorizzata a fini commerciali.
Un po’ di svago: le 3 buste
( ) ( ) ( ) 1 3vince vince vinceP A P B P C Inizialmente:
Supponiamo a Gino venga mostrato che B è vuota; Gino lo considera un evento e condiziona la sua decisione a questo.
( )( )
( )
( ) ( )
( )
( ) ( )
( ) ( ) ( ) ( )
11 131 1 21 13 3
vince vuotavince vuota
vuota
vuota vince vince
vuota
vuota vince vince
vuota vince vince vuota vince vince
P A BP A B
P B
P B A P A
P B
P B A P A
P B A P A P B C P C
ovvero sapendo che “B è vuota”è indifferente conservare A o operare lo scambio
È vietata la riproduzione non autorizzata a fini commerciali.
Un po’ di svago: le 3 buste
Proviamo a consideriamo invece l’evento “mostriamo B vuota”e condizioniamo la decisione di Gino a questo:
( )( )
( )
( ) ( )
( )
( ) ( )
( ) ( ) ( ) ( )
1 1 1 12 3 61 1 1 3 312 3 3 6
vince vuotavince vuota
vuota
vuota vince vince
vuota
vuota vince vince
vuota vince vince vuota vince vince
P A mBP A mB
P mB
P mB A P A
P mB
P mB A P A
P mB A P A P mB C P C
ovvero il vero evento non è quello che Gino vede, ma l’azione che noi facciamo a seguito della scelta iniziale di Gino.
È certamente conveniente operare lo scambio.
si è indifferenti tra mostrare a Gino la busta B o la C, se A è la vincente.
33
È vietata la riproduzione non autorizzata a fini commerciali.
Un po’ di svago: i tre prigionieri
Tre prigionieri A, B e C l’indomani saranno condannati a morte.
Il Governatore decide di graziarne uno e comunica la sua scelta al secondino S, obbligandolo al silenzio sulla scelta fatta.
A chiede ad S di rivelargli il nome di chi si salverà.S non può parlare pena la sua esecuzione.
In alternativa, A chiede ad S di comunicargli il nome di chi degli altri due verrà sicuramente condannato.S accetta ritenendo di non contravvenire agli ordini ricevuti.
A adesso ritiene che la sua probabilità di salvarsi sia pari a ½.
È vietata la riproduzione non autorizzata a fini commerciali.
Un po’ di svago: i tre prigionieri
( ) ( ) ( ) 1 3P A P B P C Dopo la grazia del Governatore:
( )( )
( )
( ) ( )
( )
( ) ( )
( ) ( ) ( ) ( )
?
diceBdiceB
diceB
diceB
diceB
diceB
diceB diceB
P A SP A S
P S
P S A P A
P S
P S A P A
P S A P A P S C P C
Occorre fare delle ipotesi. In primis, assumiamo che S non dica bugie …
34
È vietata la riproduzione non autorizzata a fini commerciali.
Un po’ di svago: i tre prigionieri
S è indifferente tra B e C:
( )( )
( )
( ) ( )
( )
( ) ( )
( ) ( ) ( ) ( )
1 12 3 1
31 1 112 3 3
diceBdiceB
diceB
diceB
diceB
diceB
diceB diceB
P A SP A S
P S
P S A P A
P S
P S A P A
P S A P A P S C P C
La probabilità di A non cambia
(risultato analogo al gioco delle tre buste)
È vietata la riproduzione non autorizzata a fini commerciali.
Un po’ di svago: i tre prigionieri
Ad S è estremamente antipatico B, per cui se può fa il suo nome:
( )( )
( )
( ) ( )
( )
( ) ( )
( ) ( ) ( ) ( )
11 3 121 11 13 3
diceBdiceB
diceB
diceB
diceB
diceB
diceB diceB
P A SP A S
P S
P S A P A
P S
P S A P A
P S A P A P S C P C
La probabilità di A sale a ½.S se può fa il
nome di B
S è costretto a fare il nome di B
perché è C a salvarsi
35
È vietata la riproduzione non autorizzata a fini commerciali.
Un po’ di svago: i tre prigionieri
Ad S è estremamente antipatico C, per cui se può fa il suo nome:
( )( )
( )
( ) ( )
( )
( ) ( )
( ) ( ) ( ) ( )
10 3 01 10 13 3
diceBdiceB
diceB
diceB
diceB
diceB
diceB diceB
P A SP A S
P S
P S A P A
P S
P S A P A
P S A P A P S C P C
A è sicuramente condannato
perché se S dice B, è certo che è stato costretto a dirlo
visto che C si salverà
Se è A a salvarsi, S farebbe il nome di C per cui, in
tal caso, la probabilità che dica B è zero
È vietata la riproduzione non autorizzata a fini commerciali.
Le variabili casuali Sinonimi: variabile casuale (V.C.), variabile aleatoria,
variabile stocastica
Dato un qualsiasi esperimento casuale: una V.C. è una funzione matematica a valori reali che associa ad ogni elemento dello spazio campionario uno ed un solo numero reale
NB: per ogni esperimento casuale possono essere create infinite V.C
Una V.C. è quindi un modello (probabilistico) che ci permette di descrivere in maniera semplice ma rigorosa un qualsiasi fenomeno collettivo di nostro interesse
36
È vietata la riproduzione non autorizzata a fini commerciali.
Le variabili casualiUna V.C. risulta completamente identificata: dai valori che essa può assumere (dominio o supporto)
V.C. discrete: assumono un numero finito o un’infinità numerabile di valori (si può sempre stabilire una corrispondenza biunivoca tra il loro supporto e un qualsiasi sottoinsieme dei numeri Naturali)
V.C. continue: assumono un’infinità non numerabile di valori
e dalle probabilità ad essi associate nel caso di V.C. discrete: funzione di massa di
probabilità nel caso di V.C. continue: funzione di densità di
probabilità
È vietata la riproduzione non autorizzata a fini commerciali.
Esperimento: lanciare 2 monete bilanciate. Sia X = # teste.
C
C
4 possibili risultati
C
C
T
T
T T
Distribuzione di Probabilità
0 1 2 x
Valori x Probabilità
0 1/4 = .25
1 2/4 = .50
2 1/4 = .25
.50
.25
Pro
bab
ilità
Calcoliamo f(x) , cioè P(X = x) , per tutti i valori di x:
Funzione di
probabilità
Funzione di massa di probabilità
37
È vietata la riproduzione non autorizzata a fini commerciali.
(La notazione indica che la sommatoria si estende a tutti i possibili valori di x)
Due proprietà necessarie della funzione di massa di probabilità: f(x) 0 per ogni valore di x
Le probabilità sommano a 1: ( ) 1x
f x
Funzione di massa di probabilità
È vietata la riproduzione non autorizzata a fini commerciali.
La funzione di ripartizione (o cumulativa) esprime la probabilità che X non superi il valore x0
Relazione con la funzionedi probabilità:
0 0( ) ( )F x P X x
0
0( ) ( )x x
F x f x
Valori x Prob. Cumul.
0 0.25
1 0.75
2 1.00
Funzione di ripartizione
es: lanciare 2 monete bilanciate. Sia X = # teste.
Funzione di ripartizione
38
È vietata la riproduzione non autorizzata a fini commerciali.
In analogia con quanto visto per le distribuzioni di frequenze, anche per le distribuzioni di probabilità è utile avere degli indici di sintesi
Indici di posizione: media (nel caso delle v.a. chiamato anche valore atteso)
Indici di variabilità: varianza e deviazione standard
Sintesi delle distribuzioni
È vietata la riproduzione non autorizzata a fini commerciali.
Il valore atteso di una distribuzione discreta è la media dei possibili valori pesata con le rispettive probabilità
Esempio: Lanciare 2 monete, X = # di teste,
calcoliamo il valore atteso di X:
E(X) = (0 x0 .25) + (1 x 0.50) + (2 x0 .25) = 1.0
x f(x)
0 0.25
1 0.50
2 0.25
( ) ( )x
E X xf x
Il valore atteso
39
È vietata la riproduzione non autorizzata a fini commerciali.
Esempio roulette: 18 rossi, 18 neri, 2 verdi (numeri 0 e 00):
X = somma disponibile a seguito della puntata di 1 euro sul rosso
P(X = 2) = 18/38 P(X = 0) = 20/38,
E(X) = 0*20/38+2*18/38 = 36/38 = 0.947
L’equivalente certo della scommessa è 0.947 euro con questo costo il gioco sarebbe equo: poiché la puntata costa 1 euro il gioco è a favore del banco (perdita attesa di 0.053 euro)
Il valore atteso
È vietata la riproduzione non autorizzata a fini commerciali.
Il valore atteso approssima la media dei valori che si otterrebbero ripetendo molte volte l’esperimento in modo indipendente e in identiche condizioni
Nell’esempio della roulette la perdita attesa è di 0.053 euro a puntata
In una singola puntata tale valore è poco significativo: infatti, o si vince 1 euro o si perde 1 euro!!
Invece, in una lunga serie di n puntate le frequenze relative di successo e insuccesso convergono a 18/38 e 20/38 e quindi la perdita media in n puntate converge a 0.053 euro: ad es. n=1000 è una serie sufficientemente lunga per avere una buona approssimazione dopo 1000 puntate la perdita media per puntata sarà approssimativamente di 0.053 euro (per una perdita totale di circa 53 euro)
Il valore atteso
40
È vietata la riproduzione non autorizzata a fini commerciali.
Varianza di una variabile casuale discreta X:
Deviazione standard (o scarto quadratico medio) di una variabile casuale discreta X:
2 2( ) ( )x
x f x
2 2 2( ) ( ) ( )x
E X x f x
NB: la Dev.Std. è un indice di variabilità (= dispersione attorno alla media), e quindi di incertezza. Dev.std. grande media poco “affidabile”
Varianza e deviazione standard
È vietata la riproduzione non autorizzata a fini commerciali.
Esempio: Lanciare 2 monete, X = # di teste,
Calcoliamo la deviazione standard
Poiché m = 1 si ottiene
2 2 2σ ( ) (.25) ( ) (.500 1 21 1 1) ( ) (.25) .50 .707
Numero possibile di teste (0, 1, 2)
2( ) ( )x
x f x
Varianza e deviazione standard
41
È vietata la riproduzione non autorizzata a fini commerciali.
Per una variabile aleatoria degenere che certamente assume il valore a valore atteso= a varianza= 0
Cambiamento di scala: se una v.a. viene moltiplicata per una costante b, il valore atteso risulta moltiplicato per b e la varianza per b2
( ) ( ) 0E a a Var a
2( ) ( ) ( ) ( )E bX bE X Var bX b Var X
Valore atteso: proprietà
È vietata la riproduzione non autorizzata a fini commerciali.
Sia X una variabile aleatoria con media µX e varianza s2X
siano a e b due costanti. sia Y = a + bX una nuova variabile casuale ottenuta come
trasformazione di Xallora la media e varianza di Y sono:
La deviazione standard di Y è allora
( )Y XE a bX a b
2 2 2( )Y XVar a bX b
Y Xb
Combinazioni lineari di variabili casuali
42
È vietata la riproduzione non autorizzata a fini commerciali.
Data una qualunque v.a. X con media X e deviazione standard X , si definisce standardizzata la v.a. Z
Per costruzione, si ha Z = 0 e Z = 1 (si dimostra usando le proprietà delle trasformazioni lineari di v.a.)La trasformazione inversa è
X
X
XZ
X XX Z
Standardizzazione
È vietata la riproduzione non autorizzata a fini commerciali.
Le variabili casualiTra le principali V.C. in questo corso ci interesseremo alla: Bernoulli nel discreto, Normale nel continuo.
43
È vietata la riproduzione non autorizzata a fini commerciali.
La distribuzione Bernoulli è la famiglia parametrica (l’unica possibile) per le variabili binarie, cioè variabili che indicano se un certo evento A è vero o falso X = 1 l’evento A si è verificato (cosiddetto SUCCESSO) X = 0 l’evento A non si è verificato (cosiddetto INSUCCESSO)
esempio: favorevole/contrario, soddisfatto/insoddisfatto, buono/difettoso
NB: la definizione di A e quindi di ciò che debba intendersi per SUCCESSO è arbitraria
esempio: in un problema di customer satisfaction si possono scegliere le due alternative:
A = SUCCESSO (X = 1) quando un cliente si dice «soddisfatto» A = SUCCESSO (X = 1) quando si dice «insoddisfatto»
Distribuzione di Bernoulli
È vietata la riproduzione non autorizzata a fini commerciali.
Indichiamo con p(0,1) la probabilità di SUCCESSO, cioè P(X=1) = pDi conseguenza la probabilità di INSUCCESSO è 1-p, cioè P(X=0) = 1-pIn forma compatta si può dunque scrivere:
1( ) (1 ) 0,1 (0,1)x xP X x p p x p
sostituendo x con 0 1-psostituendo x con 1 p
supporto spazio parametrico
Notazione: X~B(p)(si legge: la v.a. X ha una distribuzione Bernoulli con probabilità di successo p)
Distribuzione di Bernoulli
44
È vietata la riproduzione non autorizzata a fini commerciali.
Media (valore atteso) e varianza:
( ) 0(1 ) 1E X p p p 2 2 2( ) (0 ) (1 ) (1 ) (1 )Var X p p p p p p
Per una qualunque v.c. della famiglia Bernoulli la media coincide con la probabilità di successo pIl grafico illustra la relazione tra varianza e media
0 10.5p
p(1-p)
0.25
Distribuzione di Bernoulli
È vietata la riproduzione non autorizzata a fini commerciali.
Si riportano alcune sequenze di 20 numeri 0-1: tre sequenze sono casuali, generate da prove bernoulliane
con p=0.5 due sequenze non sono casuali
Quali sono verosimilmente le due sequenze non casuali? Che caratteristiche hanno le tre sequenze casuali?
A 1 1 0 1 1 0 0 1 1 0 1 1 0 1 0 1 1 0 0 1
B 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1
C 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0
D 0 0 0 1 0 0 1 0 0 0 1 1 0 0 0 0 0 1 1 1
E 1 0 1 1 1 1 0 1 1 1 1 1 1 0 1 1 0 1 0 0
Distribuzione di Bernoulli
45
È vietata la riproduzione non autorizzata a fini commerciali.
È la distribuzione nel continuo più usata perché descrive bene molti fenomeni in ambito antropologico e
sociale ha proprietà matematiche che la rendono agevole da
trattare
Distribuzione Normale
È stata proposta da F. Gauss (1809), che la utilizzò per primo nello studio degli errori di misurazione relativi alla traiettoria dei corpi celesti (per questo è chiamata anche gaussiana)
È vietata la riproduzione non autorizzata a fini commerciali.
Forma campanulare Simmetrica Media, Mediana e Moda
coincidono
La tendenza centrale è determinata dal parametro μ (media)
La variabilità è determinata dal parametro σ(deviazione std)
La variabile aleatoria ha un campo di variazione teoricamente infinito: da a +
Media = Mediana
= Moda
x
f(x)
μ
σ
Distribuzione Normale
46
È vietata la riproduzione non autorizzata a fini commerciali.
Famiglia parametrica di distribuzioni continue su supporto (- ,+)
Per ogni coppia ( , 2) la funzione di densità della Normale è
2
2
1 ( )
2
2
1( )
2
x
f x e
2( , ) [0, ) 2~ ( , )X N
e 2.71828
π 3.14159
Distribuzione Normale
È vietata la riproduzione non autorizzata a fini commerciali.
x
f(x)
Cambiando la distribuzione si sposta verso sinistra o destra
Cambiando aumenta o diminuisce la dispersione, ovvero si schiaccia o si appuntisce la campana
Nella distribuzione Normale la media e la varianza sono due parametri distinti la varianza non dipende dalla media, come invece accade per molte distribuzioni (es. la Bernoulli)
Distribuzione Normale
47
È vietata la riproduzione non autorizzata a fini commerciali.
Distribuzioni Normali con valori differenti dei parametri e
[la distribuzione è individuata indifferentemente usando 2 o , es. si può dire Normale di media 0 e varianza 9 o Normale di media 0 e deviazione standard 3]
Distribuzione Normale
È vietata la riproduzione non autorizzata a fini commerciali.
L’ area totale sottesa alla curva è pari a 1, e la curva è simmetrica, perciò metà è al di sopra della media, e metà è al di sotto
f(x)
xμ
0.50.5
( ) 1P X
( ) 0.5P X ( ) 0.5P X
Distribuzione Normale
48
È vietata la riproduzione non autorizzata a fini commerciali.
Per ogni coppia ( , ) la f. di probabilità della Normale ha le seguenti caratteristiche:
È positiva per ogni x reale
L’area sottesa alla curva è 1 La media (valore atteso) coincide con il parametro (il simbolo del
parametro non è stato scelto a caso!) È simmetrica unimodale, per cui non è solo la media, ma anche
la mediana ( lascia a sinstra e a destra un’area pari a 0.5) e la moda (x= è il punto in cui la curva ha la massima altezza)
La varianza coincide con il parametro e quindi la deviazione standard è (anche qui il simbolo del parametro non è stato scelto a caso!)
La curva ha due punti di flesso (cambia la concavità) in ±
Quando x o x la curva tende a zero (senza mai diventare esattamente zero: l’asse delle ascisse è un asintoto della curva)
Proprietà di ogni densità
Distribuzione Normale
È vietata la riproduzione non autorizzata a fini commerciali.96
xbμa
xbμa
xbμa
( ) ( ) ( )P a X b F b F a
( ) ( )F a P X a
( ) ( )F b P X b La probabilità relativa ad un intervallo di valori è misurata dall’area sottesa alla curva e può essere espressa come differenza tra la funzione di ripartizione calcolata negli estremi dell’intervallo
Ma la funzione di ripartizione della Normale è un integrale senza soluzione analitica non esiste una formula per calcolare le probabilità cumulate!
Distribuzione Normale
49
È vietata la riproduzione non autorizzata a fini commerciali.
Dato che non esiste una formula per la funzione di ripartizione è necessario ricorrere ad una approssimazione numericaPrima vediamo il calcolo tramite approssimazione numerica per la Normale Standard (ovvero il membro della famiglia con media 0 e dev.std. 1) uso delle tavolePoi affrontiamo il problema per una Normale generica (ovvero con media e dev.std. qualunque) la soluzione si basa sulla standardizzazione (si tratta di riformulare il problema in termini di Normale Standard)
Distribuzione Normale
È vietata la riproduzione non autorizzata a fini commerciali.
La Normale standard Z, il membro con media 0 e varianza 1, funge da “rappresentante” della famiglia
funzione di densità:
funzione di ripartizione:
2
21
( )2
x
x e
20
20
1( )
2
x x
x e dx
~ (0,1)Z N
Distribuzione Normale Standard
50
È vietata la riproduzione non autorizzata a fini commerciali.
La tavola della Normale standard fornisce i valori della funzione di ripartizione della distribuzione normale ottenuti tramite approssimazione numerica
Per un dato valore a di Z, la tavola fornisce F(a)(l’area sottesa alla curva da meno infinito al valore a)
Distribuzione Normale Standard
z0 a
( ) ( )F a P Z a
È vietata la riproduzione non autorizzata a fini commerciali.
51
È vietata la riproduzione non autorizzata a fini commerciali.
Esempio:
P(Z < 2.00) = .9772
La tavola della Normale Standard fornisce la probabilità F(a) per qualunque valore a tra 0 e 4.49
Z0 2.00
.9772
P(Z < 4.49) è quasi 1 la tavola riporta 1.0000
Per un valore più grande di 4.49 la probabilità è ancora più vicina a 1 la tavola non riporta il valore
Es. P(Z < 5.22) si approssima con il valore 1
Distribuzione Normale Standard
È vietata la riproduzione non autorizzata a fini commerciali.
Per valori negativi di Z, usiamo il fatto che la distribuzione è simmetrica per trovare la probabilità desiderata:
z0-2.00
Esempio:
P(Z < -2.00) = 1 – 0.9772
= 0.0228
z0 2.00
.9772
.0228
.9772.0228
In simboli (z)=1(z)
Distribuzione Normale Standard
52
È vietata la riproduzione non autorizzata a fini commerciali.
Lezione 3
I Principi dell’Inferenza
È vietata la riproduzione non autorizzata a fini commerciali.
Deduttiva: è un metodo per derivare informazioni da fatti accertati; le conclusioni cui si arriva con l’inferenza deduttiva sono definitive. È l’inferenza che in matematica si usa per dimostrare i teoremi.es: SE un triangolo rettangolo ha un angolo di 90° e il triangolo A è rettangolo ALLORA il triangolo A ha un angolo di 90°
Induttiva: si generalizza l’esperimento singolo alla classe di tutti gli esperimenti simili operando una sorta di estensione dal particolare al generale. Le generalizzazioni però non sono certe.L’inferenza induttiva è un processo d’azzardo e l’incertezza viene misurata in termini probabilistici.
Inferenza…
53
È vietata la riproduzione non autorizzata a fini commerciali.
Uno dei compiti della statistica è quello di fornire metodi per fare delle inferenze induttive e misurarne il grado di incertezza.
Inferenza Statistica Parametricasi presuppone di conoscere il modello probabilistico caratterizzante il fenomeno oggetto di studio, ma non si conoscono i suoi parametri.
Inferenza Statistica Non Parametricanon si conosce neanche il modello probabilistico caratterizzante il fenomeno oggetto di studio.
Inferenza induttiva
È vietata la riproduzione non autorizzata a fini commerciali.
Scopo dell’Inferenza Statistica Parametrica…
… è utilizzare i risultati dell’esperimento campionario per giungere alla conoscenza (dei parametri) della Popolazione che ha generato quei risultati
dai dati osservati per un campione
ad affermazioni che riguardano la popolazione
54
È vietata la riproduzione non autorizzata a fini commerciali.
Popolazioni finiteUna Popolazione finita è un insieme di unità su cui si può osservare un certo carattere. (es: gli investimenti annui di tutte le aziende di un paese; il numero di figli di ogni famiglia italiana)
I parametri della popolazionesono delle costanti che descrivono aspetti caratteristici della distribuzione del carattere nella popolazione stessa.
Es:media e varianza della popolazione
La Popolazione e i suoi parametriPopolazioni infiniteUna Popolazione infinita è composta da tutte le unità potenzialmente osservabili e nonnecessariamente già esistenti fisicamente. Il carattere d’interesse può essere rappresentato da una variabile casuale con una certa distribuzione di probabilità. In questo caso si indicherà con “popolazione Y” la v.c. Y.
I parametri della popolazione sono le costanti caratteristiche della distribuzione di probabilità della v.c. Y
È vietata la riproduzione non autorizzata a fini commerciali.
Parametri (costanti) di maggior interesse:
Totali (occupati, forza lavoro, ...) Medie (reddito pro-capite, …) Proporzioni (% di laureati, % di soddisfatti, …) Rapporti (tra totali, tra medie, ecc.)
La Popolazione e i suoi parametri
55
È vietata la riproduzione non autorizzata a fini commerciali.
Teoria della StimaAttraverso l’osservazione di un campione si cerca di valutare un parametro (una costante) della Popolazione.
Stima Puntuale Stima per Intervallo
Verifica o Test di Ipotesi (non in programma)
NB: tutte le affermazioni della statistica inferenziale sono incerte, ma certe probabilisticamente
È vietata la riproduzione non autorizzata a fini commerciali.
(domani) si estrae un campione casuale oggi i valori estratti non sono noti per cui è una v.c.
si utilizza un’opportuna funzione di riduzione dei dati Tn
Tn è detta statistica campionaria se NON dipende da altre quantità incognite
La statistica campionaria Tn è una v.c., in quanto è funzione delle v.c. .
Tn assume valori nell’universo dei campioni per cui la sua distribuzione di probabilità è detta distribuzione campionaria.
1 2, , , nnY Y Y R
: nnT R R
1 2, , , nY Y Y
1 2, , , nY Y Y
Teoria della Stima puntuale
56
È vietata la riproduzione non autorizzata a fini commerciali.
Media campionaria:
i valori che potrà assumere saranno in numero uguale al numero dei campioni e varieranno in funzione di tali campioni
la distribuzione di dipenderà dalla distribuzione della Popolazione Y e sarà caratterizzata, come tutte le distribuzioni di probabilità, da una sua media, una sua varianza, …
Un esempio di statistica (campionaria): la media campionaria
11
( ,..., )n
in n
i
YT Y Y y
n
1
ni
i
yy
n
oggi è una v.c. domani è un numero
y
y
1 1 1
2
21 1
1
n n nii
i i i
n ni
ii i
E YYE y E
n n n
YVar y Var Var Y
n n n
NB: questa uguaglianza è vera SOLO se le estrazioni sono indipendenti
È vietata la riproduzione non autorizzata a fini commerciali.
Stima puntualeStimatore: è una statistica (ovvero una funzione di v.c.
che è essa stessa v.c.) utilizzata per stimare il parametro incognito
1 2
1 2
, , ,
, , ,
n
n
T Y Y Y
T y y y t
oggi è una v.c.
domani è un numero ovvero una stima di
2 0
per esempio:
Supponendo di voler stimarequal è il miglior stimatore che possiamo utilizzare?
57
È vietata la riproduzione non autorizzata a fini commerciali.
Idealmente vorremmo che, domani, la stima
qualunque sia il campione che estrarremo e qualunque sia il valore di .
Stimatori e stime
NB: non esiste alcun metodo di stima che garantisca stimatori ottimali in tutte le situazioni
1 2, , , nT y y y
d t
T stimatore ottimale
Errore campionario o errore di stima
È vietata la riproduzione non autorizzata a fini commerciali.
L’errore di stima d non può in generale essere azzerato nell’indagine campionaria; d = 0 solo nei censimenti (in assenza di non riposte).
Come cercare di ridurre d nell’indagine campionaria?
dimensione n del campione
Piano di campionamento
NB: per quanto detto in precedenza n non può essere aumentato a piacere.
Stimatori e stime
n d
58
È vietata la riproduzione non autorizzata a fini commerciali.
Una proprietà degli stimatori
Uno stimatore T è NON DISTORTO sse
E T
La non distorsione è da considerarsi più come un vincolo che come una proprietà auspicabile
È vietata la riproduzione non autorizzata a fini commerciali.
Lezione 4
Note di Inferenza parametrica(stima puntuale e per intervallo)
59
È vietata la riproduzione non autorizzata a fini commerciali.
Prima ipotesi di lavoroIpotesi sulla Popolazione:
se non diversamente indicato, nel proseguo della trattazione supporremoche quella di riferimento sia una Popolazione infinita
ad ogni estrazione, la popolazione NON subisce un cambiamento in termini di frequenze relative per cui le Yi sono v.c. I.I.D. ovvero indipendenti e con identica distribuzione di probabilità
2? ,Y
È vietata la riproduzione non autorizzata a fini commerciali.
Stima puntuale: stimatori di uso frequente nel caso di variabili I.I.D.
Stimatore per la media
1
1 n
ii
Y Yn
o è non distorto:
o ha varianza:
1 1 1
1 1 1n n n
i i ii i i
nE Y E Y E Y E Y
n n n n
2 2
2 2 21 1 1
1 1 1n n n
i i ii i i
nVAR Y VAR Y VAR Y VAR Y
n n n n n
60
È vietata la riproduzione non autorizzata a fini commerciali.
Stimatore per la varianza 2
22
1
1ˆ
n
ii
Y Yn
o è distorto!!!!!
22 2 2
1
1 1ˆ ...
n
ii
nE E Y Y
n n
Stimatore non distorto della varianza 2
2 22 2
1 1
1 1ˆ
1 1 1
n n
i ii i
n nS Y Y Y Y
n n n n
Stima puntuale: stimatori di uso frequente nel caso di variabili I.I.D.
È vietata la riproduzione non autorizzata a fini commerciali.
Alcuni teoremi utiliTeorema 1:Se alloraUna trasformazione lineare di una normale è ancora una Normale
2,Y YY N 2 2,Y YW a bY N a b b
Teorema 2:Se sono n v.c. indipendentiallora
La somma di n v.c. Normali indipendenti è ancora una distribuzione Normale
2,i i iY N
2
1 1 1
,n n n
i i ii i i
W Y N
61
È vietata la riproduzione non autorizzata a fini commerciali.
-4 -2 0 2 4
0.0
0.2
0.4
0.6
0.8
x
sam
ple
mean d
ens
ity
Seconda ipotesi di lavoroIpotesi sulla distribuzione della Popolazione:
se non diversamente indicato, nel proseguo della trattazione supporremoche la Popolazione si distribuisca secondo una Normale
2
1
1,
n
ii
Y Y Nn n
0,1Y
YZ N
n
per i teoremi precedenti:
È vietata la riproduzione non autorizzata a fini commerciali.
La distribuzione t di Student
Se sostituiamo il parametro con una sua stimaottenuta mediante:
( NB: è ora la varianza elementare del campione )
S
22
1
1
1
n
ii
S S Y Yn
1n
YT t
S
n
t di Student
con n - 1 gradi di libertà
2S
62
È vietata la riproduzione non autorizzata a fini commerciali.
La distribuzione t di Student
-6 -4 -2 0 2 4 6
0.0
0.1
0.2
0.3
0.4
x
densi
ty
Al crescere di n(gradi di libertà) la t tende alla Normale N(0,1) in colore rosso
per n>30l’approssimazione è da
considerarsi buona
È vietata la riproduzione non autorizzata a fini commerciali.
Stime per intervalloValgono le ipotesi distributive sulla Popolazione fatte in precedenza.
Supponiamo di voler costruire una stima per intervallo per il parametro della Popolazione
cioè supponiamo di voler costruire un intervallo di confidenza per
Il livello di confidenza è la probabilità che cada in tale intervallo.
Confidenza Fiducia
63
È vietata la riproduzione non autorizzata a fini commerciali.
Intervalli di confidenza
In generale, l’intervallo di confidenza per risultadefinito da
con:
Pr 1l L
1 2
1 2
, , ,
, , ,
1
n
n
l f Y Y Y
L g Y Y Y
limite inferiore
limite superiore
Livello di confidenza
Probabilità di sbagliare
l e L prima dell’estrazione del campione sono 2 V.C.,una volta estratto il campione sono numeri
È vietata la riproduzione non autorizzata a fini commerciali.
Intervalli di confidenza
Livello di confidenza: la probabilità che l’intervallo casuale contenga al suo interno il parametroè pari a
Informatività dell’intervallo: sarà tanto più alta quanto più è stretto l’intervallo
1 1, , , , ,n nl Y Y L Y Y
1
Situazione ottimale: Intervallo stretto Livello di confidenza elevato
Se aumenta il livello di confidenza, aumenta l’ampiezza dell’intervallo MA diminuisce l’informatività dello stesso,
a meno che non si aumenti la dimensione del campione
64
È vietata la riproduzione non autorizzata a fini commerciali.
Intervalli di confidenza
Per determinare l’intervallo di confidenza per un generico parametro, si cerca una espressione (quantità pivotale):
in cui deve comparire solo il parametro da stimare e non altri parametri incogniti (o di disturbo);
la cui distribuzione è perfettamente nota.
Una volta individuata questa espressione si può, isolando il parametro, costruire l’intervallo di confidenza (questo metodo è detto metodo del pivot).
È vietata la riproduzione non autorizzata a fini commerciali.
Se la varianza della Popolazione è nota:
2
1
1,
n
ii
Y Y Nn n
Non è quantità pivotale perché solo la forma della distribuzione è nota ma non la distribuzione esatta
Standardizziamo : Y
0,1Y
N
n
Questa è quantità pivotale, perché la distribuzione è perfettamente nota (tabulata) e l’espressione contiene un unico parametro incognito
possiamo applicare il Metodo del Pivot
Intervalli di confidenza per ( nota) 2
65
È vietata la riproduzione non autorizzata a fini commerciali.
Partiamo da un’affermazione probabilisticamente vera relativa alla quantità pivotale:
2 2Pr 1
Yz z
n
NB: date le proprietà della distribuzione, questo è il più piccolo intervallo ottenibile al livello di probabilità desiderato
Intervalli di confidenza per ( nota) 2
È vietata la riproduzione non autorizzata a fini commerciali.
Pivotiamo rispetto al parametro incognito :
2 2
2 2
2 2
Pr 1
Pr 1
Pr 1
z Y zn n
Y z Y zn n
Y z Y zn n
Intervallo di confidenza per la media di una Popolazione Normale con varianza nota
Intervalli di confidenza per ( nota) 2
66
È vietata la riproduzione non autorizzata a fini commerciali.
Intervalli di confidenza per ( nota): esempio 2
È vietata la riproduzione non autorizzata a fini commerciali.
Se la varianza della Popolazione NON è nota:
2
1
1,
n
ii
Y Y Nn n
Non è quantità pivotale perché solo la forma della distribuzione è nota ma non la distribuzione esatta
Standardizziamo : Y
0,1Y
N
n
Neanche questa è quantitàpivotale, perché la distribuzione non è nota in quanto l’espressione contiene il parametro incognito ed un parametro di disturbo.
sostituiamo il parametro di disturbo (incognito) con una sua stima
Intervalli di confidenza per ( NON nota) 2
67
È vietata la riproduzione non autorizzata a fini commerciali.
Partiamo da un’affermazione probabilisticamente vera relativa alla quantità pivotale:
, 1 , 12 2
Pr 1n n
Yt t
Sn
possiamo applicare il Metodo del Pivot
1n
Yt
S
n
Questa è quantità pivotale, perché la distribuzione è perfettamente nota (tabulata) e l’espressione contiene un unico parametro incognito
La t di Student ha le stesse proprietà della Normale, per cui questo è il più piccolo intervallo ottenibile al livello di probabilità desiderato
Intervalli di confidenza per ( NON nota) 2
È vietata la riproduzione non autorizzata a fini commerciali.
, 1 , 12 2
, 1 , 12 2
, 1 , 12 2
Pr 1
Pr 1
Pr 1
n n
n n
n n
S St Y t
n n
S SY t Y t
n n
S SY t Y t
n n
Intervallo di confidenza per la media di una Popolazione Normale con varianza NON nota
Pivotiamo rispetto al parametro incognito :
Intervalli di confidenza per ( NON nota) 2
68
È vietata la riproduzione non autorizzata a fini commerciali.
Intervalli di confidenza per ( NON nota): esempio 2
È vietata la riproduzione non autorizzata a fini commerciali.
Teorema Limite CentraleSupponiamo ora che NON valga più l’ipotesi sulla Normalità della Popolazione.
Se sono n v.c. I.I.D.con parametri finiti, allora
1, , nY Y 2? ,
0,1nY
N
n
ovvero la standardizzazione della media campionaria tende, al crescere di n, a distribuirsi come una Normale
standard
2
,n
Y Nn
Corollario al TLC:
69
È vietata la riproduzione non autorizzata a fini commerciali.
Teorema Limite CentraleEsempio: Popolazione di tipo Bernoulliano ( p = 0.1 )
n = 20 n = 30
n = 40 n = 50
Central LimitTheorem
Den
sity
-1 0 1 2 3 4 5
0.0
0.1
0.2
0.3
0.4
0.5
Central LimitTheorem
Den
sity
-2 -1 0 1 2 3 4
0.0
0.1
0.2
0.3
Central LimitTheorem
Den
sity
-2 -1 0 1 2 3 4 5
0.0
0.1
0.2
0.3
0.4
Central LimitTheorem
Den
sity
-2 0 2 4
0.0
0.1
0.2
0.3
Universo dei campioni simulato mediante 10000 estrazioni di campioni di dimensione n
È vietata la riproduzione non autorizzata a fini commerciali.
Teorema Limite CentraleEsempio: Popolazione di tipo Bernoulliano ( p = 0.3 )
Central LimitTheorem
Den
sity
-3 -2 -1 0 1 2 3 4
0.0
0.1
0.2
0.3
0.4
Central LimitTheorem
Den
sity
-2 0 2 4
0.0
0.1
0.2
0.3
0.4
Central LimitTheorem
Den
sity
-2 0 2 4
0.0
0.1
0.2
0.3
0.4
Central LimitTheorem
Den
sity
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
n = 20 n = 30
n = 40 n = 50
Universo dei campioni simulato mediante 10000 estrazioni di campioni di dimensione n
70
È vietata la riproduzione non autorizzata a fini commerciali.
Teorema Limite CentraleEsempio: Popolazione di tipo Bernoulliano ( p = 0.5 )
n = 20 n = 30
n = 40 n = 50
Universo dei campioni simulato mediante 10000 estrazioni di campioni di dimensione n
Central LimitTheorem
Den
sity
-4 -2 0 2
0.0
0.1
0.2
0.3
0.4
Central LimitTheorem
Den
sity
-4 -2 0 2
0.0
0.1
0.2
0.3
0.4
Central LimitTheorem
Den
sity
-2 0 2 4
0.0
0.1
0.2
0.3
0.4
Central LimitTheoremD
ensi
ty
-4 -2 0 2
0.0
0.1
0.2
0.3
0.4
È vietata la riproduzione non autorizzata a fini commerciali.
Central LimitTheorem
Den
sity
-4 -2 0 2 4
0.0
0.1
0.2
0.3
Central LimitTheorem
Den
sity
-4 -2 0 2
0.0
0.1
0.2
0.3
0.4
Central LimitTheorem
Den
sity
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
Central LimitTheorem
Den
sity
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
Teorema Limite CentraleEsempio: Popolazione di tipo Uniforme (0,1)
n = 20 n = 30
n = 40 n = 50
Universo dei campioni simulato mediante 10000 estrazioni di campioni di dimensione n
71
È vietata la riproduzione non autorizzata a fini commerciali.
Se la Popolazione è Bernoulliana e le v.c. sono I.I.D.:
1
1ˆ
n
ii
Y Y pn
La media campionaria è la proporzione campionaria di successi osservati nel campione
Intervalli di confidenza per ( = )p
2
ˆ
ˆ
E Y E p p
pqVAR Y VAR p
n n
una Bernoulli ha media pe varianza pq
Per il T.L.C.:
ˆ0,1
np pN
pqn
NB: questa NON è quantitàpivotale, perché la distribuzione non è nota in quanto l’espressione contiene il parametro incognito sia a numeratore che a denominatore.
È vietata la riproduzione non autorizzata a fini commerciali.
Partiamo da un’affermazione probabilisticamente vera relativa alla quantità pivotale:
2 2
ˆP r 1
ˆ ˆ
p pz z
pqn
possiamo applicare il Metodo del Pivot
Questa è quantità pivotale, perché la distribuzione è perfettamente nota (tabulata) e l’espressione contiene un unico parametro incognito
ˆ0,1
ˆ ˆ
Ap pN
pqn
Intervalli di confidenza per p
72
È vietata la riproduzione non autorizzata a fini commerciali.
2 2
2 2
ˆ ˆ ˆ ˆˆPr 1
ˆ ˆ ˆ ˆˆ ˆPr 1
pq pqz p p z
n n
pq pqp z p p z
n n
Intervallo di confidenza per la proporzione di una Popolazione Bernoulliana
Pivotiamo rispetto al parametro incognito :p
Intervalli di confidenza per p
È vietata la riproduzione non autorizzata a fini commerciali.
Intervalli di confidenza per : esempio ( = )p
73
È vietata la riproduzione non autorizzata a fini commerciali.
2 2
, 1 , 12 2
2 2
Pr 1
Pr 1
ˆ ˆ ˆ ˆˆ ˆPr 1
n n
Y z Y zn n
S SY t Y t
n n
pq pqp z p p z
n n
Intervalli di confidenza: riepilogo
per , noto 2
per , non noto 2
per p
Livello di confidenza2
z
.90 1.645
.95 1.96
.99 2.576
Livello di confidenza , 12n
t
.90
.95
.99
dipende dai gradi di libertà della t
È vietata la riproduzione non autorizzata a fini commerciali.
2
ME zn
Intervalli di confidenza: determinazione della dimensione campionariacaso: intervallo per , noto
chiamiamo ME la semi-ampiezza dell’intervallo
2
Intervallo confidenza = stima puntuale ± MEME = MARGINE d’ERRORE
ME lo stabilisce il ricercatore nel momento in cui valuta l’informatività dell’intervallo in relazione al suo livello di confidenza. Tali considerazioni consentono di determinare la numerosità campionaria adeguata in relazione a livello di confidenza e ME desiderati.
22
2
n zME
74
È vietata la riproduzione non autorizzata a fini commerciali.
Determinazione della dimensione campionariacaso: intervallo per , noto: esempio 2
È vietata la riproduzione non autorizzata a fini commerciali.
Intervallo confidenza = stima puntuale ± MEdove:
2
ˆ ˆ(1 )p pME z
n
Intervalli di confidenza: determinazione della dimensione campionariacaso: intervallo per p
22
2
ˆ ˆ(1 )p pn z
ME
Però non è calcolabile se non dopo aver estratto il campione;e per estrarre il campione occorre conoscere n.
ˆ ˆ(1 )p p
75
È vietata la riproduzione non autorizzata a fini commerciali.
Intervalli di confidenza: determinazione della dimensione campionariacaso: intervallo per p
22
2
0.25n z
ME
Si sostituisce a il massimo valore assumibile dalla varianza nel caso di distribuzione di Bernoulli.
se 0.5 0.25p pq
ˆ ˆ(1 )p p
È vietata la riproduzione non autorizzata a fini commerciali.
Intervalli di confidenza: determinazione della dimensione campionariacaso: intervallo per p
esempio: quante unità occorre selezionare da una popolazione bernoulliana (infinita o ad essa equiparabile) per stimare la proporzione di successi nella popolazione con un margine di errore del 4% ?
22
22
22
0.251.645 422.74 423
0.040.25
1.96 600.25 6010.04
0.252.576 1036.70 1037
0.04
n
n
n
.90
.95
.99
livello di confidenza