Richiami di inferenza statistica Strumenti quantitativi ...taufer/Handout-pdf/Inferenza.pdf ·...
Transcript of Richiami di inferenza statistica Strumenti quantitativi ...taufer/Handout-pdf/Inferenza.pdf ·...
2/19/2015 Richiami di inferenza statistica
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/0_Inferenza.html 1/10
Richiami di inferenza statisticaStrumenti quantitativi per la gestioneEmanuele Taufer
Inferenza statisticaParametri e statisticheEsempiTecniche di inferenzaStimaPrecisione delle stimeIntervalli di confidenza (IC)EsempioEsempio: IC per la media Verifica delle ipotesiErrori nella decisioneEsempio 1Regole di decisioneUn esempio intuitivoEsempio
Inferenza statisticaInferenza statistica: insieme di tecniche che si utilizzano per ottenere informazioni su una (o più)caratteristiche (o parametri) su una data popolazione sulla base di dati campionari.
Alcuni aspetti formali:
Popolazione: un insieme di unità (persone, imprese, Stati) che siamo interessati adanalizzare. Indichiamo con l’insieme delle modalità della caratteristicache siamo interessati ad analizzare (sesso, altezza, reddito, addetti, PIL, etc.) misurate su ogniunità della popolazione.
Campione: un sottoinsieme di dimensione , ( ) delle unità della popolazioneselezionate con criteri probabilistici. Poichè a priori non sappiamo quali unità faranno parte delcampione, le corrispondenti modalità sono delle variabili casuali. Indichiamole con
Parametri e statisticheParametri: caratteristiche della popolazione. Tipicamente la media ( ), la varianza ( ), etc..Di solito si usano lettere dall’alfabeto greco per indicare i parametri della popolazione.
Statistiche: caratteristiche del campione. Tipicamente la media,
μ
N
U = , , … , x1 x2 xN
n n << N
C = , , … , X1 X2 Xn
μ σ2
= ,X1n
∑i=1
n
Xi
2/19/2015 Richiami di inferenza statistica
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/0_Inferenza.html 2/10
la varianza (corretta),
Poiché il valore delle statistiche cambia con il campione selezionato, a priori, ossia prima dellaselezione del campione, sono delle variabili casuali.
Esempistimare l’età (o l’altezza) media della popolazione residente in Italia
stimare la percentuale di consumatori di una certa regione che acquista abitualmente un certotipo di prodotto
prevedere (con un dato margine di errore) l’esito delle elezioni
verificare se una certa campagna pubblicitaria ha portato ad un aumento delle vendite
Tecniche di inferenzaLe principali tecniche di inferenza statistica sono:
Stima: quando interessa individuare il valore di una certa caratteristica. Si distingue in:puntualeintervallare
Verifica delle ipotesi (o test): quando i dati campionari sono utilizzati per verificare una certaipotesi su un parametro della popolazione.
StimaSi consideri il caso in cui siamo interessati a determinare un valore numerico (la stima)sufficientemente preciso per la media di una certa popolazione.
Dato un campione, proveniente dalla popolazione di interesse, sembra naturale utilizzare comeindicatore del valore di
TerminologiaStimatore: la regola per effettuare la stima (calcola la media). Lo stimatore è unavariabile casuale poichè definito a priori su tutti i possibili risultati campionari.Stima: il valore dello stimatore ottenuto dal campione. Un valore numerico.
Esistono diversi metodi di stima che permettono di ottenere delle buone regole di stima per problemianche molto complessi.
Precisione delle stimePer valutare la precisione delle regole di stima è opportuno ragionare a priori su tutti i possibili risultaticampionari.
= ( − .S2 1n − 1
∑i=1
n
Xi X)2
μ
X
μ
2/19/2015 Richiami di inferenza statistica
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/0_Inferenza.html 3/10
Idealmente questo si può fare agevolmente se si conosce la distribuzione di probabilità dellostimatore adottato. Poichè nella pratica questo non sempre è possibile, si utilizzano alcuni indicatori disintesi.
Indichiamo con uno stimatore per il generico parametro .
1. Il valore atteso, ossia la media calcolata su tutti i possibili risultati campionari. Se
si dice che lo stimatore è non distorto o corretto poiché il suo valore atteso coincide con ilparametro che si vuole stimare. In caso contrario la quantità
è definita bias o distorsione.
La media campionaria è uno stimatore corretto per la media della popolazione poiché
2. Una indicatore della dispersione dello stimatore, lo MSE (mean squared error), misura ladistanza quadratica media dello stimatore dal parametro.
Nel caso della media, poiché è corretta per ,
dove indica la varianza della popolazione campionata.
Intervalli di confidenza (IC)Un IC di livello per il parametro è un intervallo casuale (dipende dal campione) che includeil vero valore di con probabilità .
Anche per gli IC esiste una distinzione analoga a quella fra stimatore e stima:
A priori, prima di selezionare il campione, la procedura di costruzione fornisce un IC cheincluderà il vero valore del parametro con probabilità .
A posteriori, l’intervallo determinato dai dati non è più casuale e conterrà oppure no il verovalore del parametro. Questo non è, di solito, noto. La procedura di costruzione ci dà un certogrado di confidenza, pari a , ma nulla di più.
Tipicamente è piccolo per avere gradi di confidenza elevati. Ad esempio o .
Esempio
T θ
E(T ) = θ ∀θ
E(T ) − θ ≠ 0
μ
E( ) = μ , ∀μX
MSE(T ) = E(T − θ = V ar(T ) +)2 (E(T ) − θ)2 Bias2
μ
MSE( ) = V ar( ) = /nX X σ2
σ2
(1 − α) θ
θ (1 − α)
(1 − α)
(1 − α)
α α = 0, 05α = 0.01
2/19/2015 Richiami di inferenza statistica
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/0_Inferenza.html 4/10
Esempio: IC per la media Un IC di livello per la media di una popolazione è dato da
L’IC è esatto se la popolazione campionata è normale, è approssimato (per il teorema limitecentrale) in altri casi
è il percentile per la distribuzione normale standard.Esempio: se allora .
μ(1 − α) μ
±X zα/2S
n√
S = S2−−√
zα/2 (1 − α/2)α = 0.05 = 1.96z0.025
2/19/2015 Richiami di inferenza statistica
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/0_Inferenza.html 5/10
Verifica delle ipotesiNella teoria dei test i risultati campionari sono usati per decidere tra due ipotesi in competizione
ipotesi nulla
ipotesi alternativa
Esempio
Il prezzo medio di una stanza in hotel 4S a Londra è 150 Euro
Possibili alternative il prezzo medio è unilateraleil prezzo medio è unilateraleil prezzo medio è bilaterale
Errori nella decisione
H0
H1
( )H0
( )H1> 150< 150≠ 150
2/19/2015 Richiami di inferenza statistica
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/0_Inferenza.html 6/10
Esempio 1
Regole di decisioneEsiste tradeoff tra e e non è possibile minimizzarli contemporaneamente.
α = P (Rifiutare erroneamente )H0
β = P (Accettare erroneamente )H0
α β
2/19/2015 Richiami di inferenza statistica
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/0_Inferenza.html 7/10
Poiché è l’ipotesi fondamentale, la decisione è di rifiutare (e quindi accettare )quando la probabilità dell’errore di prima specie, , molto piccola.
Tipicamente si richiede che .
In generale la decisione è presa osservando il valore assunto da una certa statisticacampionaria, definita, in questo caso, statistica test
Le statistiche test sono diverse a seconda del problema considerato ed esistono metodistatistici per determinare regole ottimali.
Un esempio intuitivoAbbiamo un campione di unità da una distribuzione normale a media e varianza (nota).Vogliamo verificare il set di ipotesi: contro .
Poichè è stimatore per sembra ragionevole confrontarne il valore con quello indicato nell’ipotesinulla e rifiutare se questo è molto minore o molto maggiore di .
Per quantificare quel “molto maggiore” o “molto minore”, conviene di solito misurare le distanze intermini di deviazioni standard, ossia procediamo a standardizzare :
Si noti che la standardizzazione usa il valore di specificato dall’ipotesi nulla. Ossia si fanno i calcoliipotizzando che questa sia effettivamente vera.
Ad esempio, se , si trova ad una deviazione standard dall’ipotesi nulla; se si trova a4 deviazioni standard dall’ipotesi nulla.
Per decidere è necessario sapere quale distanza assicura ci assicura che la probabilità dell’errore diprima specie sia piccola, diciamo .
Riassumendo:
La statistica test è:
La regola di decisione è: rifiuta se supera un valore soglia che renda la probabilitàdell’errore di prima specie .
In altre parole, dobbiamo individuare un valore ( il valore soglia) per il quale
Se dai dati osserviamo il valore della statistica test, il valore soglia è superato se
è definito value ed è tipicamente fornito dai software per la decisione.
H0 H0 H1α
α < 0.05
n μ σ2
: μ = 0H0 : μ ≠ 0H0
X μ
0
X
Z =( − 0)X n√
σ
μ
|Z| = 1 |Z| = 4
α < 0.05
Z
|Z|α < 0.05
z
P (|Z| > z| è vera) = αH0
zoss z
P (|Z| > | è vera) < αzoss H0
P (|Z| > | )zoss H0 p
2/19/2015 Richiami di inferenza statistica
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/0_Inferenza.html 8/10
2/19/2015 Richiami di inferenza statistica
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/0_Inferenza.html 9/10
2/19/2015 Richiami di inferenza statistica
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/0_Inferenza.html 10/10
EsempioIl prezzo medio di una stanza in hotel 4S a Londra è 150 Euro
Il prezzo medio è
In termini di parametri possiamo scrivere contro
Supponiamo per semplicità che la popolazione sia normale con varianza
Un campione casuale di 25 unità fornisce un prezzo medio ( ) pari a Euro.
la statisitca test è
che si colloca a tre deviazioni standard dalla media
il value associato è .
( )H0
≠ 150 ( )H1
: μ = 150H0 : μ ≠ 150H1
= 2500σ2
X 180
z = = 3(180 − 150) 25−−√
2500− −−−√
p 0.0027