Richiami di inferenza statistica Strumenti quantitativi ...taufer/Handout-pdf/Inferenza.pdf ·...

2/19/2015 Richiami di inferenza statistica

file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/0_Inferenza.html 1/10

Richiami di inferenza statisticaStrumenti quantitativi per la gestioneEmanuele Taufer

Inferenza statisticaParametri e statisticheEsempiTecniche di inferenzaStimaPrecisione delle stimeIntervalli di confidenza (IC)EsempioEsempio: IC per la media Verifica delle ipotesiErrori nella decisioneEsempio 1Regole di decisioneUn esempio intuitivoEsempio

Inferenza statisticaInferenza statistica: insieme di tecniche che si utilizzano per ottenere informazioni su una (o più)caratteristiche (o parametri) su una data popolazione sulla base di dati campionari.

Alcuni aspetti formali:

Popolazione: un insieme di unità (persone, imprese, Stati) che siamo interessati adanalizzare. Indichiamo con l’insieme delle modalità della caratteristicache siamo interessati ad analizzare (sesso, altezza, reddito, addetti, PIL, etc.) misurate su ogniunità della popolazione.

Campione: un sottoinsieme di dimensione , ( ) delle unità della popolazioneselezionate con criteri probabilistici. Poichè a priori non sappiamo quali unità faranno parte delcampione, le corrispondenti modalità sono delle variabili casuali. Indichiamole con

Parametri e statisticheParametri: caratteristiche della popolazione. Tipicamente la media ( ), la varianza ( ), etc..Di solito si usano lettere dall’alfabeto greco per indicare i parametri della popolazione.

Statistiche: caratteristiche del campione. Tipicamente la media,

μ

N

U = , , … , x1 x2 xN

n n << N

C = , , … , X1 X2 Xn

μ σ2

= ,X1n

∑i=1

n

Xi



la varianza (corretta),

Poiché il valore delle statistiche cambia con il campione selezionato, a priori, ossia prima dellaselezione del campione, sono delle variabili casuali.

Esempistimare l’età (o l’altezza) media della popolazione residente in Italia

stimare la percentuale di consumatori di una certa regione che acquista abitualmente un certotipo di prodotto

prevedere (con un dato margine di errore) l’esito delle elezioni

verificare se una certa campagna pubblicitaria ha portato ad un aumento delle vendite

Tecniche di inferenzaLe principali tecniche di inferenza statistica sono:

Stima: quando interessa individuare il valore di una certa caratteristica. Si distingue in:puntualeintervallare

Verifica delle ipotesi (o test): quando i dati campionari sono utilizzati per verificare una certaipotesi su un parametro della popolazione.

StimaSi consideri il caso in cui siamo interessati a determinare un valore numerico (la stima)sufficientemente preciso per la media di una certa popolazione.

Dato un campione, proveniente dalla popolazione di interesse, sembra naturale utilizzare comeindicatore del valore di

TerminologiaStimatore: la regola per effettuare la stima (calcola la media). Lo stimatore è unavariabile casuale poichè definito a priori su tutti i possibili risultati campionari.Stima: il valore dello stimatore ottenuto dal campione. Un valore numerico.

Esistono diversi metodi di stima che permettono di ottenere delle buone regole di stima per problemianche molto complessi.

Precisione delle stimePer valutare la precisione delle regole di stima è opportuno ragionare a priori su tutti i possibili risultaticampionari.

= ( − .S2 1n − 1

∑i=1

n

Xi X)2

μ

X

μ



Idealmente questo si può fare agevolmente se si conosce la distribuzione di probabilità dellostimatore adottato. Poichè nella pratica questo non sempre è possibile, si utilizzano alcuni indicatori disintesi.

Indichiamo con uno stimatore per il generico parametro .

1. Il valore atteso, ossia la media calcolata su tutti i possibili risultati campionari. Se

si dice che lo stimatore è non distorto o corretto poiché il suo valore atteso coincide con ilparametro che si vuole stimare. In caso contrario la quantità

è definita bias o distorsione.

La media campionaria è uno stimatore corretto per la media della popolazione poiché

2. Una indicatore della dispersione dello stimatore, lo MSE (mean squared error), misura ladistanza quadratica media dello stimatore dal parametro.

Nel caso della media, poiché è corretta per ,

dove indica la varianza della popolazione campionata.

Intervalli di confidenza (IC)Un IC di livello per il parametro è un intervallo casuale (dipende dal campione) che includeil vero valore di con probabilità .

Anche per gli IC esiste una distinzione analoga a quella fra stimatore e stima:

A priori, prima di selezionare il campione, la procedura di costruzione fornisce un IC cheincluderà il vero valore del parametro con probabilità .

A posteriori, l’intervallo determinato dai dati non è più casuale e conterrà oppure no il verovalore del parametro. Questo non è, di solito, noto. La procedura di costruzione ci dà un certogrado di confidenza, pari a , ma nulla di più.

Tipicamente è piccolo per avere gradi di confidenza elevati. Ad esempio o .

Esempio

T θ

E(T ) = θ ∀θ

E(T ) − θ ≠ 0

μ

E( ) = μ , ∀μX

MSE(T ) = E(T − θ = V ar(T ) +)2 (E(T ) − θ)2 Bias2

μ

MSE( ) = V ar( ) = /nX X σ2

σ2

(1 − α) θ

θ (1 − α)

(1 − α)

(1 − α)

α α = 0, 05α = 0.01



Esempio: IC per la media Un IC di livello per la media di una popolazione è dato da

L’IC è esatto se la popolazione campionata è normale, è approssimato (per il teorema limitecentrale) in altri casi

è il percentile per la distribuzione normale standard.Esempio: se allora .

μ(1 − α) μ

±X zα/2S

n√

S = S2−−√

zα/2 (1 − α/2)α = 0.05 = 1.96z0.025



Verifica delle ipotesiNella teoria dei test i risultati campionari sono usati per decidere tra due ipotesi in competizione

ipotesi nulla

ipotesi alternativa

Esempio

Il prezzo medio di una stanza in hotel 4S a Londra è 150 Euro

Possibili alternative il prezzo medio è unilateraleil prezzo medio è unilateraleil prezzo medio è bilaterale

Errori nella decisione

H0

H1

( )H0

( )H1> 150< 150≠ 150



Esempio 1

Regole di decisioneEsiste tradeoff tra e e non è possibile minimizzarli contemporaneamente.

α = P (Rifiutare erroneamente )H0

β = P (Accettare erroneamente )H0

α β



Poiché è l’ipotesi fondamentale, la decisione è di rifiutare (e quindi accettare )quando la probabilità dell’errore di prima specie, , molto piccola.

Tipicamente si richiede che .

In generale la decisione è presa osservando il valore assunto da una certa statisticacampionaria, definita, in questo caso, statistica test

Le statistiche test sono diverse a seconda del problema considerato ed esistono metodistatistici per determinare regole ottimali.

Un esempio intuitivoAbbiamo un campione di unità da una distribuzione normale a media e varianza (nota).Vogliamo verificare il set di ipotesi: contro .

Poichè è stimatore per sembra ragionevole confrontarne il valore con quello indicato nell’ipotesinulla e rifiutare se questo è molto minore o molto maggiore di .

Per quantificare quel “molto maggiore” o “molto minore”, conviene di solito misurare le distanze intermini di deviazioni standard, ossia procediamo a standardizzare :

Si noti che la standardizzazione usa il valore di specificato dall’ipotesi nulla. Ossia si fanno i calcoliipotizzando che questa sia effettivamente vera.

Ad esempio, se , si trova ad una deviazione standard dall’ipotesi nulla; se si trova a4 deviazioni standard dall’ipotesi nulla.

Per decidere è necessario sapere quale distanza assicura ci assicura che la probabilità dell’errore diprima specie sia piccola, diciamo .

Riassumendo:

La statistica test è:

La regola di decisione è: rifiuta se supera un valore soglia che renda la probabilitàdell’errore di prima specie .

In altre parole, dobbiamo individuare un valore ( il valore soglia) per il quale

Se dai dati osserviamo il valore della statistica test, il valore soglia è superato se

è definito value ed è tipicamente fornito dai software per la decisione.

H0 H0 H1α

α < 0.05

n μ σ2

: μ = 0H0 : μ ≠ 0H0

X μ

0

X

Z =( − 0)X n√

σ

μ

|Z| = 1 |Z| = 4

α < 0.05

Z

|Z|α < 0.05

z

P (|Z| > z| è vera) = αH0

zoss z

P (|Z| > | è vera) < αzoss H0

P (|Z| > | )zoss H0 p



EsempioIl prezzo medio di una stanza in hotel 4S a Londra è 150 Euro

Il prezzo medio è

In termini di parametri possiamo scrivere contro

Supponiamo per semplicità che la popolazione sia normale con varianza

Un campione casuale di 25 unità fornisce un prezzo medio ( ) pari a Euro.

la statisitca test è

che si colloca a tre deviazioni standard dalla media

il value associato è .

( )H0

≠ 150 ( )H1

: μ = 150H0 : μ ≠ 150H1

= 2500σ2

X 180

z = = 3(180 − 150) 25−−√

2500− −−−√

p 0.0027

Richiami di inferenza statistica Strumenti quantitativi ...taufer/Handout-pdf/Inferenza.pdf ·...

Documents

Transcript of Richiami di inferenza statistica Strumenti quantitativi ...taufer/Handout-pdf/Inferenza.pdf ·...