Richiami di inferenza statistica Strumenti quantitativi ...taufer/Slide-pdf/Inferenza.pdf ·...

Richiami di inferenza statistica

Strumenti quantitativi per lagestioneEmanuele Taufer

Inferenza statisticaInferenza statistica: insieme di tecniche che siutilizzano per ottenere informazioni su una (o più)caratteristiche (o parametri) su una data popolazionesulla base di dati campionari.

Alcuni aspetti formali:

Popolazione: un insieme di unità (persone,imprese, Stati) che siamo interessati adanalizzare. Indichiamo con

l’insieme dellemodalità della caratteristica che siamointeressati ad analizzare (sesso, altezza,reddito, addetti, PIL, etc.) misurate su ogniunità della popolazione.

Campione: un sottoinsieme di dimensione , () delle unità della popolazione

selezionate con criteri probabilistici. Poichè apriori non sappiamo quali unità faranno partedel campione, le corrispondenti modalità sonodelle variabili casuali. Indichiamole con

N

U = { , , … , }x1 x2 xN

n

n << N

C = { , , … , }X1 X2 Xn

Parametri e statistiche

Parametri: caratteristiche della popolazione.Tipicamente la media ( ), la varianza ( ),etc.. Di solito si usano lettere dall’alfabetogreco per indicare i parametri dellapopolazione.

Statistiche: caratteristiche del campione.Tipicamente la media,

la varianza (corretta),

Poiché il valore delle statistiche cambia con ilcampione selezionato, a priori, ossia primadella selezione del campione, sono dellevariabili casuali.

μ σ2

= ,X̄1n

∑i=1

n

Xi

= ( − .S2 1n − 1

∑i=1

n

Xi X̄)2

Esempi

stimare l’età (o l’altezza) media dellapopolazione residente in Italia

stimare la percentuale di consumatori di unacerta regione che acquista abitualmente uncerto tipo di prodotto

prevedere (con un dato margine di errore)l’esito delle elezioni

verificare se una certa campagna pubblicitariaha portato ad un aumento delle vendite

Tecniche di inferenzaLe principali tecniche di inferenza statistica sono:

Stima: quando interessa individuare il valore di unacerta caratteristica. Si distingue in:

puntuale

intervallare

Verifica delle ipotesi (o test): quando i daticampionari sono utilizzati per verificare una certaipotesi su un parametro della popolazione.

StimaSi consideri il caso in cui siamo interessati adeterminare un valore numerico (la stima)sufficientemente preciso per la media di una certapopolazione.

Dato un campione, proveniente dalla popolazione diinteresse, sembra naturale utilizzare comeindicatore del valore di

Terminologia

Stimatore: la regola per effettuare la stima (calcola lamedia). Lo stimatore è una variabile casuale poichèdefinito a priori su tutti i possibili risultati campionari.

Stima: il valore dello stimatore ottenuto dal campione.Un valore numerico.

Esistono diversi metodi di stima che permettono diottenere delle buone regole di stima per problemianche molto complessi.

μ

X̄μ

Precisione delle stimePer valutare la precisione delle regole di stima èopportuno ragionare a priori su tutti i possibilirisultati campionari.

Idealmente questo si può fare agevolmente se siconosce la distribuzione di probabilità dello stimatoreadottato. Poichè nella pratica questo non sempre èpossibile, si utilizzano alcuni indicatori di sintesi.

Indichiamo con uno stimatore per il genericoparametro .

1. Il valore atteso, ossia la media calcolata su tutti ipossibili risultati campionari. Se

si dice che lo stimatore è non distorto o correttopoiché il suo valore atteso coincide con ilparametro che si vuole stimare. In casocontrario la quantità

è definita bias o distorsione.

La media campionaria è uno stimatore corretto per

Tθ

E(T) = θ ∀θ

E(T) − θ ≠ 0

la media della popolazione poichéμ

E( ) = μ , ∀μX̄

2. Una indicatore della dispersione dellostimatore, lo MSE (mean squared error), misurala distanza quadratica media dello stimatore dalparametro.

Nel caso della media, poiché è corretta per ,

dove indica la varianza della popolazionecampionata.

MSE(T) = E(T − θ = V ar(T) +)2 (E(T) − θ)2 Bias2

μ

MSE( ) = V ar( ) = /nX̄ X̄ σ2

σ2

Intervalli di confidenza (IC)Un IC di livello per il parametro è unintervallo casuale (dipende dal campione) che includeil vero valore di con probabilità .

Anche per gli IC esiste una distinzione analoga aquella fra stimatore e stima:

A priori, prima di selezionare il campione, laprocedura di costruzione fornisce un IC cheincluderà il vero valore del parametro conprobabilità .

A posteriori, l’intervallo determinato dai datinon è più casuale e conterrà oppure no ilvero valore del parametro. Questo non è, disolito, noto. La procedura di costruzione ci dàun certo grado di confidenza, pari a ,ma nulla di più.

Tipicamente è piccolo per avere gradi diconfidenza elevati. Ad esempio o

.

(1 − α) θ

θ (1 − α)

(1 − α)

(1 − α)

α

α = 0, 05α = 0.01

Esempio

Esempio: IC per la media Un IC di livello per la media di unapopolazione è dato da

L’IC è esatto se la popolazione campionata ènormale, è approssimato (per il teoremalimite centrale) in altri casi

è il percentile per la distribuzionenormale standard.

Esempio: se allora .

μ

(1 − α)μ

±X̄ zα/2S

n√

S = S2−−√

zα/2 (1 − α/2)

α = 0.05 = 1.96z0.025

Verifica delle ipotesiNella teoria dei test i risultati campionari sono usatiper decidere tra due ipotesi in competizione

- ipotesi nulla

- ipotesi alternativa

Esempio

Il prezzo medio di una stanza in hotel 4S aLondra è 150 Euro

Possibili alternative

il prezzo medio è - unilaterale

il prezzo medio è - unilaterale

il prezzo medio è - bilaterale

H0

H1

( )H0

( )H1

> 150

< 150

≠ 150

Errori nella decisione

α = P(Rifiutare erroneamente )H0

β = P(Accettare erroneamente )H0

Esempio 1

Regole di decisione

Esiste trade-off tra e e non è possibileminimizzarli contemporaneamente.

Poiché è l’ipotesi fondamentale, ladecisione è di rifiutare (e quindi accettare

) quando la probabilità dell’errore di primaspecie, , molto piccola.

Tipicamente si richiede che .

In generale la decisione è presa osservando ilvalore assunto da una certa statisticacampionaria, definita, in questo caso, statisticatest

Le statistiche test sono diverse a seconda delproblema considerato ed esistono metodistatistici per determinare regole ottimali.

α β

H0

H0

H1

α

α < 0.05

Un esempio intuitivoAbbiamo un campione di unità da una distribuzionenormale a media e varianza (nota). Vogliamoverificare il set di ipotesi: contro

.

Poichè è stimatore per sembra ragionevoleconfrontarne il valore con quello indicato nell’ipotesinulla e rifiutare se questo è molto minore o moltomaggiore di .

Per quantificare quel “molto maggiore” o “moltominore”, conviene di solito misurare le distanze intermini di deviazioni standard, ossia procediamo astandardizzare :

Si noti che la standardizzazione usa il valore di specificato dall’ipotesi nulla. Ossia si fanno i calcoliipotizzando che questa sia effettivamente vera.

Ad esempio, se , si trova ad una deviazionestandard dall’ipotesi nulla; se si trova a 4deviazioni standard dall’ipotesi nulla.

Per decidere è necessario sapere quale distanzaassicura ci assicura che la probabilità dell’errore diprima specie sia piccola, diciamo .

nμ σ2

: μ = 0H0: μ ≠ 0H0

X̄ μ

0

X̄

Z =( − 0)X̄ n√

σ

μ

|Z| = 1|Z| = 4

α < 0.05

Riassumendo:

La statistica test è:

La regola di decisione è: rifiuta se superaun valore soglia che renda la probabilitàdell’errore di prima specie .

In altre parole, dobbiamo individuare un valore ( ilvalore soglia) per il quale

Se dai dati osserviamo il valore della statisticatest, il valore soglia è superato se

è definito -value ed ètipicamente fornito dai software per la decisione.

Z

|Z|

α < 0.05

z

P(|Z| > z| è vera) = αH0

zoss

z

P(|Z| > | è vera) < αzoss H0

P(|Z| > | )zoss H0 p

Esempio

Il prezzo medio di una stanza in hotel 4S aLondra è 150 Euro

Il prezzo medio è

In termini di parametri possiamo scrivere contro

Supponiamo per semplicità che la popolazionesia normale con varianza

Un campione casuale di 25 unità fornisce unprezzo medio ( ) pari a Euro.

la statisitca test è

che si colloca a tre deviazioni standard dallamedia

il -value associato è .

( )H0

≠ 150 ( )H1

: μ = 150H0 : μ ≠ 150H1

= 2500σ2

X̄ 180

z = = 3(180 − 150) 25−−√

2500− −−−√

p 0.0027

Richiami di inferenza statistica Strumenti quantitativi ...taufer/Slide-pdf/Inferenza.pdf ·...

Documents

Transcript of Richiami di inferenza statistica Strumenti quantitativi ...taufer/Slide-pdf/Inferenza.pdf ·...