Richiami di inferenza statistica Strumenti quantitativi ...taufer/Slide-pdf/Inferenza.pdf ·...
Transcript of Richiami di inferenza statistica Strumenti quantitativi ...taufer/Slide-pdf/Inferenza.pdf ·...
Richiami di inferenza statistica
Strumenti quantitativi per lagestioneEmanuele Taufer
Inferenza statisticaInferenza statistica: insieme di tecniche che siutilizzano per ottenere informazioni su una (o più)caratteristiche (o parametri) su una data popolazionesulla base di dati campionari.
Alcuni aspetti formali:
Popolazione: un insieme di unità (persone,imprese, Stati) che siamo interessati adanalizzare. Indichiamo con
l’insieme dellemodalità della caratteristica che siamointeressati ad analizzare (sesso, altezza,reddito, addetti, PIL, etc.) misurate su ogniunità della popolazione.
Campione: un sottoinsieme di dimensione , () delle unità della popolazione
selezionate con criteri probabilistici. Poichè apriori non sappiamo quali unità faranno partedel campione, le corrispondenti modalità sonodelle variabili casuali. Indichiamole con
N
U = { , , … , }x1 x2 xN
n
n << N
C = { , , … , }X1 X2 Xn
Parametri e statistiche
Parametri: caratteristiche della popolazione.Tipicamente la media ( ), la varianza ( ),etc.. Di solito si usano lettere dall’alfabetogreco per indicare i parametri dellapopolazione.
Statistiche: caratteristiche del campione.Tipicamente la media,
la varianza (corretta),
Poiché il valore delle statistiche cambia con ilcampione selezionato, a priori, ossia primadella selezione del campione, sono dellevariabili casuali.
μ σ2
= ,X̄1n
∑i=1
n
Xi
= ( − .S2 1n − 1
∑i=1
n
Xi X̄)2
Esempi
stimare l’età (o l’altezza) media dellapopolazione residente in Italia
stimare la percentuale di consumatori di unacerta regione che acquista abitualmente uncerto tipo di prodotto
prevedere (con un dato margine di errore)l’esito delle elezioni
verificare se una certa campagna pubblicitariaha portato ad un aumento delle vendite
Tecniche di inferenzaLe principali tecniche di inferenza statistica sono:
Stima: quando interessa individuare il valore di unacerta caratteristica. Si distingue in:
puntuale
intervallare
Verifica delle ipotesi (o test): quando i daticampionari sono utilizzati per verificare una certaipotesi su un parametro della popolazione.
StimaSi consideri il caso in cui siamo interessati adeterminare un valore numerico (la stima)sufficientemente preciso per la media di una certapopolazione.
Dato un campione, proveniente dalla popolazione diinteresse, sembra naturale utilizzare comeindicatore del valore di
Terminologia
Stimatore: la regola per effettuare la stima (calcola lamedia). Lo stimatore è una variabile casuale poichèdefinito a priori su tutti i possibili risultati campionari.
Stima: il valore dello stimatore ottenuto dal campione.Un valore numerico.
Esistono diversi metodi di stima che permettono diottenere delle buone regole di stima per problemianche molto complessi.
μ
X̄μ
Precisione delle stimePer valutare la precisione delle regole di stima èopportuno ragionare a priori su tutti i possibilirisultati campionari.
Idealmente questo si può fare agevolmente se siconosce la distribuzione di probabilità dello stimatoreadottato. Poichè nella pratica questo non sempre èpossibile, si utilizzano alcuni indicatori di sintesi.
Indichiamo con uno stimatore per il genericoparametro .
1. Il valore atteso, ossia la media calcolata su tutti ipossibili risultati campionari. Se
si dice che lo stimatore è non distorto o correttopoiché il suo valore atteso coincide con ilparametro che si vuole stimare. In casocontrario la quantità
è definita bias o distorsione.
La media campionaria è uno stimatore corretto per
Tθ
E(T) = θ ∀θ
E(T) − θ ≠ 0
la media della popolazione poichéμ
E( ) = μ , ∀μX̄
2. Una indicatore della dispersione dellostimatore, lo MSE (mean squared error), misurala distanza quadratica media dello stimatore dalparametro.
Nel caso della media, poiché è corretta per ,
dove indica la varianza della popolazionecampionata.
MSE(T) = E(T − θ = V ar(T) +)2 (E(T) − θ)2 Bias2
μ
MSE( ) = V ar( ) = /nX̄ X̄ σ2
σ2
Intervalli di confidenza (IC)Un IC di livello per il parametro è unintervallo casuale (dipende dal campione) che includeil vero valore di con probabilità .
Anche per gli IC esiste una distinzione analoga aquella fra stimatore e stima:
A priori, prima di selezionare il campione, laprocedura di costruzione fornisce un IC cheincluderà il vero valore del parametro conprobabilità .
A posteriori, l’intervallo determinato dai datinon è più casuale e conterrà oppure no ilvero valore del parametro. Questo non è, disolito, noto. La procedura di costruzione ci dàun certo grado di confidenza, pari a ,ma nulla di più.
Tipicamente è piccolo per avere gradi diconfidenza elevati. Ad esempio o
.
(1 − α) θ
θ (1 − α)
(1 − α)
(1 − α)
α
α = 0, 05α = 0.01
Esempio
Esempio: IC per la media Un IC di livello per la media di unapopolazione è dato da
L’IC è esatto se la popolazione campionata ènormale, è approssimato (per il teoremalimite centrale) in altri casi
è il percentile per la distribuzionenormale standard.
Esempio: se allora .
μ
(1 − α)μ
±X̄ zα/2S
n√
S = S2−−√
zα/2 (1 − α/2)
α = 0.05 = 1.96z0.025
Verifica delle ipotesiNella teoria dei test i risultati campionari sono usatiper decidere tra due ipotesi in competizione
- ipotesi nulla
- ipotesi alternativa
Esempio
Il prezzo medio di una stanza in hotel 4S aLondra è 150 Euro
Possibili alternative
il prezzo medio è - unilaterale
il prezzo medio è - unilaterale
il prezzo medio è - bilaterale
H0
H1
( )H0
( )H1
> 150
< 150
≠ 150
Errori nella decisione
α = P(Rifiutare erroneamente )H0
β = P(Accettare erroneamente )H0
Esempio 1
Regole di decisione
Esiste trade-off tra e e non è possibileminimizzarli contemporaneamente.
Poiché è l’ipotesi fondamentale, ladecisione è di rifiutare (e quindi accettare
) quando la probabilità dell’errore di primaspecie, , molto piccola.
Tipicamente si richiede che .
In generale la decisione è presa osservando ilvalore assunto da una certa statisticacampionaria, definita, in questo caso, statisticatest
Le statistiche test sono diverse a seconda delproblema considerato ed esistono metodistatistici per determinare regole ottimali.
α β
H0
H0
H1
α
α < 0.05
Un esempio intuitivoAbbiamo un campione di unità da una distribuzionenormale a media e varianza (nota). Vogliamoverificare il set di ipotesi: contro
.
Poichè è stimatore per sembra ragionevoleconfrontarne il valore con quello indicato nell’ipotesinulla e rifiutare se questo è molto minore o moltomaggiore di .
Per quantificare quel “molto maggiore” o “moltominore”, conviene di solito misurare le distanze intermini di deviazioni standard, ossia procediamo astandardizzare :
Si noti che la standardizzazione usa il valore di specificato dall’ipotesi nulla. Ossia si fanno i calcoliipotizzando che questa sia effettivamente vera.
Ad esempio, se , si trova ad una deviazionestandard dall’ipotesi nulla; se si trova a 4deviazioni standard dall’ipotesi nulla.
Per decidere è necessario sapere quale distanzaassicura ci assicura che la probabilità dell’errore diprima specie sia piccola, diciamo .
nμ σ2
: μ = 0H0: μ ≠ 0H0
X̄ μ
0
X̄
Z =( − 0)X̄ n√
σ
μ
|Z| = 1|Z| = 4
α < 0.05
Riassumendo:
La statistica test è:
La regola di decisione è: rifiuta se superaun valore soglia che renda la probabilitàdell’errore di prima specie .
In altre parole, dobbiamo individuare un valore ( ilvalore soglia) per il quale
Se dai dati osserviamo il valore della statisticatest, il valore soglia è superato se
è definito -value ed ètipicamente fornito dai software per la decisione.
Z
|Z|
α < 0.05
z
P(|Z| > z| è vera) = αH0
zoss
z
P(|Z| > | è vera) < αzoss H0
P(|Z| > | )zoss H0 p
Esempio
Il prezzo medio di una stanza in hotel 4S aLondra è 150 Euro
Il prezzo medio è
In termini di parametri possiamo scrivere contro
Supponiamo per semplicità che la popolazionesia normale con varianza
Un campione casuale di 25 unità fornisce unprezzo medio ( ) pari a Euro.
la statisitca test è
che si colloca a tre deviazioni standard dallamedia
il -value associato è .
( )H0
≠ 150 ( )H1
: μ = 150H0 : μ ≠ 150H1
= 2500σ2
X̄ 180
z = = 3(180 − 150) 25−−√
2500− −−−√
p 0.0027