Campionamento&e&distribuzioni& campionarie&...2015/05/02 · 14/05/15 1...
Transcript of Campionamento&e&distribuzioni& campionarie&...2015/05/02 · 14/05/15 1...
14/05/15
1
Campionamento e distribuzioni campionarie
Approccio indu8vo
• Ruolo dell’inferenza sta>s>ca • Procedure inferenziali di uso comune (intervalli di confidenza e test delle ipotesi)
• Risulta> e decisioni che dipendono dalla limitatezza delle informazioni u>lizzate
• Valutazione della plausibilità dei risulta> di un processo inferenziale in termini probabilis>ci
14/05/15
2
Approccio indu8vo (segue)
• Campionamento – Campioni probabilis>ci e non probabilis>ci – Estrazione con ripe>zione (o reimmissione) – Estrazione senza ripe>zione (o reimmissione) = estrazione in blocco
– Campione casuale semplice
a b c d
ef gh i jk l m n
o p q rs t u v w
x y z
Popolazione Campione
b c
g i n
o r u
y
Campione casuale semplice
• n = dimensione (ampiezza) del campione • Probabilità di inclusione: 1/N per ogni osservazione i
(i=1,…,N) • Generazione di numeri casuali
⇒Xi = i-ma v.c. generatrice
Xi v.c. i.i.d.
⇒ xi = i-ma realizzazione campionaria
Popolazione: X ~ f X i ,θ( )Campione casuale semplice:
( )nXXXX ,,, 21 …=
nxxx ,,, 21 …⇓
14/05/15
3
Distribuzione campionaria
• Obie8vo: colmare il gap tra…. - Realtà opera>va: osservazione di un solo
campione - Esigenza informa>va: conoscenza dell’universo
campionario • Definizione: – Una distribuzione campionaria fornisce informazioni sulla
distribuzione di tu8 i possibili valori di una sta>s>ca tn oXenu> da campioni x della stessa ampiezza n estra8 dalla popolazione X
Distribuzione campionaria della media
14/05/15
4
Distribuzione campionaria della media
• Distribuzione delle medie campionarie al variare del campione
• Numero di campioni, di ampiezza n, estraibili da una popolazione di numerosità N: Nn
• v.c. media campionaria: – realizzazioni della v.c. media campionaria al variare di X
X =1n
Xii=1
n
∑
x = 1n
xii=1
n
∑
Costruzione della distribuzione campionaria della media
• N=4 • xi osservate: (18, 20, 22, 24)
• Costruzione della distribuzione campionaria della media per campioni casuali di ampiezza n=2
µX =xi
i=1
4
∑N
= 21( )
5
4
1
2
2 =−
=∑=
N
xi
Xi
X
µσ
σ X = 5 = 2,236
14/05/15
5
Costruzione della distribuzione campionaria della media (segue)
Nn=16 campioni di dimensione n = 2
1a 2a Osservazione Oss 18 20 22 24 18 18 19 20 21
20 19 20 21 22
22 20 21 22 23
24 21 22 23 24
Medie Campionarie
Campioni (campionamento con reintroduzione)
1a 2a Osservazione Oss 18 20 22 24 18 18,18 18,20 18,22 18,24 20 20,18 20,20 20,22 20,24 22 22,18 22,20 22,22 22,24 24 24,18 24,20 24,22 24,24
Costruzione della distribuzione campionaria della media (segue)
Distribuzione delle Medie Campionarie
1a 2a Osservazione Oss 18 20 22 24 18 18 19 20 21
20 19 20 21 22
22 20 21 22 23
24 21 22 23 24
Medie Campionarie
18 19 20 21 22 23 24 0
0,1
0,2
0,3
x
P( X = xi )
1/16
2/16
3/16
4/16
3/16
2/16
1/16
14/05/15
6
Costruzione della distribuzione campionaria della media (segue)
E(X )=µX = xiP X = xi( )i=1
7
∑ = 21=µX
Var(X )= σ X2 = xi − E X( )#
$%&2P X = xi( )
i=1
7
∑ = 2,5 = 52=σ X2
n
Sqm(X )= σ X = σ X2 = 2,5 = 1,581= 2,236
2=σ X
n
Valore aXeso, varianza e scarto quadra>co medio della v.c. media campionaria
1. Campionamento con reimmissione
• qualunque sia f(X,θ):
- n>30 à
- f(X,θ) ~ N(μX,σ2X) à
Distribuzione campionaria della media
E(X )=µX =µX Var(X )= σ X2 =
σ X2
n
X ~ N µX ,σ X2
n
"
#$$
%
&''
Z = X −µXσ X n
~ N 0,1( )X ~ N µX =µX ,σ X
2 =σ X2
n
"
#$$
%
&''
14/05/15
7
2. Campionamento senza reimmissione • qualunque sia f(X,θ):
- n < 0,05 � N & n > 30 à
à
- n > 0,05 � N & n > 30 à
à
CaraXeris>che della distribuzione campionaria della media (segue)
E(X )=µX =µX Var(X )= σ X2 =
σ X2
nN − nN −1
Z = X −µXσ X n
~ N 0,1( )
X ~ N µX ,σ X2( )
X ~ N µX ,σ X2( )
Z = X −µXσ X
nN − nN −1
~ N 0,1( )
Distribuzione campionaria della media: esempio
Il peso dei telefoni cellulari (modello k2) prodo8 dalla “Betaphone” ha una distribuzione normale con media 175 grammi e varianza 16. Si determini la probabilità che 10 telefoni Betaphone k2 estra8 casualmente abbiano una peso medio compreso tra 173 e 176 grammi.
P 173≤ X ≤176( ) = P 173−1754 10
≤X −µσ n
≤176−1754 10
#
$%%
&
'((=
= P −1,58 ≤ X −µσ n
≤ 0,79#
$%%
&
'((= 0,78542− 1−0,94295( ) = 0,72819
X ~ N µX = 175,σ X2 = 16( ) X ~ N µX = 175,σ X
2 =1610
"
#$
%
&'
n = 10
14/05/15
8
Possiamo applicare il Teorema del limite centrale: Anche se la popolazione non è normale, la media campionaria della popolazione sarà approssima>vamente normale purché l’ampiezza del campione sia abbastanza grande.
Distribuzione campionaria della media nel caso in cui la Popolazione NON è Normale
Teorema del Limite centrale (TLC) • n v.c. Xi i.i.d. • E(Xi) = μ; Var(Xi) = σ2 < +∞ • la v.c. Sn=ΣiXi è tale che: E(Sn)=nμ; Var(Sn)=nσ2
• la v.c. è tale che:
• S>ma di μ quando non si conosce f(X)
X =1n
Xii=1
n
∑ E X( ) =µ Var X( ) = σ2
n
Z = X −µσ n
d# →# N 0,1( ) per n→∞
Z = Sn −µσ n
d# →# N 0,1( ) per n→∞
14/05/15
9
Teorema del Limite Centrale
n↑ Al crescere della dimensione del campione…
la distribuzione campionaria diventa quasi normale indipendentemente dalla distribuzione della popolazione
x
Distribuzione campionaria della media nel caso in cui la Popolazione NON è Normale
Distribuzione Popolazione
Distribuzione Campionaria (diventa normale quando n cresce)
Tendenza Centrale
Variabilità
X
X
Campione più grande Campione più
piccolo
Proprietà della media campionaria:
µµx =
nσσx =
xµ
µ
14/05/15
10
Quanto deve essere grande il campione?
• Per la maggior parte delle distribuzioni, n > 25 produce una distribuzione della media campionaria approssima>vamente normale
• Per popolazioni con distribuzione normale, la distribuzione della media campionaria è sempre una distribuzione normale, indipendentemente dalla dimensione campionaria n
Intervalli di AcceXazione • Obbie8vo: determinare un intervallo entro il quale verosimilmente
cadono i valori delle medie campionarie, per una data media e varianza della popolazione
– Dal teorema del limite centrale, sappiamo che la distribuzione di X è approssima>vamente normale se n è abbastanza grande, con media μX e scarto quadra>co medio
– Sia zα/2 il valore di Z che lascia nella coda destra della distribuzione normale standard l’area α/2 (ossia, l’intervallo da -‐ zα/2 a +zα/2 racchiude una probabilità 1 – α)
– Allora
è l’intervallo che include X con probabilità 1 – α
σ X =σ X
n
X/2σzµ α±
14/05/15
11
Distribuzioni campionarie di uso frequente
1. Campionamento con reimmissione
• qualunque sia f(X,θ):
- n>25 à
- f(X,θ) ≈ N(μX,σ2X) à
Distribuzione campionaria della media
E(X )=µX =µX Var(X )= σ X2 =
σ X2
n
X ~ N µX ,σ X2
n
"
#$$
%
&''
Z = X −µXσ X n
≈ N 0,1( )X ~ N µX =µX ,σ X
2 =σ X2
n
"
#$$
%
&''
14/05/15
12
2. Campionamento senza reimmissione • qualunque sia f(X,θ):
- n < 0,05 � N & n > 25 à
à
- n > 0,05 � N & n > 25 à
à
Distribuzione campionaria della media (segue)
E(X )=µX =µX Var(X )= σ X2 =
σ X2
nN − nN −1
Z = X −µXσ X n
~ N 0,1( )
X ~ N µX ,σ X2( )
X ~ N µX ,σ X2( )
Z = X −µXσ X
nN − nN −1
~ N 0,1( )
Distribuzione campionaria della proporzione di successi
• CaraXeri dicotomici • π = proporzione di successi nella popolazione • p = proporzione di successi nel campione • p* = proporzione di successi s>mata in corrispondenza del campione osservato
• Obie8vo: definire la distribuzione campionaria di p
14/05/15
13
Teorema di De Moivre-‐Laplace (TDML) • Presenta una formalizzazione più rigorosa del TLC • n v.c. Xi~Ber(π) indipenden> • v.c. somma: Sn=X1+X2+….+Xn
• la v.c. Z~N(0,1) si può vedere come distribuzione limite di altre distribuzioni (Poisson, chi quadrato, t di Student, etc.)
• Zn può essere approssimato da Z purchè: – le n v.c. siano i.d. e n>25 – le n v.c. siano indipenden> e nπ>5
Zn =Sn − nπnπ( 1−π )
d# →# N 0,1( ) per n→∞
Distribuzione campionaria della proporzione di successi (segue)
• v.c. proporzione di successi:
• nπ (1 – π) > 9
p = 1n
Xii
n
∑ Xi ~ Binr 1,π( ) E Xi( ) = π Var Xi( ) =π 1−π( )n
p ~ N π;π 1−π( )n
#
$
%%
&
'
((
Z = p*−π
π 1−π( )n
≈ N 0;1( )
14/05/15
14
Distribuzione campionaria della proporzione di successi: esempio
Nella giornata di ieri il programma in onda in prima serata sulla rete X ha registrato uno share del 40%. Si determini la probabilità che, estraendo con ripe>zione un campione di 1000 telespeXatori, almeno il 38% di essi abbia guardato il programma in oggeXo.
P p ≥ 0,38( ) = P Z ≥ 0,38−0,400,0024
#
$%%
&
'((= P Z ≥ −1,29( ) = 0,90147
X ~ Binr 1,π = 0,40( ) p ~ N π = 0,40,π 1−π( )1000
= 0,0024#
$
%%
&
'
((
n = 1000 π = 0,40 nπ 1−π( ) = 240 > 9
Distribuzione campionaria della varianza
• σ2X = varianza della popolazione • Varianza campionaria
• Varianza di X per il campione osservato
• Obie8vo: definire la distribuzione campionaria di S2
S2 = 1n−1
Xi − X( )∑2
s2 = 1n−1
xi − x( )∑2
14/05/15
15
Distribuzione campionaria della varianza (segue)
• Si dimostra che, se X ~ N(μX,σ2X)
• da cui: n−1( )S2σ X2
~ χ2n−1( )
En−1( )S2σ X2
#
$
%%
&
'
((= n−1; VAR
n−1( )S2σ X2
#
$
%%
&
'
((= 2 n−1( )
En−1( )S2σ X2
#
$
%%
&
'
((= n−1⇒ E S2( ) = n−1n σ X
2 ≠ σ X2
Variabile casuale Chi-‐quadro ( )2~ rX χ
χ r( )2 = Zi
2
i=1
r
∑
r v.c. Zi ~ N 0,1( ) indipendenti
r = gradi di libertà (n. di osservazioni indipenden> del campione meno il numero k di parametri della popolazione che devono essere s>ma> per mezzo delle osservazioni campionarie)
( )( ) rXVAR
rXE22 ==
==
σ
µχ r( )
2 ~ N r,2r( ) per r ≥ 30
14/05/15
16
Distribuzione campionaria della varianza (esempio)
Sia X il tempo di percorrenza di una intera corsa dell’autobus “CQ”. Si suppone che X abbia una distribuzione normale con media incognita e varianza 16. Si determini la probabilità che la devianza campionaria nS2 in un campione di 13 corse dell’autobus risul> superiore a 6,304 σ2X.
nS 2 σ 2 ~ χ n−1( )
P nS 2 ≥ 6,304σ 2( ) = P nS 2 σ 2 ≥ 6,304( ) == P χ 2n−1( ) ≥ 6,304( ) = P χ 212( ) ≥ 6,304( ) = 0,90
X ~ N µX = ?,σ X2 =16( ) n =13