Stima dei parametri Verifica delle ipotesi per portale.pdf · Concetti fondamentali POPOLAZIONE o...
Transcript of Stima dei parametri Verifica delle ipotesi per portale.pdf · Concetti fondamentali POPOLAZIONE o...
Statistica inferenziale
Verifica delle ipotesi
Stima dei parametri
Concetti fondamentali
POPOLAZIONE o UNIVERSO
CAMPIONE
Insieme degli elementi cui si rivolge il
ricercatore per la sua indagine
Un sottoinsieme di n elementi dell’insieme
dato
CAMPIONE
CAMPIONE RAPPRESENTATIVO
CAMPIONE CASUALE
Un campione che abbia tutte le più importanti
caratteristiche della popolazione da cui
proviene.
L’estrazione del campione sarà casuale quando
tutti gli elementi della popolazione hanno la
stessa probabilità di essere estratti.
La tecnica che permette di estrapolare dalla popolazione
una serie di n elementi è chiamata campionamento
Campionamento probabilistico e non probabilistico
Nel campionamento probabilistico tutti gli elementi della popolazione hanno uguale probabilità di essere estratti per
far parte del campione, in maniera casuale.
Vi sono diversi tipi di
campionamento probabilistico
CAMPIONE CASUALE SEMPLICE (CCS)
In questo tipo di campionamento tutti i membri della popolazione
hanno uguale probabilità di essere estratti per essere inclusi nel
campione.
CAMPIONE CASUALE STRATIFICATO
In questo tipo di campionamento la popolazione si divide in
categorie o strati e, successivamente, si estraggono
casualmente le unità che saranno incluse nel campione
PARAMETRI E INDICATORI
Caratteristica studiata riferita alla
popolazione (quantità)
PARAMETRO
INDICATORE
Caratteristica studiata riferita al
campione
MEDIA DELLA POPOLAZIONE: m
Parametro fisso ed è incognito quando
si utilizza un campione per fare
inferenza.
MEDIA DEL CAMPIONE: X
Media aritmetica delle osservazioni campionarie
STIMA DEI PARAMETRI
STIMA DEI PARAMETRI della
popolazione (es. media e deviazione
standard) attraverso i campioni.
IMPORTANTE: Individuare
LE DISTRIBUZIONI CAMPIONARIE
Esistono distribuzioni campionarie note
di vari indicatori.
Una distribuzione campionaria è una
distribuzione teorica di frequenza relativa ad
una statistica (risultato di un calcolo statistico).
DISTRIBUZIONE CAMPIONARIA
DELLA MEDIA
Indicatore : MEDIA
Es: numero di errori ad un test per la
patente
Popolazione di riferimento: donne
italiane
Immaginiamo che la popolazione di
riferimento sia composta da 3 elementi:
2, 4, 6
Sappiamo, ad esempio, che il numero
degli errori al test della popolazione
femminile italiana si distribuisce in modo
approssimativamente normale intorno ad
una media di 4, con una deviazione
standard (s) di 1.63 e una varianza (s2)
di 2.66
Immaginiamo di estrarre 9 campioni diversi
di donne italiane, tutti della stessa
dimensione o ampiezza
n = 2, e di calcolare il numero di errori
medio in ciascun campione
LA MEDIA DELLA DCM:
N
i 1
mx
x i
N dove: X = media del campione i-esimo della distribuzione i
N
i 1= sommatoria di tutti i dati dal primo(i=1) a n
N = numerosità totale dei campioni
x
Questa media è uguale a quella della
popolazione
1°. Proprietà della DCM
LA MEDIA delle medie dei campioni
coincide con la MEDIA della
popolazione dalla quale i campioni
sono stati estratti
m x = m _
LA FORMA DELLE DUE
DISTRIBUZIONI DIPENDE
DALL’AMPIEZZA N DEI CAMPIONI
2°. Proprietà della DCM
a. La popolazione di provenienza del
campione è distribuita in modo normale;
ESSA SI DISTRIBUISCE
NORMALMENTE quando:
b. Indipendentemente dalla forma della
distribuzione della popolazione, il
campione è costituito da più di 30
elementi (n>30).
La varianza della DCM
La variabilità della DCM
_
n s s X =
All’aumentare di n la variabilità della
DCM diminuisce fino a tendere a 0.
dove: = varianza della popolazione s
n = numero di elementi che costituiscono i campioni
2 2
2
s noto
Sappiamo che il numero di errori della popolazione femminile
italiana si distribuisce in modo approssimativamente normale
intorno ad una media di circa 4, con una deviazione standard (s)
di 1.63.
La deviazione standard della DCM
La deviazione standard della DCM
prende il nome di ERRORE STANDARD
_
n
s s x =
Misura standardizzata della distanza
fra la media campionaria e la media
della popolazione di riferimento.
dove: = deviazione standard della popolazione s
n = numero di elementi che costituiscono i campioni
s noto
Misura della quantità di errore che è presente nella stima della media della popolazione a
partire dalla media campionaria.
Sappiamo che il numero di errori della popolazione femminile
italiana si distribuisce in modo approssimativamente normale
intorno ad una media di circa 4, con una deviazione standard (s)
di 1.63.
[(]
133= 1.15
Errore standard stimato
Spesso la varianza (s2) e l’errore
standard (s) della popolazione non
sono noti
La varianza della DCM può essere stimata dai dati del campione nel modo seguente:
s = = ˆ s2
x
n - 1 s x ˆ _ s
√(n - 1)
2
s e s2 non noto
Uso delle distribuzioni campionarie (1)
La DCM può essere utilizzata per stimare
la probabilità associata alla media di un
campione estratto da una popolazione la
cui media e dev.standard sono note.
Uso delle distribuzioni
campionarie (2)
Per esempio: un ricercatore è interessato
a conoscere qual’ è la probabilità che un
campione di 9 individui riporti ad un test
un punteggio medio x>41. Sa che nella
popolazione il punteggio del test è
distribuito normalmente con m= 40 e s =6.
Uso delle distribuzioni
campionarie (3)
Zx = (X - mx)/sx _ _
_ _
_
n
s s x =
Si utilizza come modello teorico di
riferimento la distribuzione normale
standard
Uso delle distribuzioni
campionarie (4)
Zx = 0.5 _
(mx = m) _
0.5
0.1915
Zx = (41- 40)/ _
_
9
6 s x =
?
Uso delle distribuzioni
campionarie (5)
0.5
0.1915 E’ necessario procedere
per sottrazione:
0.50-0.1915= 0.3085
(30.85%)
Quindi la probabilità che da una popolazione
normale con media =40 e ds=6 sia possibile
estrarre un campione casuale di 9 individui con
un punteggio medio > 41 è del 30% circa.
Uso delle distribuzioni
campionarie (6)
Un altro utilizzo della DCM è relativo alla
possibilità di STIMARE i parametri di una
popolazione sulla base delle informazioni
rilevabili al livello di un campione da esso
derivato.
STIMA DELLA MEDIA a partire dalla conoscenza della MEDIA di un campione di elementi estratti da essa in modo casuale
STIMA DI TIPO PROBABILISTICO
Uso delle distribuzioni
campionarie (7)
Il principio generale è quello di conoscere
con un certo grado di probabilità (es il
95%) un INTERVALLO NUMERICO (di
fiducia) che possa ragionevolmente
includere la media stimata nella
popolazione.
Livello di confidenza
90% 95%
99%
Valore critico di z
1.64 1.96 2.58
98%
2.33
s (deviazione standard) NON nota
Uso delle distribuzioni
campionarie (8)
Esempio: vogliamo sapere quale potrebbe essere il numero medio di parole riconosciute da bambini di 4 elementare, su un campione di 160 bambini di quell’età, avendo riscontrato una media = 66.5 e s2 (varianza) = 24.62. (95%)
Zx = (X - mx)/sx _ _
_ _
s = = ˆ s2
x
n - 1 s x ˆ _ s
√(n - 1)
2
Uso delle distribuzioni
campionarie (9)
Zx = (X - mx)/sx _ _
_ _
Fissata una probabilità pari all’area =.95, individuiamo z uguale a + 1.96
4.96
160-1 √ = =0.393 s x ˆ _ s
√(n - 1) =
66.5-1.96*.393 < m < 66.5 + 1.96 *.393
Concludiamo che l’intervallo 65.73 (66) –
67.27 (67) conterrà, con una probabilità del
95%, la media della popolazione dei bambini
di 4 elementare
s (deviazione standard) nota
X -z*s < m < X + z*s x -
x -
n
s s x =
STIMA DEI PARAMETRI: INTERVALLO DI FIDUCIA
X -z*s < m < X + z*s x -
x - Con s noto
s x ˆ _ s
√(n - 1) =
X -z*s < m < X + z* x - Con s ignoto e N>=30 s x ˆ _
ˆ
Con s ignoto e N<30 X -t*s < m < X + t* x - s x ˆ _ ˆ
Distribuzione t (1)
La distribuzione t di student è particolarmente utile per campioni di ampiezza < a 30 unità (n<30). Ha forma simile alla distribuzione normale. Quando n è abbastanza grande, la forma della distribuzione t si approssima a quella della distribuzione normale.
Distribuzione t (3)
Per ciascun valore di t esiste un’area di probabilità ad esso associata e il valore totale di probabilità corrispondente all’area sottesa alla curva è uguale a 1.
Gdl=n-1: gradi di libertà
Definiti come gli elementi che sono liberi di variare.
• Rispetto alla curva normale è più bassa
• È simmetrica
• Quando i Gdl tendono all’infinito la curva si approssima a quella normale
• Vi è una maggiore area sotto alle code della distribuzione. Rispetto alla distribuzione normale, i valori estremi sono un po’ più probabili.
Distribuzione t (4)
TAVOLE
GDL
0.10 0.20
0.05 0.025
0.05
…
1 … … … …
2 1.886 … 4.303 …
3 1.638 2.353 3.182 …
4 1.533 … 2.776 …
Ipotesi bidirezionale
Ipotesi monodirezionale
Intervallo di fiducia
ESEMPIO: tra i giovani di leva è stato estratto
un campione casuale di 26 soggetti, ai quali è
stato somministrato un test per la misura
dell’emotività (punteggio da 10 a 50).
I risultati ottenuti sono: x = 30 e s=6.
Trovare un intervallo di fiducia al 99% per la
media di emotività della popolazione di
giovani di leva, sapendo che tale variabile si
distribuisce normalmente.
1. Cerchiamo sulla tavola il t critico per a=0.01
su due code con n-1 gdl (26-1=25): t critico =
+/- 2.787
2.
= 1.2
s x ˆ _ s
√(n - 1) =
s x ˆ _ s
√(n - 1) = s x ˆ _ 6
√25) =
t = (X - mx)/ Con s ignoto e N<=30 s x ˆ _
X -t*s < m < X + t*s x -
x -
30 – 2.787*1.2 < m < 30 + 2.787 * 1.2
3.
26.66 < m < 33.34
Con una fiducia del 99% possiamo affermare che l’intervallo 26.66-33.34 contiene il valore
medio di emotività della popolazione dei giovani di leva
ˆ