Stima dei parametri Verifica delle ipotesi per portale.pdf · Concetti fondamentali POPOLAZIONE o...

Post on 11-Feb-2020

1 views 0 download

Transcript of Stima dei parametri Verifica delle ipotesi per portale.pdf · Concetti fondamentali POPOLAZIONE o...

Statistica inferenziale

Verifica delle ipotesi

Stima dei parametri

Concetti fondamentali

POPOLAZIONE o UNIVERSO

CAMPIONE

Insieme degli elementi cui si rivolge il

ricercatore per la sua indagine

Un sottoinsieme di n elementi dell’insieme

dato

CAMPIONE

CAMPIONE RAPPRESENTATIVO

CAMPIONE CASUALE

Un campione che abbia tutte le più importanti

caratteristiche della popolazione da cui

proviene.

L’estrazione del campione sarà casuale quando

tutti gli elementi della popolazione hanno la

stessa probabilità di essere estratti.

La tecnica che permette di estrapolare dalla popolazione

una serie di n elementi è chiamata campionamento

Campionamento probabilistico e non probabilistico

Nel campionamento probabilistico tutti gli elementi della popolazione hanno uguale probabilità di essere estratti per

far parte del campione, in maniera casuale.

Vi sono diversi tipi di

campionamento probabilistico

CAMPIONE CASUALE SEMPLICE (CCS)

In questo tipo di campionamento tutti i membri della popolazione

hanno uguale probabilità di essere estratti per essere inclusi nel

campione.

CAMPIONE CASUALE STRATIFICATO

In questo tipo di campionamento la popolazione si divide in

categorie o strati e, successivamente, si estraggono

casualmente le unità che saranno incluse nel campione

PARAMETRI E INDICATORI

Caratteristica studiata riferita alla

popolazione (quantità)

PARAMETRO

INDICATORE

Caratteristica studiata riferita al

campione

MEDIA DELLA POPOLAZIONE: m

Parametro fisso ed è incognito quando

si utilizza un campione per fare

inferenza.

MEDIA DEL CAMPIONE: X

Media aritmetica delle osservazioni campionarie

STIMA DEI PARAMETRI

STIMA DEI PARAMETRI della

popolazione (es. media e deviazione

standard) attraverso i campioni.

IMPORTANTE: Individuare

LE DISTRIBUZIONI CAMPIONARIE

Esistono distribuzioni campionarie note

di vari indicatori.

Una distribuzione campionaria è una

distribuzione teorica di frequenza relativa ad

una statistica (risultato di un calcolo statistico).

DISTRIBUZIONE CAMPIONARIA

DELLA MEDIA

Indicatore : MEDIA

Es: numero di errori ad un test per la

patente

Popolazione di riferimento: donne

italiane

Immaginiamo che la popolazione di

riferimento sia composta da 3 elementi:

2, 4, 6

Sappiamo, ad esempio, che il numero

degli errori al test della popolazione

femminile italiana si distribuisce in modo

approssimativamente normale intorno ad

una media di 4, con una deviazione

standard (s) di 1.63 e una varianza (s2)

di 2.66

Immaginiamo di estrarre 9 campioni diversi

di donne italiane, tutti della stessa

dimensione o ampiezza

n = 2, e di calcolare il numero di errori

medio in ciascun campione

LA MEDIA DELLA DCM:

N

i 1

mx

x i

N dove: X = media del campione i-esimo della distribuzione i

N

i 1= sommatoria di tutti i dati dal primo(i=1) a n

N = numerosità totale dei campioni

x

Questa media è uguale a quella della

popolazione

1°. Proprietà della DCM

LA MEDIA delle medie dei campioni

coincide con la MEDIA della

popolazione dalla quale i campioni

sono stati estratti

m x = m _

LA FORMA DELLE DUE

DISTRIBUZIONI DIPENDE

DALL’AMPIEZZA N DEI CAMPIONI

2°. Proprietà della DCM

a. La popolazione di provenienza del

campione è distribuita in modo normale;

ESSA SI DISTRIBUISCE

NORMALMENTE quando:

b. Indipendentemente dalla forma della

distribuzione della popolazione, il

campione è costituito da più di 30

elementi (n>30).

La varianza della DCM

La variabilità della DCM

_

n s s X =

All’aumentare di n la variabilità della

DCM diminuisce fino a tendere a 0.

dove: = varianza della popolazione s

n = numero di elementi che costituiscono i campioni

2 2

2

s noto

Sappiamo che il numero di errori della popolazione femminile

italiana si distribuisce in modo approssimativamente normale

intorno ad una media di circa 4, con una deviazione standard (s)

di 1.63.

La deviazione standard della DCM

La deviazione standard della DCM

prende il nome di ERRORE STANDARD

_

n

s s x =

Misura standardizzata della distanza

fra la media campionaria e la media

della popolazione di riferimento.

dove: = deviazione standard della popolazione s

n = numero di elementi che costituiscono i campioni

s noto

Misura della quantità di errore che è presente nella stima della media della popolazione a

partire dalla media campionaria.

Sappiamo che il numero di errori della popolazione femminile

italiana si distribuisce in modo approssimativamente normale

intorno ad una media di circa 4, con una deviazione standard (s)

di 1.63.

[(]

133= 1.15

Errore standard stimato

Spesso la varianza (s2) e l’errore

standard (s) della popolazione non

sono noti

La varianza della DCM può essere stimata dai dati del campione nel modo seguente:

s = = ˆ s2

x

n - 1 s x ˆ _ s

√(n - 1)

2

s e s2 non noto

Uso delle distribuzioni campionarie (1)

La DCM può essere utilizzata per stimare

la probabilità associata alla media di un

campione estratto da una popolazione la

cui media e dev.standard sono note.

Uso delle distribuzioni

campionarie (2)

Per esempio: un ricercatore è interessato

a conoscere qual’ è la probabilità che un

campione di 9 individui riporti ad un test

un punteggio medio x>41. Sa che nella

popolazione il punteggio del test è

distribuito normalmente con m= 40 e s =6.

Uso delle distribuzioni

campionarie (3)

Zx = (X - mx)/sx _ _

_ _

_

n

s s x =

Si utilizza come modello teorico di

riferimento la distribuzione normale

standard

Uso delle distribuzioni

campionarie (4)

Zx = 0.5 _

(mx = m) _

0.5

0.1915

Zx = (41- 40)/ _

_

9

6 s x =

?

Uso delle distribuzioni

campionarie (5)

0.5

0.1915 E’ necessario procedere

per sottrazione:

0.50-0.1915= 0.3085

(30.85%)

Quindi la probabilità che da una popolazione

normale con media =40 e ds=6 sia possibile

estrarre un campione casuale di 9 individui con

un punteggio medio > 41 è del 30% circa.

Uso delle distribuzioni

campionarie (6)

Un altro utilizzo della DCM è relativo alla

possibilità di STIMARE i parametri di una

popolazione sulla base delle informazioni

rilevabili al livello di un campione da esso

derivato.

STIMA DELLA MEDIA a partire dalla conoscenza della MEDIA di un campione di elementi estratti da essa in modo casuale

STIMA DI TIPO PROBABILISTICO

Uso delle distribuzioni

campionarie (7)

Il principio generale è quello di conoscere

con un certo grado di probabilità (es il

95%) un INTERVALLO NUMERICO (di

fiducia) che possa ragionevolmente

includere la media stimata nella

popolazione.

Livello di confidenza

90% 95%

99%

Valore critico di z

1.64 1.96 2.58

98%

2.33

s (deviazione standard) NON nota

Uso delle distribuzioni

campionarie (8)

Esempio: vogliamo sapere quale potrebbe essere il numero medio di parole riconosciute da bambini di 4 elementare, su un campione di 160 bambini di quell’età, avendo riscontrato una media = 66.5 e s2 (varianza) = 24.62. (95%)

Zx = (X - mx)/sx _ _

_ _

s = = ˆ s2

x

n - 1 s x ˆ _ s

√(n - 1)

2

Uso delle distribuzioni

campionarie (9)

Zx = (X - mx)/sx _ _

_ _

Fissata una probabilità pari all’area =.95, individuiamo z uguale a + 1.96

4.96

160-1 √ = =0.393 s x ˆ _ s

√(n - 1) =

66.5-1.96*.393 < m < 66.5 + 1.96 *.393

Concludiamo che l’intervallo 65.73 (66) –

67.27 (67) conterrà, con una probabilità del

95%, la media della popolazione dei bambini

di 4 elementare

s (deviazione standard) nota

X -z*s < m < X + z*s x -

x -

n

s s x =

STIMA DEI PARAMETRI: INTERVALLO DI FIDUCIA

X -z*s < m < X + z*s x -

x - Con s noto

s x ˆ _ s

√(n - 1) =

X -z*s < m < X + z* x - Con s ignoto e N>=30 s x ˆ _

ˆ

Con s ignoto e N<30 X -t*s < m < X + t* x - s x ˆ _ ˆ

Distribuzione t (1)

La distribuzione t di student è particolarmente utile per campioni di ampiezza < a 30 unità (n<30). Ha forma simile alla distribuzione normale. Quando n è abbastanza grande, la forma della distribuzione t si approssima a quella della distribuzione normale.

Distribuzione t (3)

Per ciascun valore di t esiste un’area di probabilità ad esso associata e il valore totale di probabilità corrispondente all’area sottesa alla curva è uguale a 1.

Gdl=n-1: gradi di libertà

Definiti come gli elementi che sono liberi di variare.

• Rispetto alla curva normale è più bassa

• È simmetrica

• Quando i Gdl tendono all’infinito la curva si approssima a quella normale

• Vi è una maggiore area sotto alle code della distribuzione. Rispetto alla distribuzione normale, i valori estremi sono un po’ più probabili.

Distribuzione t (4)

TAVOLE

GDL

0.10 0.20

0.05 0.025

0.05

1 … … … …

2 1.886 … 4.303 …

3 1.638 2.353 3.182 …

4 1.533 … 2.776 …

Ipotesi bidirezionale

Ipotesi monodirezionale

Intervallo di fiducia

ESEMPIO: tra i giovani di leva è stato estratto

un campione casuale di 26 soggetti, ai quali è

stato somministrato un test per la misura

dell’emotività (punteggio da 10 a 50).

I risultati ottenuti sono: x = 30 e s=6.

Trovare un intervallo di fiducia al 99% per la

media di emotività della popolazione di

giovani di leva, sapendo che tale variabile si

distribuisce normalmente.

1. Cerchiamo sulla tavola il t critico per a=0.01

su due code con n-1 gdl (26-1=25): t critico =

+/- 2.787

2.

= 1.2

s x ˆ _ s

√(n - 1) =

s x ˆ _ s

√(n - 1) = s x ˆ _ 6

√25) =

t = (X - mx)/ Con s ignoto e N<=30 s x ˆ _

X -t*s < m < X + t*s x -

x -

30 – 2.787*1.2 < m < 30 + 2.787 * 1.2

3.

26.66 < m < 33.34

Con una fiducia del 99% possiamo affermare che l’intervallo 26.66-33.34 contiene il valore

medio di emotività della popolazione dei giovani di leva

ˆ