Inferenza statistica

33
Gli Stimatori e le loro proprietà. Quando si fa inferenza si cerca di indurre le caratteristiche sconosciute della popolazione a partire dalle informazioni campionarie. Più precisamente, fare inferenza significa: Stimare: approssimare un parametro ignoto a partire dai dati campionari. Testare delle ipotesi: verificare, utilizzando i dati campionari, la significatività statistica di ipotesi sulla distribuzione dei caratteri studiati, cioè sulla forma della distribuzione e sui valori che la qualificano: la media e lo scarto quadratico medio. In questa Unità didattica tratteremo il problema della stima puntuale, nella prossima unità della stima per intervalli ed infine, nella terza ed ultima unità didattica affronteremo il tema della prova delle ipotesi. 1 Cos'è la Statistica - G. Garau, L. Schirru

Transcript of Inferenza statistica

Page 1: Inferenza statistica

Gli Stimatori e le loro proprietà.

Quando si fa inferenza si cerca di indurre le caratteristiche sconosciute della popolazione a partire dalle informazioni campionarie. Più precisamente, fare inferenza significa:

Stimare: approssimare un parametro ignoto a partire dai dati campionari.

Testare delle ipotesi: verificare, utilizzando i dati campionari, la significatività statistica di ipotesi sulla distribuzione dei caratteri studiati, cioè sulla forma della distribuzione e sui valori che la qualificano: la media e lo scarto quadratico medio.

In questa Unità didattica tratteremo il problema della stima puntuale, nella prossima unità della stima per intervalli ed infine, nella terza ed ultima unità didattica affronteremo il tema della prova delle ipotesi.

1Cos'è la Statistica - G. Garau, L. Schirru

Page 2: Inferenza statistica

La stima puntuale

N.B. Si possono stimare solo caratteristiche numeriche.

Sia il parametro da stimare (ad esempio media, varianza, ecc), per ottenere una stima di bisogna scegliere una funzione dei dati del campione adeguata. Ad esempio, per stimare il valore atteso si potrà utilizzare la media campionaria; per stimare si potrà utilizzare la varianza campionaria.

Ma come valutare queste stime?

Quello che vogliamo valutare non è tanto la differenza tra valore vero e valore stimato (non si conosce il vero valore), piuttosto quale è la regola di stima o funzione dei dati campionari, cioè ciò che prende il nome di stimatore.

2

2Cos'è la Statistica - G. Garau, L. Schirru

Page 3: Inferenza statistica

La regola di stima

La regola di stima definisce una variabile casuale che si chiama stimatore di

sono le diverse realizzazioni campionarie.

Ad ogni campione estratto o osservato corrisponde una realizzazione di Θ, dove Θ è

lo spazio parametrico di tutti i possibili stimatori, che prende il nome di stima di ottenuta a partire dal campione.

nxxxf ..., , , 21

ix

3Cos'è la Statistica - G. Garau, L. Schirru

Page 4: Inferenza statistica

Esempio

Si vuole stimare l’altezza media degli individui di una data popolazione a partire da questo campione: 170, 160, 180, 180, 170.Se si utilizza la funzione media campionaria si ottiene:

Un altro campione, sempre estratto dalla stessa popolazione, potrebbe dare un altro risultato e utilizzando nuovamente la stessa funzione di stima si otterrebbe un altro valore di . Se invece si utilizza un’altra funzione di stima, ad esempio la mediana ( ) si ottiene:*x

1725

860ˆ x

x

170ˆ * x

4Cos'è la Statistica - G. Garau, L. Schirru

Page 5: Inferenza statistica

Le proprietà degli stimatori

La qualità delle stime può essere valutata esaminando le proprietà degli stimatori:

correttezza (o assenza di distorsione) efficienza consistenza

5Cos'è la Statistica - G. Garau, L. Schirru

Page 6: Inferenza statistica

Le proprietà degli stimatori: Correttezza

Uno stimatore di è non distorto se e solamente se:

ˆE

ˆESe invece si dice che lo stimatore è distorto e lo scarto si chiama bias o distorsione:

ˆEB

L’assenza di distorsione significa che in media, per tutti i possibili campioni, la funzione di stima scelta fornisce il vero valore del parametro stimato.

Per approfondimenti si rimanda al libro

6Cos'è la Statistica - G. Garau, L. Schirru

Page 7: Inferenza statistica

Le proprietà degli stimatori: EfficienzaPuò capitare che uno parametro ammetta più funzioni di stima corrette. Nel caso di un carattere X distribuito normalmente, la media campionaria e la mediana campionaria sono entrambi stimatori corretti. Si pone quindi il problema di quale scegliere tra i due.Si sceglie, tra stimatori corretti, quello che ha la varianza più piccola ed è quindi maggiormente concentrato.

Stimatore efficiente

Stimatore non efficiente

Si utilizza la varianza come misura dell’efficienza perché la varianza è una misura della dispersione dei valori attorno al parametro .

7

Page 8: Inferenza statistica

Le proprietà degli stimatori: Consistenza

Uno stimatore è consistente se all’aumentare della dimensione del campione si concentra sempre di più intorno al parametro da stimare.

Definiamo meglio il concetto

La varianza è una buona misura della dispersione della distribuzione rispetto alla media si può affermare, infatti, che l’errore quadratico medio è una buona misura della dispersione di rispetto al valore del parametro da stimare.

2ˆEQM E

La consistenza richiede che la precedente misura (EQM) si annulli al crescere di n:

Errore quadratico medio

nE per 0ˆ 2è consistente se

L’EQM è quindi legato alla distorsione ed alla varianza.

In altri termini consente di considerare congiuntamente la proprietà della correttezza e quella dell’efficienza.

Per approfondimenti si rimanda al libro

8Cos'è la Statistica - G. Garau, L. Schirru

Page 9: Inferenza statistica

Le proprietà degli stimatori: Conclusioni

La correttezza, cioè l’assenza di distorsione, è importante se si lavora con piccoli campioni.

La consistenza è, invece, importante quando si utilizzano grandi campioni.

Dopo aver considerato le qualità degli stimatori, si presentano ora due criteri per scegliere tra stimatori entrambi corretti ed efficienti:

Sufficienza

Robustezza

Sufficienza: uno stimatore è sufficiente quando riassume in se tutta l’informazione presente nel campione e rilevante per il parametro.

Robustezza: definisce l’insensibilità a dati atipici o abnormi.

Per approfondimenti si rimanda al libro

9Cos'è la Statistica - G. Garau, L. Schirru

Page 10: Inferenza statistica

Esempi di stimatoriPer determinare in modo probabilistico il grado di fiducia di una stima per intervalli bisogna conoscere la distribuzione degli stimatori per poi confrontarla con delle distribuzioni note.

Caso 1: La distribuzione delle x è normale

Caso 2: La distribuzione delle x non è normale

Se allora è una combinazione lineare delle x i e quindi sarà distribuita normalmente e avrà:

iNxi ;,~ 2 x

nx

xE2

var

Se invece non si conosce la distribuzione delle xi o se queste seguono una distribuzione diversa dalla normale, allora si utilizza il Teorema del Limite Centrale.

Teorema del Limite Centrale: Sia data una successione di variabili casuali indipendente e identicamente distribuita , non necessariamente distribuita con una normale . Per n grande la distribuzione della mediatende verso una e ciò qualunque sia la legge delle x i.

2, nxxx ..., , , 21 ixn

x 1

nN2

,

10Cos'è la Statistica - G. Garau, L. Schirru

Page 11: Inferenza statistica

La stima per intervalliUna stima puntuale, poiché corrisponde all’integrale in un punto, ha probabilità pari a zero di essere esatta e quindi, ha senso, dal punto di vista probabilistico, solo la stima per intervalli; più precisamente il calcolo della probabilità che x appartenga ad un intervallo definito: .

Quando si effettua la stima per intervalli si costruisce un intervallo intorno ad una stima puntuale, risultato dell’osservazione campionaria.

21 , xxX

Estrazione del primo campione: comprende il parametro

Estrazione del secondo campione: comprende il parametro

Estrazione del quinto campione: non comprende il parametro

8 intervalli su 10 comprendono il parametro

11Cos'è la Statistica - G. Garau, L. Schirru

Page 12: Inferenza statistica

Livello di confidenza

Livello di confidenza: Si chiama livello di confidenza di una stima per intervalli la probabilità (1 – a)

che l’intervallo casuale contenga il vero valore di , a è il rischio dell’errore, cioè la probabilità che l’intervallo non contenga .

Nella stima per intervalli si hanno due obiettivi in contrasto tra loro:• il livello di confidenza deve essere il più alto possibile;• la lunghezza dell’intervallo deve invece essere la minore possibile (stima più precisa)

supinfˆ,ˆ1: a P

12

Page 13: Inferenza statistica

Le tappe per la costruzione della stima per intervalli

Ecco le tappe da seguire nella costruzione di una stima per intervalli:

1. Scelta della statistica Q;

2. Determinazione dell’intervallo per Q;

3. Trasformazione di questo intervallo per .

1. Se è il parametro da stimare bisogna cercare una statistica Q, funzione del campione e del parametro, che non dipenda da nessun altro parametro ignoto e di cui si conosca la distribuzione.E’ chiaro che la statistica deve essere tale da permettere l’esplicitazione univoca di .2. Si determini l’intervallo per Q tale che: a 1),( supinf QQQP

21sup

2inf

a

a

QQ

QQIn generale si sceglie:

3. Si trasforma l’intervallo precedente in un intervallo per ; si estrae un campione e da questo si calcola la media campionaria e la deviazione standard campionaria. Si ottiene così un intervallo di stima in corrispondenza di ogni estrazione campionaria.

13Cos'è la Statistica - G. Garau, L. Schirru

Page 14: Inferenza statistica

Le tappe per la costruzione della stima per intervalli:Esempio

Per noto la statistica soddisfa le seguenti condizioni:)1,0(~ Nn

xZ

i. È funzione delle osservazioni campionarie,ii. Non dipende da altri parametri ignoti,iii. Consente l’esplicazione di , parametro da stimare, nel modo seguente:

zn

xxn

Z

ˆ

Intervallo di confidenza

14Cos'è la Statistica - G. Garau, L. Schirru

Page 15: Inferenza statistica

Intervallo di confidenza per la media

Si utilizza a seconda dei casi:

Da entrambi si può esplicitare

La lunghezza dell’intervallo di confidenza dipende: dal livello di confidenza (1 – a) dalla dispersione della popolazione 2

dall’ampiezza del campione n

15Cos'è la Statistica - G. Garau, L. Schirru

Page 16: Inferenza statistica

Intervallo di confidenza per la media

Intervallo di confidenza per la media quando la varianza è nota.

Se 2 è noto si preferisce Z perché la sua distribuzione è meno dispersa di T di Student.Per un livello di confidenza (1 - a) si avrà:

16Cos'è la Statistica - G. Garau, L. Schirru

Page 17: Inferenza statistica

Intervallo di confidenza per la media

Intervallo di confidenza per la media quando la varianza è ignota.

Se 2 è ignoto bisogna stimarlo e si userà Tn-1 (n-1 sono i gradi di libertà). La distribuzione è simmetrica, come la normale, ma la sua forma dipende dai gradi di libertà e in particolare per n piccolo la curva risulta più appiattita della curva normale.

In questo caso dipenderà dal campione sia il centro (la media campionaria) che la dispersione x

17Cos'è la Statistica - G. Garau, L. Schirru

Page 18: Inferenza statistica

Intervallo di confidenza per la varianza

Anche in questo caso si hanno a disposizione due statistiche

è noto si stima puntualmente con x

Entrambe le statistiche seguono la legge del c2 per cui gli intervalli di confidenza che costruiremo si applicano solo nel caso di popolazioni normali. Esplicitiamo 2

18Cos'è la Statistica - G. Garau, L. Schirru

Page 19: Inferenza statistica

Intervallo di confidenza per la varianzaIntervallo di confidenza per la varianza quando la media è nota

Si utilizza e l’intervallo sarà:

Il c2 non è simmetrico per cui si devono cercare entrambe le soglie. Per 1 - a=90% e n=5 si ha:

2~ nnQ c ],[ 21,2, aa nn qq

Per n=5 il valore del c2 che corrisponde al 5% dell’area è pari a 1.145 e il valore del c2 che corrisponde al 95% dell’area è 11.07; quindi:

90.007.11,145.1 nQP

Utilizzando la relazione in a) in cui si esplicita 2 si ottiene l’intervallo casuale che dipende dal campione e che comprende il vero valore di 2 con una probabilità 1 – a.

19Cos'è la Statistica - G. Garau, L. Schirru

Page 20: Inferenza statistica

Intervallo di confidenza per la varianza

Intervallo di confidenza per la varianza quando la media è ignota

Nel caso in cui non sia nota si utilizza Qn-1, in cui i gradi di libertà sono inferiori di uno rispetto al caso in cui la media è nota e questo perché è necessario stimare anche attraverso (media campionaria). L’intervallo sarà:

x

],[ 21),1(2),1( aa nn qq

Utilizzando la relazione b) per esplicitare 2 si ottiene l’intervallo casuale funzione del campione:

20

Page 21: Inferenza statistica

Intervallo di confidenza per una proporzione della popolazione

Intervallo di confidenza per una proporzione della popolazione

La proporzione campionaria P è una media campionaria , anche se sotto una forma diversa. Ad esempio se osserviamo 4 democratici in un campione di 10 persone si sa che:

X

Allo stesso modo, la proporzione della popolazione p coincide esattamente con la media della popolazione, anche se espressa in forma diversa. A questo punto il modo più semplice di costruire un Intervallo di confidenza al 95% per una proporzione è:

Occorre ricordare che nel costruire questo intervallo di confidenza la proporzione p della popolazione è stata sostituita con P, proporzione campionaria. Questo determina una maggiore probabilità di errore, in quanto aumentano le fonti di errore, ma per grandi campioni il problema non sussiste.

21Cos'è la Statistica - G. Garau, L. Schirru

Page 22: Inferenza statistica

La prova delle ipotesi

La prova delle ipotesi consiste nel verificare, attraverso il campione, la significatività statistica di ipotesi sulla distribuzione di caratteri oggetto di studio.

Con la stima si vuole quantificare, con la prova delle ipotesi si vuole validare la stima.

Una ipotesi è confermata se si può ammettere, con un certo grado di fiducia, che il campione proviene da una distribuzione che soddisfa l’ipotesi sottoposta a test, altrimenti l’ipotesi è rifiutata.

Una prova delle ipotesi consiste in una regola di decisione che conduce ad accettare/rifiutare l’ipotesi a seconda dell’informazione campionaria.

Ad esempio si può verificare se una media è significativamente diversa da un dato valore o se una proporzione è significativamente superiore al 50%, e così via.

La prova delle ipotesi e la stima per intervalli sono strumenti complementari.

La prova delle ipotesi può essere utilizzata anche per verificare aspetti qualitativi di una distribuzione, come ad esempio la conformità ad una distribuzione teorica (ad esempio normale o binomiale, ecc.), o l’indipendenza di due caratteri qualitativi come ad esempio sesso ed opinione su un determinato problema.

22Cos'è la Statistica - G. Garau, L. Schirru

Page 23: Inferenza statistica

La prova delle ipotesi

Una prova delle ipotesi consiste in una regola di decisione che conduce ad accettare/rifiutare l’ipotesi a seconda dell’informazione campionaria.

Si definisce:

H0 l’ipotesi nulla o da verificare

H1 l’ipotesi alternativa.

Es.: Supponete di voler testare il salario medio giornaliero in un dato settore di attività economica, espresso in milioni di lire.

H0 : 0 =100

H1 : 1 =120

Tale ipotesi alternativa è giustificata se il campione proviene da una popolazione con media 100 o da una con media 120.

23Cos'è la Statistica - G. Garau, L. Schirru

Page 24: Inferenza statistica

Non sempre è possibile formulare ipotesi alternative così precise e spesso ad H1 corrisponde un insieme di possibilità. Si può avere:

La prova delle ipotesi: l’ipotesi alternativa.

011

011

011

:::

HHH

In generale si preferisce strutturare il test, quindi l’ipotesi alternativa, in uno dei due primi modi perchè in tal caso si ha una unica zona di rifiuto del test. Nel terzo caso invece la zona di rifiuto è divisa nelle due code della distribuzione e questo non permette il calcolo dell’errore di seconda specie (vedi slide 10).

Per procedere alla prova delle ipotesi bisogna procedere nel modo seguente. Si deve cercare una statistica Q0, funzione del campione e tale che:

- La distribuzione di Q dipenda dall’ipotesi da verificare;- La distribuzione di Q0 sia nota sotto H0 (se vale H0);- il valore di q0 di Q0, per un campione dato possa essere univocamente determinato sotto H0.

24Cos'è la Statistica - G. Garau, L. Schirru

Page 25: Inferenza statistica

Supponete che nella verifica del salario medio, 2 sia noto e pari a 441 per cui =21.

La statistica da usare è:

La prova delle ipotesi.

x

xZ

0

0

1 ,~ 0

0x

NZ

In effetti (si distribuisce come una normale con media e varianza 1) e il

centro dipenderà dalla vera media .

Sotto H0 si ha che =0 e la distribuzione di Z sarà Z0~N(0,1).

Utilizzando tale statistica si può enunciare la seguente regola:

x 0

Si rifiuta H0 se il valore osservato q0 (calcolato sul campione osservato) si allontana “molto” dal centro della distribuzione di Q0 sotto H0.

25Cos'è la Statistica - G. Garau, L. Schirru

Page 26: Inferenza statistica

Supponete che nella verifica del salario medio, 2 sia noto e pari a 441 per cui =21.

La statistica da usare è:

La prova delle ipotesi.

x

xZ

0

0

1,~ 0

0x

NZ

In effetti (si distribuisce come una normale con media e varianza 1) e il

centro dipenderà dalla vera media .

Sotto H0 si ha che =0 e la distribuzione di Z sarà Z0~N(0,1).

Utilizzando tale statistica si può enunciare la seguente regola:

x 0

Si rifiuta H0 se il valore osservato q0 (calcolato sul campione osservato) si allontana “molto” dal centro della distribuzione di Q0 sotto H0.

Si rifiuta H0 quando Z0 si allontana molto da 0, quando cioè x medio è molto diversa da 0 (ciò significa che il campione da risultati in apparente contrasto con le ipotesi formulate).

26Cos'è la Statistica - G. Garau, L. Schirru

Page 27: Inferenza statistica

La regione critica

00

00

accetta si rifiuta si HRqHRq

Formalmente, se R è la regione critica in cui si rifiuta H0 si può scrivere:

Considerate ora H0 perché R si specifica di conseguenza:

Se si considera il primo caso 1 > 0, si rifiuterà H0 solo se z0 diventa molto più grande di zero, in altri termini se x medio supera una data soglia r. In effetti se il test è unilaterale, per tutti i valori di x medio inferiori a μ0, H0 è più ragionevole di H1.

27Cos'è la Statistica - G. Garau, L. Schirru

Page 28: Inferenza statistica

Errore nella decisione

Spingendoci un po’ oltre nella regola di decisione: tra tutti i campioni che provengono da una popolazione conforme a H0, alcuni di questi possono condurre a rifiutare H0.

Estraiamo dalla popolazione A (quella sotto H0, caratterizzata da un salario medio pari a 100) gli individui meglio pagati, rischiamo di rifiutare H0 per accettare H1==120.

Ecco come si ragiona:Se si decide per H0

Quando H0 è vera

Se si decide per H1

Quando H1 è vera

28

Page 29: Inferenza statistica

Errore nella decisione

Se si rifiuta H0 accettando H1

Quando H0 è vera

Se si rifiuta H1accettando H0

Quando H1 è vera

Si indica con a

Si indica con b

29Cos'è la Statistica - G. Garau, L. Schirru

Page 30: Inferenza statistica

Zona di accettazione e di rifiuto

Considerate la distribuzione di nei due casi, H0: =100 e H1: =120 e osservate le aree a e b.

I due rischi variano in senso contrario, cioè a cresce con R, ma se cresce R diminuisce b. Insomma se diminuisce un rischio aumenta l’altro.

x

Il legame tra a b è fondamentale perché nello scegliere il valore di uno bisogna tener conto del valore dell’altro.

30Cos'è la Statistica - G. Garau, L. Schirru

Page 31: Inferenza statistica

Zona di accettazione e di rifiuto

Inoltre b diventa molto grande quando H1 è vicina ad H0. Ciò significa che è molto difficile discriminare tra ipotesi simili.

Non potendo evitare l’errore bisogna cercare di minimizzare il rischio di prendere una decisione sbagliata.Il rischio totale è:

p0a+p1b

Dove: p0 e p1 sono le probabilità che H0 e H1 siano vere e in generale sono ignote. Inoltre b non può essere calcolato quando, ad esempio H1 è un’ipotesi composta.

31Cos'è la Statistica - G. Garau, L. Schirru

Page 32: Inferenza statistica

Come effettuare un test delle ipotesi

Si procede nel modo seguente:

1. Si fissa un rischio a ragionevole (ricordando che se a è troppo piccolo b sarà troppo grande)

2. Si determina R:

o Scegliendo la forma a seconda di come è formulata H1;

o Si calcolano i valori di soglia corrispondenti ad a.

3. Si calcola q0 di Q0 per il campione osservato;

4. Si decide nel modo seguente:o Si rifiuta o Si accetta ; se

; se

00

00

RqHRqH

32Cos'è la Statistica - G. Garau, L. Schirru

Page 33: Inferenza statistica

La potenza del test

I criteri che consentono di scegliere, quando si hanno a disposizione diverse statistiche per

effettuare la stessa ipotesi, sono:

Potenza del test (per confrontare dei test semplici)

Curva di efficacia (nel caso di ipotesi composte)

Ricordate che l’obiettivo, nel costruire un test, è quello di minimizzare il rischio totale dell’errore.

Tra due test il migliore sarà quello che, a parità di a, minimizza b. Un test è più efficace quando b è

debole. Il complemento ad uno di b, ossia 1-b misura la potenza del test.

Per approfondire questo argomento si rimanda al libro di testo

33Cos'è la Statistica - G. Garau, L. Schirru