La verifica delle ipotesi statistiche - docente.unicas.it · n = media campionaria ... = 72 battiti...

57
La verifica delle ipotesi statistiche Problema pratico: Quale, tra diverse situazioni possibili, riferite alla popolazione, è quella meglio sostenuta dalle evidenze empiriche? Coerenza del risultato campionario con un’ipotesi specificata per la popolazione : se il risultato campionario si verrà a trovare talmente lontano dal valore teorizzato per da cadere in un insieme di valori ritenuti non “coerenti” (in quanto troppo poco probabili) con l’ipotesi su , tale risultato avvalorerà la possibilità di ipotesi alternative a quella specificata. Test statistico = regola di decisione che ad ogni valore campionario associa una decisione sul parametro .

Transcript of La verifica delle ipotesi statistiche - docente.unicas.it · n = media campionaria ... = 72 battiti...

La verifica delle ipotesi statistiche

Problema pratico:

Quale, tra diverse situazioni possibili, riferite alla popolazione, è quella meglio sostenuta dalle evidenze empiriche?

Coerenza del risultato campionario con un’ipotesi specificata per lapopolazione:

se il risultato campionario si verrà a trovare talmente lontano dal valoreteorizzato per da cadere in un insieme di valori ritenuti non “coerenti” (inquanto troppo poco probabili) con l’ipotesi su , tale risultato avvalorerà lapossibilità di ipotesi alternative a quella specificata.

Test statistico

=

regola di decisione

che ad ogni valore campionario associa una decisione sul parametro .

Informazione su un parametro

Campione

Ipotesi sul parametro: = 0

• Conferma l’ipotesi

• Non conferma l’ipotesi

H0: l’ipotesi sul parametro è vera

H1: l’ipotesi sul parametro è falsa

La vera distribuzione è centrata su 0

La vera distribuzione non è centrata su 0

0

1

La logica della verifica delle ipotesi

Punto di partenza:

Punto di arrivo:

Decisione sul valore del parametro ipotizzato

TEST

Dati:

un campione X1, …, Xn,

un parametro ed

una statistica Tn, il cui valore calcolato sul campione è tn

La probabilità:

ha un senso solo se il valore di è noto (nel qual caso non ha utilità)

nP t 1

Richiamando gli intervalli di confidenza:

A meno che…

n

2 2

P z X z 1n n

L’intervallo è fisso, perché è centrato su

varia al variare del campione tra tutti i possibili campioni,

è fisso

Esempio: tn = media campionaria

2

N ,n

x

2zn

2zn

X

x

Prima di estrarre il campione tn non è fisso bensì una v.c. campionaria (Tn),

quindi si può ragionare sulla probabilità che Tn assuma valore compreso

(ossia che tn cada) in un certo intervallo intorno a .

A che scopo?

Per stabilire se la nostra conoscenza su è avvalorata dall’evidenza empirica

(cioè dal campione)

Se è noto:

x

Ipotesi nulla H0:

Informazione sulla popolazione riconosciuta come valida fino a prima all’esperimento

campionario (valida fino a prova contraria):

H0 : = 0

Ipotesi alternativa H1:

Complemento all’ipotesi nulla. È costituita da un singolo valore o da un insieme di valori

possibili per e considerati alternativi a 0:

H1 : = 1 H1 : < 0 H1 : > 0 H1 : 0

Le ipotesi H0 e H1 sono esaustive e disgiunte: o vale l’una o vale l’altra.

In ogni caso la decisione è presa rispetto ad H0

Ipotesi semplice

Ipotesi unidirezionaleIpotesi

bidirezionale

Ipotesi statistica:

affermazione che specifica completamente o parzialmente

la distribuzione di probabilità di una v.c. X.

Le ipotesi statistiche

Test e regole di decisione

Il test permette di stabilire se le osservazioni campionarie

debbano ritenersi coerenti con l’ipotesi nulla oppure no

Da un punto di vista operativo, effettuare il test significa definire una

statistica, detta statistica-test Tn, la cui distribuzione campionaria sia

nota, così che:

insieme dei valori che la statistica-test può assumere

Spazio campionario:

Distribuzione campionaria: Distribuzione di probabilità della statistica-test

campione casuale

(X1, …, Xn)un valore numerico

coerente con H0

non coerente con H0

Errori di I e II specie

Indipendentemente dalla regola adottata, il test porta sempre a dover

scegliere tra due possibili decisioni, H0 e H1 e a poter commettere due

possibili errori:

• rifiutare un’ipotesi vera

• accettare un’ipotesi falsa

N.B.: non esiste la decisione “giusta”!!!

c’è sempre il rischio di sbagliare, ma è possibile gestirlo e controllarlo

QUANTIFICANDOLO

H0 Vera Falsa

Accetto Ok Errore di II specie

Rifiuto Errore di I specie Ok

H0: piove Piove Non piove

Ombrello SI

Ok Danno meno grave

Ombrello NO

Danno più grave Ok

Esempio:

H0 Vera Falsa

Accetto 1 -

Rifiuto 1 -

H0 Vera Falsa

Accetto OkErrore di II

specie

RifiutoErrore di I

specieOk

Rischio di errori di I e II specie

= probabilità di errore di I specie = livello di significatività del test

1 - = probabilità di accettare correttamente (affidabilità del test)

= probabilità di errore di II specie

1 - = potenza del test = probabilità di rifiutare correttamente (varia al variare di 1, quindi può essere determinato solo se H1 è un’ipotesi “semplice”)

0

1

H0 vera

H0 falsa

Definizioni:

H0 : = 0

H1 : = 1

L’ipotesi nulla è quella che, se vera, lascia invariate le cose

L’ipotesi nulla e l’ipotesi alternativa non sono equivalenti ai fini della decisione, nel senso

che il test non è mai conclusivo circa H1, ma concerne solo la possibilità che dal campione si

possa pervenire al rifiuto o al non rifiuto di H0.

Esempi:

Approccio “conservativo” del test

L’errore di I specie è considerato più grave di quello di II specie

Mai lasciare la via vecchia (H0) per la nuova (H1)…

… fino ad EVIDENTE prova contraria

H0

Il vecchio è migliore

Il nuovo è migliore

Vecchio OkDanno meno

grave

NuovoDanno più

graveok

H1: nuovo farmaco migliore del vecchio

H0 Innocente Colpevole

Assolvo OkDanno meno

grave

CondannoDanno più

graveok

H1: Tizio è colpevole

H0: Tizio è innocenteH0: vecchio farmaco migliore del nuovo

È per questo che:

Livello di significatività osservato (approccio di Fisher):

si cerca (sulle tavole) il p-value, ossia la probabilità di ottenere un valore di Tn

maggiore del valore osservato tn (P[Tn > tn])

Regione critica (approccio di Neymann-Pearson):

si fissa “a priori” il livello di significatività del test 1 - , che identifica sulla distribuzione della statistica-test due regioni:

Regione di accettazione:insieme dei valori di Tn coerenti con H0

Regione di rifiuto (o regione critica): insieme di valori di Tn non coerenti con H0

Come prendere la decisione

p-value = grado di coerenza di H0

tn Tn

Una volta calcolato il valore campionario tn della statistica-test, detto valore-test, si può seguire una delle due seguenti procedure alternative:

nt

t Tn

1 -

Accettazione

Rifiuto

?

p-value

nt

-t/2 0 t/2 Tn

/2

1 -

/2

nt

0 t Tn

1 -

Accettazione

Rifiuto

?Regione critica per un test statistico con ipotesi alternativa unidirezionale:

H0 : = 0

Regione critica per un test statistico con ipotesi alternativa bidirezionale:

H0 : = 0

H1 : > 0

H1 : 0

RifiutoRifiuto

Accettazione

Verifica di ipotesi sulla media

La decisione si basa sui valori critici

Con essi va confrontato il valore-test (valore della statistica-test calcolata sul campione)

I valori critici sono ottenuti dalla distribuzione della statistica-test, fissato il livello di significatività desiderato per il test

Per la media:

n

2 2

XP z z 1

n

X ~ N(, 2) 2 nota

Valori critici Statistica-test

2 = 64 = 8

= 0,05 /2 = 0,025 n = 25

Esempio

La frequenza cardiaca dei maschi giovani sani segue una distribuzione Normale con media

= 72 battiti al minuto (bpm) e varianza 2 = 64.

Si misura la frequenza cardiaca su un campione di 25 atleti maschi e si ottiene una media pari a 68,7 bpm.

Si verifichi, ad un livello di significatività del 5%, che la frequenza cardiaca degli atleti non sia diversa da quella della popolazione di tutti i maschi sani.

Soluzione test sulla media, bilateraledistribuzione normale, varianza nota

Ipotesi H0: = 72H1: ≠ 72

Statistica test

Valori critici

Regola di decisione - 1,96 ≤ vtest ≤ 1,96 si accetta H0

vtest < -1,96 oppure vtest > 1,96 si rifiuta H0

Valore test (vtest)

Decisione -2,06 < -1,96 si rifiuta H0

2z 1,96

test

xX

n

test

68,7 72v 2,06

8 25

x 68,7

Esempio

La quantità di merci in transito negli aeroporti italiani si distribuisce normalmente con una media pari a 18,7 (migliaia di tonnellate) e uno scarto quadratico medio pari a 8.In un campione di 20 aeroporti viene registrato un valore medio pari a 15. Utilizzando un livello di significatività dell’1%:a) Verificare l’ipotesi che il transito medio di merci sia rimasto invariato;b) Verificare l’ipotesi che il transito medio di merci non sia diminuito

Soluzione

test sulla media, bidirezionaledistribuzione normale, varianza nota

a) = 8

= 0,01 /2 = 0,005 n = 20

x 15

Ipotesi H0: = 18,7H1: 18,7

Statistica test

Valori critici

Regola di decisione- 2,58 ≤ vtest ≤ 2,58 si accetta H0

vtest < - 2,58 oppure vtest > 2,58 si rifiuta H0

Valore test (vtest)

Decisione - 2,58 ≤ -2,07 ≤ 2,58 si accetta H0

test

xX

n

2 0,005z z 2,58

test

15 18,7v 2,07

8 20

test sulla media, unidirezionaledistribuzione normale, varianza nota

b)

Ipotesi H0: = 18,7H1: < 18,7

Statistica test

Valore critico

Regola di decisione vtest ≥ - 2,33 si accetta H0vtest < - 2,33 si rifiuta H0

Valore test (vtest)

Decisione - 2,07 ≥ - 2,33 si accetta H0

test

xX

n

0,01z z 2,33

test

15 18,7v 2,07

8 20

Verifica di ipotesi sulla media X ~ N(, 2) 2 non nota

n

n 1 n 12 2

XP t t 1

sn

Valori critici Statistica-test

X ~ N

noto

~ 0,1X

N

n

1 ~ n

Xt

sn

???

si

si

no

no

n > 30no

si

Come scegliere la statistica-test per la media?

s = 8,67

= 0,05 /2 = 0,025 n = 12

Esempio

La frequenza cardiaca dei maschi giovani sani segue una distribuzione Normale con media

= 72 battiti al minuto (bpm).

Si misura la frequenza cardiaca su un campione di 12 atleti maschi e si ottiene una media pari a 68,7 bpm ed una varianza corretta pari a 75,12.

Si verifichi, ad un livello di significatività del 5%, che la frequenza cardiaca degli atleti non sia diversa da quella della popolazione di tutti i maschi sani.

Soluzione test sulla media, bidirezionaledistribuzione normale, varianza non nota

Ipotesi H0: = 72H1: ≠ 72

Statistica test

Valori critici

Regola di decisione - 2,201 ≤ vtest ≤ 2,201 si accetta H0

vtest ≤ -2,201 oppure vtest ≥ 2,201 si rifiuta H0

Valore test (vtest)

Decisione - 2,201 ≤ -1,32 ≤ 2,201 si accetta H0

0,025;11t 2,201

x 68,7

0test

xx

s n

2

s 75,12

test

68,7 72 3,3v 1,32

2,58,67 12

Verifica di ipotesi sulla proporzione

Valori critici Statistica-test

2 2

pP z z 1

1

n

Ipotesi H0: = 0,5H1: ≠ 0,5 (H1: > 0,5)

Statistica test

Valori critici

Regola di decisione - 1,645 ≤ vtest ≤ 1,645 si accetta H0

vtest ≤ -1,645 oppure vtest ≥ 1,645 si rifiuta H0

vtest ≤ 1,28 si accetta H0

vtest > 1,28 si rifiuta H0

Valore test (vtest)

Decisione -1,645 ≤ -0,8 ≤ 1,645 si accetta H0

(0,80 < 1,28 si accetta H0)

= 0,10 p =0,54 n=100

Esempio

In una scommessa con un amico, lanciando 100 volte una moneta si sono ottenute 54 teste. Abbiamo il sospetto che l’amico ci abbia ingannati utilizzando una moneta truccata.

Si verifichi questa ipotesi ad un livello di significatività del 10%.

0test

0 0

px

1

n

0,1z 1,28

Soluzione test sulla proporzione, bidirezionale(unidirezionale)

0,54 0,500,80

0,50 1 0,50

100

0,05z 1,645

( )

Verifica di ipotesi sulla differenza tra 2 medie

si

no

si

si

no

2 2

X X Y Y

x y

s n 1 s n 1s

n n 2

Stimatore corretto dello sqm comune

x y

x y

n n 222yx

x y

X Y ~ t

ss

n n

x y

x y

n n 2

x y

X Y ~ t

1 1s

n n

x y

22yx

x y

X Y ~ N 0,1

n n

x y

x y

X Y ~ N 0,1

1 1

n n

si

no

no

si

X e Y ~ Nnx e ny

> 30

X e Y

note X = Y

X = Y

no???

Se su due campioni X ed Y su cui si osserva lo stesso fenomeno si

calcolano le rispettive medie (campionarie) esse presenteranno

quasi certamente due valori numericamente diversi.

Il problema è: tale differenza è “significativa”, cioè dovuta ad una

differenza strutturale tra i due campioni, oppure è dovuta ad una

naturale oscillazione della media, data la variabilità del fenomeno?

A cosa serve il test sulla differenza tra 2 medie?

Ipotesi H0: x = Y

H1: X ≠ Y

Statistica test

Valori critici

Regola di decisione - 1,96 ≤ vtest ≤ 1,96 si accetta H0

vtest ≤ -1,96 oppure vtest ≥ 1,96 si rifiuta H0

Valore test (vtest)

Decisione - 2,93 < -1,96 si rifiuta H0

Esempio

Gli pneumatici di due diverse marche, X e Y, di uguale prezzo, sono garantiti dalle case costruttrici per la stessa durata media di 35.000 km e una deviazione standard di 2.000 km, uguale per le due marche.

Da un campione di 14 utilizzatori della marca X risulta una durata media di 33.500 Km, mentre da uno di 9 utilizzatori della marca Y risulta una durata media di 36.000 Km.

Supponendo che la durata degli pneumatici si distribuisca secondo una legge Normale, si verifichi se esiste tra le due marche una differenza significativa al 5%.

Soluzione test sulla differenza tra medie, bidirezionaledistribuzione Normale, varianze note uguali

x y

test

x y

X Yx

1 1

n n

= 0,05

0,025z 1,96

test

33500 36000v 2,93

1 12000

14 9

nX=14

nY=9

X = Y = 2.000

x 33.500 y 36.000

X, Y ~ N

Esempio

Gli pneumatici di due diverse marche, X e Y, di uguale prezzo, sono garantiti dalle case costruttrici per la stessa durata media di 35.000 km e la stessa varianza incognita.

Da un campione di 14 utilizzatori della marca X risulta una durata media di 33.500 Km ed una varianza pari a 4.326.400, mentre da uno di 9 utilizzatori della marca Y risulta una durata media di 36.000 Km ed una varianza pari a 3.880.900.

Supponendo che la durata degli pneumatici si distribuisca secondo una legge Normale, si verifichi se esiste tra le due marche una differenza significativa al 5%.

Soluzione test sulla differenza tra medie, bidirezionaledistribuzione Normale, varianze non note uguali

= 0,05

nX=14

nY=9

x 33.500 y 36.000

X ~ N

2

Xs 4.326.400

2

Ys 3.880.900

Ipotesi H0: x = Y

H1: X ≠ Y

Statistica test con:

Valori critici

Regola di decisione - 2,08 ≤ vtest ≤ 2,08 si accetta H0

vtest ≤ - 2,08 oppure vtest ≥ 2,08 si rifiuta H0

Valore test (vtest)

Decisione - 2,87 < -2,08 si rifiuta H0

x y

test

x y

X Yx

1 1s

n n

2 2

X X Y Y

x y

s n 1 s n 1s

n n 2

0,025;21t 2,08

13 4.326.400 8 3.880.900s 2038,8

14 9 2

test

33.500 36.000 2500v 2,87

1 1 1 12038,8 2038,8

14 9 14 9

Esempio

Gli pneumatici di due diverse marche, X e Y, di uguale prezzo, sono garantiti dalle case costruttrici per la stessa durata media di 35.000 km ma con varianze diverse e incognite.

Da un campione di 14 utilizzatori della marca X risulta una durata media di 33.500 Km ed una varianza pari a 4.326.400, mentre da uno di 9 utilizzatori della marca Y risulta una durata media di 36.000 Km ed una varianza pari a 3.880.900.

Supponendo che la durata degli pneumatici si distribuisca secondo una legge Normale, si verifichi se esiste tra le due marche una differenza significativa al 5%.

Soluzione test sulla differenza tra medie, bidirezionaledistribuzione Normale, varianze non note diverse

= 0,05

nX=14

nY=9

x 33.500 y 36.000

X ~ N

2

Xs 4.326.400

2

Ys 3.880.900

Ipotesi H0: x = Y

H1: X ≠ Y

Statistica test

Valori critici

Regola di decisione - 2,08 ≤ vtest ≤ 2,08 si accetta H0

vtest ≤ - 2,08 oppure vtest ≥ 2,08 si rifiuta H0

Valore test (vtest)

Decisione - 2,91 < -2,08 si rifiuta H0

0,025;21t 2,08

test

33.500 36.000v 2,91

4.326.400 3.880.900

14 9

x y

test 22yx

x y

X Yx

ss

n n

3.85

Valore test 1.499

Valore critico 1.725

g.d.l. 20

a 0.05

Decisione: Si accetta H0

IC95%(|mx-my|) = [ -1.4 ; 9.1 ]

Contiene lo 0

x y

Esempio

Nelle 22 regioni italiane si misura il livello di inquinamento ambientale con il numero di denunce emesse dalla popolazione residente.

Nelle 10 regioni del Nord risultano in media 29.21 denunce con s.q.m. 6, mentre nelle 12 del Centro-Sud la media è 33.06 con s.q.m. 6.

Ipotizzando che il numero di denunce segua una distribuzione Normale, verificare l’ipotesi che le due aree geografiche siano caratterizzate dallo stesso livello di inquinamento al livello di significatività del 5%

H0: |x - Y|= 0H1: |X - Y|> 0

La spezzata delle medie

Y

XClassi di REDDITO

Totale Medie

AREA

Geografica20-30 30-40

NORD 2 6 8 32.5

CENTRO 2 4 6 31.7

SUD 6 0 6 25

Totale 10 10 20 30

La varianza di X è data dalla somma di due componenti:

• varianza esterna = varianza delle medie di gruppo

• varianza interna = media delle varianze di gruppo

G G 2

VARIANZA VARIANZ

2 2

j j j jj

A INTERNA ESTERNA

1 j 1

1 1n n

n n

Se:

G = numero di gruppi;

j = media dell’j-esimo gruppo;

nj = numerosità dell’j-esimo gruppo (j = 1,….,G);

allora:

2 2 2TOT INT EXT

ossia:

Decomposizione della varianza

Quanto differiscono le medie tra loro e rispetto alla media generale?

CH MM

n. bot

scelta

A cosa serve scomporre la varianza?

Media e varianza costanti

• Varianza delle medie 2ext = 0

• Media delle varianze 2int = 2

CH MM

n. bot

scelta

Medie diverse, varianza costante

Stesso comportamento tra le due distribuzioni:

il numero di bottiglie acquistate è lo stesso per chi sceglie le due

marche

• Varianza delle medie 2ext ≠ 0

• Media delle varianze 2int < 2

Diverso comportamento tra le due distribuzioni:

il numero di bottiglie acquistate è diverso a seconda della marca

scelta

X

2r

2 i x iEXT i 1

X|Y 2 2cX

j X jj 1

n

x n

Y

2c

2 j Y jEXT j 1

Y|X 2 2rY

i Y ii 1

n

y n

Rapporto di correlazione di Pearson

X

Yx0 – x1 x1 – x2 … Classe jma … xh-1 - xh tot

y1 n11 n12 … … … n1h n1.

y2 n21 n22 … … … n2h n2.

.

.

.

yi...

.

.

.

.

.

.

.

.

.

.

.

.nij...

.

.

.

.

.

.

.

.

.

ni....

yk nk1 nk2 … … … nkh nk.

tot n.1 n.2 … n.j … n.h n

Quando Y è quantitativo:Quando X è quantitativo:

N.B.:Su una tabella mista è possibile misurare anche l’indipendenza assoluta con l’indice del 2

Proprietà e interpretazione

X|Y0 1

X|Y 0 Perfetta indipendenza in media:le medie delle distribuzioni condizionate di X sono tutte uguali tra loro ed uguali alla media generale (μX)

X|Y 1 Perfetta dipendenza in media: le varianze delle distribuzioni condizionate di X sono nulle. Ad ogni modalità di Y corrisponde una sola intensità di X che presenta frequenza non nulla

Y|X X|Y L’indice non è simmetrico (salvo eccezioni)

Esempio

Y

2r

2 i Y iEXT i 1

Y|X 2 2cY

j Y jj 1

n

y n

1. Media generale di Y:

h

Y j jj 1

150 25 250 5 350 7 450 5 1256 81y n

n 50394,96

X 4 modalità

Y 5 classi (2 aperte)

Fatturato (Y)

Settore

Merceologico (X)

≤ 200 200-|300 300-|400 400-|500 >500 Totale

Alimentari 11 1 5 1 3 21

Bevande 1 1 0 1 0 3

Healt Care 6 1 1 2 2 12

Ice Packaging 7 2 1 1 3 14

Totale 25 5 7 5 8 50

Nota:

Il valore centrale della prima classe (aperta) è stato ottenuto considerando che, nella successione di valori del carattere fatturato, i valori più bassi sono di poco superiori a 100 (che si assume, quindi, come estremo inferiore della classe); quello dell’ultima classe è ottenuto considerando come estremo superiore della classe il valore massimo effettivamente osservato:

(2012 + 500)/2 = 1256

c

2 j 2jj 12

150 1 250 1 450 11ˆ 26y n

n 36,67

c

3 j 3jj 13

150 6 250 1 350 1 450 2 1256 21y n

n 12384,33

c

4 j 4jj 14

150 7 250 2 350 1 450 1 1256 31y n

n 14412

c

1 j 1jj 11

150 11 250 1 350 5 450 1 1256 31y n

n 21348,48

2. Medie di Y condizionate alle modalità di X

Commento: si può vedere che le medie delle distribuzioni condizionate differiscono dalla media generale di Y, quindi i due caratteri non sono indipendenti in media.

Ma quanto è forte il legame di dipendenza in media?

2

266,67 3

384,33 4

412 1

348,48

3. Confronto tra le medie condizionate

2r

2 2

i Y ii 1

2 2

n 348,48 394,96 21 266,67 394,96 3

384,33 394,96 12 412 99394, .4696 14 4,14

2c

2 2

j Y jj 1

2 2 2

y n 150 394,96 25 250 394,96 5

350 394,96 7 450 394,96 5 1.2 756 3 .5694,96 8 5.618

Y

2r

2 i Y iEXT i 1

Y|X 2 2cY

j Y jj 1

n99.464,14

7.565.618y n

0,013

La dipendenza in media del carattere FATTURATO dal carattere SETTORE MERCEOLOGICO è praticamente nulla

ossia:

il fatturato in media non dipende dal settore merceologico

4. Calcolo del numeratore dell’indice

5. Calcolo del denominatore dell’indice

6. Calcolo dell’indice

Se le medie sono uguali, la varianza tra i gruppi è nulla:

EXT

INT TOT

Dev 0

Dev DevPiù le medie differiscono, più:

EXT TOT

INT

Dev Dev

Dev 0

Più basso è il rapporto, più realistica è l'ipotesi nulla

Più elevato è il rapporto, meno realistica è l'ipotesi nulla

EXT

G 1;n G;

INT

Dev / G 1P F 1

Dev / n G

Il test F

H0: mi = mj i,j = 1, …, G le medie sono uguali in tutti i gruppi

H1: mi mj almeno una media differisce

dalle altre

Statistica test:

Ipotesi:

Valore criticoStatistica-test

H0

H1

Il test F

H0: mi = mj i,j = 1, …, G le medie sono uguali in tutti i gruppi

H1: mi mj almeno una media differisce

dalle altre

Ipotesi:

EXT

INT

Dev / G 10

Dev / n G

H0:

H1:

EXT

INT

Dev / G 10

Dev / n G

H0: = 0

H1: > 0

Source DF Sum of squares Mean squares F Pr > F

Fra gruppi 3 99464.14 33154.71 0.204271 0.892917

Entro gruppi 46 7466153.86 162307.7

Totale 49 7565618.00

Fatturato e settore merceologico

Il p-value è molto alto:

Si accetta l’ipotesi di vendite medie uguali tra i settori, confermata dal campione osservato.0,204

0,89

2EXT

2INT

F

H0: mi = mj i,j = 1, …, G le vendite medie sono uguali in tutti i settori

H1: mi mj almeno una media differisce dalle altre

Decisione:

Basso valore di F = bassa 2EXT = medie vicine

ANOVA

ANOVA

Source DF

Sum of

squares

Mean

squares F Pr > F

Fra gruppi 2 217.34 108.67 6.5357 0.0078

Entro gruppi 17 282.66 16.63

Totale 19 500

Il p-value è basso:

Si rifiuta l’ipotesi reddito medio uguale nelle tre le aree geografiche.

Y

XClassi di REDDITO

Totale Medie

AREA

Geografica20-30 30-40

NORD 2 6 8 32.5

CENTRO 2 4 6 31.7

SUD 6 0 6 25

Totale 10 10 20 30

Verifica dell’ipotesi di indipendenza

Ipotesi di indipendenza in media

Ipotesi di indipendenza assoluta

Ipotesi di indipendenza lineare

ANOVA: test F

Test del 2

Test su

Test su R2

H0: X ed Y sono indipendenti

H1: X ed Y non sono indipendenti

H0: 2 = 0

H1: 2 > 0

H0: = 0

H1: > 0

H0: R2 = 0

H1: R2 > 0

H0: = 0

H1: > 0

Verifica di ipotesi sull’indipendenza assoluta tra due caratteri

Valore criticoStatistica-test

2

ij ij 2

; r 1 c 1i j ij

n nP 1

n

2

ij ij 2

r 1 c 1i j ij

n n

n

La variabile 2 è continua, non può

essere negativa e varia tra zero e

infinito. La sua forma e il suo centro

dipendono dal numero di gradi di libertà.

La sua forma funzionale è:

g1

2g

2

1 xf(x;g) exp x

2g2

2

g=2

g=4

g=8

0.0

0.1

0.2

0.3

0.4

0.5

5 10 15 20

2

ij ij2

i j ij

n n3,84

n

= 0,05

Conteggio

22 19 29 70

61 57 51 169

25 23 25 73

22 20 28 70

130 119 133 382

Meno di 96

96-105

106-110

110 e lode

VOTO

Totale

Non occupato Precario Occ. stabile

OCCUPAZIONE ATTUALE

Totale

OCCUPAZIONE ATTUALE

VOTO

Verifica di ipotesi sull’indipendenza tra due caratteri

H0: X ed Y indipendenti

H1: X ed Y non indipendenti

2

ij ij

i j ij

n n

n

2

0,05;6 12,59

12,593,84

1-

Zona di accettazione

Zona di rifiuto

Ipotesi H0: 2 = 0

H1: 2 > 0

Statistica test

Valore critico

Regola di decisione

vtest 12,59 si accetta H0

vtest > 12,59 si rifiuta H0

Valore test (vtest)

Decisione 3,84 < 12,59 si accetta H0

2

ij ij

testi j ij

n nx

n

20,05; 6 12,59

2

ij ij

testi j ij

n nv 3,84

n

Distribuzione del chi-quadro

45

Fasi del modello:

Specificazione del modello: scelta del tipo di funzione da utilizzare per descrivere un fenomeno; definizione delle ipotesi di base

Stima dei parametri:uso di stimatori dei parametri caratteristici della funzione scelta

Uso del modello:ai fini per i quali è stato specificato (descrittivi, previsivi, ecc.)

Verifica: della significatività delle stime del rispetto delle ipotesi di base (rimozione delle ipotesi,

analisi dei residui)

Verifica dell’ipotesi di indipendenza lineare

Modello di regressione lineare semplice

46

IPOTESI DI BASE DEL MODELLO DI REGRESSIONE

Ipotesi deboli:

1. yi = + xi + i

2. E(i) = 0

3. var(i) = var(yi) = 2

4. cov(i, j) = 0 (i j)

5. X nota e senza errore

La varianza di (o di y) 2 rientra tra i parametri da stimareSe ci fosse correlazione tra gli errori significherebbe che esistono altri fattori oltre a X adinfluenzare Y, esclusi dal modello. Inoltre implicherebbe un legame anche tra le yi

L’ipotesi distribuzionale (6) è fondamentale nella fase inferenziale

Ipotesi forte: Necessaria per verificare la significatività delle stime

6. N(0, 2)

Varianza costante, omoschedasticità

Assenza di autocorrelazione

X non stocastica

Necessarie perché le stime godano di proprietà ottimali, ossia siano non distorte e a varianza minima (BLUE, Teorema di Gauss-Markow)

47

Distribuzioni degli errori (intorno alla stima di Y):

media 0,

varianza costante,

indipendenti,

distribuiti Normalmente

RAPPRESENTAZIONE GRAFICA DEL MODELLO

X

Y

x1x2 x3

x4

E(Y|X) = a + bx

f()

yi i.i.d. con media e varianza costanti

48

Significatività dell’R2

Fa,1,n-2

H0: R2 0

H1: R2 > 0

VERIFICA DEL MODELLO

Significatività di a e di b

H0: 0H1: b 0

2

test 1;n 22

dev reg R n 2x F

dev e n 2 1 R

test n 2

b

bx t

s

-ta/2,n-2 ta/2,n-2

a

a/2 a/2

test n 2

a

ax t

s

H0: 0H1: a 0

49

n

2 2i

i 1

1s e

n 2 s

2 22a n

2

ii 1

s xs 1

nx x

2 2b n

2

ii 1

1s s

x x

Varianze della regressione

Varianza dei residui: errore standard della regressione

Varianza di a: errore standard della stima di

Varianza di b:errore standard della stima di

as

bs

2cod X,Y

dev e 1dev X

Devianza dei residui:

2

2cod X,Y dev e

dev X dR

ev Y1

dev y

Da un campione di 7 aziende risultano i seguenti valori del numero totale di dipendenti (X) e del numero di dipendenti laureati (Y):

Dip. totali (X) 5 8 10 11 7 9 6

Dip. Laureati (Y) 3 5 7 6 4 3 2

a)Disegnare la retta di regressione di Y su X;b)misurare la bontà dell’adattamento;

c)sapendo che

n

2 2i

i 1

1s e 3,89

n 2

verificare la significatività del modello al livello dell’1%

ix iy ix x iy y 2

ix x 2

iy y i ix x y y

5 3 -3 -1,29 9 1,65 3,86

8 5 0 0,71 0 0,51 0

10 7 2 2,71 4 7,37 5,43

11 6 3 1,71 9 2,94 5,14

7 4 -1 -0,29 1 0,08 0,29

9 3 1 -1,29 1 1,65 -1,29

6 2 -2 -2,29 4 5,22 4,57

56 30 0 0 28 19,43 18

2

x

cov x,y cod x,y 18b

dev x 28

0,64

a y bx 4,29 0,64 8 -0,86

y 0,86 0,64x

Equazione della retta: x y

0 -0,86

8 4,29

2 2

2 2REG RES

2 2x y

cov x,y cod x,ydev devR 1

dev y dev y dev x dev y

22 18

R28 19,43

0,6

Ipotesi H0: R2 = 0

H1: R2 > 0

Statistica test

Valore critico F0,01;1;5 = 16,258

Regola di decisione vtest ≤ 16,258 si accetta H0

vtest ≥ 16,258 si rifiuta H0

Valore test

Decisione 7,36 ≤ 16,258 si accetta H0

La relazione lineare tra y ed x non è significativaSi rifiuta il modello lineare

2

REGtest 1;n 22

RES

R n 2devX F

dev n 2 1 R

test

0,6 5v 7,36

1 0,6

Test su R2, unilaterale

Source DFSum of squares

Mean squares F Pr > F

Model 1 11.571 11.571 7.364 0.042

Error 5 7.857 1.571

Corrected Total 6 19.429

Source ValueStandard error t Pr > |t|

Lower bound (95%)

Upper bound (95%)

Intercept -0.857 1.954 -0.439 0.679 -5.879 4.165

x 0.643 0.237 2.714 0.042 0.034 1.252

ANOVA

Significatività dei coefficienti

F0,05;1;5 = 6,608

Ipotesi H0: b = 0H1: b ≠ 0

Statistica test

in cui:

Valori critici t0,005;5 = 4,032

Regola di decisione

- 4,032 ≤ vtest ≤ 4,032 si accetta H0

vtest ≤ - 4,032 oppure vtest ≥ 4,032 si rifiuta H0

Valore test

Decisione - 4,032 ≤ 1,72 ≤ 4,032 si accetta H0

La relazione lineare tra y ed x non è significativaSi rifiuta il modello lineare

test n 2

bX t

s

2

n 2

ii 1

1s s

x x

1s 1,57 0,37

28

test

0,64v 1,72

0,37

Test su b, bilaterale

Ipotesi H0: a = 0H1: a ≠ 0

Statistica test

Valori critici t0,005;5 = 4,032

Regola di decisione - 4,032 ≤ vtest ≤ 4,032 si accetta H0

vtest ≤ - 4,032 oppure vtest ≥ 4,032 si rifiuta H0

Valore test

Decisione - 4,032 ≤ -0,63 ≤ 4,032 si accetta H0

test n 2

aX t

s

22

n 2

ii 1

s xs 1

nx x

23,89 8s 1 1,35

7 28

test

0,86v 0,63

1,35

Test su a, bilaterale

Verifica di ipotesi sul confronto tra due varianze