1 INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello...

1

INFERENZA NEL MODELLO DI REGRESSIONE LINEARE

MULTIPLA: test sui parametri e scelta del modello

(parte 3)Per effettuare test di qualsiasi natura è necessaria un’ipotesi sulla distribuzione degli errori in modo da poter derivare una statistica con distribuzione nota per n finito. Si assume perciò che il vettore degli errori abbia una distribuzione normale multivariata. Per quanto già detto in merito alla verifica di significatività dei singoli parametri si considera la distribuzione t di Student

kn

jj

jjj t

XXst

1'

ˆ

TEST A DUE CODE

H0: per j= 1, 2,…,k.

H1: per j= 1, 2,…,k.

0jj

0jj

2

La statistica test di riferimento sotto ipotesi nulla diventa:

kn

jj

jj

j tXXs

t

1

0

'

ˆ

Fissato il livello di significatività α, la regione critica

del test è Ovvero le due code della distribuzione t di Student

knj tt ,2/

TEST A UNA CODA

H0: per j= 1, 2,…,k.

H1: per j= 1, 2,…,k.

0jj

0jj

knj tt ,


del test è ovvero la coda sinistra della distribuzione t di Student

3

TEST A UNA CODA

H0: per j= 1, 2,…,k.

H1: per j= 1, 2,…,k.

0jj 0jj


del test è ovvero la coda destra della distribuzione t di Student

knj tt ,

Nelle applicazioni l’ipotesi alternativa, con l’eccezione dell’intercetta, è spesso unidirezionale perché la teoria alla base del modello solitamente fornisce indicazioni sul segno delle relazioni fra la variabile dipendente e le variabili esplicative.Ad esempio nel modello sulla domanda di burro

è ragionevole verificare che il parametro che moltiplica il prezzo del burro sia di segno negativo quindi è ragionevole verificare un sistema di ipotesi del tipo

YPPQ MBB 4321

4

H0:

H1:

02

02

Se il segno della stima del parametro non è conforme alle aspettative, formulate sulla base della teoria, è possibile predire l’esito del test: lastatistica test assumerà valore nella regione di accettazione e l’ipotesi nulla non sarà respinta. Quindi, dopo aver stimato un modello diregressione, il primo controllo da effettuare riguarda i segni dei coefficienti e la loro coerenza con le aspettative.

NOTA: in generale un segno non conforme alle aspettative è anche un campanello di allarme riguardo alla validità delle ipotesi di base del modello (come vedremo più avanti).

5

Test sulla significatività di un sottoinsieme di

parametri

La struttura del test F per verificare la significatività del modello di regressione è un caso particolare del test congiunto sulla significatività di un sottoinsieme di coefficienti. Si consideri il modello di regressione

iikkimmimmii XXXXY ,,11,,221 ....

e si supponga di voler sottoporre a test l’ipotesi che più parametri siano nulli

H0:

H1:

0..21 kmm

kj )...1m(j 0un almeno

6

Il modello sotto l’ipotesi nulla è chiamato modello vincolato (restricted model) e risulta

iimmii XXY ,,221 ..

Per sottoporre a test questa ipotesi, si confronta la devianza dei residui del modello vincolato Dev(H0) con quella del modello completo, o non vincolato (unrestricted model) , Dev (H1) . La statistica test è

Dove è la varianza dei residui sotto H1 . Sotto l’ipotesi nulla la statistica test ha una distribuzione F di Fisher con (k- m) gradi di libertà al numeratore e (n- k) al denominatore. I gradi di libertà del numeratore sono dati dal numero di vincoli impostisotto l’ipotesi nulla ovvero dalla differenza fra il numero di parametri stimati nei due modelli.

21)(

)1()0(

Hsmk

HDevHDevF

21Hs

7

Al numeratore della statistica test vi è la differenza fra le devianze residue sotto H0 e sotto H1 . Quanto maggiore è questa differenza tantomaggiore è il guadagno nella capacità esplicativa che si ottiene considerando i k- m regressori aggiuntivi. Di conseguenza è ragionevole individuare la regione critica nella coda di destra della distribuzione F, poiché valori elevati del numeratore della statistica test indicano che c’è una differenza statisticamente significativa fra la capacità esplicativa del modello vincolato e quella del modello non vincolato. Pertanto regione critica al livello di significatività α risulta

1,, knmkFF

percentile di una F di Fisher che isola nella coda sinistra un’are pari a (1- α)

8

CORRETTO (Adjusted R-square)

Per la scelta fra modelli è necessario avere adisposizione degli indici che consentano di confrontarli. Si supponga di dover scegliere fra due modelli alternativi, il primo con k variabili esplicative

e il secondo con k +1 variabili esplicative

Se si utilizza il coefficiente di determinazione risulta sempre preferibile il modello con il maggior numero di regressori; di conseguenza l’indice non consente di operare una scelta fra modelli con un diverso numero di variabili esplicative.

iikkii XXY ,,221 ..

iikkikkii XXXY ,11,,221 ..

2R

2R

9

Il coefficiente di determinazione aumenta al ridursi della devianza residua. Quest’ultima è il valore dellafunzione obiettivo, che si minimizza quando si stima il modello con i minimi quadrati. Quando si stima il secondo modello si esegue un’ottimizzazione su k +1 variabili, pertanto la devianza residua è quasi certamente minore di quella ottenuta stimando il primo modello con k variabili. La devianza residua del primo modello può infatti essere interpretata come il minimo vincolato della somma dei quadrati dei residui nel secondo modello quando si pone

Ciò implica che l’indice è quasi certamente più elevato nel modello con il maggior numero di regressori.Un indice utile per confrontare modelli con un diverso numero di variabili esplicative è l’ corretto

01 k

kn

nR

ny

kneR

i

i

1

)1(1)1(

)(1 2

2

2

2

2R

2R

10

Mentre il secondo termine dell’indice confronta la devianza residua con la devianza totale, il secondo termine dell’ confronta la stima non distorta della varianza degli errori con la stima non distorta della varianza della variabile dipendente. Nel confronto fra diversi modelli si sceglie quello per il quale l’indice è maggiore. Un’altra spiegazione è: se si aggiunge al modello un’ulteriore variabile la quantità diminuisce, ma il rapporto aumenta. La riduzione deltermine misura il miglioramento nell’adattamento dovuto all’inserimento del nuovo regressore, mentre l’incremento nel rapporto impone una penalità perché, avendo aggiunto un regressore, il modello è più complicato e si deve stimare un ulterioreparametro. Se il miglioramento nell’adattamento compensa la penalità si preferisce il modello con un più elevato numero di regressori.

2R

2R

2R

)1( 2R knn 1

)1( 2R

knn 1

1 INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello...

Documents

Transcript of 1 INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello...