Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra –...

57
Corso di Corso di Statistica Statistica Aziendale Aziendale

Transcript of Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra –...

Page 1: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

Corso diCorso diStatistica Statistica AziendaleAziendale

Page 2: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

Bibliografia Lucidi Bibliografia Lucidi (materiale reperibile via Internet)(materiale reperibile via Internet)

• D’Ambra – Università di NapoliD’Ambra – Università di Napoli• Sarnacchiaro – Università del SannioSarnacchiaro – Università del Sannio• Simonetti – Università del SannioSimonetti – Università del Sannio• Giommi – Università di FirenzeGiommi – Università di Firenze• Davino – Università di MacerataDavino – Università di Macerata• Morale – Università di MilanoMorale – Università di Milano

Page 3: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

IL MODELLO DI REGRESSIONE LINEARE MULTIPLA

L’analisi della regressione multipla è una tecnica statistica che può essere impiegata per analizzare la relazione tra una variabile dipendente e diverse variabili indipendenti (predittori).

L’OBIETTIVO dell’analisi è prevedere i valori assunti da una variabile dipendente a partire dalla conoscenza di quelli osservati su più variabili indipendenti.

Se il problema coinvolge una sola variabile indipendente, la tecnica statistica viene definita regressione semplice.

Quando invece il problema coinvolge due o più variabili indipendenti, è detta, appunto, regressione multipla.

Page 4: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

La relazione tra le variabili esplicative e la variabile dipendente può essere scritta come:

)(),...,,( 21 XfXXXfY m

Se si esplicita una relazione di tipo lineare si ottiene l’equazione:

XβmmXXXY ...22110

nella quale dovranno essere stimati i parametri

Metodo dei minimi quadrati

A tal scopo è necessario osservare le variabili esplicative e la variabile dipendente su un campione di n osservazioni

i

Page 5: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

iii bXaY

iiii XbXbbY 22110

Regressione lineare semplice (1 dip, 1 indip)

Regressione lineare multipla (2 indip, 1 dip)

intercetta errorevariabile indipendente

pendenza

Page 6: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

RAPPRESENTAZIONE MATRICIALEDato il modello

εXβY

la rappresentazione dei dati campionari potrà allora essere la seguente:

ny

y

y

.

.

.2

1

y

nmnn

m

m

xxx

xxx

xxx

...1

...

...

...

...1

...1

21

22221

11211

X

m

.

.

.1

0

β

n

.

.

.2

1

ε

Page 7: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

yy XX11 X2X2

33 22 11 3=13=1ββ00+2β+2β11+1β+1β22+e+e11

22 33 55 2=12=1ββ00+3β+3β11+5β+5β2 2 +e+e22

44 55 33 4=14=1ββ00+5β+5β11+3β+3β2 2 +e+e33

55 77 66 5=15=1ββ00+7β+7β11+6β+6β2 2 +e+e44

88 88 77 8=18=1ββ00+8β+8β11+7β+7β2 2 +e+e55

iiii XbXbbY 22110

Page 8: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

3=13=1ββ00+2β+2β11+1β+1β22+e+e11

2=12=1ββ00+3β+3β11+5β+5β2 2 +e+e22

4=14=1ββ00+5β+5β11+3β+3β2 2 +e+e33

5=15=1ββ00+7β+7β11+6β+6β2 2 +e+e44

8=18=1ββ00+8β+8β11+7β+7β2 2 +e+e55

5

4

3

2

1

2

1

0

781

671

351

531

121

8

5

4

2

3

e

e

e

e

e

eXβy

Page 9: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

IPOTESI DEL MODELLO DI REGRESSIONE MULTIPLA

Corretta specificazione del modello

XβY0ε EE

n2

n2 IYIεεε VAREVAR

Normalità distributiva della variabile d’errore e, da cui segue la normalità distributiva della variabile dipendente

Matrice di osservazioni X non stocastica, e rango(X) = m+1

Quando m=1 queste ipotesi coincidono con quelle del modello di regressione semplice.

La terza ipotesi include sia la omoschedasticità 2iεVAR

che l’incorrelazione delle variabili casuali errori 0, jiεCOVAR per ogni i e j

L’assunzione riguardante il rango della matrice X impone in pratica che il numero di informazioni campionarie non ridondanti sia almeno pari al numero dei parametri da stimare.

OSSERVAZIONI

Page 10: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.
Page 11: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.
Page 12: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

STIMA DEI PARAMETRI: METODO DEI MINIMI QUADRATI

L’obiettivo è determinare, sulla base dei dati campionari, il vettore b delle stime che minimizza:

XβXβyXβyy

XβXβyXβXβyyy

XβyXβyεεβ

2

1

2n

ii

Derivando rispetto a b e uguagliando a zero di ottiene:

0β̂XX2yX2β

β

da cui si ricava il vettore b delle stime dell’intercetta e dei coefficienti di regressione:

yXXXb 1

Page 13: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

yX'X)(X'β 1ˆ

X’ XX’X

N 21, xx 22

21 , xx 21xx

12013022

13015125

22255

781

671

351

531

121

76351

87532

11111

Page 14: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

128,0098,0071,0

098,0114,0138.1

071,0138.0201,1

12013022

13015125

222551

X’X

inversa

Calcolare l’inversaCalcolare l’inversa

La diamo per scontata

Page 15: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

yX'X)(X'β 1ˆ

111

131

22

8

5

4

2

3

76351

87532

11111

y

yx1

yx2

X’ y X’y

Page 16: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

25.0

1

50.0

111

131

22

128,0098,0071,0

098,0114,0138.1

071,0138.0201,1

iii XXY 21 )25.(150.ˆ

Page 17: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

Z

Y

X

La correlazione fra 2 variabili è la somma delle influenze dirette e indirette delle due variabili

rxz=.5rxy=.65rzy=.70

b*1

b*2

b*1=rxy-rxzb*2=.65-.50b*2

b*2=rzy-rxzb*1=.70-.50b*1

.50

.65

.70

.40

.50 rxy=b*1+b*2rzx

rzy=b*2+b*1rzx

Page 18: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

Sviluppando…Sviluppando…poniamo X=X1, Z=X2

rxy=b1+b2rzx

rzy=b2+b1rzx

ry1=b1r11+b2r12= b1r11+b2r12 ry2=b2r22+b1r12= b1r12+b2r22

*

*2

*1

2212

2111

2

1

yxxxyx

y

y

bRr

b

b

rr

rr

r

r

Page 19: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

rryxyx=R=Rxxxxb*b*yxyx

ry1=b*y1.23r11+b*y2.13r12+b*y3.12r13

ry2=b*y1.23r21+b*y2.13r22+b*y3.12r23

ry3=b*y1.23r31+b*y2.13r32+b*y3.12r33

3

2

1

3231

2321

1312

*12.3

*13.2

*23.1

*

1

1

1

y

y

y

yxXX

y

y

y

yx

r

r

r

r

rr

rr

rr

R

b

b

b

b

con rij=rji

b*=R-1r

Page 20: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

Regressione matricialeRegressione matriciale

yx1xx

*

yx1xx

1

rRβ

cCβ

yX'X)(X'β

Cxx è la matrice varianza/covarianza fra le X

cyx è il vettore delle covarianze fra le x e la y

Rxx è la matrice di correlazione fra le X

ryx è il vettore delle correlazioni fra le x e la y

formule alternative:

Page 21: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

Esempio di b=CEsempio di b=C-1-1cc

8.50.5

0.55.6XXC

55.3

25.5xyc

2

1

25.0

00.1

55.3

25.5

5.60.5

0.58.5

7.12

1

b

b

varianza e covarianza calcolate con N-1

5.04.4)25.()5(14.4)(0 iiXbYb

Page 22: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

Beta standardizzatiBeta standardizzati

*2

2.408( .25) 0.262

2.30yxb

1

* 2.541 1.109

2.3yxb

* i

i i

xyx yx

y

sb b

s

Con i dati dell’esempio precedente:

*i i

i

yyx yx

x

sb b

s

Page 23: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

Esempio con b*=REsempio con b*=R-1-1rr

1814.

814.1XXR

640.

894.xyr

261.0

107.1

640.

894.

1814.

814.1

337.0

1

b0 = 0

Page 24: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

Propor. di varianza Propor. di varianza spiegataspiegata

generico

*

X2con

*1.22

*2.11

2

22

2

22ˆ

2

)(

)ˆ()(

)(

)ˆ(

iyiyyyy

yy

brbrbr

YY

YYYY

YY

YY

totale

spiegatarr

Page 25: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

Stimatore dei Minimi Quadrati: le proprietà

YXXXB ')'( 1

21)'()(

)(

XXBVar

CorrettoStimatoreBE

Cosa fare se σ è incognito?

Stimare σ

1

)ˆ(

2

12

mn

yy

mn

SSEMSE

n

iii

miconcMSEBVar iii ,...,2,1*)( Dove rappresenta l’i-esimo elemento sulla diagonale della matrice

iic

1XX

Page 26: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

MISURE DI BONTA’ DEL MODELLO: INDICE DI DETERMINAZIONE LINEARE

totaleDevianza

eregression di Devianza2 R

Nel modello di regressione multipla l’indice di determinazione lineare può presentare alcuni problemi calcolatori e di interpretazione. Ad esempio, in caso di assenza di relazione lineare non è pari a zero.

E’ bene ricorrere perciò all’indice R2 corretto:

2 2 1

1 1

m nR R

n n m

che varia sempre tra zero e uno.

2 2 11 (1 )

1

nadjR R

n m

m=numero di variabili indipendenti (X)

R2 tende ad aumentare al numero delle X

Page 27: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

CONTROLLO D’IPOTESI SUL MODELLO:esiste un legame effettivo tra la variabile dipendente e i regressori?

Si tratta di saggiare l’ipotesi nulla

0...: 210 mH

Tale ipotesi si controlla con il test F di Fisher.La statistica test si ottiene dal rapporto tra la varianza di regressione e la varianza di dispersione del modello:

MSE

mSSR

YVar

YVar

mnYDevm

YDev

Fresidua

regr

residua

regr

/

)(

)(

1)(

)(

L’ipotesi nulla viene rigettata se, a un prefissato livello di significatività α, la F così calcolata sui dati campionari è maggiore del valore della F di Fisher tabulato in corrispondenza di m e (n-m-1) gradi di libertà: 1,, mnmF

Page 28: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

un test globale: che include tutte le variabili

0bY

22110 XbXbbY

Confronto fra:

dfr=N-1 (ristretto)dff=N-3 (completo)

0: 210 bbH Usiamo la statistica F di Fisher

Se è significativa, c’è una relazione consistente fra le x e la y; la regressione ha senso. N.B.: In genere è significativa

Page 29: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

2 2

2

2 2

2

2

2

( ) /( )

(1 ) /

ˆ( ) ( ) /( )ˆ( ) /

/

(1 ) /( 1)

f r r f

f f

r f

f

f

f

R R d dF

R d

Y Y Y Y d d

Y Y d

R m

R N m

f=full (completo)r=ristretto [R2=0]

Page 30: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

Se il modello globale è significativo, si può fare:

un test per ciascuna var. indip. (X)

Anche se il modello globale è significativo, questo non significa che tutte le X siano significativamente associate a Y

La maggior parte dei programmi utilizza un semplice t-test. Se il test è significativo, la Xn può stare nel modello, altrimenti si dovrebbe togliere.

Page 31: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

CONTROLLO D’IPOTESI SUL MODELLO:esiste un legame lineare tra la variabile dipendente e il singolo regressore Xi?

Si tratta di saggiare l’ipotesi nulla

0:0 iH mi ,...,1

Tale ipotesi si controlla con il test t di Student. La statistica test si ottiene:

ii

i

i

i

cMSE

B

B

Bt

)var(

Dove rappresenta l’i-esimo elemento sulla diagonale della matrice iic 1XX

L’ipotesi nulla viene rigettata se, a un prefissato livello di significatività α, la t così calcolata sui dati campionari è maggiore del valore della t di Student tabulato in corrispondenza di (n-m-1) gradi di libertà: 1, mnt

Errore Standard dell’i-esimo coefficiente di regressione

Page 32: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.
Page 33: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

ANALISI DEI RESIDUI

L’analisi grafica dei residui consente di valutare, a posteriori, se il modello ipotizzato è corretto.In tal caso, infatti, gli errori dovrebbero distribuirsi in modo normale.

Ancora, la rappresentazione grafica dei residui rispetto ai valori stimati della variabile dipendente consente di valutare la sussistenza delle ipotesi del modello:

0ε E n2Iε VARe

Nel caso in cui si disponga di dati temporali, si può valutare l’esistenza di auto-correlazione tra i residui con il test di Durbin-Watson, che saggia l’ipotesi nulla di ASSENZA DI AUTOCORRELAZIONE tra i residui. La statistica test è:

n

ii

n

iii

e

ee

d

1

2

1

21

Un valore tra 1,3 e 1,4 indica autocorrelazione tra i residui

Page 34: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

ResiduiResiduiI residui (e=Y-Y’) dovrebbero essere dispersi casualmente attorno a Y

0

e

Y

0

e

Y

0

e

Y

si

NO

Se non sono dispersi casualmente, esiste un’altra variabile X che può spiegarne una parte, oppure la relazione non è lineare

Page 35: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

MULTICOLLINEARITA’

Con il termine multicollinearità ci si riferisce alla correlazione fra le variabili indipendenti di un modello di regressione.Il suo effetto consiste nel ridurre la capacità previsiva di ogni singola variabile indipendente in modo proporzionale alla forza della sua associazione con le altre variabili indipendenti.L’effetto della multicollinearità può interessare sia la capacità di spiegazione del modello (capacità della procedura di regressione e del ricercatore di rappresentare e capire l’influenza di ciascuna variabile indipendente) sia la sua stima (la sua presenza rende problematica la determinazione dei contributi individuali delle variabili indipendenti, perché i loro effetti vengono “mescolati” o confusi).Va pertanto valutata e individuata. Due strumenti a disposizione sono la Tolleranza (Tolerance) e il Fattori di Accrescimento della Varianza (Variance Inflaction Factor).

Tolerance = 201 iR

201

1

iRVIFi

dove rappresenta il quadrato del coefficiente che misura la correlazione fra la i-esima variabile esplicativa e tutte le altre.In generale un VIF>5 è indice di alta multicollinearità.

20iR

Page 36: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

Multicollinearità 1Multicollinearità 1

La situazione ideale per una regressione multipla dovrebbe essere: ogni X è altamente correlata con Y, ma le X non sono correlate fra loro

XX11 XX22 XX33

YY .60.60 .50.50 .70.70

XX11 .20.20 .30.30

XX22 .20.20

Idealmente, le correlazioni tra le X, dovrebbero essere 0; in questo modo beta dovrebbe coincidere con r e non con r parzializzato

Page 37: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

Multicollinearità 2Multicollinearità 2

Quando due variabili X o più, sono tra loro correlate (moderatamente o più), parliamo di “multicollinearità”.

Spesso però, due o più X sono correlate fra loro

XX11 XX22 XX33

YY .60.60 .50.50 .70.70

XX11 .70.70 .30.30

XX22 .20.20

Page 38: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

Problemi della Problemi della multicollinearitàmulticollinearità

• fa diminuire la R multiplafa diminuire la R multipla• l’effetto dei predittori si confondel’effetto dei predittori si confonde• aumenta la varianza e l’instabilità aumenta la varianza e l’instabilità

dell’equazionedell’equazione

Page 39: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

Diminuire la Diminuire la multicollinearitàmulticollinearità

• combinare fra loro i predittori combinare fra loro i predittori altamente correlati (ad esempio altamente correlati (ad esempio sommandoli)sommandoli)

• se ci sono molti predittori altamente se ci sono molti predittori altamente correlati, usare un’analisi delle correlati, usare un’analisi delle componenti principali per ridurre il componenti principali per ridurre il numero delle Xnumero delle X

Page 40: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

Scegliere i predittoriScegliere i predittori

• Usare la teoria (ricerca Usare la teoria (ricerca bibliografica)bibliografica)

• metodi semi-automatici sequenzialimetodi semi-automatici sequenziali– forwardforward– stepwisestepwise– backwardbackward

Page 41: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

Regressione standardRegressione standard

• Tutte le variabili X vengono Tutte le variabili X vengono considerate assieme e tutti i considerate assieme e tutti i coefficienti di regressione (B o beta) coefficienti di regressione (B o beta) stimati contemporaneamente stimati contemporaneamente

Page 42: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

ForwardForward

• Le variabili X vengono inserite una alla Le variabili X vengono inserite una alla volta (in genere la X con la correlazione volta (in genere la X con la correlazione XY più alta) e vengono poi calcolate le XY più alta) e vengono poi calcolate le correlazioni parziali e i test di correlazioni parziali e i test di significatività di tutte le altre.significatività di tutte le altre.

• Una nuova variabile viene inserita se Una nuova variabile viene inserita se risulta statisticamente associata al risulta statisticamente associata al modellomodello

• Ci si ferma quando non ci sono variabili Ci si ferma quando non ci sono variabili signficativesignficative

Page 43: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

BackwordBackword

• Le X vengono inserite tutte assieme Le X vengono inserite tutte assieme e poi pian piano tolte se non e poi pian piano tolte se non risultano significative al t-testrisultano significative al t-test

• Ci si ferma quando tutte le non Ci si ferma quando tutte le non significative sono state toltesignificative sono state tolte

Page 44: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

StepwiseStepwise

• Si parte con “alcune” variabili X e Si parte con “alcune” variabili X e poipoi

• Le altre X vengono inserite e / o tolte Le altre X vengono inserite e / o tolte a seconda della loro importanza e a seconda della loro importanza e significativitàsignificatività

• Il modello finale identificato Il modello finale identificato “dovrebbe” essere il migliore“dovrebbe” essere il migliore

Page 45: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

Numero Carte di Credito (Y)

Ampiezza della Famiglia

(X1)

Reddito della Famiglia (in migliaia di €) (X2)

Numero di auto della famiglia (X3)

4 2 14 1

6 2 16 2

6 4 14 2

7 4 17 1

8 5 18 3

7 5 21 2

8 6 17 1

10 6 25 2

Esercizio sulla regressione Multipla: 1 variabile indipendente (Y) e 3 variabili dipendenti (X).

Si vuole analizzare la relazione tra il numero di Carte di Credito di una famiglia in relazione a tre possibili variabili di influenza

Fasi dell’analisi:

1) Stima dei parametri di regressione

2) Inferenza sui parametri di Regressione Multipla (Test di Ipotesi ,Intervalli di confidenza)

3) Diagnostica di Regressione: Plot dei Residui

4) Previsioni

Page 46: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

Stima dei Parametri di Regressione (utilizzo di Excel o di software Statistici)

  CoefficientiErrore

standard Stat tValore di

significatività

Intercetta 0,286 1,606 0,178 0,867

Ampiezza della Famiglia 0,635 0,271 2,341 0,0792

Reddito della Famiglia (in migliaia di €) 0,200 0,119 1,671 0,170

Numero di auto della famiglia 0,272 0,470 0,578 0,594

321 272,02,0635,0286,0 XXXY

Interpretazione dei Coefficienti : Attenzione

R al quadrato 0,872

R al quadrato corretto 0,776

La Bontà dell’adattamento del Modello Lineare

Page 47: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

Regression Model Selection

Dependent variable: Numero Carte di CreditoIndependent variables: A=Ampiezza della Famiglia B= Numero di Auto C=Reddito

Model Results--------------------------------------------------------------------------- Adjusted IncludedMSE R-Squared R-Squared Cp Variables---------------------------------------------------------------------------3,14 0,0 0,0 25,2622 0,91 75,0649 70,91 3,79524 A 3,14 14,2857 0,0 23,6081 B 1,15 68,7292 63,52 5,77594 C 0,96 78,2743 69,58 4,79194 AB 0,61 86,1376 80,59 2,33369 AC 1,33 69,6696 57,54 7,48195 BC 0,70 87,205 77,61 4,0 ABC

Inferenza sui Coefficienti : La significatività dei coefficienti e la Selezione delle Variabili Esplicative

Page 48: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

1

1

122

mn

n

n

mRR

Page 49: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

totaleDevianza

eregression di Devianza2 R

Page 50: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

Cp is a measure of the bias in the model based on a comparison of total Mean Squared Error to the true error variance.

Unbiased models have an expected Cp value of approximately p, where p is the number of coefficients in the fitted model. Cp is based on the assumption that the model that contains all the candidate variables is unbiased; therefore, the full model will always have Cp = p. Look for models that have Cp values close to p.

Page 51: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

0...: 210 mH

09,9/

)(

)(

1)(

)(

MSE

mSSR

YVar

YVar

mnYDevm

YDev

Fresidua

regr

residua

regr

CONTROLLO D’IPOTESI SUL MODELLO:esiste un legame effettivo tra la variabile dipendente e i regressori?

Dev (Y) = 22

Dev (Y) regressione = 19,185

Dev (Y) residua = 2,815

Da confrontare con il valore tabulato

59,6

98,9

4;3;2

10,0

4;3;2

05,0

F

F

Page 52: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

 Inferiore

95%Superiore

95%Inferiore 90,0%

Superiore 90,0%

Intercetta -4,17 4,74 -3,14 3,71

Ampiezza della Famiglia -0,12 1,39 0,06 1,21

Reddito della Famiglia (in migliaia di €) -0,13 0,53 -0,06 0,45

Numero di auto della famiglia -1,03 1,58 -0,73 1,27

Stima Intervallare dei Coefficienti di Regressione

)var(*;)var(*

)1;2

()1;2

(i

mnii

mni BtBBtB

Coefficientet di

StudentStandard

Error Limite Inferiore Limite Superiore

90% 0,635 2,132 0,271 0,057 1,212

95% 0,635 2,776 0,271 -0,118 1,387

Esempio di Calcolo per il coefficiente della Variabile Ampiezza della Famiglia

Page 53: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.

Diagnostica di regressione

Regression Results for Numero Carte di CreditoN° Oss. Y Y predetta Errore di regressione 1 4,0 4,62019 -0,620192 2 6,0 5,29087 0,709135 3 6,0 6,16106 -0,161058 4 7,0 6,48798 0,512019 5 8,0 7,86538 0,134615 6 7,0 8,19231 -1,19231 7 8,0 7,75721 0,242788 8 10,0 9,625 0,375

DW= 2,47 (Assenza di correlazione tra i residui)

n

ii

n

iii

e

ee

d

1

2

1

21

Page 54: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.
Page 55: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.
Page 56: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.
Page 57: Corso di Statistica Aziendale. Bibliografia Lucidi (materiale reperibile via Internet) DAmbra – Università di NapoliDAmbra – Università di Napoli Sarnacchiaro.