Selezione del modello Strumenti quantitativi per la …taufer/Slide-pdf/6a SM.pdfS e l z i o n d m f...

18
Selezione del modello Strumenti quantitativi per la gestione Emanuele Taufer

Transcript of Selezione del modello Strumenti quantitativi per la …taufer/Slide-pdf/6a SM.pdfS e l z i o n d m f...

Page 1: Selezione del modello Strumenti quantitativi per la …taufer/Slide-pdf/6a SM.pdfS e l z i o n d m f i l e C 8 s r m a n u t D o p b [ S 4 * B M K ( ) Migliorare il modello di regressione

4/20/2015 Selezione del modello (1)

file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 1/18

Selezione del modello

Strumenti quantitativi per la gestioneEmanuele Taufer

Page 2: Selezione del modello Strumenti quantitativi per la …taufer/Slide-pdf/6a SM.pdfS e l z i o n d m f i l e C 8 s r m a n u t D o p b [ S 4 * B M K ( ) Migliorare il modello di regressione

4/20/2015 Selezione del modello (1)

file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 2/18

Migliorare il modello di regressionelineare (RL)

Un modello di regressione lineare

ha indubbiamente, rispetto a modelli più sofisticati, il pregio dellasemplicità ed interpretabilità dei risultati.

Può essere inoltre competitivo in molte situazioni complesse.

In questa lezione discutiamo di una serie di tecniche per ovviare aiproblemi tipici che si incontrano nelle applicazioni più moderne.

I metodi sono applicabili anche alle tecniche di classificazione

Y = + + + ⋅ ⋅ ⋅ + + εβ0 β1X1 β2X2 βpXp

Page 3: Selezione del modello Strumenti quantitativi per la …taufer/Slide-pdf/6a SM.pdfS e l z i o n d m f i l e C 8 s r m a n u t D o p b [ S 4 * B M K ( ) Migliorare il modello di regressione

4/20/2015 Selezione del modello (1)

file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 3/18

MetodiTre classi di metodi per affrontare i problemi:

Subset selection: scegliere tra i predittori disponibili quellieffettivamente rilevanti per il problema (anche nel caso in cui

)

Shrinkage o regolarizzazione: il metodo dei minimi quadrati èmodificato per effettuare la selezione delle variabili in modoautomatico

Riduzione della dimensionalità: in questo caso la numerosità deipredittori, , è ridotta ricorrendo a tecniche di riduzione delladimensionalità dei dati (Componenti principali)

p > n

p

Page 4: Selezione del modello Strumenti quantitativi per la …taufer/Slide-pdf/6a SM.pdfS e l z i o n d m f i l e C 8 s r m a n u t D o p b [ S 4 * B M K ( ) Migliorare il modello di regressione

4/20/2015 Selezione del modello (1)

file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 4/18

Selezione Best subsetCon questo metodo si comparano tra loro tutte le possibilicombinazioni dei predittori.

1. indica il modello senza predittori (la media di )

2. Per

adattare tutti i possibili modelli con predittori

scegliere il migliore (minor o maggior ) tra questi:chiamiamolo .

3. Si scelga il modello migliore fra usandola cross validazione oppure uno dei seguenti criteri (discussisotto): , , , -corretto.

p

M0 Y

k = 1, 2, … , p

( )pk

k

RSS R2

Mk

, , … ,M0 M1 Mp

Cp AIC BIC R2

Page 5: Selezione del modello Strumenti quantitativi per la …taufer/Slide-pdf/6a SM.pdfS e l z i o n d m f i l e C 8 s r m a n u t D o p b [ S 4 * B M K ( ) Migliorare il modello di regressione

4/20/2015 Selezione del modello (1)

file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 5/18

Nota: non usiamo o per confrontare poichè diminuisce e cresce monotonicamente all’aumentaredel numero di variabili.

Nella regressione logistica, è possibile usare la devianza comeindicatore al passo 2: più piccola è tanto migliore il modello.

Problema: ci sono modelli possibli: , .

RSS R2 , , … ,M0 M1 Mp

RSS R2

2p = 1024210

= 1.048576 ×220 106

Page 6: Selezione del modello Strumenti quantitativi per la …taufer/Slide-pdf/6a SM.pdfS e l z i o n d m f i l e C 8 s r m a n u t D o p b [ S 4 * B M K ( ) Migliorare il modello di regressione

4/20/2015 Selezione del modello (1)

file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 6/18

Selezione stepwisePer ridurre il carico computazionale dell’approccio best subet èpossibile ricorrere ad algoritmi più semplici.

Le diverse procedure forniscono spesso modelli simili ma noncoincidenti

Stepwise forward

0. : il modello senza predittori (la media di )

1. Scegli il modello migliore con un predittore (usa o ), chiamalo .

2. Considera i modelli ottenuti aggiungendo a unotra i predittori rimasti e scegli il migliore: chiamalo

3. Continua allo stesso modo aggiungendo un predittore pervolta fra i rimanenti

4. Si scelga il modello migliore fra usandola cross validazione oppure uno dei seguenti criteri (discussisotto): , , , -corretto.

M0 Y

RSS

R2 M1

p − 1 M1

M2

p − k k = 2, 3, … , p − 1

, , … ,M0 M1 Mp

Cp AIC BIC R2

Page 7: Selezione del modello Strumenti quantitativi per la …taufer/Slide-pdf/6a SM.pdfS e l z i o n d m f i l e C 8 s r m a n u t D o p b [ S 4 * B M K ( ) Migliorare il modello di regressione

4/20/2015 Selezione del modello (1)

file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 7/18

In totale il metodo forward implica l’adattamento di modelli. Per

Non garantisce di trovare il modello migliore tra i possibili

Inserita una variabile questa non viene più rimossa

E’ applicabile anche quando

1 + p(p + 1)/2p = 20 → 211

2p

p > n

Page 8: Selezione del modello Strumenti quantitativi per la …taufer/Slide-pdf/6a SM.pdfS e l z i o n d m f i l e C 8 s r m a n u t D o p b [ S 4 * B M K ( ) Migliorare il modello di regressione

4/20/2015 Selezione del modello (1)

file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 8/18

Stepwise backward

Simile a forward ma si parte dal un modello con tutte le variabili: levariabili vengono eliminate una alla volta partendo dalle meno rilevanti.

Stepwise ibrido

Cerca di mediare tra i vantaggi e gli svantaggi dei metodi forward ebackward: inizia in modalità forward, ma se necessario, procede inmodalità backward e rimuovere una variabile precedentementeinserita.

p

Page 9: Selezione del modello Strumenti quantitativi per la …taufer/Slide-pdf/6a SM.pdfS e l z i o n d m f i l e C 8 s r m a n u t D o p b [ S 4 * B M K ( ) Migliorare il modello di regressione

4/20/2015 Selezione del modello (1)

file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 9/18

Comparazione e scelta fra modelliTipicamente si individuano più modelli di RL che potrebbero essereadatti al problema in esame.

e sono due indicatori dell’errore training dei modelli

Come già discusso, l’obbiettivo è quello di scegliere un modello che haun basso valore di errore test (MSE nella RL)

Per stimare l’errore test ci sono due strategie:

1. stima indiretta attraverso un aggiustamento dell’erroretraining per eliminarne il bias dovuto all’overfitting (metoditradizionali non intensivi dal punto di vista computazionale)

2. stima diretta attraverso la cross validazione o validation setapproach.

RSS R2

Page 10: Selezione del modello Strumenti quantitativi per la …taufer/Slide-pdf/6a SM.pdfS e l z i o n d m f i l e C 8 s r m a n u t D o p b [ S 4 * B M K ( ) Migliorare il modello di regressione

4/20/2015 Selezione del modello (1)

file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 10/18

Metodi indirettiI metodi indiretti introducono delle penalità collegate all’aumentare delnumero di predittori .

1. di Mallow

2. - (Akaike information criterion)

3. - (Bayesian information criterion)

4. - ( -corretto)

p

Cp

AIC

BIC

R2a R2

Page 11: Selezione del modello Strumenti quantitativi per la …taufer/Slide-pdf/6a SM.pdfS e l z i o n d m f i l e C 8 s r m a n u t D o p b [ S 4 * B M K ( ) Migliorare il modello di regressione

4/20/2015 Selezione del modello (1)

file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 11/18

Nota: la simbologia è tradizionale; per evitare confusione, nelleprossime slide definiamo il numero di predittori con .

dove è una stima della varianza di del modello considerato

Il criterio aggiunge una penalità all’ training che tende asottostimare il test error.

produce una stima corretta per il test MSE del modello.

Il modello preferito è quello con minore

Cp

Cp

d

= (RSS + 2d )Cp1n

σ̂2

σ̂2 ε

2dσ̂2 RSS

Cp

Cp

Page 12: Selezione del modello Strumenti quantitativi per la …taufer/Slide-pdf/6a SM.pdfS e l z i o n d m f i l e C 8 s r m a n u t D o p b [ S 4 * B M K ( ) Migliorare il modello di regressione

4/20/2015 Selezione del modello (1)

file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 12/18

Il criterio di Akaike è basato sulla funzione di verosimiglianza epertanto utilizzabile in diversi contesti.

Nella RL il criterio assume la forma

Nella regressione lineare dunque e sono proporzionali traloro e pertanto portano alla stessa scelta.

AIC

AIC = (RSS + 2d )1

nσ̂2 σ̂2

AIC Cp

Page 13: Selezione del modello Strumenti quantitativi per la …taufer/Slide-pdf/6a SM.pdfS e l z i o n d m f i l e C 8 s r m a n u t D o p b [ S 4 * B M K ( ) Migliorare il modello di regressione

4/20/2015 Selezione del modello (1)

file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 13/18

L’indice è definito come

dove indica il numero di unità training

Analogamente a e il modello con minor valore di èpreferito

Se allora : pone una penalità maggiore rispetto a e e pertanto tende a scegliere modelli più piccoli.

BIC

BIC

BIC = (RSS + log(n)d )1n

σ̂2

n

Cp AIC BIC

n > 7 log n > 2 BICCp AIC

Page 14: Selezione del modello Strumenti quantitativi per la …taufer/Slide-pdf/6a SM.pdfS e l z i o n d m f i l e C 8 s r m a n u t D o p b [ S 4 * B M K ( ) Migliorare il modello di regressione

4/20/2015 Selezione del modello (1)

file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 14/18

-correttoAbbiamo già visto nella lezione sulla RL che

In questo caso il modello preferito è quello con maggiore.

R2

= 1 −R2a

n − 1n − (p + 1)

RSS

TSS

R2a

Page 15: Selezione del modello Strumenti quantitativi per la …taufer/Slide-pdf/6a SM.pdfS e l z i o n d m f i l e C 8 s r m a n u t D o p b [ S 4 * B M K ( ) Migliorare il modello di regressione

4/20/2015 Selezione del modello (1)

file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 15/18

Dati Credit.csvUn dataset che parzialmente abbiamo già indontrato (data Default). Inquesto caso la variabile dipendente è rappresentata da Balance, loscoperto, che deve essere analizzato sulla base delle altre variabili

credit<‐read.csv("http://www.cs.unitn.it/~taufer/Data/Credit.csv",header=T)head(credit)

  X  Income Limit Rating Cards Age Education Gender Student Married1 1  14.891  3606    283     2  34        11   Male      No     Yes2 2 106.025  6645    483     3  82        15 Female     Yes     Yes3 3 104.593  7075    514     4  71        11   Male      No      No4 4 148.924  9504    681     3  36        11 Female      No      No5 5  55.882  4897    357     2  68        16   Male      No     Yes6 6  80.180  8047    569     4  77        10   Male      No      No  Ethnicity Balance1 Caucasian     3332     Asian     9033     Asian     5804     Asian     9645 Caucasian     3316 Caucasian    1151

str(credit)

'data.frame':   400 obs. of  12 variables: $ X        : int  1 2 3 4 5 6 7 8 9 10 ... $ Income   : num  14.9 106 104.6 148.9 55.9 ... $ Limit    : int  3606 6645 7075 9504 4897 8047 3388 7114 3300 6819 ... $ Rating   : int  283 483 514 681 357 569 259 512 266 491 ... $ Cards    : int  2 3 4 3 2 4 2 2 5 3 ... $ Age      : int  34 82 71 36 68 77 37 87 66 41 ... $ Education: int  11 15 11 11 16 10 12 9 13 19 ... $ Gender   : Factor w/ 2 levels " Male","Female": 1 2 1 2 1 1 2 1 2 2 ... $ Student  : Factor w/ 2 levels "No","Yes": 1 2 1 1 1 1 1 1 1 2 ... $ Married  : Factor w/ 2 levels "No","Yes": 2 2 1 1 2 1 1 1 1 2 ... $ Ethnicity: Factor w/ 3 levels "African American",..: 3 2 2 2 3 3 1 2 3 1 ... $ Balance  : int  333 903 580 964 331 1151 203 872 279 1350 ...

Page 16: Selezione del modello Strumenti quantitativi per la …taufer/Slide-pdf/6a SM.pdfS e l z i o n d m f i l e C 8 s r m a n u t D o p b [ S 4 * B M K ( ) Migliorare il modello di regressione

4/20/2015 Selezione del modello (1)

file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 16/18

Confronto grafico , , Cp BIC R2a

Page 17: Selezione del modello Strumenti quantitativi per la …taufer/Slide-pdf/6a SM.pdfS e l z i o n d m f i l e C 8 s r m a n u t D o p b [ S 4 * B M K ( ) Migliorare il modello di regressione

4/20/2015 Selezione del modello (1)

file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 17/18

Confronto grafico -crossvalidazione

BIC

Page 18: Selezione del modello Strumenti quantitativi per la …taufer/Slide-pdf/6a SM.pdfS e l z i o n d m f i l e C 8 s r m a n u t D o p b [ S 4 * B M K ( ) Migliorare il modello di regressione

4/20/2015 Selezione del modello (1)

file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6a_SM.html#(1) 18/18

Riferimenti bibliograficiAn Introduction to Statistical Learning, with applications in R.(Springer, 2013)

Alcune delle figure in questa presentazione sono tratte dal testo con ilpermesso degli autori: G. James, D. Witten, T. Hastie e R. Tibshirani