Re g r e s s i o n e l o g i s t i c a S t r u me n t i q ...taufer/Handout-pdf/4a_RLg.pdf · S t r...

28
21/10/2017 Regressione logistica (22) file:///C:/Users/emanuele.taufer/Google%20Drive/2%20CORSI/3%20SQG/Classes/4a_RLg.html#(22) 1/28 Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer

Transcript of Re g r e s s i o n e l o g i s t i c a S t r u me n t i q ...taufer/Handout-pdf/4a_RLg.pdf · S t r...

Page 1: Re g r e s s i o n e l o g i s t i c a S t r u me n t i q ...taufer/Handout-pdf/4a_RLg.pdf · S t r u me n t i q u a n t i t a t i v i p e r l a g e s t i o n e Emanuele Taufer. 21/10/2017

21/10/2017 Regressione logistica (22)

file:///C:/Users/emanuele.taufer/Google%20Drive/2%20CORSI/3%20SQG/Classes/4a_RLg.html#(22) 1/28

Regressione logistica

Strumenti quantitativi per la gestioneEmanuele Taufer

Page 2: Re g r e s s i o n e l o g i s t i c a S t r u me n t i q ...taufer/Handout-pdf/4a_RLg.pdf · S t r u me n t i q u a n t i t a t i v i p e r l a g e s t i o n e Emanuele Taufer. 21/10/2017

21/10/2017 Regressione logistica (22)

file:///C:/Users/emanuele.taufer/Google%20Drive/2%20CORSI/3%20SQG/Classes/4a_RLg.html#(22) 2/28

Metodi di classificazioneI metodi usati per analizzare situazioni in cui è una variabile qualitativasono noti come metodi di classificazione.

Prevedere una variabile risposta qualitativa significa assegnarel’osservazione ad una categoria o una classe.

D’altra parte, i metodi utilizzati per la classificazione prima di tuttopredicono la probabilità che l’unità appartenga ad una certa classe e poieffettuano la classificazione. In questo senso sono anche dei metodi diregressione.

Y

Page 3: Re g r e s s i o n e l o g i s t i c a S t r u me n t i q ...taufer/Handout-pdf/4a_RLg.pdf · S t r u me n t i q u a n t i t a t i v i p e r l a g e s t i o n e Emanuele Taufer. 21/10/2017

21/10/2017 Regressione logistica (22)

file:///C:/Users/emanuele.taufer/Google%20Drive/2%20CORSI/3%20SQG/Classes/4a_RLg.html#(22) 3/28

In molti casi può essere in effetti più interessante stimare la probabilità diappartenenza ad una certa classe che effettuare una mera classificazione.

Ad esempio, per una compagnia assicuratrice, può essere più importanteconoscere la probabilità che una richiesta di risarcimento sia fraudolentapiuttosto che una semplice classificazione in fraudolenta/non-fraudolenta.

Page 4: Re g r e s s i o n e l o g i s t i c a S t r u me n t i q ...taufer/Handout-pdf/4a_RLg.pdf · S t r u me n t i q u a n t i t a t i v i p e r l a g e s t i o n e Emanuele Taufer. 21/10/2017

21/10/2017 Regressione logistica (22)

file:///C:/Users/emanuele.taufer/Google%20Drive/2%20CORSI/3%20SQG/Classes/4a_RLg.html#(22) 4/28

Tecniche principaliI metodi di classificazione più tradizionali sono

La regressione logistica

L’analisi discriminante (lineare e quadratica)

La classificazione KNN

Altri metodi, computer intensive, sono

I modelli additivi generalizzati

Gli alberi di classificazione, foreste casuali e boosting

Support vector machines

Page 5: Re g r e s s i o n e l o g i s t i c a S t r u me n t i q ...taufer/Handout-pdf/4a_RLg.pdf · S t r u me n t i q u a n t i t a t i v i p e r l a g e s t i o n e Emanuele Taufer. 21/10/2017

21/10/2017 Regressione logistica (22)

file:///C:/Users/emanuele.taufer/Google%20Drive/2%20CORSI/3%20SQG/Classes/4a_RLg.html#(22) 5/28

Alcuni esempiUna società di analisi vuole stimare la probabilità di fallimento diun’impresa sulla base di indicatori di bilancio e di tendenza delmercato

Un servizio di online banking deve essere in grado di determinarese un’operazione svolta sul sito è fraudolenta, sulla basedell’indirizzo IP dell’utente, cronologia delle transazioni passate, ecosì via

Un general store vuole classificare i consumatori e stimare leprobabilità di acquisto di determinate categorie di prodotti in base adalcune caratteristiche demografiche (età, titolo di studio, sesso, etc.)

Page 6: Re g r e s s i o n e l o g i s t i c a S t r u me n t i q ...taufer/Handout-pdf/4a_RLg.pdf · S t r u me n t i q u a n t i t a t i v i p e r l a g e s t i o n e Emanuele Taufer. 21/10/2017

21/10/2017 Regressione logistica (22)

file:///C:/Users/emanuele.taufer/Google%20Drive/2%20CORSI/3%20SQG/Classes/4a_RLg.html#(22) 6/28

Data set DefaultUn data set simulato (10000 casi) disponibile nella libreria ISLR in cui unasocietà creditizia vuole stimare la probabilità di default (incapacità di farefronte ai pagamenti ) in base ad alcune caratteristiche del debitore

- default: variabile binaria (default o no)

- student: variabile binaria (studente o no)

- balance: l’importo medio di debito residuo sulla carta di creditodopo i versamenti mensili

- income: il reddito dell’unità

Y

X1

X2

X3

Page 7: Re g r e s s i o n e l o g i s t i c a S t r u me n t i q ...taufer/Handout-pdf/4a_RLg.pdf · S t r u me n t i q u a n t i t a t i v i p e r l a g e s t i o n e Emanuele Taufer. 21/10/2017

21/10/2017 Regressione logistica (22)

file:///C:/Users/emanuele.taufer/Google%20Drive/2%20CORSI/3%20SQG/Classes/4a_RLg.html#(22) 7/28

I datilibrary(ISLR) data(Default) str(Default)

'data.frame': 10000 obs. of 4 variables: $ default: Factor w/ 2 levels "No","Yes": 1 1 1 1 1 1 1 1 1 1 ... $ student: Factor w/ 2 levels "No","Yes": 1 2 1 1 1 2 1 2 1 1 ... $ balance: num 730 817 1074 529 786 ... $ income : num 44362 12106 31767 35704 38463 ...

Page 8: Re g r e s s i o n e l o g i s t i c a S t r u me n t i q ...taufer/Handout-pdf/4a_RLg.pdf · S t r u me n t i q u a n t i t a t i v i p e r l a g e s t i o n e Emanuele Taufer. 21/10/2017

21/10/2017 Regressione logistica (22)

file:///C:/Users/emanuele.taufer/Google%20Drive/2%20CORSI/3%20SQG/Classes/4a_RLg.html#(22) 8/28

head(Default)

## default student balance income ## 1 No No 729.5265 44361.625 ## 2 No Yes 817.1804 12106.135 ## 3 No No 1073.5492 31767.139 ## 4 No No 529.2506 35704.494 ## 5 No No 785.6559 38463.496 ## 6 No Yes 919.5885 7491.559

Page 9: Re g r e s s i o n e l o g i s t i c a S t r u me n t i q ...taufer/Handout-pdf/4a_RLg.pdf · S t r u me n t i q u a n t i t a t i v i p e r l a g e s t i o n e Emanuele Taufer. 21/10/2017

21/10/2017 Regressione logistica (22)

file:///C:/Users/emanuele.taufer/Google%20Drive/2%20CORSI/3%20SQG/Classes/4a_RLg.html#(22) 9/28

Defaut=Yes (arancio). Default=No (blu)

Page 10: Re g r e s s i o n e l o g i s t i c a S t r u me n t i q ...taufer/Handout-pdf/4a_RLg.pdf · S t r u me n t i q u a n t i t a t i v i p e r l a g e s t i o n e Emanuele Taufer. 21/10/2017

21/10/2017 Regressione logistica (22)

file:///C:/Users/emanuele.taufer/Google%20Drive/2%20CORSI/3%20SQG/Classes/4a_RLg.html#(22) 10/28

Page 11: Re g r e s s i o n e l o g i s t i c a S t r u me n t i q ...taufer/Handout-pdf/4a_RLg.pdf · S t r u me n t i q u a n t i t a t i v i p e r l a g e s t i o n e Emanuele Taufer. 21/10/2017

21/10/2017 Regressione logistica (22)

file:///C:/Users/emanuele.taufer/Google%20Drive/2%20CORSI/3%20SQG/Classes/4a_RLg.html#(22) 11/28

La regressione logisticaLa regressione logistica, anzichè modellare direttamente , propone unmodello per la probabilità che appartenga ad una particolare categoria.

Nel caso dei dati Default, abbiamo

Supponiamo in prima istanza di avere un solo predittore, . Laregressione logistica propone un modello per stimare

Le stime prodotte dal modello sono usate per analisi e classificazione

YY

Y = { 10

 se Default altrimenti

X

p(X) = P(Y = 1|X)

Page 12: Re g r e s s i o n e l o g i s t i c a S t r u me n t i q ...taufer/Handout-pdf/4a_RLg.pdf · S t r u me n t i q u a n t i t a t i v i p e r l a g e s t i o n e Emanuele Taufer. 21/10/2017

21/10/2017 Regressione logistica (22)

file:///C:/Users/emanuele.taufer/Google%20Drive/2%20CORSI/3%20SQG/Classes/4a_RLg.html#(22) 12/28

EsempioNel caso dei dati Default, utilizzando, ad esempio, balance comepredittore, interessa stimare

Per ogni valore dato di balance, si può fare una previsione per default.

Ad esempio, si potrebbe prevedere default = Yes per ogni individuo per ilquale .

Alternativamente, se la società creditizia vuole essere prudente allora sipuò scegliere di utilizzare una soglia più bassa, come ad esempio

.

p(balance) = P(default = Y es|balance)

p(balance) > 0.5

p(balance) > 0.1

Page 13: Re g r e s s i o n e l o g i s t i c a S t r u me n t i q ...taufer/Handout-pdf/4a_RLg.pdf · S t r u me n t i q u a n t i t a t i v i p e r l a g e s t i o n e Emanuele Taufer. 21/10/2017

21/10/2017 Regressione logistica (22)

file:///C:/Users/emanuele.taufer/Google%20Drive/2%20CORSI/3%20SQG/Classes/4a_RLg.html#(22) 13/28

Il modello logisticoPoiché l’obbiettivo è quello di modellare una probabilità, sempre compresain il modello logistico propone di utilizzare la funzione logistica

con un po’ di manipolazione si ottiene

La quantità è chiamata odds, e può assumere qualsiasivalore in .

[0, 1]

p(X) =e + Xβ0 β1

1 + e + Xβ0 β1

=p(X)

1 − p(X)e + Xβ0 β1

p(X)/[1 − p(X)][0, ∞)

Page 14: Re g r e s s i o n e l o g i s t i c a S t r u me n t i q ...taufer/Handout-pdf/4a_RLg.pdf · S t r u me n t i q u a n t i t a t i v i p e r l a g e s t i o n e Emanuele Taufer. 21/10/2017

21/10/2017 Regressione logistica (22)

file:///C:/Users/emanuele.taufer/Google%20Drive/2%20CORSI/3%20SQG/Classes/4a_RLg.html#(22) 14/28

OddsUn odds vicino a indica una probabilità molto bassa di default

Ad esempio, tra gli individui con odds in media ogni andrà indefault poiché implica un odds pari a

Gli odds sono tradizionalmente utilizzati al posto delle probabilità nellescommesse.

Dato un odds è possibile ricavare la probabilità da

0

= 1/4 1 5p(X) = 0.2

= 1/40.2

1 − 0.2

p(X) =odds

1 + odds

Page 15: Re g r e s s i o n e l o g i s t i c a S t r u me n t i q ...taufer/Handout-pdf/4a_RLg.pdf · S t r u me n t i q u a n t i t a t i v i p e r l a g e s t i o n e Emanuele Taufer. 21/10/2017

21/10/2017 Regressione logistica (22)

file:///C:/Users/emanuele.taufer/Google%20Drive/2%20CORSI/3%20SQG/Classes/4a_RLg.html#(22) 15/28

LogitIl logaritmo naturale dell’odds ottiene

che prende il nome di logit o log-odds ed è lineare in

Nella regressione logistica dunque il coefficiente è legato allavariazione del logit e non alla variazione della probabilità cui è legato non-linearmente

Spesso si analizza il coefficiente che indica la variazione dell’odds incorrispondenza di una variazione di poiché

log( ) = + Xp(X)

1 − P(X)β0 β1

X

β1

eβ1

X

= = (p(X)

1 − p(X)e + Xβ0 β1 eβ0 eβ1 )X

Page 16: Re g r e s s i o n e l o g i s t i c a S t r u me n t i q ...taufer/Handout-pdf/4a_RLg.pdf · S t r u me n t i q u a n t i t a t i v i p e r l a g e s t i o n e Emanuele Taufer. 21/10/2017

21/10/2017 Regressione logistica (22)

file:///C:/Users/emanuele.taufer/Google%20Drive/2%20CORSI/3%20SQG/Classes/4a_RLg.html#(22) 16/28

Regressione logistica o lineare?Una regressione lineare propone il modello

La regressione logistica propone il modello

Pur essendo di fatto utilizzabile in questo contesto il modello di regressionelineare può produrre stime di probabilità negative o superiori a 1

Se il numero di categorie di è superiore a 2 il modello lineare diventainappropriato.

p(X) = + Xβ0 β1

p(X) =e + Xβ0 β1

1 + e + Xβ0 β1

Y

Page 17: Re g r e s s i o n e l o g i s t i c a S t r u me n t i q ...taufer/Handout-pdf/4a_RLg.pdf · S t r u me n t i q u a n t i t a t i v i p e r l a g e s t i o n e Emanuele Taufer. 21/10/2017

21/10/2017 Regressione logistica (22)

file:///C:/Users/emanuele.taufer/Google%20Drive/2%20CORSI/3%20SQG/Classes/4a_RLg.html#(22) 17/28

Confronto grafico

Page 18: Re g r e s s i o n e l o g i s t i c a S t r u me n t i q ...taufer/Handout-pdf/4a_RLg.pdf · S t r u me n t i q u a n t i t a t i v i p e r l a g e s t i o n e Emanuele Taufer. 21/10/2017

21/10/2017 Regressione logistica (22)

file:///C:/Users/emanuele.taufer/Google%20Drive/2%20CORSI/3%20SQG/Classes/4a_RLg.html#(22) 18/28

Stima dei coefficientiIl metodo dei minimi quadrati non è adatto ai modelli di regressionelogistica.

Si usa invece il metodo della massima verosimiglianza

Per i dati Default si ottiene

Estimate Std. Error z value Pr(>|z|)(Intercept) -10.6513 0.3612 -29.49 0.0000

balance 0.0055 0.0002 24.95 0.0000

Page 19: Re g r e s s i o n e l o g i s t i c a S t r u me n t i q ...taufer/Handout-pdf/4a_RLg.pdf · S t r u me n t i q u a n t i t a t i v i p e r l a g e s t i o n e Emanuele Taufer. 21/10/2017

21/10/2017 Regressione logistica (22)

file:///C:/Users/emanuele.taufer/Google%20Drive/2%20CORSI/3%20SQG/Classes/4a_RLg.html#(22) 19/28

Interpretazione dei risultatiVediamo che ; ciò indica che un aumento in balance èassociato a un aumento della probabilità di default.

Per essere precisi, un aumento di una unità di balance è associato ad unaumento del log-odds di default di unità.

In alternativa indica la variazione dell’odds incorrispondenza di una variazione di balance

Ad esempio se balance=1500 $ allora l’odds è pari a

= 0.0055β̂1

0.0055

= = 1.0055eβ̂ 1 e0.0055

= = 0.0906p(1500)

1 − p(1500)e−10.6513+0.0055×(1500)

Page 20: Re g r e s s i o n e l o g i s t i c a S t r u me n t i q ...taufer/Handout-pdf/4a_RLg.pdf · S t r u me n t i q u a n t i t a t i v i p e r l a g e s t i o n e Emanuele Taufer. 21/10/2017

21/10/2017 Regressione logistica (22)

file:///C:/Users/emanuele.taufer/Google%20Drive/2%20CORSI/3%20SQG/Classes/4a_RLg.html#(22) 20/28

Con relativa probabilità di default pari a

Una variazione di balance pari a 200 implica una variazione dell’odds paria 3.00417. Si verifichi infatti che

La statistica ed il relativo p-value sono usati per laverifica dell’ipotesi contro

p(1500) = = = 0.08307odds

(1 + odds)

0.0906

1 + 0.0906

= 0.27218 = 0.0906 × 3.00417p(1700)

1 − p(1700)

z = /SE( )β̂1 β̂1: = 0H0 β1 : ≠ 0Ha β1

Page 21: Re g r e s s i o n e l o g i s t i c a S t r u me n t i q ...taufer/Handout-pdf/4a_RLg.pdf · S t r u me n t i q u a n t i t a t i v i p e r l a g e s t i o n e Emanuele Taufer. 21/10/2017

21/10/2017 Regressione logistica (22)

file:///C:/Users/emanuele.taufer/Google%20Drive/2%20CORSI/3%20SQG/Classes/4a_RLg.html#(22) 21/28

Predittori qualitativiIl caso dei predittori qualitativi è trattato esattamente come nellaregressione lineare, ossia attraverso l’uso di variabili dummy.

Ad esempio, se per i dati Default proviamo a stimare ,

Estimate Std. Error z value Pr(>|z|)(Intercept) -3.5041 0.0707 -49.55 0.0000

studentYes 0.4049 0.1150 3.52 0.0004

I risultati indicano che uno studente ha, in media, probabilità di default piùelevata rispetto ad un non-studente

p(student)

(default = Y es|student = Y es) = = 0.0431P̂e−3.5041+0.4049

1 + e−3.5041+0.4049

(default = Y es|student = No) = = 0.0292P̂e−3.5041

1 + e−3.5041

Page 22: Re g r e s s i o n e l o g i s t i c a S t r u me n t i q ...taufer/Handout-pdf/4a_RLg.pdf · S t r u me n t i q u a n t i t a t i v i p e r l a g e s t i o n e Emanuele Taufer. 21/10/2017

21/10/2017 Regressione logistica (22)

file:///C:/Users/emanuele.taufer/Google%20Drive/2%20CORSI/3%20SQG/Classes/4a_RLg.html#(22) 22/28

Regressione logistica con più predittoriPer il modello di regressione logistica multipla è

ed il logit

X = ( , … , )X1 Xp

p(X) =e + +…β0 β1X1 βpXp

1 + e + +…β0 β1X1 βpXp

logit(p(X)) = log = + + …p(X)

1 − p(X)β0 β1X1 βpXp

Page 23: Re g r e s s i o n e l o g i s t i c a S t r u me n t i q ...taufer/Handout-pdf/4a_RLg.pdf · S t r u me n t i q u a n t i t a t i v i p e r l a g e s t i o n e Emanuele Taufer. 21/10/2017

21/10/2017 Regressione logistica (22)

file:///C:/Users/emanuele.taufer/Google%20Drive/2%20CORSI/3%20SQG/Classes/4a_RLg.html#(22) 23/28

EsempioPer il data set Default, utilizzando tutti i predittori otteniamo

Estimate Std. Error z value Pr(>|z|)(Intercept) -10.8690 0.4923 -22.08 0.0000

balance 0.0057 0.0002 24.74 0.0000I(income/1000) 0.0030 0.0082 0.37 0.7115

studentYes -0.6468 0.2363 -2.74 0.0062

I p-value associati a balance e student sono molto piccoli, indicando checiascuna di queste variabili è associata alla probabilità di default.

Al contrario di quanto visto prima, il coefficiente per la variabile student ènegativo, indicando che gli studenti hanno meno probabilità di default deinon-studenti.

Page 24: Re g r e s s i o n e l o g i s t i c a S t r u me n t i q ...taufer/Handout-pdf/4a_RLg.pdf · S t r u me n t i q u a n t i t a t i v i p e r l a g e s t i o n e Emanuele Taufer. 21/10/2017

21/10/2017 Regressione logistica (22)

file:///C:/Users/emanuele.taufer/Google%20Drive/2%20CORSI/3%20SQG/Classes/4a_RLg.html#(22) 24/28

ConfoundingIl coefficiente negativo per student nella regressione logistica multiplaindica che per un dato valore di balance e income, uno studente ha minorprobabilità di default di un non-studente.

Il problema è dovuto al fenomeno, già discusso, della distorsione davariabili omesse, (o confounding) ed al fatto che le variabili student ebalance sono correlate.

Gli studenti hanno maggior probabilità di avere balance più elevato che èassociato a tassi di default più elevati.

Page 25: Re g r e s s i o n e l o g i s t i c a S t r u me n t i q ...taufer/Handout-pdf/4a_RLg.pdf · S t r u me n t i q u a n t i t a t i v i p e r l a g e s t i o n e Emanuele Taufer. 21/10/2017

21/10/2017 Regressione logistica (22)

file:///C:/Users/emanuele.taufer/Google%20Drive/2%20CORSI/3%20SQG/Classes/4a_RLg.html#(22) 25/28

Così, anche se un singolo studente, per un dato balance e income,tenderà ad avere una minor probabilità di default rispetto ad un non-studente.

Il fatto che gli studenti nel complesso tendano ad avere un balance piùelevato significa che, nel complesso, gli studenti tendono al default ad untasso superiore a quello dei non studenti.

Questa distinzione è importante per una società di carte di credito che stacercando di stabilire a quali persone dovrebbero offrire credito.

Uno studente è “più rischioso” di un non-studente in assenza di indicazionirelative a balance.

La situazione si rovescia a parità di balance

Page 26: Re g r e s s i o n e l o g i s t i c a S t r u me n t i q ...taufer/Handout-pdf/4a_RLg.pdf · S t r u me n t i q u a n t i t a t i v i p e r l a g e s t i o n e Emanuele Taufer. 21/10/2017

21/10/2017 Regressione logistica (22)

file:///C:/Users/emanuele.taufer/Google%20Drive/2%20CORSI/3%20SQG/Classes/4a_RLg.html#(22) 26/28

Spiegazione grafica

Studenti: arancio. Non-studenti: blu

Sinistra: il tasso di default per student è uguale o inferiore a quello dei non-studenti per ogni dato valore di balance.

Le linee tratteggiate, corrispondenti alle probabilità di default medie(calcolate du tutti i valori di balance e income) suggeriscono il contrario.

Destra: Spiegazione: student e balance sono correlate. Gli studentitendono ad avere livelli elevati di debito, che è a sua volta associato aduna maggiore probabilità di default.

Page 27: Re g r e s s i o n e l o g i s t i c a S t r u me n t i q ...taufer/Handout-pdf/4a_RLg.pdf · S t r u me n t i q u a n t i t a t i v i p e r l a g e s t i o n e Emanuele Taufer. 21/10/2017

21/10/2017 Regressione logistica (22)

file:///C:/Users/emanuele.taufer/Google%20Drive/2%20CORSI/3%20SQG/Classes/4a_RLg.html#(22) 27/28

Regressione logistica con più classi diprevisione

La regressione logistica può essere estesa al caso in cui la variabile abbia più di due categorie.

Tuttavia in questi casi l’analisi discriminante è molto più agevole da usare epertanto più diffusa nell’utilizzo pratico.

Y

Page 28: Re g r e s s i o n e l o g i s t i c a S t r u me n t i q ...taufer/Handout-pdf/4a_RLg.pdf · S t r u me n t i q u a n t i t a t i v i p e r l a g e s t i o n e Emanuele Taufer. 21/10/2017

21/10/2017 Regressione logistica (22)

file:///C:/Users/emanuele.taufer/Google%20Drive/2%20CORSI/3%20SQG/Classes/4a_RLg.html#(22) 28/28

Riferimenti bibliograficiAn Introduction to Statistical Learning, with applications in R. (Springer,2013)

Alcune delle figure in questa presentazione sono tratte dal testo con ilpermesso degli autori: G. James, D. Witten, T. Hastie e R. Tibshirani