Metodi per la riduzione della dimensionalità Strumenti ...

5/12/2015 Metodi per la riduzione della dimensionalità (1)

file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html#(1) 1/25

Metodi per la riduzione delladimensionalità

Strumenti quantitativi per la gestioneEmanuele Taufer

javascript:w3c_slidy.toggle_table_of_contents()



IntroduzioneGli approcci di selezione visti finora cercano di ridurre la variabilitàdi riducendo il numero di predittori usati:

selezionandone un sottoinsieme (best subset)

riducendo alcuni coefficienti a zero, o prossimi allo zero (LASSO e ridge)

Un terzo approccio ricorre all’uso di nuove variabili definiteattraverso opportune trasformazioni dei predittori

L’obiettivo è quello di ottenere un numero di variabilitrasformate inferiore al numero di predittori che sianocomunque altamente informative nella previsione di

In questo caso parliamo di tecniche di riduzione delladimensionalità

f̂

p

Y



Combinazioni lineari

Siano dati i predittori

Siano , , delle nuove variabili (combinazionilineari dei predittori)

delle costanti (da determinare)

, … ,X1 Xp

, …Z1 ZM M < p

= m = 1, … , MZm ∑j=1

p

ϕjmXj

, , …ϕ1m ϕ2m ϕpm



Regressione lineare sulle variabilitrasformate

L’idea è quella di stimare (semplicemente con OLS) con unmodello di regressione lineare

In questo caso i parametri da stimare sono :

Il problema si semplifica notevolmente se : anzichéstimare coefficienti si stimano solo gli

coefficienti .

La tecnica risulta molto efficace se le combinazioni lineari , preservano adeguatamente l’informazione

contenuta nei predittori originali.

f

= + + , i = 1, … , nyi θ0 ∑m=1

M

θmzm εi

M + 1, , …θ0 θ1 θM

M << p

p + 1 , , … ,β0 β1 βp

M + 1 , , …θ0 θ1 θM

, …Z1 ZM M < p



Dettaglio teorico

Si noti che possiamo riscrivere

dove

In termini pratici si adatta un modello di regressione con deivincoli sui coefficienti , che devono soddisfare le relazioni

, .

L’introduzione di vincoli, come abbiamo già visto, riduce laflessibilità del modello e pertanto ci si deve aspettare unincremento del bias a fronte di una riduzione della varianza

Ancora una volta la tecnica cerca di agire sul trade-off bias-varianza per ottenere una stima ottimale di

∑m=1

M

θmzm = ∑m=1

M

θm ∑j=1

p

ϕjmxj

= ∑j=1

p

∑m=1

M

θmϕjmxj

= ∑j=1

p

βjxj

=βj ∑Mm=1 θmϕjm

β

=βj ∑Mm=1 θmϕjm j = 1, 2, … , p

f



MetodiI metodi di riduzione della dimensionalità hanno pertanto due fasi:

costruzione di un numero ridotto di variabili ,

utilizzo di per la stima di un modello di regressione lineare

Se il modello costruito sulle variabili è equivalente aquello costruito usando i predittori .

Due tecniche di base per la riduzione della dimensionalità sono

Le componenti principali (CP)

I minimi quadrati parziali (PLS)

, , … ,Z1 Z2 ZM M < p

, , … ,Z1 Z2 ZM

M = p Z

X



Analisi delle componenti principali(PCA)

La PCA è una tecnica di riduzione della dimensionalità di un insieme didati rappresentati da una matrice di dimensioni

Ha applicazioni in diversi contesti: dall’analisi esplorativa dei dati allacompressione di grossi file di dati (es. immagini) e riconscimentofacciale.

In questa sede discuteremo di alcune caratteristiche che ci servonoper la sua applicazione nel contesto dell’analisi di regressione.

Nel caso di una matrice di dati possiamo pensare a punti inuno spazio -dimensionale. Se è elevato l’obiettivo è quello diridurre la rappresentazione dei punti ad uno spazio di dimensioni piùridotte ma che mantenga nel miglior modo possibile la struttura dei puntioriginari.

Le nuove dimensioni sono individuate dalla componenti principali: se lospazio ridotto è bidimensionale vi saranno due componenti principali,se a tre dimensioni, tre componenti e così via.

X n × p

n × p np p



Criterio di riduzioneNella tecnica della PCA il miglior modo possibile consiste nelladeterminazione della combinazione lineare delle variabili originarie chemassimizza una misura di variabilità.

In altre parole la tecnica della PCA cerca una prima combinazionelineare con varianza massima possibile, dati alcuni vincoli.Successivamente cerca una seconda combinazione lineare chemassimizzi la variabilità dati i vincoli e la prima componente e così via.

In termini più formali, la prima componente principale per le variabili è la combinazione lineare normalizzata

che ha variabilità massima. La normalizzazione è riferita al vincolo

, , … ,X1 X2 Xp

= + ⋯ +Z1 ϕ11X1 ϕp1Xp

= 1∑pj=1 ϕ2

j1



CoefficientiLe costanti sono i pesi (loadings) della prima componenteprincipale

La soluzione è determinabile attraverso la decomposizione dellamatrice di varianza-covarianza di in autovalori e autovettori.

Per ogni singola riga della matrice ( unità di osservazione) èpossibile calcolare il corrispondente punteggio (score) fattoriale eutilizzarlo, ad esempio, in una rappresentazione (approssimata)unidimensionale della matrice .

, …ϕ11 ϕp1

X

X n

X

= + + ⋯ +zi1 ϕ11xi1 ϕ21xi2 ϕp1xip



Esempio: Advertising

Spesa in pubblicità e popolazione per città in USA

= Popolazione in decine di migliaia

= Spesa in pubblicità in migliaia di $

Tipicamente le variabili sono standardizzate prima di calcolarele CP

n = 100

X1

X2

= 0.839 + 0.544Z1 X1 X2



Punteggi della prima CP



Seconda CPLa seconda componente principale è la combinazione linearenormalizzata che ha varianza massima ed è incorrelata con la primacomponente principale.

Formalmente:

tale che e

I punteggi fattoriali della seconda CP possono essere utilizzati assiemeai punteggi fattoriali della prima CP, ad esempio, in unarappresentazione (approssimata) bidimensionale della matrice didimensione .

= + ⋯ +Z2 ϕ12X1 ϕp2Xp

= 1∑pj=1 ϕ2

j2 Cor( , ) = 0Z1 Z2

Xn × p

= + + ⋯ +zi2 ϕ12xi1 ϕ22xi2 ϕp2xip



Standardizzazione delle variabilinella PCA

Le CP possono essere interpretate in diversi modi.

Ad esempio, la prima CP identifica la direzione in cui i dati hannovariabilità maggiore.

Se la distanza tra punti è misurata con la distanza Euclidea, la primacomponente può anche essere interpretata come la retta più vicinaalle osservazioni nello spazio -dimensionale.

Se alcune variabili hanno, per l’unità di misura usata, variabilitàmolto maggiore rispetto ad altre tendono a dominare la costruzionedelle CP.

Per evitare quest’effetto dovuto semplicemente alla scala con cui sonomisurate e variabili, è opportuno procedere ad una standardizzazionedi tutte le variabili prima di effettuare una PCA

n p

X



Percentuale di varianza spiegataPoichèle CP sono calcolate massimizzando la varianza, una misura dellabontà dell’approssimazione dello spazio -dimensionale originario èdata dalla percentuale di variabilità totale presente nella matrice spiegata dalle prime componenti principali.

La variabilità totale nella matrice (standardizzata) è data da

e la varianza spiegata dalla CP , è

quindi la percentuale di varianza spiegata (PVE) dalla -esima CP è

Per la varianza spiegata dalle prime CP basta sommare lecorrispondenti PVE. In totale ci sono CP e la sommadella loro PVE è pari a 1.

pX

M

X

V ar( ) =∑j=1

p

Xj ∑j=1

p 1n

∑i=1

n

x2ij

m m = 1, 2, … , M

=1n

∑i=1

n

z2im

1n

∑i=1

n ( )∑j=1

p

ϕjmxij

2

m

∑ni=1 ( )∑p

j=1 ϕjmxij

2

∑pj=1 ∑n

i=1 x2ij

Mmin(n − 1, p)



Scree plot

Sinistra: scree plot (PVE delle singole CP)

Destra: PVE cumulata



Regressione con le CP (PCR)L’approccio alla regressione con le CP consiste nel costruire CPdai predittori e utilizzarle come nuovi predittori in un modello diregressione lineare

Poichè le CP cercano di preservare al massimo la variabilità deipredittori, l’assunzione di base, non necessariamente vera, è chequesto preservi al massimo anche la relazione con

Se l’assunto di base della PCR tiene, l’uso di porta arisultati migliori rispetto all’uso di , poiché la maggiorparte o tutta l’informazione dei dati su è contenuta in e stimando solo coefficienti si mitiga l’overfitting.

La PCR, utilizzando nuove variabili incorrelate tra loro è una tecnicaappropriata anche in caso di forte multicollinearità tra i predittorioriginali.

Mp

Y

, … ,Z1 ZM

, … ,X1 Xp

Y , … ,Z1 ZM

M << p



Esempio: dati simulati

Sinistra: dati simulati con , - tutti i predittori legati a

Destra: dati simulati con , - solo 2 predittori legati a

p = 45 n = 50 Y

p = 45 n = 50 Y



ConfrontiLa PCR non è una tecnica di selezione delle variabili poichè usa sempretutti i predittori originali nella costruzione delle combinazioni lineari

In questo senso è molto simile alla regressione ridge

E’ opportuno procedere ad una standardizzazione dei predittori primadi calcolare le CP

La tecnica funziona bene quando poche componenti riescono ariassumere una parte sostanziale della variabilità totale nei predittori

Il numero di variabili da usare nella PCR è tipicamente scelto concross-validazione

p

M



PCR - Ridge - LASSO

Dati imulati in cui le prime 5 CP di contengono tuttal’informazionesu .

XY



Esempio: PCR sui dati Credit

Sinistra: stime dei coefficienti standardizzati sui dati di Credit per diversivalori di .

Destra: MSE ottenuto da 10-fold cross-validazione utilizzando PCR, infunzione di .

M

M



Minimi quadrati parziali (PLS)Il metodo delle CP non considera la relazione esistente tra

e nella costruzione delle variabili .

Il metodo dei minimi quadrati parziali cerca di considerarequest’aspetto.

Il metodo delle CP può essere visto come una tecnica di statisticallearning unsupervised mentre il metodo PLS è una tecnica supervised

, … ,X1 Xp Y , … ,Z1 ZM



Prima combinazione lineare PLSDati predittori standardizzati, il coefficiente è calcolato da unaregressione semplice di su , e la primacombinazione lineare:

Riassumendo:

Nella PCA i coefficienti di sono calcolati massimizzando lavarianza della combinazione linere sotto vincolo dinormalizzazione (somma dei quadrati pari a uno)

Nei PLS ogni coefficiente di è calcolato da regressioni linearisemplici di su ciascuno dei predittori

p ϕj1

Y Xj j = 1, … , p

= + ⋯ +Z1 ϕ11X1 ϕp1Xp

Z1

Z1

Y



Confronto PLS e PCA

Continuo: prima componente PLS

Tratteggiato: prima componente PCA



PLS successivePer identificare la seconda direzione (componente) ciascun predittoreviene prima depurato dall’effetto di , regredendo ogni variabile su

e calcolandone i residui.

è calcolato sui residui esattamente nello stesso modo in cui è statocalcolato sui dati originali

Questo approccio iterativo può essere ripetuto volte peridentificare più componenti PLS

Infine, si usano le variabili PLS esattamente nello stessomodo come per la PCR

Il numero M di minimi quadrati parziali da utilizzare è determinato concross-validazione

Spesso i PLS non producono risultati sensibilmente migliori rispettoalla regressione ridge o PCR.

Infatti, sebbene la riduzione della dimensionalità supervised dei PLSpossa ridurre il bias, è anche possibile che aumenti la varianza,cosìcché il beneficio complessivo dei PLS rispetto alla PCR è minimo.

Z1Z1

Z2Z1

M, … ,Z1 ZM

, … ,Z1 ZM



Riferimenti bibliograficiAn Introduction to Statistical Learning, with applications in R.(Springer, 2013)

Alcune delle figure in questa presentazione sono tratte dal testo con ilpermesso degli autori: G. James, D. Witten, T. Hastie e R. Tibshirani

Metodi per la riduzione della dimensionalità Strumenti ...

Documents

Transcript of Metodi per la riduzione della dimensionalità Strumenti ...