Analisi delle componenti principali - Strumenti...

Post on 25-Jul-2020

2 views 0 download

Transcript of Analisi delle componenti principali - Strumenti...

Analisi delle componenti principaliStrumenti quantitativi per la gestione

Emanuele Taufer

Analisi delle componenti principali (PCA)

La PCA è una tecnica di riduzione della dimensionalità di un insiemedi dati rappresentati da una matrice X di dimensioni n × p

Ha applicazioni in diversi contesti: dall’analisi esplorativa dei datialla compressione di grossi file di dati (es. immagini) ericonscimento facciale.

Nel caso di una matrice di dati n × p possiamo pensare a n punti inuno spazio p-dimensionale. Se p è elevato l’obiettivo è quello diridurre la rappresentazione dei punti ad uno spazio di dimensioni piùridotte ma che mantenga nel miglior modo possibile la struttura deipunti originari.

Le nuove dimensioni sono individuate dalla componenti principali: selo spazio ridotto è bidimensionale vi saranno due componentiprincipali, se a tre dimensioni, tre componenti e così via.

Criterio di riduzione

Nella tecnica della PCA il miglior modo possibile consiste nelladeterminazione della combinazione lineare delle variabili originarieche massimizza una misura di variabilità.

In altre parole la tecnica della PCA cerca una prima combinazionelineare con varianza massima possibile, dati alcuni vincoli.Successivamente cerca una seconda combinazione lineare chemassimizzi la variabilità dati i vincoli e la prima componente e cosìvia.

In termini più formali, la prima componente principale per levariabili X1,X2, . . . ,Xp è la combinazione lineare normalizzata

Z1 = φ11X1 + · · · + φp1Xp

che ha variabilità massima. La normalizzazione è riferita al vincolo∑pj=1 φ

2j1 = 1

Coefficienti

Le costanti φ11, . . . φp1 sono i pesi (loadings) della primacomponente principale

La soluzione è determinabile attraverso la decomposizione dellamatrice di varianza-covarianza di X in autovalori e autovettori.

Per ogni singola riga della matrice X (n unità di osservazione) èpossibile calcolare il corrispondente punteggio (score) fattoriale eutilizzarlo, ad esempio, in una rappresentazione (approssimata)unidimensionale della matrice X .

zi1 = φ11xi1 + φ21xi2 + · · · + φp1xip

Esempio: Advertising

Figure 1:

Spesa in pubblicità e popolazione per n = 100 città in USA

I X1 = Popolazione in decine di migliaiaI X2 = Spesa in pubblicità in migliaia di $I Z1 = 0.839X1 + 0.544X2I Tipicamente le variabili sono standardizzate prima di calcolare

le CP

Punteggi della prima CP

Figure 2:

Seconda CP

La seconda componente principale è la combinazione linearenormalizzata che ha varianza massima ed è incorrelata con la primacomponente principale.

Formalmente:Z2 = φ12X1 + · · · + φp2Xp

tale che∑p

j=1 φ2j2 = 1 e Cor(Z1,Z2) = 0

I punteggi fattoriali della seconda CP possono essere utilizzatiassieme ai punteggi fattoriali della prima CP, ad esempio, in unarappresentazione (approssimata) bidimensionale della matrice X didimensione n × p.

zi2 = φ12xi1 + φ22xi2 + · · · + φp2xip

Standardizzazione delle variabili nella PCA

Le CP possono essere interpretate in diversi modi.

Ad esempio, la prima CP identifica la direzione in cui i dati hannovariabilità maggiore.

Se la distanza tra punti è misurata con la distanza Euclidea, laprima componente può anche essere interpretata come la retta piùvicina alle n osservazioni nello spazio p-dimensionale.

Se alcune variabili X hanno, per l’unità di misura usata, variabilitàmolto maggiore rispetto ad altre tendono a dominare la costruzionedelle CP.

Per evitare quest’effetto dovuto semplicemente alla scala con cuisono misurate e variabili, è opportuno procedere ad unastandardizzazione di tutte le variabili prima di effettuare una PCA

Percentuale di varianza spiegata

Poichè le CP sono calcolate massimizzando la varianza, una misuradella bontà dell’approssimazione dello spazio p-dimensionaleoriginario è data dalla percentuale di variabilità totale presente nellamatrice X spiegata dalle prime M componenti principali.

La variabilità totale nella matrice X (standardizzata) è data da

p∑j=1

Var(Xj) =p∑

j=1

1n

n∑i=1

x2ij

e la varianza spiegata dalla CP m, m = 1, 2, . . . ,M è

1n

n∑i=1

z2im = 1

n

n∑i=1

p∑j=1

φjmxij

2

la percentuale di varianza spiegata (PVE) dalla m-esima CP è

∑ni=1

(∑pj=1 φjmxij

)2

∑pj=1

∑ni=1 x2

ij

Per la varianza spiegata dalle prime M CP basta sommare lecorrispondenti PVE. In totale ci sono min(n − 1, p) CP e la sommadella loro PVE è pari a 1.

Scree plot

Figure 3:

Sinistra: scree plot (PVE delle singole CP)Destra: PVE cumulata

Regressione con le CP (PCR)

Si consideri il caso in cui si vuole stimare un modello di regressione

yi = β0 + β1x1i + . . . βpxpi + εi i = 1, . . . n

Nel caso in cui p sia molto elevato, potrebbe essere appropriatoridurre la dimensione dei predittori attraverso l’uso delle CP.

L’approccio alla regressione con le CP consiste nel costruire M CPdai p predittori e utilizzarle come predittori (al posto di quellioriginari), in un modello di regressione lineare

Questo approccio è molto efficace nel caso in cui vi sia fortemulticollinearità nei predittori.

Può essere utilizzato anche nel caso in cui p > n, caso in cui lastima tradizionale con OLS non funziona.

Poichè le CP cercano di preservare al massimo la variabilità deipredittori, l’assunzione di base, non necessariamente vera, è chequesto preservi al massimo anche la relazione con Y

Se l’assunto di base della PCR tiene, l’uso di Z1, . . . ,ZM porta arisultati migliori rispetto all’uso di X1, . . . ,Xp, poiché la maggiorparte o tutta l’informazione dei dati su Y è contenuta in Z1, . . . ,ZMe stimando solo M << p coefficienti si mitiga l’overfitting.

La PCR, utilizzando nuove variabili incorrelate tra loro è una tecnicaappropriata anche in caso di forte multicollinearità tra i predittorioriginali.

Dettagli formali

I L’idea è quella di stimare f (semplicemente con OLS) con unmodello di regressione lineare

yi = θ0 +M∑

m=1θmzm + εi , i = 1, . . . , n

I In questo caso i parametri da stimare sono M + 1: θ0, θ1, . . . θMI Il problema si semplifica notevolmente se M << p: anziché

stimare p + 1 coefficienti β0, β1, . . . , βp si stimano solo gliM + 1 coefficienti θ0, θ1, . . . θM .

I La tecnica risulta molto efficace se le combinazioni lineariZ1, . . .ZM , M < p preservano adeguatamente l’informazionecontenuta nei predittori originali.

I Si noti che possiamo riscrivereM∑

m=1θmzm =

M∑m=1

θm

p∑j=1

φjmxj

=p∑

j=1

M∑m=1

θmφjmxj

=p∑

j=1βjxj

dove βj =∑M

m=1 θmφjmI In termini pratici si adatta un modello di regressione con dei

vincoli sui coefficienti β, che devono soddisfare le relazioniβj =

∑Mm=1 θmφjm, j = 1, 2, . . . , p.

I L’introduzione di vincoli, come abbiamo già visto, riduce laflessibilità del modello e pertanto ci si deve aspettare unincremento del bias a fronte di una riduzione della varianza

I Ancora una volta la tecnica cerca di agire sul trade-offbias-varianza per ottenere una stima ottimale di f

Esempio: dati simulati

Figure 4:

Sinistra: dati simulati con p = 45, n = 50 - tutti i predittori legati aYDestra: dati simulati con p = 45, n = 50 - solo 2 predittori legati aY

Aspetti praticiLa PCR non è una tecnica di selezione delle variabili poichè usasempre tutti i predittori originali nella costruzione delle combinazionilineari

In questo senso è molto simile alla regressione ridge (vedi capitolo 6del testo)

E’ opportuno procedere ad una standardizzazione dei predittoriprima di calcolare le CP

La tecnica funziona bene quando poche componenti riescono ariassumere una parte sostanziale della variabilità totale nei ppredittori

Il numero M di variabili da usare nella PCR è tipicamente scelto concross-validazione

L’utilizzo delle CP tuttavia, riduce l’interpretabilità del modello nelcontesto in esame rispetto all’uso dei predittori originali

Riferimenti bibliografici

An Introduction to Statistical Learning, with applications in R.(Springer, 2013)

Alcune delle figure in questa presentazione sono tratte dal testo conil permesso degli autori: G. James, D. Witten, T. Hastie e R.Tibshirani