5. LÕAnalisi delle Componenti Principali (PCA) · ¥ Se esiste una parziale dipendenza, cio se i...

28
E. Martinell & iC. Di Natale: Introduzione al trattamento Statistico dei Dati 1 1 5. Analisi delle Componenti Principali E.Martinelli 5. L’Analisi delle Componenti Principali (PCA) Analisi della Varianza PCA e diagonalizzazione della matrice di covarianza Scores e Loadings Sviluppo di matrici e residui Applicazioni all’analisi delle immagini Applicazione alla regressione multivariata: Principal Components Regression (PCR) 2 5. Analisi delle Componenti Principali E.Martinelli Lo spazio degli osservabili Ogni misurazioni multivariata è rappresentata da un vettore in uno spazio a N dimensioni N è pari alla dimensione del vettore che esprime la osservazione La distribuzione statistica dei punti (vettori) definisce le proprietà dell’intero set di dati. Per ogni grandezza multivariata rappresentabile in uno spazio vettoriale a dimensione N possiamo definre una PDF multivariata. Corollario di grande importanza: osservazioni che descrivono campioni simili sono rappresentate da punti vicini Relazione quindi tra distanza reciproca e similitudine tra campioni (Ipotesi base della pattern recognition) variable 1 variabler 2 Variable n S={S 1 ,…,S n }

Transcript of 5. LÕAnalisi delle Componenti Principali (PCA) · ¥ Se esiste una parziale dipendenza, cio se i...

Page 1: 5. LÕAnalisi delle Componenti Principali (PCA) · ¥ Se esiste una parziale dipendenza, cio se i coefficienti della combinazione lineare sono rigorosamente non nulli, lÕinversione

E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati

1

1

5. Analisi delle Componenti Principali

E.Martinelli

5. L’Analisi delle Componenti Principali (PCA)

Analisi della Varianza

PCA e diagonalizzazione della matrice di covarianza

Scores e Loadings

Sviluppo di matrici e residui

Applicazioni all’analisi delle immagini

Applicazione alla regressione multivariata: PrincipalComponents Regression (PCR)

2

5. Analisi delle Componenti Principali

E.Martinelli

Lo spazio degli osservabili

• Ogni misurazioni multivariata è rappresentatada un vettore in uno spazio a N dimensioni

– N è pari alla dimensione del vettore che esprimela osservazione

• La distribuzione statistica dei punti (vettori)definisce le proprietà dell’intero set di dati.

• Per ogni grandezza multivariatarappresentabile in uno spazio vettoriale adimensione N possiamo definre una PDFmultivariata.

– Corollario di grande importanza: osservazioniche descrivono campioni simili sonorappresentate da punti vicini

– Relazione quindi tra distanza reciproca esimilitudine tra campioni (Ipotesi base dellapattern recognition)

variable 1

var

iable

r 2

Variab

le n

S={S1,…,Sn}

Page 2: 5. LÕAnalisi delle Componenti Principali (PCA) · ¥ Se esiste una parziale dipendenza, cio se i coefficienti della combinazione lineare sono rigorosamente non nulli, lÕinversione

E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati

2

3

5. Analisi delle Componenti Principali

E.Martinelli

Statistica descrittiva multivariata

• Come per una distribuzione univariata possiamo definire i descrittorifondamentali:– Media scalare ! vettore

– Varianza scalare ! matrice (matrice di covarianza)

– ….

• La distribuzione normale definita per una variabile univariata conservala sua importanza nella statisica multivariata

4

5. Analisi delle Componenti Principali

E.Martinelli

La matrice di covarianza

• La varianza di una distribuzione univariata definisce la ampiezza delladistribuzione stessa, in pratica il range di valori della variabile che hannouna probabilità “reale” di essere osservati– In pratica il 99% della probabilità si ottiene in un range ampio 3" attorno al

valore medio.

• Poiché la normale è simmetrica attorno al valore medio i punti diisoprobabilità sono 2 a distanza uguale dalla media

• In una distribuzione multivariata la matrice di covarianza definiscel’ampiezza della PDF e definisce il grado di correlazione tra le variabilistesse.

• Il luogo dei punti di isoprobabilità è una ellisse ottenuta come formaquadratica avente come matrice la matrice di covarianza

– Esponente della PDF multivariata

•• La matrice di La matrice di covarianzacovarianza può essere stimata dai dati come: può essere stimata dai dati come:cov(xycov(xy)=)=xxTTyy..

Page 3: 5. LÕAnalisi delle Componenti Principali (PCA) · ¥ Se esiste una parziale dipendenza, cio se i coefficienti della combinazione lineare sono rigorosamente non nulli, lÕinversione

E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati

3

5

5. Analisi delle Componenti Principali

E.Martinelli

Colinearità

• In un problema MLR la soluzione, stima della variabili x, si ottieneinvertendo (meglio pseudoinvertendo) la matrice degli osservabili y

• Tale operazione è possibile se il rango della matrice y è massimo cioèse il numero di colonne linearmente indipendenti coincide con ilnumero di colonne della matrice.

– Cioè se tutte gli osservabili sono linearmente indipendenti tra di loro

• Se esiste una parziale dipendenza, cioè se i coefficienti dellacombinazione lineare sono rigorosamente non nulli, l’inversionenumerica della matrice comporta grossi errori di calcolo

• Questo effetto si chiama “colinearità”

6

5. Analisi delle Componenti Principali

E.Martinelli

Esempio di colinearità

• In uno spettro ottico le righe spettrali coprono un intervallo di lunghezzed’onda, tale intervallo è generalmente coperto da più canali spettrali, dimodo che più variabili concorrono a formare una riga spettrale.

• Se la riga è proporzionale ad una caratteristica del campione (es.concentrazione di glucosio) tutti i canali spettrali relativi alla riga sarannoin egual modo proporzionali alla caratteristica del campione, quindi lerelative variabili (colonne nella matrice dei dati) risulteranno colineari

– Sono colineari le variabili che dipendono quantitativamente da caratteristichedel campione

1840 1860 1880 1900 1920 1940

0

0.02

0.04

0.06

0.08

0.1

Wavelenght [nm]

Ab

so

rba

nce

TextEnd

1000 1500 2000 2500-0.06

-0.04

-0.02

0

0.02

0.04

0.06

0.08

0.1

0.12

Wavelenght [nm]

Ab

so

rba

nce

TextEnd

Spettro NIR di frutti Variabili colineari

Page 4: 5. LÕAnalisi delle Componenti Principali (PCA) · ¥ Se esiste una parziale dipendenza, cio se i coefficienti della combinazione lineare sono rigorosamente non nulli, lÕinversione

E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati

4

7

5. Analisi delle Componenti Principali

E.Martinelli

Colinearità e matrice di covarianza

• La colinearità si esprime attraverso la matrice di covarianza.

• In caso di colinearità i termini non diagonali della matrice di covarianzasono diversi da zero.

• Rimuovere la colinearità quindi significa ridurre la matrice dicovarianza in forma diagonale introducendo delle nuove variabililatenti.

• La tecnica della analisi delle componenti principali consente, tra le altrecose, di ottenere questo risultato.

8

5. Analisi delle Componenti Principali

E.Martinelli

Esempio di matrici di covarianza e luoghidi punti isoprobabili

• Ci sono tre esempi notevoli di matrici di covarianza in termini dicorrelazione tra le variabili.

– Come esempio usiamo una distribuzione bivariata

! =" 0

0 2"

#

$ % &

' (

! =" 0

0 "

#

$ % &

' (

!

" =# x # xy

# xy # y

$

% &

'

( )

Variabili scorrelate

Varianze diverse

Variabili scorrelate

Varianze uguale Variabili correlate

Varianze diverse

Page 5: 5. LÕAnalisi delle Componenti Principali (PCA) · ¥ Se esiste una parziale dipendenza, cio se i coefficienti della combinazione lineare sono rigorosamente non nulli, lÕinversione

E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati

5

9

5. Analisi delle Componenti Principali

E.Martinelli

PDF multivariata e matrice di covarianza

• La normale multivariata ha senso solo se la matrice di covarianzadescrive grandezze correlate tra loro, cioè se la matrice è nondiagonale.

• Infatti per due grandezze (x e y) tra loro non correlate ed indipendentila probabilità di osservare contemporaneamente il valore di x e di y èsemplicemente il prodotto delle due distribuzioni univariate:

!

P x,y( ) = P x( ) " P y( )

10

5. Analisi delle Componenti Principali

E.Martinelli

La matrice di covarianza in forma canonica

• La matrice di covarianza può essere scritta in forma diagonale con unadeguato cambiamento del sistema di riferimento.

• Tale sistema di riferimento corrisponde agli autovettori della matrice dicovarianza, cioè agli assi principali dell’ellisse costruita come formaquadratica dalla matrice di covarianza stessa.

• Tale operazione rende le variabili scorrelate e la PDF prodotto di PDFunivariate.

•• DD’’altro canto le nuove variabili non sono più degli osservabilialtro canto le nuove variabili non sono più degli osservabilifisici (oggetto di misurazioni) ma sono combinazioni lineari difisici (oggetto di misurazioni) ma sono combinazioni lineari diqueste.queste.

• Le nuove variabili prendono il nome di Componenti Principali el’insieme di procedure di calcolo e interpretazione delle componentiprincipali si chiama analisi delle componenti principali (PCA)

!

a " x2 + 2b " xy + c " y2 = x y[ ] "a b

b c

#

$ %

&

' ( "

x

y

#

$ % &

' (

) *1 " u2 + *2 " w

2 = u w[ ] "*1 0

o *2

#

$ %

&

' ( "

u

w

#

$ % &

' (

Page 6: 5. LÕAnalisi delle Componenti Principali (PCA) · ¥ Se esiste una parziale dipendenza, cio se i coefficienti della combinazione lineare sono rigorosamente non nulli, lÕinversione

E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati

6

11

5. Analisi delle Componenti Principali

E.Martinelli

Dimensioni del data set

• Se le variabili di un fenomento multivariato hanno un certo grado dicorrelazione allora i vettori rappresentativi del fenomeno tenderannoad occupare solo una porzione dello spazio degli osservabili.

• Quindi una veriabile di dimensione N riempie uno spazio di dimensioneminore

Sensor 1

Sensor

2

Sensor 1

Sensor

2

Sensor 1Sensor

2

Gas 1

Gas 2

!

s1 = k11 " g1 + k12 " g2

s2 = k21 " g1 + k22 " g2

# $ %

Example: linear sensors

C=0 Dim=2 C>0 and <1 Dim intermediaC=1 Dim=1

Sensori specifici

k12=k21=0

Sensori non specifici ma diversi

K11; k12; k22; k22 diversiNon specifi ed uguali

Spazio delle variabili

indipendenti

12

5. Analisi delle Componenti Principali

E.Martinelli

Principal Component Analysis

•• Lo scopo della PCA è la rappresentazione di un insieme di dati conLo scopo della PCA è la rappresentazione di un insieme di dati conmatrice di matrice di covarianzacovarianza non diagonale e di dimensione N in uno spazio di non diagonale e di dimensione N in uno spazio didimensione minore di N in cui gli stessi dati siano rappresentati da unadimensione minore di N in cui gli stessi dati siano rappresentati da unamatrice di matrice di covarianzacovarianza diagonale. diagonale.

• La diagonalizzazione si ottiene con una rotazione dellecoordinate nella base degli autovettori (componenti principali).

•• Ad ogni Ad ogni autovettoreautovettore è associato un è associato un autovaloreautovalore a cui corrisponde la a cui corrisponde lavarianza della componente principale associata. Se le variabili originarievarianza della componente principale associata. Se le variabili originarieerano parzialmente correlate tra loro alcuni erano parzialmente correlate tra loro alcuni autovaloriautovalori avranno un valore avranno un valoretrascurabile.trascurabile.–– In pratica gli In pratica gli autovettoriautovettori corrispondenti possono essere trascurati e corrispondenti possono essere trascurati e

limitare la rappresentazione solo agli limitare la rappresentazione solo agli autovettoriautovettori con gli con gli autovaloriautovaloripiù grandi.più grandi.

• Poiché la matrice di covarianza nella base delle componenti principali èdiagonale la varianza totale è la somma delle varianze delle singolecomponenti principali.

Page 7: 5. LÕAnalisi delle Componenti Principali (PCA) · ¥ Se esiste una parziale dipendenza, cio se i coefficienti della combinazione lineare sono rigorosamente non nulli, lÕinversione

E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati

7

13

5. Analisi delle Componenti Principali

E.Martinelli

PCA e proiezione

• La PCA è uno dei possibili modelli chedanno luogo alla riduzione delledimensioni, in pratica si tratta di unaproiezione ortogonale dallo spaziooriginale allo spazio delle componentiprincipali i cui autovalori associati sianoquelli di valore maggiore.

s =W ! x

14

5. Analisi delle Componenti Principali

E.Martinelli

PCA

• PCA è un metodo detto del secondo ordine poiché sia le nuovecoordinate che il criterio per la riduzione delle dimensioni si basanounicamente sulle proprietà della matrice di covarianza– La varianza è detta momento secondo dei una distribuzione ed è

proporzionale al quadrato della variabile• Momento primo: media; secondo: varianza; terzo: skewness;…..

• Quindi la PCA si basa sulla ipotesi che la variabile x sia distribuitanormalmente– La media è in genere resa nulla e quindi tutta l’informazione statistica è

contenuta nella matrice di covarianza

• Solo in questo caso le singole componenti principali sarannoindipendenti e la probabilità multivariata diventa il prodotto delleprobabilità univariate

• Nel caso contrario si ottiene unicamente lo scorrelazione dellecomponenti principali

Page 8: 5. LÕAnalisi delle Componenti Principali (PCA) · ¥ Se esiste una parziale dipendenza, cio se i coefficienti della combinazione lineare sono rigorosamente non nulli, lÕinversione

E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati

8

15

5. Analisi delle Componenti Principali

E.Martinelli

Interpretazione geometrica della PCA

PCA

Spazio osservabili

variabile 1

var

iab

ile

2

pc 1

pc 2

Spazio comp. Princ.

pc 1Riduzione

delle

dimensioni

2 1Spazio ridotto

pc1

auto

val

ore

pc2

Confronto

autovalori: una PC

ha un contenuto di

informazione

maggiore rispetto

all’altra

Ellisse dellamatrice dicovarianza

!

" = XT # X =

$ x $ xy

$ xy $ y

%

& '

(

) *

1

2

0TS S

o

!

!

" #$ = % = & '

( )

#1

#2

;

T T

T

X X L

S X L X S L

! = " # $ "

= " = "

!

T1

= X " P1

+ E

16

5. Analisi delle Componenti Principali

E.Martinelli

PCA: scores e loadings

• Le nuove coordinate dei vettori corrispondenti alle osservazioni (le righe dellamatrice x) nella base delle componenti principali prendono il nome di scores

• I coefficienti delle combinazioni lineari che definiscono le componenti principalisono detti loadings

– Il loading quindi fornisce una misura del contributo di ogni osservabile allecomponenti principali.

• I loadings sono anche rappresentabili come scores in quanto sono laproiezione degli assi originali nel sottospazio identificato dallacomponenti principali, quindi scores e loadings possono esseregraficati insieme

-0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1 2

3

4

5

6

7

8 9 10 11

12

13

1

2

3

4

5

6

PC 1 (85.90%)

PC

2 (

10.0

3%

)

Biplot: (o) normalized scores, (+) loads

s1

s2

s3

pc1

pc2

loadings

Page 9: 5. LÕAnalisi delle Componenti Principali (PCA) · ¥ Se esiste una parziale dipendenza, cio se i coefficienti della combinazione lineare sono rigorosamente non nulli, lÕinversione

E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati

9

17

5. Analisi delle Componenti Principali

E.Martinelli

PCA matrix Decomposition

• PCA Può essere considerata come la scomposizione della matrice Xnella base delle componenti principali.

• Limitare la scomposizione alla componente p (p<m) significa reiettareuna parte dei dati

X =

N

M

N

*

Mscore loading

1st PC 2nd PC Mth PC

!

Xnm = Snp " L pmT

+ Residual

*

Mscore loading

*

Mscore loading

+ +…+

18

5. Analisi delle Componenti Principali

E.Martinelli

PCA, correlazione e rumore

• Il rumore è un termine aggiuntivo stocastico proprio di ogni grandezzaosservabile.

• Il rumore è il termine che rende statistica l’operazione di misura.

• Date N variabili il rumore che affetta ognuna di esse è scorrelatorispetto al rumore che affetta le altre.

•• Le Le componenticomponenti principaliprincipali descrivonodescrivono le le direzionidirezioni didi massimamassimacorrelazionecorrelazione tratra i i datidati, per cui le PC , per cui le PC didi ordineordine piùpiù elevatoelevato sonosonoorientate verso le orientate verso le direzionidirezioni didi massimamassima correlazionecorrelazione e e quellequelle didi ordineordineinferioreinferiore verso le verso le direzionidirezioni didi scarsascarsa correlazionecorrelazione..

• Limitare la decomposizione alle componenti principali di ordine piùelevato significa quindi trattenere le direzioni di massima correlazionee rimuovere quelle non correlate, nella parte non correlata c’èsicuramente il rumore (ma non solo quella!!)

• La PCA quindi è un metodo per ridurre la quantità di rumore in un setdi dati multivariati.– esempio: spettroscopia, GC,…

Page 10: 5. LÕAnalisi delle Componenti Principali (PCA) · ¥ Se esiste una parziale dipendenza, cio se i coefficienti della combinazione lineare sono rigorosamente non nulli, lÕinversione

E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati

10

19

5. Analisi delle Componenti Principali

E.Martinelli

Esempio di rimozione del rumore:Reflectance Anisotropy Spectroscopy di superfici organiche ordinate

Original Spectra X

PC1 PC1-3

residuo

20

5. Analisi delle Componenti Principali

E.Martinelli

Esempio: 3 SnO2 sensori for 2 gas

0 10 20 30 40 50 60 70 80 90 1000

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5

CO [ppm]

NO

2 [ppm

]

Gf/Gi CO NO2

0.25482 0.63354 0.77832 100.00

0.0000

0.093899 0.27108 0.39692 20.000

0.0000

0.043410 0.23361 0.079543 5.0000

0.0000

0.0097185 0.043353 -0.0021311 1.0000

0.0000

-0.018016 -0.053860 -0.073648 0.0000

0.10000

-0.028579 0.0023183 -0.36593 0.0000

0.20000

-0.25167 -0.028831 -2.4367 0.0000

1.0000

-1.6960 -0.075037 -3.8650 0.0000

5.0000

0.057521 0.21072 0.16777 5.0000

0.10000

-0.13089 0.13002 -2.1376 5.0000

5.0000

-0.068079 -0.0027190 -0.90852 1.0000

1.0000

0.050023 0.22771 0.020198 10.000 1.0000

Page 11: 5. LÕAnalisi delle Componenti Principali (PCA) · ¥ Se esiste una parziale dipendenza, cio se i coefficienti della combinazione lineare sono rigorosamente non nulli, lÕinversione

E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati

11

21

5. Analisi delle Componenti Principali

E.Martinelli

PCA score plot

-4 -3 -2 -1 0 1 2 3-1.5

-1

-0.5

0

0.5

1

1.5 1

2 3

4

5

6

7

8

9

10

11

12

PC 1 (77.25%)

PC

2 (1

8.1

1%

)

Scores Plot

CO

NO2

5,0.1

5,5

1,1

10,1

1,0

100,0

0,0.1

0,0.5

22

5. Analisi delle Componenti Principali

E.Martinelli

PCA bi-plot

-0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8-0.5

0

0.5

1

1

2 3

4

5

6

7

8

9

10

11

12

1

2

3

PC 1 (77.25%)

PC

2 (1

8.1

1%

)

Biplot: (o) normalized scores, (+) loads

Page 12: 5. LÕAnalisi delle Componenti Principali (PCA) · ¥ Se esiste una parziale dipendenza, cio se i coefficienti della combinazione lineare sono rigorosamente non nulli, lÕinversione

E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati

12

23

5. Analisi delle Componenti Principali

E.Martinelli

Sensor 1 vs sensor 2

-2 -1.5 -1 -0.5 0 0.5-0.1

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7se

nso

r 2

sensor 1

CO

NO2

24

5. Analisi delle Componenti Principali

E.Martinelli

xi = a ! s1+ b ! s

2+…+ n ! sn

xipca

= a ! pc1+b ! pc

2+ residual

Residual of PCA representation(leverage)

-4

-2

0

2

4

-2

-1

0

1

20

0.5

1

1.5

2

2.5

3

3.5

4

x 10-30

PC 1 (77.25%)

5

4 6

2 9 3 12

11

1

Scores Plot

7 10

PC 2 (18.11%)

8

Q R

esid

ual

-4 -3 -2 -1 0 1 2 3-1.5

-1

-0.5

0

0.5

1

1.5 1

2 3

4

5

6

7

8

9

10

11

12

PC 1 (77.25%)

PC

2 (

18

.11

%)

S cores Plot

Page 13: 5. LÕAnalisi delle Componenti Principali (PCA) · ¥ Se esiste una parziale dipendenza, cio se i coefficienti della combinazione lineare sono rigorosamente non nulli, lÕinversione

E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati

13

25

5. Analisi delle Componenti Principali

E.Martinelli

Significato del residuo

• Il residuo altro non è che l’ammontare dell’informazione per quel datoche non è racchiusa nelle prime componenti principali prese inconsiderazione come modello.

• Un alto valore del residuo da parte di uno o più dati, significa che talidati sono dissimili dai restanti presenti nel dataset.

• Tale parametro serve ad identificare abbastanza rapidamente dellepossibili misure “non corrette” all’interno del set di dati (outliers).

– Bisogna però ricordare che prima di una repentina eliminazione di tali datiè necessario valutare la possibilità che esse descrivano una parte delfenomeno non presa in considerazione fino a quel momento.

26

5. Analisi delle Componenti Principali

E.Martinelli

Procedura PCR

X Y

Xcal

Xvall

Ycal

Yvall

Xcal PC YcalPCA

MLR

B

Yest= Xval * BYval - YestErrore=

&DATI

CALIBRAZIONE

VALIDAZIONE

Page 14: 5. LÕAnalisi delle Componenti Principali (PCA) · ¥ Se esiste una parziale dipendenza, cio se i coefficienti della combinazione lineare sono rigorosamente non nulli, lÕinversione

E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati

14

27

5. Analisi delle Componenti Principali

E.Martinelli

Algoritmo PCR

X T

PT

E= * +

XY B= *

Y = T

PT

* B*

PCA

Original problem

PCR

28

5. Analisi delle Componenti Principali

E.Martinelli

Algoritmo PCR

!

XT" X # $ " P

T + E

T = X " P X = T " PT

Y = X " BT = T "Q

T = T " PT" B

T# B

T = P "QT

Y = X " P " PT( ) " B

T

BT = X

TX( )

%1

" XT" B

T = P " $%1" P

T( ) " XT"Y

BT = P " $

%1" P

T( ) " P "TT"Y = P " $

%1"T

T"Y

!

" =

#1

… 0

… … …

0 … #N

$

%

& & &

'

(

) ) )

Page 15: 5. LÕAnalisi delle Componenti Principali (PCA) · ¥ Se esiste una parziale dipendenza, cio se i coefficienti della combinazione lineare sono rigorosamente non nulli, lÕinversione

E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati

15

29

5. Analisi delle Componenti Principali

E.Martinelli

Esempio: Spettri NIR di frutta secca

• Supponiamo di aver raccolto 36 spettri NIR di frutta secca e di volerrealizzare un modello per la misura del contenuto di umidità e diacidità totale.

• Ogni spettro è formato da 88 variabili corrispondenti ai canali spettralinell’intervallo 1.1-2.5 !m.

• Per ogni specie di frutta sono stati misurati umidità ed acidità conmetodi di riferimento.

• Vogliamo quindi realizzare il seguente modello che dallo spettro X ciconsente di ricavare i due parametri Y. E’ necessario quindi stimare ilparametro K

!

Y1x 2

= X1x 88

" K88x 2

30

5. Analisi delle Componenti Principali

E.Martinelli

Inciso sugli spettri

• Spesso gli spettri ottici, in particolare quelli NIR, sono affetti da drift inlunghezza d’onda detto “baseline drift”

• La baseline può essere eliminato derivando numericamente lo spettro

• Un altro metodo, sempre basato sulla derivata. è la normalizzazione diSavitzky-Golay

1000 1500 2000 25000.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Wavelenght [ nm]

Ab

so

rba

nc

e

1000 1500 2000 2500-0.06

-0.04

-0.02

0

0.02

0.04

0.06

0.08

0.1

Ab

so

rba

nce

Wavelenght [nm]

Page 16: 5. LÕAnalisi delle Componenti Principali (PCA) · ¥ Se esiste una parziale dipendenza, cio se i coefficienti della combinazione lineare sono rigorosamente non nulli, lÕinversione

E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati

16

31

5. Analisi delle Componenti Principali

E.Martinelli

Matrice X e matrice di covarianza

Wavelenght [nm]

sam

ple

s

TextEnd

10 20 30 40 50 60 70 80

5

10

15

20

25

30

35 -0.04

-0.02

0

0.02

0.04

0.06

0.08

0.1

absorbances

Spectral Channels

Sp

ectr

al C

ha

nn

els

TextEnd

10 20 30 40 50 60 70 80

10

20

30

40

50

60

70

80 -0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

covarianza

• Colinearità elevata

• I blocchi di elevata correlazione(+ e -) corrispondono alle righespettrali

– Colonne colorate nella matrice diassorbanza

32

5. Analisi delle Componenti Principali

E.Martinelli

Calcolo della PCA

• Riduciamo gli spettri a media nulla in modo che se l’ipotesi di distribuzionenormale è soddisfatta, tutta l’informazione è contenuta nella matrice dicovarianza.

• Calcolo di autovettori ed autovalori

• I primi 3 autovalori hanno un valore considerevolmente diverso da zero.

• Gli 88 spettri, vettori in uno spazio a dimensione 88, sono in buona parteconfinati in un sottospazio a dimensione 3.

0 5 10 15 20 25 30 35 400

5

10

15

20

25

30

35

40

45

Principal Component

Eig

en

valu

e

Eigenvalue vs. Principal Component

Page 17: 5. LÕAnalisi delle Componenti Principali (PCA) · ¥ Se esiste una parziale dipendenza, cio se i coefficienti della combinazione lineare sono rigorosamente non nulli, lÕinversione

E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati

17

33

5. Analisi delle Componenti Principali

E.Martinelli

Autovalori e varianza

0 20 40

0

10

20

30

40

50

PC

eigenvalue

0 20 40

0

10

20

30

40

50

PC

explained variance [%]

0 20 40

40

50

60

70

80

90

100

110

PC

total variance [%]

34

5. Analisi delle Componenti Principali

E.Martinelli

Scores e loadings

0 50 100-0.2

-0.1

0

0.1

0.2

0.3

0.4

0.5

0 50 100-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

0 50 100-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

1000 1500 2000 2500-0.06

-0.04

-0.02

0

0.02

0.04

0.06

0.08

0.1

Spettrooriginale

C anali spettrali

Loadiin

gs

1000 1500 2000 2500-0.06

-0.04

-0.02

0

0.02

0.04

0.06

0.08

0.1

1000 1500 2000 2500-0.06

-0.04

-0.02

0

0.02

0.04

0.06

0.08

0.1

SAMPLES0 10 20 30 40

-10

-8

-6

-4

-2

0

2

4

6

8

10

SAMPLES

1st SCORE

0 10 20 30 40-10

-8

-6

-4

-2

0

2

4

6

8

102nd SCORE

SAMPLES0 10 20 30 40

-7

-6

-5

-4

-3

-2

-1

0

1

2

33rd SCORE

Page 18: 5. LÕAnalisi delle Componenti Principali (PCA) · ¥ Se esiste una parziale dipendenza, cio se i coefficienti della combinazione lineare sono rigorosamente non nulli, lÕinversione

E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati

18

35

5. Analisi delle Componenti Principali

E.Martinelli

Scores plot

-10 -8 -6 -4 -2 0 2 4 6 8 10-10

-8

-6

-4

-2

0

2

4

6

8

10

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15 16

17

18

19

20

21

22

23

24

25

26 27

28

29

30

31

32

33

34

35

36

PC 1 (46.10%)

PC

2 (

43.1

2%

)

Scores Plot

-10 -8 -6 -4 -2 0 2 4 6 8 10-7

-6

-5

-4

-3

-2

-1

0

1

2

3

1 2

3

4

5

6

7

8 9

10

11

12

13 14

15

16 17 18

19

20

21

22 23

24 25

26

27

28

29

30

31 32

33

34

35

36

PC 1 (46.10%)

PC

3 (

8.0

4%

)

Scores Plot

36

5. Analisi delle Componenti Principali

E.Martinelli

Decomposizione e residui

0 10 20 30 40 50 60 70 80 90-0.06

-0.04

-0.02

0

0.02

0.04

0.06

0.08

0.1

0.12

0 10 20 30 40 50 60 70 80 90-0.06

-0.04

-0.02

0

0.02

0.04

0.06

0.08

0.1

0.12

0 10 20 30 40 50 60 70 80 90-0.06

-0.04

-0.02

0

0.02

0.04

0.06

0.08

0.1

0.12

0 10 20 30 40 50 60 70 80 90-0.01

-0.005

0

0.005

0.01

0.015

0 10 20 30 40 50 60 70 80 90-3

-2

-1

0

1

2

3x 10

-3

0 10 20 30 40 50 60 70 80 90-2.5

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

2.5x 10

-3

Prima PC Seconda PC Terza PC

Residui

Page 19: 5. LÕAnalisi delle Componenti Principali (PCA) · ¥ Se esiste una parziale dipendenza, cio se i coefficienti della combinazione lineare sono rigorosamente non nulli, lÕinversione

E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati

19

37

5. Analisi delle Componenti Principali

E.Martinelli

Calcolo della Principal ComponentsRegression (PCR)

• Separiamo il set di dati in due:

– 26 per il calcolo del modello PCcal, Ycal

– 10 per la valutazione dell’errore PCval, Yval

• Dal modello si calcola la matrice di regressione Bpcr

• Si calcola poi la stima sul set di validazione (e per confronto anche suquello di calibrazione)

– Si valuta RMSEC ed RMSECVr

!

stimaYcal

= Xcal" B

T

stimaYval

= Xval" B

T

!

Ycal

= Xcal" B

T# B

T= P " $

%1"T

T"Y

cal

38

5. Analisi delle Componenti Principali

E.Martinelli

Esempio risultati

2 2.5 3 3.5 4 4.5 5

x 10-3

2

2.5

3

3.5

4

4.5

5x 10

-3

0.058 0.06 0.062 0.064 0.066 0.068 0.07 0.072 0.0740.055

0.06

0.065

0.07

0.075

2 2.2 2.4 2.6 2.8 3 3.2 3.4 3.6 3.8 4

x 10-3

2

2.5

3

3.5

4x 10

-3

0.064 0.065 0.066 0.067 0.068 0.069 0.07 0.071 0.0720.064

0.066

0.068

0.07

0.072

calibrazione test

RMSECacidità=3.1 10-4

RMSECumidità=0.0013

RMSECVacidità=5.9 10-4

RMSECVumidità=0.0019

Page 20: 5. LÕAnalisi delle Componenti Principali (PCA) · ¥ Se esiste una parziale dipendenza, cio se i coefficienti della combinazione lineare sono rigorosamente non nulli, lÕinversione

E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati

20

39

5. Analisi delle Componenti Principali

E.Martinelli

Altre applicazioni della PCA

40

5. Analisi delle Componenti Principali

E.Martinelli

4 sensors for 2 gases

0 100 200 300 400 500 600 700 8000

100

200

300

400

500

600

700

800

n-octane [ppm]

tolu

en

e [p

pm

]

Page 21: 5. LÕAnalisi delle Componenti Principali (PCA) · ¥ Se esiste una parziale dipendenza, cio se i coefficienti della combinazione lineare sono rigorosamente non nulli, lÕinversione

E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati

21

41

5. Analisi delle Componenti Principali

E.Martinelli

PCA scores

-5 -4 -3 -2 -1 0 1 2 3-1.5

-1

-0.5

0

0.5

1

1

2

3

4

5

6 7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

PC 1 (93.48%)

PC

2 ( 6

.50

%)

Scores Plot

n-octane

toluene

Sensor Space

42

5. Analisi delle Componenti Principali

E.Martinelli

Linear normalisation

!

si = Kij " cj

# si =si

sm

m

$=

Kij " cj

Kmj " cj

m

$=

Kij

Kmj

m

$

Extraction of qualitative information

Page 22: 5. LÕAnalisi delle Componenti Principali (PCA) · ¥ Se esiste una parziale dipendenza, cio se i coefficienti della combinazione lineare sono rigorosamente non nulli, lÕinversione

E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati

22

43

5. Analisi delle Componenti Principali

E.Martinelli

Linear normalization

-4 -3 -2 -1 0 1 2 3-4

-3

-2

-1

0

1

2

1

2

3

4

5 6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21 22

23

24

PC 1 (76.83%)

PC

2 (2

1.9

7%

)Scores Plot

n-octane

toluene

44

5. Analisi delle Componenti Principali

E.Martinelli

Chemical Sensor Array measurements of two wines: Score plot

-4 -3 -2 -1 0 1 2 3 4 5 6-1

-0.5

0

0.5

1

1.5

1

1

1

1

1 1

2

2 2

2

PC 1 (90.62%)

PC

2 ( 4

.84

%)

Scores Plot

Barbera

Cortese

Infra

-cla

ss v

ariance

Inter-class variance

Page 23: 5. LÕAnalisi delle Componenti Principali (PCA) · ¥ Se esiste una parziale dipendenza, cio se i coefficienti della combinazione lineare sono rigorosamente non nulli, lÕinversione

E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati

23

45

5. Analisi delle Componenti Principali

E.Martinelli

Peaches measurements:raw data

pH sucrose glucose fructose malic acid citric acid

baby gold 4.10 8.80 0.80 1.20 0.60 0.20

grezzano 4.0 7.0 0.60 0.80 0.50 0.10

iris rosso 3.50 4.30 0.90 1.0 0.40 0.60

maria aurelia 4.10 7.30 0.80 1.10 0.40 0.60

snow queen 3.90 5.70 0.80 1.30 0.50 0.50

spring star 3.60 9.40 1.40 1.90 1.0 0.50

super crimson 3.70 8.20 1.0 1.10 0.90 0.60

venus 4.10 7.40 1.60 2.20 0.70 0.40

argento roma 3.60 4.40 0.90 1.10 0.40 0.50

beauty lady 3.90 8.30 0.50 0.70 0.60 0.30

big top 4.50 8.60 0.90 1.30 0.50 0.40

doucer 4.40 9.80 0.70 0.80 0.40 0.10

felicia 4.60 9.30 0.50 0.50 0.20 0.20

kurakata 4.40 6.90 0.60 0.80 0.20 0.20

lucie 3.90 6.40 0.80 1.0 0.70 0.20

morsinai 4.10 5.80 1.60 1.90 0.50 0.60

oro 3.80 7.70 0.40 0.40 0.60 0.20

royal glory 4.0 6.70 0.80 0.90 0.40 0.10

sensation 4.70 4.60 2.0 3.40 0.30 0.20

sweet lady 4.20 5.50 1.30 2.10 0.50 0.40

youyeong 4.90 8.80 1.80 2.50 0.20 0.10

46

5. Analisi delle Componenti Principali

E.Martinelli

Peach Measurements : Bi-Plot

-0.4 -0.2 0 0.2 0.4 0.6 0.8 1-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

1 2

3

4

5

6

7

8 9

10 11

12

13

14

15

16

17 18

19

20

21

1

2

3 4

5

6

PC 1 (38.12%)

PC

2 (

33.9

9%

)

Biplot: (o) normalized scores, (+) loads

pHsucrose

glucose

fructose

malic ac.

citric ac.

Page 24: 5. LÕAnalisi delle Componenti Principali (PCA) · ¥ Se esiste una parziale dipendenza, cio se i coefficienti della combinazione lineare sono rigorosamente non nulli, lÕinversione

E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati

24

47

5. Analisi delle Componenti Principali

E.Martinelli

Applicazione alla analisi delle immagini

• Un immagine digitalizzata può essere considerata come unamatrice NxM nel caso di immagine a scala di grigio (bianco nero)o NxMx3 (nel caso di immagine a colori)

• Considerando una immagine in una scala di tonalità la possiamoconsiderare come una matrice ed applicare la PCA

– Più avanti considereremo le strutture 3dimensionali di dati.

• La decomposizione PCA può mettere in evidenza alcune strutturepeculiari dell’immagine permettendo quindi di studiare lecaratteristiche dell’immagine stessa.

48

5. Analisi delle Componenti Principali

E.Martinelli

PCA: Application to Image Analysis (example 1: I)

20 40 60 80 100 120 140 160 180 200 220

20

40

60

80

100

120

140

• STM image ofSapphyrin moleculesgrowth as aLangmuir-Blodgettfilm onto a goldsubstrate.

Au grains Sapphyrins

Page 25: 5. LÕAnalisi delle Componenti Principali (PCA) · ¥ Se esiste una parziale dipendenza, cio se i coefficienti della combinazione lineare sono rigorosamente non nulli, lÕinversione

E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati

25

49

5. Analisi delle Componenti Principali

E.Martinelli

PCA: Application to Image Analysis(example 1: II)

20 40 60 80 100 120 140 160 180 200 220

20

40

60

80

100

120

140

20 40 60 80 100 120 140 160 180 200 220

20

40

60

80

100

120

140

20 40 60 80 100 120 140 160 180 200 220

20

40

60

80

100

120

140

X = S1

T!L

1 X = S1:10

T!L

1:10 X = S1:15

T!L

1:15

50

5. Analisi delle Componenti Principali

E.Martinelli

PCA: Application to Image Analysis(example 1: III)

20 40 60 80 100 120 140 160 180 200 220

20

40

60

80

100

120

140

• The residuals of theexpansion at thetenth PC put inevidence thesapphyrine film only.

X ! S1:10

T"L

1:10

Page 26: 5. LÕAnalisi delle Componenti Principali (PCA) · ¥ Se esiste una parziale dipendenza, cio se i coefficienti della combinazione lineare sono rigorosamente non nulli, lÕinversione

E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati

26

51

5. Analisi delle Componenti Principali

E.Martinelli

PCA: Application to Image Analysis(example 2: I)

• Caravaggio Deposition

50 100 150 200 250

50

100

150

200

250

300

350

400

52

5. Analisi delle Componenti Principali

E.Martinelli

PCA: Application to Image Analysis(example 2: II)

50 100 150 200 250

50

100

150

200

250

300

350

400

50 100 150 200 250

50

100

150

200

250

300

350

400

X ! S1:10

T"L

1:10 X = S1:10

T!L

1:10

Page 27: 5. LÕAnalisi delle Componenti Principali (PCA) · ¥ Se esiste una parziale dipendenza, cio se i coefficienti della combinazione lineare sono rigorosamente non nulli, lÕinversione

E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati

27

53

5. Analisi delle Componenti Principali

E.Martinelli

Altre applicazioni

Analisi dell’immagini provenienti da strumenti biomedici adesempio….

54

5. Analisi delle Componenti Principali

E.Martinelli

Fig. 1. Principal component analysis of simulated waveforms. Two

waveforms with different latencies and with response failures

were simulated and mixed. Either non-quantal or quantal release

with two release sites was suggested. (A) Simulated waveforms

with shorter (Comp. 1) and longer (Comp. 2) latencies and alsotheir mixture (column a) and the same waveforms contaminated

with noise (column b)(B) Plot of the scores of the two initial

principal components from the experiments with simulations of

non-quantal (a) and quantal (b) waveforms. Note characteristic

parallelograms suggesting the presence of two components. (C)

The scores of the third principal component plotted against the

first (a) and the fourth (b) ones. Note the narrow band (a) and the

cloud (b) suggesting that the third and fourth components were

absent. (D) ‘Alignment’ procedure and extraction of the simulatedwaveforms. The plots and represent transformed (‘aligned’plots of

Ba and Bb, respectively. Note that the parallelograms of

transformed into rectangular fields. Insets (1–3) show waveforms

obtained by averaging the simulations corresponding to the dots

from different parts of the plots in b……

Page 28: 5. LÕAnalisi delle Componenti Principali (PCA) · ¥ Se esiste una parziale dipendenza, cio se i coefficienti della combinazione lineare sono rigorosamente non nulli, lÕinversione

E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati

28

55

5. Analisi delle Componenti Principali

E.Martinelli

56

5. Analisi delle Componenti Principali

E.Martinelli