5. LÕAnalisi delle Componenti Principali (PCA) · ¥ Se esiste una parziale dipendenza, cio se i...
Transcript of 5. LÕAnalisi delle Componenti Principali (PCA) · ¥ Se esiste una parziale dipendenza, cio se i...
E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati
1
1
5. Analisi delle Componenti Principali
E.Martinelli
5. L’Analisi delle Componenti Principali (PCA)
Analisi della Varianza
PCA e diagonalizzazione della matrice di covarianza
Scores e Loadings
Sviluppo di matrici e residui
Applicazioni all’analisi delle immagini
Applicazione alla regressione multivariata: PrincipalComponents Regression (PCR)
2
5. Analisi delle Componenti Principali
E.Martinelli
Lo spazio degli osservabili
• Ogni misurazioni multivariata è rappresentatada un vettore in uno spazio a N dimensioni
– N è pari alla dimensione del vettore che esprimela osservazione
• La distribuzione statistica dei punti (vettori)definisce le proprietà dell’intero set di dati.
• Per ogni grandezza multivariatarappresentabile in uno spazio vettoriale adimensione N possiamo definre una PDFmultivariata.
– Corollario di grande importanza: osservazioniche descrivono campioni simili sonorappresentate da punti vicini
– Relazione quindi tra distanza reciproca esimilitudine tra campioni (Ipotesi base dellapattern recognition)
variable 1
var
iable
r 2
Variab
le n
S={S1,…,Sn}
E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati
2
3
5. Analisi delle Componenti Principali
E.Martinelli
Statistica descrittiva multivariata
• Come per una distribuzione univariata possiamo definire i descrittorifondamentali:– Media scalare ! vettore
– Varianza scalare ! matrice (matrice di covarianza)
– ….
• La distribuzione normale definita per una variabile univariata conservala sua importanza nella statisica multivariata
4
5. Analisi delle Componenti Principali
E.Martinelli
La matrice di covarianza
• La varianza di una distribuzione univariata definisce la ampiezza delladistribuzione stessa, in pratica il range di valori della variabile che hannouna probabilità “reale” di essere osservati– In pratica il 99% della probabilità si ottiene in un range ampio 3" attorno al
valore medio.
• Poiché la normale è simmetrica attorno al valore medio i punti diisoprobabilità sono 2 a distanza uguale dalla media
• In una distribuzione multivariata la matrice di covarianza definiscel’ampiezza della PDF e definisce il grado di correlazione tra le variabilistesse.
• Il luogo dei punti di isoprobabilità è una ellisse ottenuta come formaquadratica avente come matrice la matrice di covarianza
– Esponente della PDF multivariata
•• La matrice di La matrice di covarianzacovarianza può essere stimata dai dati come: può essere stimata dai dati come:cov(xycov(xy)=)=xxTTyy..
E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati
3
5
5. Analisi delle Componenti Principali
E.Martinelli
Colinearità
• In un problema MLR la soluzione, stima della variabili x, si ottieneinvertendo (meglio pseudoinvertendo) la matrice degli osservabili y
• Tale operazione è possibile se il rango della matrice y è massimo cioèse il numero di colonne linearmente indipendenti coincide con ilnumero di colonne della matrice.
– Cioè se tutte gli osservabili sono linearmente indipendenti tra di loro
• Se esiste una parziale dipendenza, cioè se i coefficienti dellacombinazione lineare sono rigorosamente non nulli, l’inversionenumerica della matrice comporta grossi errori di calcolo
• Questo effetto si chiama “colinearità”
6
5. Analisi delle Componenti Principali
E.Martinelli
Esempio di colinearità
• In uno spettro ottico le righe spettrali coprono un intervallo di lunghezzed’onda, tale intervallo è generalmente coperto da più canali spettrali, dimodo che più variabili concorrono a formare una riga spettrale.
• Se la riga è proporzionale ad una caratteristica del campione (es.concentrazione di glucosio) tutti i canali spettrali relativi alla riga sarannoin egual modo proporzionali alla caratteristica del campione, quindi lerelative variabili (colonne nella matrice dei dati) risulteranno colineari
– Sono colineari le variabili che dipendono quantitativamente da caratteristichedel campione
1840 1860 1880 1900 1920 1940
0
0.02
0.04
0.06
0.08
0.1
Wavelenght [nm]
Ab
so
rba
nce
TextEnd
1000 1500 2000 2500-0.06
-0.04
-0.02
0
0.02
0.04
0.06
0.08
0.1
0.12
Wavelenght [nm]
Ab
so
rba
nce
TextEnd
Spettro NIR di frutti Variabili colineari
E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati
4
7
5. Analisi delle Componenti Principali
E.Martinelli
Colinearità e matrice di covarianza
• La colinearità si esprime attraverso la matrice di covarianza.
• In caso di colinearità i termini non diagonali della matrice di covarianzasono diversi da zero.
• Rimuovere la colinearità quindi significa ridurre la matrice dicovarianza in forma diagonale introducendo delle nuove variabililatenti.
• La tecnica della analisi delle componenti principali consente, tra le altrecose, di ottenere questo risultato.
8
5. Analisi delle Componenti Principali
E.Martinelli
Esempio di matrici di covarianza e luoghidi punti isoprobabili
• Ci sono tre esempi notevoli di matrici di covarianza in termini dicorrelazione tra le variabili.
– Come esempio usiamo una distribuzione bivariata
! =" 0
0 2"
#
$ % &
' (
! =" 0
0 "
#
$ % &
' (
!
" =# x # xy
# xy # y
$
% &
'
( )
Variabili scorrelate
Varianze diverse
Variabili scorrelate
Varianze uguale Variabili correlate
Varianze diverse
E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati
5
9
5. Analisi delle Componenti Principali
E.Martinelli
PDF multivariata e matrice di covarianza
• La normale multivariata ha senso solo se la matrice di covarianzadescrive grandezze correlate tra loro, cioè se la matrice è nondiagonale.
• Infatti per due grandezze (x e y) tra loro non correlate ed indipendentila probabilità di osservare contemporaneamente il valore di x e di y èsemplicemente il prodotto delle due distribuzioni univariate:
!
P x,y( ) = P x( ) " P y( )
10
5. Analisi delle Componenti Principali
E.Martinelli
La matrice di covarianza in forma canonica
• La matrice di covarianza può essere scritta in forma diagonale con unadeguato cambiamento del sistema di riferimento.
• Tale sistema di riferimento corrisponde agli autovettori della matrice dicovarianza, cioè agli assi principali dell’ellisse costruita come formaquadratica dalla matrice di covarianza stessa.
• Tale operazione rende le variabili scorrelate e la PDF prodotto di PDFunivariate.
•• DD’’altro canto le nuove variabili non sono più degli osservabilialtro canto le nuove variabili non sono più degli osservabilifisici (oggetto di misurazioni) ma sono combinazioni lineari difisici (oggetto di misurazioni) ma sono combinazioni lineari diqueste.queste.
• Le nuove variabili prendono il nome di Componenti Principali el’insieme di procedure di calcolo e interpretazione delle componentiprincipali si chiama analisi delle componenti principali (PCA)
!
a " x2 + 2b " xy + c " y2 = x y[ ] "a b
b c
#
$ %
&
' ( "
x
y
#
$ % &
' (
) *1 " u2 + *2 " w
2 = u w[ ] "*1 0
o *2
#
$ %
&
' ( "
u
w
#
$ % &
' (
E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati
6
11
5. Analisi delle Componenti Principali
E.Martinelli
Dimensioni del data set
• Se le variabili di un fenomento multivariato hanno un certo grado dicorrelazione allora i vettori rappresentativi del fenomeno tenderannoad occupare solo una porzione dello spazio degli osservabili.
• Quindi una veriabile di dimensione N riempie uno spazio di dimensioneminore
Sensor 1
Sensor
2
Sensor 1
Sensor
2
Sensor 1Sensor
2
Gas 1
Gas 2
!
s1 = k11 " g1 + k12 " g2
s2 = k21 " g1 + k22 " g2
# $ %
Example: linear sensors
C=0 Dim=2 C>0 and <1 Dim intermediaC=1 Dim=1
Sensori specifici
k12=k21=0
Sensori non specifici ma diversi
K11; k12; k22; k22 diversiNon specifi ed uguali
Spazio delle variabili
indipendenti
12
5. Analisi delle Componenti Principali
E.Martinelli
Principal Component Analysis
•• Lo scopo della PCA è la rappresentazione di un insieme di dati conLo scopo della PCA è la rappresentazione di un insieme di dati conmatrice di matrice di covarianzacovarianza non diagonale e di dimensione N in uno spazio di non diagonale e di dimensione N in uno spazio didimensione minore di N in cui gli stessi dati siano rappresentati da unadimensione minore di N in cui gli stessi dati siano rappresentati da unamatrice di matrice di covarianzacovarianza diagonale. diagonale.
• La diagonalizzazione si ottiene con una rotazione dellecoordinate nella base degli autovettori (componenti principali).
•• Ad ogni Ad ogni autovettoreautovettore è associato un è associato un autovaloreautovalore a cui corrisponde la a cui corrisponde lavarianza della componente principale associata. Se le variabili originarievarianza della componente principale associata. Se le variabili originarieerano parzialmente correlate tra loro alcuni erano parzialmente correlate tra loro alcuni autovaloriautovalori avranno un valore avranno un valoretrascurabile.trascurabile.–– In pratica gli In pratica gli autovettoriautovettori corrispondenti possono essere trascurati e corrispondenti possono essere trascurati e
limitare la rappresentazione solo agli limitare la rappresentazione solo agli autovettoriautovettori con gli con gli autovaloriautovaloripiù grandi.più grandi.
• Poiché la matrice di covarianza nella base delle componenti principali èdiagonale la varianza totale è la somma delle varianze delle singolecomponenti principali.
E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati
7
13
5. Analisi delle Componenti Principali
E.Martinelli
PCA e proiezione
• La PCA è uno dei possibili modelli chedanno luogo alla riduzione delledimensioni, in pratica si tratta di unaproiezione ortogonale dallo spaziooriginale allo spazio delle componentiprincipali i cui autovalori associati sianoquelli di valore maggiore.
s =W ! x
14
5. Analisi delle Componenti Principali
E.Martinelli
PCA
• PCA è un metodo detto del secondo ordine poiché sia le nuovecoordinate che il criterio per la riduzione delle dimensioni si basanounicamente sulle proprietà della matrice di covarianza– La varianza è detta momento secondo dei una distribuzione ed è
proporzionale al quadrato della variabile• Momento primo: media; secondo: varianza; terzo: skewness;…..
• Quindi la PCA si basa sulla ipotesi che la variabile x sia distribuitanormalmente– La media è in genere resa nulla e quindi tutta l’informazione statistica è
contenuta nella matrice di covarianza
• Solo in questo caso le singole componenti principali sarannoindipendenti e la probabilità multivariata diventa il prodotto delleprobabilità univariate
• Nel caso contrario si ottiene unicamente lo scorrelazione dellecomponenti principali
E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati
8
15
5. Analisi delle Componenti Principali
E.Martinelli
Interpretazione geometrica della PCA
PCA
Spazio osservabili
variabile 1
var
iab
ile
2
pc 1
pc 2
Spazio comp. Princ.
pc 1Riduzione
delle
dimensioni
2 1Spazio ridotto
pc1
auto
val
ore
pc2
Confronto
autovalori: una PC
ha un contenuto di
informazione
maggiore rispetto
all’altra
Ellisse dellamatrice dicovarianza
!
" = XT # X =
$ x $ xy
$ xy $ y
%
& '
(
) *
1
2
0TS S
o
!
!
" #$ = % = & '
( )
#1
#2
;
T T
T
X X L
S X L X S L
! = " # $ "
= " = "
!
T1
= X " P1
+ E
16
5. Analisi delle Componenti Principali
E.Martinelli
PCA: scores e loadings
• Le nuove coordinate dei vettori corrispondenti alle osservazioni (le righe dellamatrice x) nella base delle componenti principali prendono il nome di scores
• I coefficienti delle combinazioni lineari che definiscono le componenti principalisono detti loadings
– Il loading quindi fornisce una misura del contributo di ogni osservabile allecomponenti principali.
• I loadings sono anche rappresentabili come scores in quanto sono laproiezione degli assi originali nel sottospazio identificato dallacomponenti principali, quindi scores e loadings possono esseregraficati insieme
-0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1 2
3
4
5
6
7
8 9 10 11
12
13
1
2
3
4
5
6
PC 1 (85.90%)
PC
2 (
10.0
3%
)
Biplot: (o) normalized scores, (+) loads
s1
s2
s3
pc1
pc2
loadings
E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati
9
17
5. Analisi delle Componenti Principali
E.Martinelli
PCA matrix Decomposition
• PCA Può essere considerata come la scomposizione della matrice Xnella base delle componenti principali.
• Limitare la scomposizione alla componente p (p<m) significa reiettareuna parte dei dati
X =
N
M
N
*
Mscore loading
1st PC 2nd PC Mth PC
!
Xnm = Snp " L pmT
+ Residual
*
Mscore loading
*
Mscore loading
+ +…+
18
5. Analisi delle Componenti Principali
E.Martinelli
PCA, correlazione e rumore
• Il rumore è un termine aggiuntivo stocastico proprio di ogni grandezzaosservabile.
• Il rumore è il termine che rende statistica l’operazione di misura.
• Date N variabili il rumore che affetta ognuna di esse è scorrelatorispetto al rumore che affetta le altre.
•• Le Le componenticomponenti principaliprincipali descrivonodescrivono le le direzionidirezioni didi massimamassimacorrelazionecorrelazione tratra i i datidati, per cui le PC , per cui le PC didi ordineordine piùpiù elevatoelevato sonosonoorientate verso le orientate verso le direzionidirezioni didi massimamassima correlazionecorrelazione e e quellequelle didi ordineordineinferioreinferiore verso le verso le direzionidirezioni didi scarsascarsa correlazionecorrelazione..
• Limitare la decomposizione alle componenti principali di ordine piùelevato significa quindi trattenere le direzioni di massima correlazionee rimuovere quelle non correlate, nella parte non correlata c’èsicuramente il rumore (ma non solo quella!!)
• La PCA quindi è un metodo per ridurre la quantità di rumore in un setdi dati multivariati.– esempio: spettroscopia, GC,…
E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati
10
19
5. Analisi delle Componenti Principali
E.Martinelli
Esempio di rimozione del rumore:Reflectance Anisotropy Spectroscopy di superfici organiche ordinate
Original Spectra X
PC1 PC1-3
residuo
20
5. Analisi delle Componenti Principali
E.Martinelli
Esempio: 3 SnO2 sensori for 2 gas
0 10 20 30 40 50 60 70 80 90 1000
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
CO [ppm]
NO
2 [ppm
]
Gf/Gi CO NO2
0.25482 0.63354 0.77832 100.00
0.0000
0.093899 0.27108 0.39692 20.000
0.0000
0.043410 0.23361 0.079543 5.0000
0.0000
0.0097185 0.043353 -0.0021311 1.0000
0.0000
-0.018016 -0.053860 -0.073648 0.0000
0.10000
-0.028579 0.0023183 -0.36593 0.0000
0.20000
-0.25167 -0.028831 -2.4367 0.0000
1.0000
-1.6960 -0.075037 -3.8650 0.0000
5.0000
0.057521 0.21072 0.16777 5.0000
0.10000
-0.13089 0.13002 -2.1376 5.0000
5.0000
-0.068079 -0.0027190 -0.90852 1.0000
1.0000
0.050023 0.22771 0.020198 10.000 1.0000
E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati
11
21
5. Analisi delle Componenti Principali
E.Martinelli
PCA score plot
-4 -3 -2 -1 0 1 2 3-1.5
-1
-0.5
0
0.5
1
1.5 1
2 3
4
5
6
7
8
9
10
11
12
PC 1 (77.25%)
PC
2 (1
8.1
1%
)
Scores Plot
CO
NO2
5,0.1
5,5
1,1
10,1
1,0
100,0
0,0.1
0,0.5
22
5. Analisi delle Componenti Principali
E.Martinelli
PCA bi-plot
-0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8-0.5
0
0.5
1
1
2 3
4
5
6
7
8
9
10
11
12
1
2
3
PC 1 (77.25%)
PC
2 (1
8.1
1%
)
Biplot: (o) normalized scores, (+) loads
E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati
12
23
5. Analisi delle Componenti Principali
E.Martinelli
Sensor 1 vs sensor 2
-2 -1.5 -1 -0.5 0 0.5-0.1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7se
nso
r 2
sensor 1
CO
NO2
24
5. Analisi delle Componenti Principali
E.Martinelli
xi = a ! s1+ b ! s
2+…+ n ! sn
xipca
= a ! pc1+b ! pc
2+ residual
Residual of PCA representation(leverage)
-4
-2
0
2
4
-2
-1
0
1
20
0.5
1
1.5
2
2.5
3
3.5
4
x 10-30
PC 1 (77.25%)
5
4 6
2 9 3 12
11
1
Scores Plot
7 10
PC 2 (18.11%)
8
Q R
esid
ual
-4 -3 -2 -1 0 1 2 3-1.5
-1
-0.5
0
0.5
1
1.5 1
2 3
4
5
6
7
8
9
10
11
12
PC 1 (77.25%)
PC
2 (
18
.11
%)
S cores Plot
E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati
13
25
5. Analisi delle Componenti Principali
E.Martinelli
Significato del residuo
• Il residuo altro non è che l’ammontare dell’informazione per quel datoche non è racchiusa nelle prime componenti principali prese inconsiderazione come modello.
• Un alto valore del residuo da parte di uno o più dati, significa che talidati sono dissimili dai restanti presenti nel dataset.
• Tale parametro serve ad identificare abbastanza rapidamente dellepossibili misure “non corrette” all’interno del set di dati (outliers).
– Bisogna però ricordare che prima di una repentina eliminazione di tali datiè necessario valutare la possibilità che esse descrivano una parte delfenomeno non presa in considerazione fino a quel momento.
26
5. Analisi delle Componenti Principali
E.Martinelli
Procedura PCR
X Y
Xcal
Xvall
Ycal
Yvall
Xcal PC YcalPCA
MLR
B
Yest= Xval * BYval - YestErrore=
&DATI
CALIBRAZIONE
VALIDAZIONE
E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati
14
27
5. Analisi delle Componenti Principali
E.Martinelli
Algoritmo PCR
X T
PT
E= * +
XY B= *
Y = T
PT
* B*
PCA
Original problem
PCR
28
5. Analisi delle Componenti Principali
E.Martinelli
Algoritmo PCR
!
XT" X # $ " P
T + E
T = X " P X = T " PT
Y = X " BT = T "Q
T = T " PT" B
T# B
T = P "QT
Y = X " P " PT( ) " B
T
BT = X
TX( )
%1
" XT" B
T = P " $%1" P
T( ) " XT"Y
BT = P " $
%1" P
T( ) " P "TT"Y = P " $
%1"T
T"Y
!
" =
#1
… 0
… … …
0 … #N
$
%
& & &
'
(
) ) )
E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati
15
29
5. Analisi delle Componenti Principali
E.Martinelli
Esempio: Spettri NIR di frutta secca
• Supponiamo di aver raccolto 36 spettri NIR di frutta secca e di volerrealizzare un modello per la misura del contenuto di umidità e diacidità totale.
• Ogni spettro è formato da 88 variabili corrispondenti ai canali spettralinell’intervallo 1.1-2.5 !m.
• Per ogni specie di frutta sono stati misurati umidità ed acidità conmetodi di riferimento.
• Vogliamo quindi realizzare il seguente modello che dallo spettro X ciconsente di ricavare i due parametri Y. E’ necessario quindi stimare ilparametro K
!
Y1x 2
= X1x 88
" K88x 2
30
5. Analisi delle Componenti Principali
E.Martinelli
Inciso sugli spettri
• Spesso gli spettri ottici, in particolare quelli NIR, sono affetti da drift inlunghezza d’onda detto “baseline drift”
• La baseline può essere eliminato derivando numericamente lo spettro
• Un altro metodo, sempre basato sulla derivata. è la normalizzazione diSavitzky-Golay
1000 1500 2000 25000.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Wavelenght [ nm]
Ab
so
rba
nc
e
1000 1500 2000 2500-0.06
-0.04
-0.02
0
0.02
0.04
0.06
0.08
0.1
Ab
so
rba
nce
Wavelenght [nm]
E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati
16
31
5. Analisi delle Componenti Principali
E.Martinelli
Matrice X e matrice di covarianza
Wavelenght [nm]
sam
ple
s
TextEnd
10 20 30 40 50 60 70 80
5
10
15
20
25
30
35 -0.04
-0.02
0
0.02
0.04
0.06
0.08
0.1
absorbances
Spectral Channels
Sp
ectr
al C
ha
nn
els
TextEnd
10 20 30 40 50 60 70 80
10
20
30
40
50
60
70
80 -0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
covarianza
• Colinearità elevata
• I blocchi di elevata correlazione(+ e -) corrispondono alle righespettrali
– Colonne colorate nella matrice diassorbanza
32
5. Analisi delle Componenti Principali
E.Martinelli
Calcolo della PCA
• Riduciamo gli spettri a media nulla in modo che se l’ipotesi di distribuzionenormale è soddisfatta, tutta l’informazione è contenuta nella matrice dicovarianza.
• Calcolo di autovettori ed autovalori
• I primi 3 autovalori hanno un valore considerevolmente diverso da zero.
• Gli 88 spettri, vettori in uno spazio a dimensione 88, sono in buona parteconfinati in un sottospazio a dimensione 3.
0 5 10 15 20 25 30 35 400
5
10
15
20
25
30
35
40
45
Principal Component
Eig
en
valu
e
Eigenvalue vs. Principal Component
E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati
17
33
5. Analisi delle Componenti Principali
E.Martinelli
Autovalori e varianza
0 20 40
0
10
20
30
40
50
PC
eigenvalue
0 20 40
0
10
20
30
40
50
PC
explained variance [%]
0 20 40
40
50
60
70
80
90
100
110
PC
total variance [%]
34
5. Analisi delle Componenti Principali
E.Martinelli
Scores e loadings
0 50 100-0.2
-0.1
0
0.1
0.2
0.3
0.4
0.5
0 50 100-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0 50 100-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
1000 1500 2000 2500-0.06
-0.04
-0.02
0
0.02
0.04
0.06
0.08
0.1
Spettrooriginale
C anali spettrali
Loadiin
gs
1000 1500 2000 2500-0.06
-0.04
-0.02
0
0.02
0.04
0.06
0.08
0.1
1000 1500 2000 2500-0.06
-0.04
-0.02
0
0.02
0.04
0.06
0.08
0.1
SAMPLES0 10 20 30 40
-10
-8
-6
-4
-2
0
2
4
6
8
10
SAMPLES
1st SCORE
0 10 20 30 40-10
-8
-6
-4
-2
0
2
4
6
8
102nd SCORE
SAMPLES0 10 20 30 40
-7
-6
-5
-4
-3
-2
-1
0
1
2
33rd SCORE
E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati
18
35
5. Analisi delle Componenti Principali
E.Martinelli
Scores plot
-10 -8 -6 -4 -2 0 2 4 6 8 10-10
-8
-6
-4
-2
0
2
4
6
8
10
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15 16
17
18
19
20
21
22
23
24
25
26 27
28
29
30
31
32
33
34
35
36
PC 1 (46.10%)
PC
2 (
43.1
2%
)
Scores Plot
-10 -8 -6 -4 -2 0 2 4 6 8 10-7
-6
-5
-4
-3
-2
-1
0
1
2
3
1 2
3
4
5
6
7
8 9
10
11
12
13 14
15
16 17 18
19
20
21
22 23
24 25
26
27
28
29
30
31 32
33
34
35
36
PC 1 (46.10%)
PC
3 (
8.0
4%
)
Scores Plot
36
5. Analisi delle Componenti Principali
E.Martinelli
Decomposizione e residui
0 10 20 30 40 50 60 70 80 90-0.06
-0.04
-0.02
0
0.02
0.04
0.06
0.08
0.1
0.12
0 10 20 30 40 50 60 70 80 90-0.06
-0.04
-0.02
0
0.02
0.04
0.06
0.08
0.1
0.12
0 10 20 30 40 50 60 70 80 90-0.06
-0.04
-0.02
0
0.02
0.04
0.06
0.08
0.1
0.12
0 10 20 30 40 50 60 70 80 90-0.01
-0.005
0
0.005
0.01
0.015
0 10 20 30 40 50 60 70 80 90-3
-2
-1
0
1
2
3x 10
-3
0 10 20 30 40 50 60 70 80 90-2.5
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
2.5x 10
-3
Prima PC Seconda PC Terza PC
Residui
E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati
19
37
5. Analisi delle Componenti Principali
E.Martinelli
Calcolo della Principal ComponentsRegression (PCR)
• Separiamo il set di dati in due:
– 26 per il calcolo del modello PCcal, Ycal
– 10 per la valutazione dell’errore PCval, Yval
• Dal modello si calcola la matrice di regressione Bpcr
• Si calcola poi la stima sul set di validazione (e per confronto anche suquello di calibrazione)
– Si valuta RMSEC ed RMSECVr
!
stimaYcal
= Xcal" B
T
stimaYval
= Xval" B
T
!
Ycal
= Xcal" B
T# B
T= P " $
%1"T
T"Y
cal
38
5. Analisi delle Componenti Principali
E.Martinelli
Esempio risultati
2 2.5 3 3.5 4 4.5 5
x 10-3
2
2.5
3
3.5
4
4.5
5x 10
-3
0.058 0.06 0.062 0.064 0.066 0.068 0.07 0.072 0.0740.055
0.06
0.065
0.07
0.075
2 2.2 2.4 2.6 2.8 3 3.2 3.4 3.6 3.8 4
x 10-3
2
2.5
3
3.5
4x 10
-3
0.064 0.065 0.066 0.067 0.068 0.069 0.07 0.071 0.0720.064
0.066
0.068
0.07
0.072
calibrazione test
RMSECacidità=3.1 10-4
RMSECumidità=0.0013
RMSECVacidità=5.9 10-4
RMSECVumidità=0.0019
E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati
20
39
5. Analisi delle Componenti Principali
E.Martinelli
Altre applicazioni della PCA
40
5. Analisi delle Componenti Principali
E.Martinelli
4 sensors for 2 gases
0 100 200 300 400 500 600 700 8000
100
200
300
400
500
600
700
800
n-octane [ppm]
tolu
en
e [p
pm
]
E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati
21
41
5. Analisi delle Componenti Principali
E.Martinelli
PCA scores
-5 -4 -3 -2 -1 0 1 2 3-1.5
-1
-0.5
0
0.5
1
1
2
3
4
5
6 7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
PC 1 (93.48%)
PC
2 ( 6
.50
%)
Scores Plot
n-octane
toluene
Sensor Space
42
5. Analisi delle Componenti Principali
E.Martinelli
Linear normalisation
!
si = Kij " cj
# si =si
sm
m
$=
Kij " cj
Kmj " cj
m
$=
Kij
Kmj
m
$
Extraction of qualitative information
E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati
22
43
5. Analisi delle Componenti Principali
E.Martinelli
Linear normalization
-4 -3 -2 -1 0 1 2 3-4
-3
-2
-1
0
1
2
1
2
3
4
5 6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21 22
23
24
PC 1 (76.83%)
PC
2 (2
1.9
7%
)Scores Plot
n-octane
toluene
44
5. Analisi delle Componenti Principali
E.Martinelli
Chemical Sensor Array measurements of two wines: Score plot
-4 -3 -2 -1 0 1 2 3 4 5 6-1
-0.5
0
0.5
1
1.5
1
1
1
1
1 1
2
2 2
2
PC 1 (90.62%)
PC
2 ( 4
.84
%)
Scores Plot
Barbera
Cortese
Infra
-cla
ss v
ariance
Inter-class variance
E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati
23
45
5. Analisi delle Componenti Principali
E.Martinelli
Peaches measurements:raw data
pH sucrose glucose fructose malic acid citric acid
baby gold 4.10 8.80 0.80 1.20 0.60 0.20
grezzano 4.0 7.0 0.60 0.80 0.50 0.10
iris rosso 3.50 4.30 0.90 1.0 0.40 0.60
maria aurelia 4.10 7.30 0.80 1.10 0.40 0.60
snow queen 3.90 5.70 0.80 1.30 0.50 0.50
spring star 3.60 9.40 1.40 1.90 1.0 0.50
super crimson 3.70 8.20 1.0 1.10 0.90 0.60
venus 4.10 7.40 1.60 2.20 0.70 0.40
argento roma 3.60 4.40 0.90 1.10 0.40 0.50
beauty lady 3.90 8.30 0.50 0.70 0.60 0.30
big top 4.50 8.60 0.90 1.30 0.50 0.40
doucer 4.40 9.80 0.70 0.80 0.40 0.10
felicia 4.60 9.30 0.50 0.50 0.20 0.20
kurakata 4.40 6.90 0.60 0.80 0.20 0.20
lucie 3.90 6.40 0.80 1.0 0.70 0.20
morsinai 4.10 5.80 1.60 1.90 0.50 0.60
oro 3.80 7.70 0.40 0.40 0.60 0.20
royal glory 4.0 6.70 0.80 0.90 0.40 0.10
sensation 4.70 4.60 2.0 3.40 0.30 0.20
sweet lady 4.20 5.50 1.30 2.10 0.50 0.40
youyeong 4.90 8.80 1.80 2.50 0.20 0.10
46
5. Analisi delle Componenti Principali
E.Martinelli
Peach Measurements : Bi-Plot
-0.4 -0.2 0 0.2 0.4 0.6 0.8 1-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
1 2
3
4
5
6
7
8 9
10 11
12
13
14
15
16
17 18
19
20
21
1
2
3 4
5
6
PC 1 (38.12%)
PC
2 (
33.9
9%
)
Biplot: (o) normalized scores, (+) loads
pHsucrose
glucose
fructose
malic ac.
citric ac.
E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati
24
47
5. Analisi delle Componenti Principali
E.Martinelli
Applicazione alla analisi delle immagini
• Un immagine digitalizzata può essere considerata come unamatrice NxM nel caso di immagine a scala di grigio (bianco nero)o NxMx3 (nel caso di immagine a colori)
• Considerando una immagine in una scala di tonalità la possiamoconsiderare come una matrice ed applicare la PCA
– Più avanti considereremo le strutture 3dimensionali di dati.
• La decomposizione PCA può mettere in evidenza alcune strutturepeculiari dell’immagine permettendo quindi di studiare lecaratteristiche dell’immagine stessa.
48
5. Analisi delle Componenti Principali
E.Martinelli
PCA: Application to Image Analysis (example 1: I)
20 40 60 80 100 120 140 160 180 200 220
20
40
60
80
100
120
140
• STM image ofSapphyrin moleculesgrowth as aLangmuir-Blodgettfilm onto a goldsubstrate.
Au grains Sapphyrins
E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati
25
49
5. Analisi delle Componenti Principali
E.Martinelli
PCA: Application to Image Analysis(example 1: II)
20 40 60 80 100 120 140 160 180 200 220
20
40
60
80
100
120
140
20 40 60 80 100 120 140 160 180 200 220
20
40
60
80
100
120
140
20 40 60 80 100 120 140 160 180 200 220
20
40
60
80
100
120
140
X = S1
T!L
1 X = S1:10
T!L
1:10 X = S1:15
T!L
1:15
50
5. Analisi delle Componenti Principali
E.Martinelli
PCA: Application to Image Analysis(example 1: III)
20 40 60 80 100 120 140 160 180 200 220
20
40
60
80
100
120
140
• The residuals of theexpansion at thetenth PC put inevidence thesapphyrine film only.
X ! S1:10
T"L
1:10
E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati
26
51
5. Analisi delle Componenti Principali
E.Martinelli
PCA: Application to Image Analysis(example 2: I)
• Caravaggio Deposition
50 100 150 200 250
50
100
150
200
250
300
350
400
52
5. Analisi delle Componenti Principali
E.Martinelli
PCA: Application to Image Analysis(example 2: II)
50 100 150 200 250
50
100
150
200
250
300
350
400
50 100 150 200 250
50
100
150
200
250
300
350
400
X ! S1:10
T"L
1:10 X = S1:10
T!L
1:10
E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati
27
53
5. Analisi delle Componenti Principali
E.Martinelli
Altre applicazioni
Analisi dell’immagini provenienti da strumenti biomedici adesempio….
54
5. Analisi delle Componenti Principali
E.Martinelli
Fig. 1. Principal component analysis of simulated waveforms. Two
waveforms with different latencies and with response failures
were simulated and mixed. Either non-quantal or quantal release
with two release sites was suggested. (A) Simulated waveforms
with shorter (Comp. 1) and longer (Comp. 2) latencies and alsotheir mixture (column a) and the same waveforms contaminated
with noise (column b)(B) Plot of the scores of the two initial
principal components from the experiments with simulations of
non-quantal (a) and quantal (b) waveforms. Note characteristic
parallelograms suggesting the presence of two components. (C)
The scores of the third principal component plotted against the
first (a) and the fourth (b) ones. Note the narrow band (a) and the
cloud (b) suggesting that the third and fourth components were
absent. (D) ‘Alignment’ procedure and extraction of the simulatedwaveforms. The plots and represent transformed (‘aligned’plots of
Ba and Bb, respectively. Note that the parallelograms of
transformed into rectangular fields. Insets (1–3) show waveforms
obtained by averaging the simulations corresponding to the dots
from different parts of the plots in b……
E. Martinell & iC. Di Natale:Introduzione al trattamento Statisticodei Dati
28
55
5. Analisi delle Componenti Principali
E.Martinelli
56
5. Analisi delle Componenti Principali
E.Martinelli