ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono...

33
ANALISI MULTIVARIATA Federico Marini

Transcript of ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono...

Page 1: ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc)

ANALISI MULTIVARIATA

Federico Marini

Page 2: ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc)

L’approccio multivariato •  I dati analitici vengono normalmente registrati per

caratterizzare oggetti (rocce, alimenti, pazienti, etc) •  Questa caratterizzazione è di norma relativamente

semplice quando per ciascun oggetto vengono misurate poche (fino a 3) variabili.

•  Tuttavia le moderne strumentazioni (multielemento o multisostanza) forniscono spesso molti segnali per ogni campione che viene analizzato: –  Cromatografia –  Spettroscopia –  Attivazione neutronica –  …

•  Ad esempio, nella chimica analitica clinica un campione di sangue è normalmente analizzato per almeno una ventina di variabili

•  La questione centrale di questa parte del corso sarà come estrarre la massima informazione da questi dati

Page 3: ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc)

Un primo esempio: chimica clinica e distribuzioni multivariate

•  La chimica clinica è uno dei campi dove si determinano molte sostanze simultaneamente e dove viene prodotta un’enorme quantità di dati

•  Sebbene i risultati misurati per le diverse variabili siano spesso correlati fra di loro spesso i dati vengono analizzati –  Una variabile alla volta (se un valore è più alto o più basso del

normale si sospetta che il paziente abbia una certa malattia) –  Sequenzialmente (Se a è alto ma b è normale si traggono certe

conclusioni)

•  Tuttavia siccome i dati sono ottenuti simultaneamente e riguardano lo stesso campione, sarebbe preferibile poterli utilizzare simultaneamente invece che uno alla volta.

Page 4: ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc)

Chimica clinica e distribuzioni multivariate - 2

•  La figura mostra uno dei vantaggi dell’approccio multivariato •  L’ellissoide mostra la regione che racchiude il 68.3% dei

campioni secondo un approccio bivariato •  L’asse principale dell’ellissoide è obliquo perché i dati sono

correlati •  Questo indica che il coefficiente di correlazione è uno dei

parametri che caratterizza dati bi- (e multi-)variati •  Se uno avesse considerato i due dati separatamente, la

regione corrispondente allo stesso livello di probabilità sarebbe il rettangolo centrale.

Page 5: ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc)

Distribuzioni multivariate - 3 •  Se avessimo seguito l’approccio univariato, diversi campioni

effettivamente normali (e riconosciuti come tali da uno studio mulivariato) sarebbero stati dichiarati anomali perché cadono al di fuori della regione delimitata dal rettangolo.

•  Questo ragionamento può essere generalizzato al caso di più dimensioni

•  Il punto di partenza di uno studio multivariato è sempre una matrice in cui per n oggetti (campioni) sono registrati m dati (variabili o caratteristiche)

Page 6: ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc)

Informazioni sui dati •  Talora i dati sperimentali possono essere corredati di

informazioni addizionali. •  Informazioni riguardanti gli oggetti:

–  un indice di categoria –  una quantità correlata con l’indice della riga (pH, tempo, …)

•  Informazioni riguardanti le variabili: –  un indice per raggruppare le variabili in blocchi (il caso più semplice è

quando si abbiano molte variabili dipendenti e molte indipendenti) –  una quantità correlata con l’indice della colonna (lunghezza d’onda,

tempo, …)

Page 7: ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc)

La strategia dell’analisi dei dati •  La strategia più adatta dipende dalla natura del

problema da risolvere •  Generalmente i problemi possono essere classificati

nelle seguenti categorie: –  Esplorazione –  Clustering –  Classificazione –  Regressione

Page 8: ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc)

Analisi esplorativa dei dati •  Dall’analisi esplorativa dei dati si possono ottenere:

–  Informazioni sulle variabili (distribuzioni, correlazioni) –  Informazioni sui campioni (outliers, clusters) e sulle relazioni tra

campioni e variabili –  L’eliminazione di una parte del rumore presente all’interno dei

dati –  L’eliminazione (o l’integrazione) dei dati mancanti

•  Un’anal is i esp lorat iva de i dat i è comunque raccomandata anche nel caso dei problemi di altra natura

Page 9: ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc)

La necessità di visualizzare l’informazione •  Un osservatore umano è abilissimo ad identificare patterns

–  Associare un carattere con un particolare suono –  Riconoscere una persona da alcuni tratti salienti e distinguerla da altre

•  Un chimico (analitico) spesso sfrutta questa abilità umana per interpretare i dati ottenuti.

•  Supponiamo che si determini una sola variabile (la quantità di un analita x1) su più campioni.

•  Questi risultati possono essere riportati in un grafico come questo:

•  Già visualizzando questo grafico si può dire che ci sono due gruppi di oggetti tra loro correlati

•  In molti casi, una variabile da sola non sarò sufficiente e si ricorrerà alla misura di una seconda o di una terza

Page 10: ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc)

La necessità di visualizzazione - 2 •  Ad esempio, se si volesse classificare delle rocce, la

determinazione del solo Ni potrebbe non bastare e si potrebbe decidere di misurare anche Ge (sin.) e Ga (destra)

•  Anche in questo caso si concluderebbe facilmente che esistono due gruppi di oggetti

•  Tuttavia tre variabili costituiscono il limite della nostra capacità visuale

Page 11: ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc)

La sfida dell’analisi multivariata •  Per quanto detto finora, se vogliamo sfruttare al meglio la

nostra capacità visuale dobbiamo trovare un modo di rappresentare i dati in 2 o 3 dimensioni

•  Una parte significativa dell’analisi multivariata ha a che fare con la domanda: –  Come si può condensare un’informazione m-dimensionale in 2 o 3

dimensioni?

•  In molti degli esempi introduttivi che saranno discussi di seguito vedremo come la possibilità di ottenere grafici interpretabili e informativi rappresenti un aspetto importante.

Page 12: ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc)

Ridurre le variabili: come fare? •  Per illustrare uno dei concetti chiave dell’analisi multivariata

consideriamo il caso bidimensionale •  In questo spazio, la riduzione delle dimensioni può portare

esclusivamente ad uno spazio monodimensionale (punti su una linea).

•  Una cosa del genere ha poca utilità pratica ma è facilmente generalizzabile al caso ad m dimensioni

Page 13: ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc)

Ridurre le variabili - 2 •  Si possono considerare infinite direzioni per la linea su cui

proiettare i punti. •  Esaminiamo le due rappresentate in figura:

–  Proiettando i punti su I1 la struttura originale dei dati è mantenuta –  Si osservano due gruppi come se si considerasse entrambe le

variabili –  Tutto ciò non accade lungo I2

•  La linea I1 è stata scelta in maniera tale da preservare la massima variabilità tra i campioni

•  Questa rappresenta la definizione di una componente principale

Page 14: ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc)

Ridurre le variabili - PC •  La componente principale è una nuova variabile che descrive

gli oggetti ed è una combinazione delle vecchie variabili •  Questa combinazione è lineare: •  In una situazione tridimensionale, le dimensioni possono

essere ridotte ad 1 o 2 •  La selezione della prima componente principale è ancora

effettuata in maniera tale che trattenga la massima variazione possibile

•  Nel caso si voglia una seconda componente, questa sarà scelta ortogonale alla prima e che spieghi la maggior parte della variazione non spiegata dalla precedente.

•  Nei fatti si è definito un piano su cui proiettare i punti tridimensionali (o, per generalizzazione, m-dimensionali)

21 iii bxaxu +=

Page 15: ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc)

Ridurre le variabili – PC - 2

•  Da un’analisi delle componenti principali si ottengono due risultati principali: •  Una rappresentazione dei dati a bassa dimensionalità (spesso 2 o 3D)

che permette di osservare le relazioni tra campioni •  I valori dei coefficienti a e b che indicano quanto le variabili originali

contribuiscano a determinare la struttura dei dati

Page 16: ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc)

Patterns

•  Prima il termine pattern è stato utilizzato in maniera intuitiva •  Ad esempio la lettera “a” mostra caratteristiche che la rendono

unica rispetto alle altre lettere. •  I nostri occhi e il nostro cervello usano queste caratteristiche

per identificare questa lettera e distinguerla dalle altre •  Questa lista di caratteristiche rappresenta un pattern •  Allo stesso modo, un campione descritto da molti risultati

analitici potrà definirsi come caratterizzato da un pattern di variabili

•  Quello che si desidera è che tipologie diverse di campioni siano rappresentate da patterns differenti tra loro

Page 17: ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc)

Patterns - 2 •  Ad esempio, immaginiamo di voler caratterizzare degli oli di

oliva provenienti da due regioni italiane e di aver misurato su una serie di campioni la percentuale di due acidi grassi

•  Le due concentrazioni definiscono un spazio bi-dimensionale e si vede che i campioni corrispondenti alle due regioni (A e B) occupano regioni differenti di questo spazio

•  In queste condizioni è facile distinguere fra le due classi •  Questo ragionamento può essere facilmente generalizzato •  Ad es. se si hanno 10 acidi grassi si dovrà considerare uno

spazio 10-dimensionale •  Ogni campione sarà quindi rappresen-

tato da un punto in uno spazio a 10 dimensioni

•  Questo punto è descritto da un vettore

Page 18: ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc)

Pattern vector •  Il vettore

–  x = [x1 x2 ….xm]

è composto dai risultati di m misure che costituiscono un set di coordinate.

•  Ognuno di questi patterns costituisce una riga della matrice dei dati

•  Le m variabili definiscono lo spazio del problema •  Se uno fosse capace di visualizzare uno spazio del genere

così come si visualizzano gli spazi a 2 o 3 dimensioni potrebbe rendersi subito conto della presenza di gruppi o clusters

•  Il riconoscimento di patterns simili o l’identificazione di clusters all’interno dei dati è quindi di particolare rilevanza analitica

Page 19: ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc)

Similarità •  In questo contesto, il termine “simili” è particolarmente

rilevante •  Se si osserva la figura, si vede come tale termine assuma un

significato geometrico

•  Ad es a e b sono considerati più simili tra di loro che rispetto a c, mentre d è decisamente differente da tutti e tre

•  Questo esempio in due dimensioni mostra come due oggetti (o i vettori che li descrivono) sono considerati più simili quando siano vicini tra di loro

Page 20: ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc)

Distanza e similarità •  La distanza tra gli oggetti è quindi un indice della similarità tra

gli oggetti stessi •  Una piccola distanza indica una grande similarità tra gli

oggetti •  La distanza non è l’unico criterio per descrivere la

somiglianza tra i campioni •  Si possono usare altri criteri, quali ad esempio la correlazione

Page 21: ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc)

Un secondo esempio: identificazione dei patterns •  Più di 600 meteoriti rinvenuti sulla terra sono stati sottoposti

ad analisi inorganica •  Sono stati identificati almeno 13 elementi (Ni, Ga, Ge, Ir, Au)

utili per la loro classificazione •  Tale classificazione è importante perché gli astronomi

ritengono che ogni gruppo venga da un corpo celeste differente quindi permette di avere una maggiore comprensione della storia astronomica

•  Il processo di classificazione è ampiamente usato dagli uomini per comprendere la struttura di larghi set di oggetti e per conoscere le interrelazioni tra gli oggetti stessi.

•  Un esempio di questo è la tassonomia delle piante, dove le specie sono raggruppate in famiglie, le famiglie in classi, etc sulla base di caratteristiche (numero di cotiledoni, formula fiorale, …)

Page 22: ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc)

Identificazione dei patterns: tassonomia

Page 23: ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc)

Identificazione dei patterns: clustering •  Analogamente, quando su un certo numero di oggetti sono

determinate diverse variabili è possibile applicare una tecnica matematica per realizzare una suddivisione ottimale dei campioni in gruppi

•  Lo strumento principale è il cosiddetto clustering e uno dei suoi risultati più immediati è un grafico chiamato dendrogramma

•  Il dendrogramma è uno strumento per visualizzare le relazioni tra gli oggetti e per comprendere più a fondo la suddivisione ottenuta.

•  Vediamo cosa si otterrebbe nel caso dei meteoriti

Page 24: ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc)

Dendrogramma

•  Si può osservare che: –  I meteoriti 4,5,6,7,8,10,11 e 39 sono molto correlati tra di loro –  Gli stessi meteoriti mostrano alcune similarità con i gruppi (9, 12, 13 e

14) e (34,36,37,38,40,41,43,46) –  I meteoriti 26 e 3 sono piuttosto differenti da tutti gli altri

Page 25: ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc)

Riconoscimento di patterns: classificazione •  L’esempio visto in precedenza si concentrava sulla possibilità

di identificare la presenza di gruppi di oggetti all’interno del set di dati

•  Per introdurre un’altra importante applicazione dell’analisi multivariata, in qualche modo correlata al clustering, partiamo da un altro esempio legato al problema dell’autenticazione degli alimenti, ovvero la verifica che un cibo provenga da un’origine dichiarata

•  Supponiamo di voler derivare una regola che ci permetta di discriminare tra oli di differenti regioni italiane (ad esempio 9)

•  Supponiamo inoltre di aver analizzato un certo numero di oli di sicura provenienza per il loro contenuto in acidi grassi

•  Quello che ci si chiede è se a partire da questi risultati sia possibile derivare una procedura per stabilire l’origine di nuovi campioni

Page 26: ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc)

Classificazione – supervised pattern recognition •  Usando la terminologia rigorosa della pattern recognition:

“Usa i campioni di training (quelli di origine nota) per derivare una regola di classificazione che permetta di assegnare (classificare) i campioni incogniti (quelli di cui non si conosce l’origine) in una delle classi a disposizione (nell’esempio le 9 regioni studiate)”

•  Il fatto che in questo caso l’esistenza di gruppi o classi all’interno dei dati sia data per certa e che questa informazione venga usata attivamente nella messa a punto del modello matematico rende queste tecniche diverse da quelle illustrate negli esempi precedenti

•  Per questo si parla di supervised pattern recognition

Page 27: ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc)

Classificazione •  Matematicamente questo significa che si devono assegnare

le porzioni dello spazio m-dimensionale (8D nell’es) alle (9) classi

•  Ogni nuovo campione viene quindi assegnato alla classe che occupa la porzione di spazio in cui si trova il campione stesso

Page 28: ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc)

Pretrattamento dei dati

•  Il primo e fondamentale passaggio dell’analisi multivariata dei dati consiste nel trasformare i dati stessi nella forma più adatta al problema da risolvere.

•  In particolare, è necessario operare sulle variabili o sui campioni per eliminare fonti indesiderate di variabilità (scalatura)

•  Inoltre bisogna stabilire come comportarsi in presenza di dati mancanti (eliminazione della riga oppure correzione a posteriori)

Page 29: ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc)

Operazioni sulle colonne

•  Le operazioni di scalatura che coinvolgono le colonne della matrice dei dati si rendono necessarie quando le variabili siano definite da unità di misura differenti

•  Lo scopo è di eliminare il contributo alla varianza totale dovuto esclusivamente ai differenti ordini di grandezza coinvolti

•  Questo tipo di pretrattamenti non va effettuato quando si ritiene che la differenza nei valori misurati sia significativa per definire il problema in esame

Page 30: ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc)

Operazioni sulle colonne - 2 •  Range scaling: si trasforma ciascuna variabile in modo da

farle assumere valori compresi tra 0 e 1

jmin,jmax,

jmin,ijij xx

xxx

−−

=′

"   Il range scaling – per come è definito – è particolarmente sensibile agli outlier.

"   La trasformazione più utilizzata è l’autoscaling:

j

jijij s

xxx

−=′

Page 31: ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc)

Operazioni sulle colonne

Page 32: ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc)

…e quando non farlo… •  Non sempre risulta utile operare sulle colonne. La scelta sulla

trasformazione delle variabili deve sempre essere guidata dal senso chimico.

•  Se l’informazione sullo zero della scala di misura è importante, allora i dati non devono essere centrati

•  Allo stesso tempo, se la differenza in termini di ordini di grandezza tra una variabile e l’altra è ritenuta significativa (ad esempio quando le variabili corrispondano alle diverse lunghezze d’onda di uno spettro) è opportuno non scalare i dati

Page 33: ANALISI MULTIVARIATA - chem.uniroma1.it · L’approccio multivariato • I dati analitici vengono normalmente registrati per caratterizzare oggetti (rocce, alimenti, pazienti, etc)

Operazioni sulle righe •  Allo stesso modo, anche se è meno frequente, si possono

pretrattare i dati operando sulle righe della matrice. •  La trasformazione più utilizzata consiste nel vincolare la

somma dei termini di ciascuna riga (o dei loro quadrati) ad assumere un valore costante:

∑ =′j ij kx ∑ =′

j ij kx 2oppure i∀

•  Anche in questo caso deve essere la natura chimica del problema a suggerire quando e se operare il pretrattamento