ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di...

33
Università degli Studi di Padova Università degli Studi di Padova Corso di Laurea Magistrale in Bioingegneria Corso di Laurea Magistrale in Bioingegneria A.A. 2013 A.A. 2013-2014 2014 ANALISI ANALISI DI DI DATI BIOLOGICI DATI BIOLOGICI (parte 0) 1 (parte 0) Giovanni Sparacino Dipartimento di Ingegneria dell’Informazione Università degli Studi di Padova Via Gradenigo 6/B, 35131 Padova Tel. 049 827 7741; e-mail: [email protected] web: http://www.dei.unipd.it/~gianni

Transcript of ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di...

Page 1: ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali evocati, segnali

Università degli Studi di Padova Università degli Studi di Padova

Corso di Laurea Magistrale in BioingegneriaCorso di Laurea Magistrale in Bioingegneria

A.A. 2013A.A. 2013--20142014

ANALISI ANALISI DIDI DATI BIOLOGICIDATI BIOLOGICI(parte 0)

1

(parte 0)

Giovanni SparacinoDipartimento di Ingegneria dell’Informazione

Università degli Studi di PadovaVia Gradenigo 6/B, 35131 Padova

Tel. 049 827 7741; e-mail: [email protected]

web: http://www.dei.unipd.it/~gianni

Page 2: ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali evocati, segnali

Presentazione del CorsoPresentazione del Corso

2

Page 3: ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali evocati, segnali

Web page del corso (unico riferimento ufficiale per avvisi, esami, ...)

•www.dei.unipd.it / ~gianni / adb2013

Orario delle lezioni

Lunedì ore 10.15-12.15 aula Te

Giovedì ore 14.15-16.15 aula Te

3

Ricevimento studenti

•Giovedì ore 16.15-17.15, subito dopo il termine della lezione (prenotarsi

con 24 ore di anticipo via mail)

•Dopo la fine del corso, solo su appuntamento, presso il DEI

Page 4: ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali evocati, segnali

Obiettivi Generali di Analisi di Dati Biologici (ADB)

L’obiettivo di ADB è fornire all’allievo bioingegnere la conoscenza di metodi

avanzati di analisi di dati biologici.

In particolare, si fa ricorso a metodologie di analisi statistica integranti

l’approccio modellistico con quello di elaborazione del segnale, in cascata

logica all’insegnamento obbligatorio di Elaborazione di Segnali Biologici (e

per certi aspetti anche a Modelli e Controllo di Sistemi Biologici)

4

per certi aspetti anche a Modelli e Controllo di Sistemi Biologici)

L’approccio del corso è completamente ingegneristico ed “hands on”: si parte

da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali

evocati, segnali endocrino-metabolici, segnali rivelati da biosensori, serie

epidemiologiche, …), li si analizza, si identificano le metodologie di soluzione più

adatte e le si implementa a basso livello in Matlab mediante algoritmi di cui si

cura anche l’efficienza numerica

Non si usano mai codici fatti da altri (logica: si capisce solo se si fa …)

Page 5: ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali evocati, segnali

Teoria: 60%

Pratica: 40%

COMPONENTI DEL CORSO

5

Page 6: ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali evocati, segnali

Cosa aspettarsi alla fine di questo corso

Al termine del corso, lo studente sarà in grado di padroneggiare, e

implementare numericamente in modo efficace, metodi di analisi dati tra i

più usati in campo di ricerca (non solo clinica) e industriale in senso ampio

(es. saper implementare a basso livello e in autonomia tool di smoothing,

FdW, FdK, PCA, …, è un must per ogni ingegnere)

In particolare, ai fini della professione, questo corso renderà l'allievo in grado

di

6

di

•effettuare l'analisi di un certo problema che richiede l’ “interpretazione di

dati” (dall’elaborazione del segnale o alla simulazione o identificazione di un

sistema)

•individuare le metodologie di soluzione più appropriate

•tradurre le metodologie mediante algoritmi numerici adatti

•implementare gli algoritmi in Matlab

Page 7: ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali evocati, segnali

Cosa non aspettarsi alla fine di questo corso

Aver imparato altre formule e teorie che poi non so come mettere in pratica …

7

Page 8: ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali evocati, segnali

Feedback dagli studenti

In tutte e cinque le sue edizioni (06/07, 07/08, 08/09, 09/10, 11/12 i dati di

confronto del 12/13 non sono stati forniti dall’Ateneo), ADB è risultato al primo

posto, relativamente a tutti i corsi della LM in Bioingegneria, per gradimento

degli studenti (in particolare per: soddisfazione complessiva; chiarezza

espositiva; capacità di stimolare l’interesse; adeguatezza delle competenze

acquisite per future applicazioni in ambito lavorativo)

A livello dell’intera Facoltà di Ingegneria, ADB è sempre stato per gradimento nel

8

A livello dell’intera Facoltà di Ingegneria, ADB è sempre stato per gradimento nel

top 5% dei corsi (nel 07/08 al primo posto assoluto sui 698 corsi monitorati

dalla facoltà)

Valutazioni anonime degli studenti su ADB disponibili su

http://www.dei.unipd.it/~gianni/valutazioni_adb/

Page 9: ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali evocati, segnali

Conoscenze date per consolidate

Informatica di Base

Elementi di Probabilità e Statistica

Conoscenza di base di Matlab

CONOSCENZE PRELIMINARI RICHIESTECONOSCENZE PRELIMINARI RICHIESTE

9

Insegnamenti dati come prerequisiti

Segnali e Sistemi e Sistemi e Modelli (LT)

Elaborazione di Segnali Biologici

Modelli e Controllo di Sistemi Biologici

Page 10: ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali evocati, segnali

Per homework si intende la soluzione, svolta al di fuori dell’orario di lezione, di

un problema assegnato dal docente.

Nell’A.A. 2013/14 verranno proposti tre homework (indicativamente a fine

ottobre, fine novembre, e a fine corso) e verrà richiesta la riconsegna di almeno

due (lo studente sceglie quali)

Gli argomenti dei tre homework riguarderanno tipicamente problematiche viste a

lezione per le quali non c’era stato tempo di fare delle esercitazioni specifiche in

I DUE HOMEWORK

10

lezione per le quali non c’era stato tempo di fare delle esercitazioni specifiche in

aula. Tipicamente, verrà richiesto di risolvere un problema di analisi dati

utilizzando Matlab e producendo, oltre al codice, una brevissima relazione.

Ci si aspetta che, in media, un homework non richieda più di 4-5 ore di lavoro a

casa

Per la riconsegna degli homework si fisseranno di volta in volta delle scadenze

(es. 15-20 gg.) E’ inteso che gli homework vengano svolti individualmente, dato

che la loro discussione verrà affrontata, di fronte al calcolatore, in sede di esame

Page 11: ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali evocati, segnali

ESEMPIO DI HOMEWORK

11

Page 12: ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali evocati, segnali

MODALITA’ DI ESAMEMODALITA’ DI ESAME

1) IN ITINERE (solo per chi consegna due homework su tre, e nei tempi previsti)

•Solo colloquio orale (da sostenere nella sessione gen-feb)Il colloquio verterà, per circa il 30%, sugli homework, che verranno discussi davanti al

computer, anche nelle scelte algoritmiche e di programmazione

•NB: nelle precedenti edizioni del corso, il 100% degli studenti ha usato questa modalità di

esame. Nel 2010, 16 esami registrati, media 27.2 (fonte:

www.ing.unipd.it/Download/Statistiche/Esami2010/StatEsami_LM.pdf )

12

www.ing.unipd.it/Download/Statistiche/Esami2010/StatEsami_LM.pdf )

•Date: durante la sessione, verrà offerto un appello ogni 7-10 giorni (nel 2011/12 erano stati

offerti 6 appelli da gennaio a inizio marzo).

•Pre-appelli per studenti in partenza per Erasmus concordabili (di solito sotto Befana …)

2) APPELLI ORDINARI

•Prova pratica (progetto in laboratorio, 3 ore) + Colloquio orale

•Date degli appelli ordinari: <da comunicare>

Page 13: ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali evocati, segnali

Parte 1. Richiami di Calcolo Scientifico con Matlab

Algoritmi iterativi per la soluzione di equazioni non lineari e di sistemi.

Algoritmi numerici per la soluzione di eq.differenziali

2 ore di laboratorio (codifica di algoritmi per la soluzione di equazioni e per

l’integrazione numerica di eq.differenziali)

PROGRAMMA DI MASSIMA - 1

13

Page 14: ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali evocati, segnali

Parte 2. Interpolazione di dati

Interpolazione polinomiale. Interpolazione non parametrica. Natural splines.

Minimizzazione della curvatura.

2 ore di laboratorio (codifica per spline quadratiche; applicazione tecniche non

parametriche a serie temporali endocrino-metaboliche)

PROGRAMMA DI MASSIMA - 2

14

Page 15: ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali evocati, segnali

Parte 3. Approssimazione di dati

Approssimazione vs interpolazione. Metodi polinomiali. Smoothers locali (bin,

running mean, running line, kernel smoothers). Smothing splines Dilemma bias-

varianza (simulazione Monte Carlo). Approccio bayesiano allo smoothing.

Applicazioni: potenziali evocati; analisi di trend di lungo e breve periodo, serie

temporali endocrino-metaboliche. Estensione alla deconvoluzione.

PROGRAMMA DI MASSIMA - 3

15

4 ore di laboratorio (codifica di smoothing bayesiano ed estensione alla

deconvoluzione)

Page 16: ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali evocati, segnali

Esempio: stima di potenziali evocati uditivi (ABR e SVR)

16

Page 17: ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali evocati, segnali

Esempio: studio di potenziali evocati cocleari

17

Page 18: ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali evocati, segnali

Parte 4. Aspetti algoritmici nell’approssimazione di dati

Complessità computazionale e ricerca dello smoother ottimo: algoritmi di

diagonalizzazione. Implementazione dei criteri di smoothing.

Problemi con tanti dati e problemi vincolati: algoritmi iterativi (GC e GCV).

Iterazione veloce del GC (Toeplitz). Cenni su altri metodi vincolati. Metodi Monte

Carlo per la misura dell’incertezza

PROGRAMMA DI MASSIMA - 4

18

Carlo per la misura dell’incertezza

2 ore di laboratorio (codifica diagonalizzazione)

Page 19: ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali evocati, segnali

Parte 5. Predizione

Predizione per serie temporali. Approcci polinomiali e mediante modelli ARIMA.

Aspetti algoritmici: forgetting factor e recursive least squares. Applicazioni al

settore del diabete e valutazione clinica.

2 ore di laboratorio (codifica predittori polinomiali e AR)

PROGRAMMA DI MASSIMA - 5

19

2 ore di laboratorio (codifica predittori polinomiali e AR)

Page 20: ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali evocati, segnali

Esempio: predizione

PREDITTORE

a k passimodello del segnale

previsione del segnale

k passi avanti

û(t+k)

storia passata del

segnale u(1), u(2), …u(t)

20

Problema principale: determinare un modello del segnale valido al tempo t

utilizzabile per predire a t+k

time (hours)

gluc

ose

conc

entr

atio

n (m

g/dl

)

5 10 15 20 25 30 35 40 45

50

100

150

200

250

300

?

PASSATO FUTURO

Ad esempio, se

voglio predire con

60 min di anticipo e

T=3 min, k= 20

Page 21: ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali evocati, segnali

Parte 6. Applicazioni biomediche del filtraggio stocastico

Filtraggio alla Wiener e alla Kalman. Fondamenti teorici e aspetti

computazionali. Applicazioni biomediche. Cenni sul filtro di Kalman esteso.

2 ore di laboratorio (codifica di un filtro alla Kalman per rimuovere rumore)

PROGRAMMA DI MASSIMA -6

21

Page 22: ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali evocati, segnali

State of the Art: Moving Average (e.g. Medtronic)

CGM Signal Denoising

180

200

220

240Noisy vs MA-filtered (M=15,µ=0.94) time series

22

0 3 6 9 12

100

120

140

160

180

mg/

dl

Time (hours)

Page 23: ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali evocati, segnali

Sensor-to-sensor SNR variability

0 5 10 15 20 25 30 35 400

50

100

150

200

250

300

350

Glu

cose

(m

g/dl

)

FreeStyle Navigator representative time series

SNR in the

Glucoday

time-series

seems

Navigator

23

0 5 10 15 20 25 30 35 400

50

100

150

200

250

300

350

Time (hours)

Glu

cose

(m

g/dl

)

Glucoday representative time seriesseems

worse than

in the

Navigator

time-series

Glucoday

Page 24: ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali evocati, segnali

Inter-individual SNR variability

0 5 10 15 20 25 30 35 400

50

100

150

200

250

300

350

Glu

cose

(m

g/dl

)

FreeStyle Navigator representative time series #1

SNR in

Navigator #1

is worse

Navigator #1

24

Time (hours)0 5 10 15 20 25 30 35 40

0

50

100

150

200

250

300

350

400

Glu

cose

(m

g/dl

)

FreeStyle Navigator representative time series #2 is worse

than in

Navigator #2Navigator #2

Page 25: ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali evocati, segnali

Intra-individual SNR variability

50

100

150

200

250

300

350G

luco

se (

mg/

dl)

Glucoday representative time series #1

25

0 5 10 15 20 25 30 35 400

50

Time (hours)

“very low” SNR

“better” SNR

Page 26: ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali evocati, segnali

Esempio: studio di trend

26

Page 27: ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali evocati, segnali

Parte 7. Tecniche di analisi non lineare

Algoritmi di riconoscimento di picchi. Concordanza statistica.Misure di entropia

approssimata. Applicazione a serie endocrino metaboliche

PROGRAMMA DI MASSIMA -7

27

Page 28: ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali evocati, segnali

0 20 40 60 80 100 120 140 160 1800.2

0.25

0.3

0.35

0.4C-PEPTIDE CONCENTRATION IN PLASMA (2 MIN)

GLUCOSE CONCENTRATION IN PLASMA (2 MIN)

pmol

/ml

Esempio: analisi di concordanza

28

0 20 40 60 80 100 120 140 160 18072

74

76

78

80

82

84

GLUCOSE CONCENTRATION IN PLASMA (2 MIN)

mg/

ml

minutes

Page 29: ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali evocati, segnali

Esempio: analisi di regolarità

29

Page 30: ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali evocati, segnali

Parte 8. Separazione di sorgenti

Problema “cocktail party” e tecniche di decomposizione: singular value

decomposition, principal component analysis, independent component analysis.

Applicazione allo studio di segnali biomedici (EEG, EMG, …).

2 ore di laboratorio (PCA per la compressione e ICA per la separazione di

PROGRAMMA DI MASSIMA -8

30

2 ore di laboratorio (PCA per la compressione e ICA per la separazione di

sorgenti)

Page 31: ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali evocati, segnali

Esempio: ICA

31

Page 32: ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali evocati, segnali

Esempio: ICA per separare

ECG della mamma e del feto

32

Page 33: ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali evocati, segnali

Appunti delle lezioni

Copia delle slide, fornite dal docente sul sito web dell’insegnamento:

http: // www.dei.unipd.it / ~gianni / adb2013

MATERIALE DIDATTICOMATERIALE DIDATTICO

33

NOTA: le slide verranno pubblicate progressivamente, di norma il giorno prima

della lezione. Le slide 2012 non verranno significativamente modificate, quindi

sono eventualmente già scaricabili (password 2012 a lezione)

Riferimenti bibliografici (articoli, capitoli di libro, …) verranno indicati di volta in

volta