ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di...

Post on 14-Feb-2019

216 views 0 download

Transcript of ANALISI ANALISI DI DI DATI BIOLOGICIDATI BIOLOGICIgianni/adb2013/adb_parte0.pdf · da problemi di...

Università degli Studi di Padova Università degli Studi di Padova

Corso di Laurea Magistrale in BioingegneriaCorso di Laurea Magistrale in Bioingegneria

A.A. 2013A.A. 2013--20142014

ANALISI ANALISI DIDI DATI BIOLOGICIDATI BIOLOGICI(parte 0)

1

(parte 0)

Giovanni SparacinoDipartimento di Ingegneria dell’Informazione

Università degli Studi di PadovaVia Gradenigo 6/B, 35131 Padova

Tel. 049 827 7741; e-mail: gianni@dei.unipd.it

web: http://www.dei.unipd.it/~gianni

Presentazione del CorsoPresentazione del Corso

2

Web page del corso (unico riferimento ufficiale per avvisi, esami, ...)

•www.dei.unipd.it / ~gianni / adb2013

Orario delle lezioni

Lunedì ore 10.15-12.15 aula Te

Giovedì ore 14.15-16.15 aula Te

3

Ricevimento studenti

•Giovedì ore 16.15-17.15, subito dopo il termine della lezione (prenotarsi

con 24 ore di anticipo via mail)

•Dopo la fine del corso, solo su appuntamento, presso il DEI

Obiettivi Generali di Analisi di Dati Biologici (ADB)

L’obiettivo di ADB è fornire all’allievo bioingegnere la conoscenza di metodi

avanzati di analisi di dati biologici.

In particolare, si fa ricorso a metodologie di analisi statistica integranti

l’approccio modellistico con quello di elaborazione del segnale, in cascata

logica all’insegnamento obbligatorio di Elaborazione di Segnali Biologici (e

per certi aspetti anche a Modelli e Controllo di Sistemi Biologici)

4

per certi aspetti anche a Modelli e Controllo di Sistemi Biologici)

L’approccio del corso è completamente ingegneristico ed “hands on”: si parte

da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali

evocati, segnali endocrino-metabolici, segnali rivelati da biosensori, serie

epidemiologiche, …), li si analizza, si identificano le metodologie di soluzione più

adatte e le si implementa a basso livello in Matlab mediante algoritmi di cui si

cura anche l’efficienza numerica

Non si usano mai codici fatti da altri (logica: si capisce solo se si fa …)

Teoria: 60%

Pratica: 40%

COMPONENTI DEL CORSO

5

Cosa aspettarsi alla fine di questo corso

Al termine del corso, lo studente sarà in grado di padroneggiare, e

implementare numericamente in modo efficace, metodi di analisi dati tra i

più usati in campo di ricerca (non solo clinica) e industriale in senso ampio

(es. saper implementare a basso livello e in autonomia tool di smoothing,

FdW, FdK, PCA, …, è un must per ogni ingegnere)

In particolare, ai fini della professione, questo corso renderà l'allievo in grado

di

6

di

•effettuare l'analisi di un certo problema che richiede l’ “interpretazione di

dati” (dall’elaborazione del segnale o alla simulazione o identificazione di un

sistema)

•individuare le metodologie di soluzione più appropriate

•tradurre le metodologie mediante algoritmi numerici adatti

•implementare gli algoritmi in Matlab

Cosa non aspettarsi alla fine di questo corso

Aver imparato altre formule e teorie che poi non so come mettere in pratica …

7

Feedback dagli studenti

In tutte e cinque le sue edizioni (06/07, 07/08, 08/09, 09/10, 11/12 i dati di

confronto del 12/13 non sono stati forniti dall’Ateneo), ADB è risultato al primo

posto, relativamente a tutti i corsi della LM in Bioingegneria, per gradimento

degli studenti (in particolare per: soddisfazione complessiva; chiarezza

espositiva; capacità di stimolare l’interesse; adeguatezza delle competenze

acquisite per future applicazioni in ambito lavorativo)

A livello dell’intera Facoltà di Ingegneria, ADB è sempre stato per gradimento nel

8

A livello dell’intera Facoltà di Ingegneria, ADB è sempre stato per gradimento nel

top 5% dei corsi (nel 07/08 al primo posto assoluto sui 698 corsi monitorati

dalla facoltà)

Valutazioni anonime degli studenti su ADB disponibili su

http://www.dei.unipd.it/~gianni/valutazioni_adb/

Conoscenze date per consolidate

Informatica di Base

Elementi di Probabilità e Statistica

Conoscenza di base di Matlab

CONOSCENZE PRELIMINARI RICHIESTECONOSCENZE PRELIMINARI RICHIESTE

9

Insegnamenti dati come prerequisiti

Segnali e Sistemi e Sistemi e Modelli (LT)

Elaborazione di Segnali Biologici

Modelli e Controllo di Sistemi Biologici

Per homework si intende la soluzione, svolta al di fuori dell’orario di lezione, di

un problema assegnato dal docente.

Nell’A.A. 2013/14 verranno proposti tre homework (indicativamente a fine

ottobre, fine novembre, e a fine corso) e verrà richiesta la riconsegna di almeno

due (lo studente sceglie quali)

Gli argomenti dei tre homework riguarderanno tipicamente problematiche viste a

lezione per le quali non c’era stato tempo di fare delle esercitazioni specifiche in

I DUE HOMEWORK

10

lezione per le quali non c’era stato tempo di fare delle esercitazioni specifiche in

aula. Tipicamente, verrà richiesto di risolvere un problema di analisi dati

utilizzando Matlab e producendo, oltre al codice, una brevissima relazione.

Ci si aspetta che, in media, un homework non richieda più di 4-5 ore di lavoro a

casa

Per la riconsegna degli homework si fisseranno di volta in volta delle scadenze

(es. 15-20 gg.) E’ inteso che gli homework vengano svolti individualmente, dato

che la loro discussione verrà affrontata, di fronte al calcolatore, in sede di esame

ESEMPIO DI HOMEWORK

11

MODALITA’ DI ESAMEMODALITA’ DI ESAME

1) IN ITINERE (solo per chi consegna due homework su tre, e nei tempi previsti)

•Solo colloquio orale (da sostenere nella sessione gen-feb)Il colloquio verterà, per circa il 30%, sugli homework, che verranno discussi davanti al

computer, anche nelle scelte algoritmiche e di programmazione

•NB: nelle precedenti edizioni del corso, il 100% degli studenti ha usato questa modalità di

esame. Nel 2010, 16 esami registrati, media 27.2 (fonte:

www.ing.unipd.it/Download/Statistiche/Esami2010/StatEsami_LM.pdf )

12

www.ing.unipd.it/Download/Statistiche/Esami2010/StatEsami_LM.pdf )

•Date: durante la sessione, verrà offerto un appello ogni 7-10 giorni (nel 2011/12 erano stati

offerti 6 appelli da gennaio a inizio marzo).

•Pre-appelli per studenti in partenza per Erasmus concordabili (di solito sotto Befana …)

2) APPELLI ORDINARI

•Prova pratica (progetto in laboratorio, 3 ore) + Colloquio orale

•Date degli appelli ordinari: <da comunicare>

Parte 1. Richiami di Calcolo Scientifico con Matlab

Algoritmi iterativi per la soluzione di equazioni non lineari e di sistemi.

Algoritmi numerici per la soluzione di eq.differenziali

2 ore di laboratorio (codifica di algoritmi per la soluzione di equazioni e per

l’integrazione numerica di eq.differenziali)

PROGRAMMA DI MASSIMA - 1

13

Parte 2. Interpolazione di dati

Interpolazione polinomiale. Interpolazione non parametrica. Natural splines.

Minimizzazione della curvatura.

2 ore di laboratorio (codifica per spline quadratiche; applicazione tecniche non

parametriche a serie temporali endocrino-metaboliche)

PROGRAMMA DI MASSIMA - 2

14

Parte 3. Approssimazione di dati

Approssimazione vs interpolazione. Metodi polinomiali. Smoothers locali (bin,

running mean, running line, kernel smoothers). Smothing splines Dilemma bias-

varianza (simulazione Monte Carlo). Approccio bayesiano allo smoothing.

Applicazioni: potenziali evocati; analisi di trend di lungo e breve periodo, serie

temporali endocrino-metaboliche. Estensione alla deconvoluzione.

PROGRAMMA DI MASSIMA - 3

15

4 ore di laboratorio (codifica di smoothing bayesiano ed estensione alla

deconvoluzione)

Esempio: stima di potenziali evocati uditivi (ABR e SVR)

16

Esempio: studio di potenziali evocati cocleari

17

Parte 4. Aspetti algoritmici nell’approssimazione di dati

Complessità computazionale e ricerca dello smoother ottimo: algoritmi di

diagonalizzazione. Implementazione dei criteri di smoothing.

Problemi con tanti dati e problemi vincolati: algoritmi iterativi (GC e GCV).

Iterazione veloce del GC (Toeplitz). Cenni su altri metodi vincolati. Metodi Monte

Carlo per la misura dell’incertezza

PROGRAMMA DI MASSIMA - 4

18

Carlo per la misura dell’incertezza

2 ore di laboratorio (codifica diagonalizzazione)

Parte 5. Predizione

Predizione per serie temporali. Approcci polinomiali e mediante modelli ARIMA.

Aspetti algoritmici: forgetting factor e recursive least squares. Applicazioni al

settore del diabete e valutazione clinica.

2 ore di laboratorio (codifica predittori polinomiali e AR)

PROGRAMMA DI MASSIMA - 5

19

2 ore di laboratorio (codifica predittori polinomiali e AR)

Esempio: predizione

PREDITTORE

a k passimodello del segnale

previsione del segnale

k passi avanti

û(t+k)

storia passata del

segnale u(1), u(2), …u(t)

20

Problema principale: determinare un modello del segnale valido al tempo t

utilizzabile per predire a t+k

time (hours)

gluc

ose

conc

entr

atio

n (m

g/dl

)

5 10 15 20 25 30 35 40 45

50

100

150

200

250

300

?

PASSATO FUTURO

Ad esempio, se

voglio predire con

60 min di anticipo e

T=3 min, k= 20

Parte 6. Applicazioni biomediche del filtraggio stocastico

Filtraggio alla Wiener e alla Kalman. Fondamenti teorici e aspetti

computazionali. Applicazioni biomediche. Cenni sul filtro di Kalman esteso.

2 ore di laboratorio (codifica di un filtro alla Kalman per rimuovere rumore)

PROGRAMMA DI MASSIMA -6

21

State of the Art: Moving Average (e.g. Medtronic)

CGM Signal Denoising

180

200

220

240Noisy vs MA-filtered (M=15,µ=0.94) time series

22

0 3 6 9 12

100

120

140

160

180

mg/

dl

Time (hours)

Sensor-to-sensor SNR variability

0 5 10 15 20 25 30 35 400

50

100

150

200

250

300

350

Glu

cose

(m

g/dl

)

FreeStyle Navigator representative time series

SNR in the

Glucoday

time-series

seems

Navigator

23

0 5 10 15 20 25 30 35 400

50

100

150

200

250

300

350

Time (hours)

Glu

cose

(m

g/dl

)

Glucoday representative time seriesseems

worse than

in the

Navigator

time-series

Glucoday

Inter-individual SNR variability

0 5 10 15 20 25 30 35 400

50

100

150

200

250

300

350

Glu

cose

(m

g/dl

)

FreeStyle Navigator representative time series #1

SNR in

Navigator #1

is worse

Navigator #1

24

Time (hours)0 5 10 15 20 25 30 35 40

0

50

100

150

200

250

300

350

400

Glu

cose

(m

g/dl

)

FreeStyle Navigator representative time series #2 is worse

than in

Navigator #2Navigator #2

Intra-individual SNR variability

50

100

150

200

250

300

350G

luco

se (

mg/

dl)

Glucoday representative time series #1

25

0 5 10 15 20 25 30 35 400

50

Time (hours)

“very low” SNR

“better” SNR

Esempio: studio di trend

26

Parte 7. Tecniche di analisi non lineare

Algoritmi di riconoscimento di picchi. Concordanza statistica.Misure di entropia

approssimata. Applicazione a serie endocrino metaboliche

PROGRAMMA DI MASSIMA -7

27

0 20 40 60 80 100 120 140 160 1800.2

0.25

0.3

0.35

0.4C-PEPTIDE CONCENTRATION IN PLASMA (2 MIN)

GLUCOSE CONCENTRATION IN PLASMA (2 MIN)

pmol

/ml

Esempio: analisi di concordanza

28

0 20 40 60 80 100 120 140 160 18072

74

76

78

80

82

84

GLUCOSE CONCENTRATION IN PLASMA (2 MIN)

mg/

ml

minutes

Esempio: analisi di regolarità

29

Parte 8. Separazione di sorgenti

Problema “cocktail party” e tecniche di decomposizione: singular value

decomposition, principal component analysis, independent component analysis.

Applicazione allo studio di segnali biomedici (EEG, EMG, …).

2 ore di laboratorio (PCA per la compressione e ICA per la separazione di

PROGRAMMA DI MASSIMA -8

30

2 ore di laboratorio (PCA per la compressione e ICA per la separazione di

sorgenti)

Esempio: ICA

31

Esempio: ICA per separare

ECG della mamma e del feto

32

Appunti delle lezioni

Copia delle slide, fornite dal docente sul sito web dell’insegnamento:

http: // www.dei.unipd.it / ~gianni / adb2013

MATERIALE DIDATTICOMATERIALE DIDATTICO

33

NOTA: le slide verranno pubblicate progressivamente, di norma il giorno prima

della lezione. Le slide 2012 non verranno significativamente modificate, quindi

sono eventualmente già scaricabili (password 2012 a lezione)

Riferimenti bibliografici (articoli, capitoli di libro, …) verranno indicati di volta in

volta