Annotazione funzionale di dati di espressioni...

44
1 UNIVERSITÀ DEGLI STUDI DI CATANIA Facoltà di Scienze Matematiche Fisiche e Naturali Corso di Laurea in Informatica Angelo Giaquinta Annotazione funzionale di dati di espressioni geniche Relatore: Prof.ssa Rosalba Giugno ANNO ACCADEMICO 2010/2011

Transcript of Annotazione funzionale di dati di espressioni...

Page 1: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

1

UNIVERSITÀ DEGLI STUDI DI CATANIA

Facoltà di Scienze Matematiche Fisiche e Naturali

Corso di Laurea in Informatica

Angelo Giaquinta

Annotazione funzionale di dati di

espressioni geniche

Relatore: Prof.ssa Rosalba Giugno

ANNO ACCADEMICO 2010/2011

Page 2: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

2

Alla mia famiglia

Page 3: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

3

Indice

Capitolo 1 ............................................................................................................................ 5

Introduzione .................................................................................................................... 5

1.1 Riassunto dell’elaborato ............................................................................................ 6

Capitolo 2 ............................................................................................................................ 7

Analisi sistematica di geni usando IPA ........................................................................... 7

2.1 Introduzione .............................................................................................................. 7

2.2 Tabella illustrativa delle funzioni ............................................................................. 8

Capitolo 3 .......................................................................................................................... 11

Analisi sistematica e integrativa di geni usando DAVID ............................................. 11

3.1 Introduzione ............................................................................................................ 11

3.2 Accettazione degli ID gene dell'utente su DAVID ................................................. 12

3.3 DAVID gene name batch viewer ............................................................................ 12

3.4 DAVID gene functional classification .................................................................... 12

3.5 DAVID functional annotation chart ........................................................................ 13

3.6 DAVID functional annotation clustering ................................................................ 13

3.7 DAVID functional annotation table ........................................................................ 14

Capitolo 4 .......................................................................................................................... 15

Biolayout. Un sistema per l’analisi di geni secondo la network di interazione ............ 15

4.1 Introduzione ............................................................................................................ 15

4.2 BioLayout Express3D Data Input Formats ............................................................. 16

4.3 Creazione di classi .................................................................................................. 17

4.4 Metodo di normalizzazione e dipendenza della piattaforma ................................... 18

Capitolo 5 .......................................................................................................................... 19

Il Data Mining e l’annotazione funzionale per l’analisi di espressioni di geni e la

caratterizzazione di biomarcatori. ................................................................................. 19

5.1 Descrizione del dataset ........................................................................................... 19

5.2 Annotazione con IPA .............................................................................................. 20

Capitolo 6 .......................................................................................................................... 26

Annotazione delle regole di associazione e definizione dei biomarcatori. ................... 26

6.1 Istogrammi biomarcatori ......................................................................................... 26

Page 4: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

4

6.2 Istogrammi intersezioni e geni unici ....................................................................... 32

6.3 Istogramma biomarcatori specifici .......................................................................... 37

Capitolo 7 .......................................................................................................................... 38

Visualizzazione della rete con Biolayout ...................................................................... 38

Bibliografia e web reference ............................................................................................. 41

Appendice ......................................................................................................................... 43

Ringraziamenti .................................................................................................................. 44

Page 5: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

5

Capitolo 1

Introduzione

Da anni ormai scienziati e vari ricercatori si trovano d’accordo sulla teoria

secondo la quale alcune malattie derivano da piccole alterazioni del nostro codice

genetico. Quello che distingue un individuo sano da uno malato sono delle

differenze nell’espressione dei geni, ossia nel modo con cui essi sono utilizzati e

nelle proteine a cui danno origine.

Il primo passo da compiere è quello che porta verso la diagnosi: il problema è

quello di caratterizzare l’anomalia genetica della cellula malata, cioè quello che la

differenzia rispetto ad una sana, in maniera tale che una volta conosciuto il profilo

genetico di un paziente, risulta possibile classificarlo come sano o affetto da

malattia. Il passo successivo sarà quello della cura di queste alterazioni mediante

l’individuazione dei geni che in presenza di una determinata malattia risultano

alterati con maggior frequenza.

Recentemente la tecnologia dei microarray dei gene è diventata uno strumento

fondamentale nella ricerca biomedica, che ci permette di osservare

simultaneamente l'espressione di migliaia di geni a livello trascrizionale. Due

problemi tipici che le ricerche vogliono risolvere utilizzando i dati di microarray

sono: (1) scoprire i geni informativi per la classificazione sulla base di diversi tipi

di cellule o malattie, (2) clustering dei geni e disposizione secondo la loro

somiglianza in pattern di espressione.

Un microarray di DNA è costituito da un insieme di microscopiche sonde

di DNA attaccate ad una superficie solida come vetro, plastica, o chip di silicio

formanti un array. Tali array sono usati per esaminare il profilo d’espressione di

un gene o per identificare la presenza di un gene o di una breve sequenza

all'interno di una miscela di migliaia di geni.

Page 6: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

6

Cinque sono i principali obiettivi biologici che motivano uno studio statistico

nell’area dei microarray: (i) l’identificazione di geni differenzialmente espressi

sotto diverse condizioni sperimentali o tra soggetti che presentano varie forme

della stessa patologia; (ii) l’individuazione di gruppi di geni che con buona

probabilità sono co-regolati; (iii) la classificazione di campioni biologici (soggetto

sano / soggetto malato);(iv) l’identificazione di geni detti marcatori (biomarker)

candidati come indicatori di un particolare un gruppo o fenotipo; (v)

l’identificazione di nuove classi di una specifica patologia (es. il tumore).

1.1 Riassunto dell’elaborato

Analizzare l’espressione genica vuol dire analizzare la quantità di mRNA o di

proteine prodotte da una cellula in un particolare momento. Il principio alla base

dell’analisi dell’espressione genica consiste nel confronto di campioni diversi, ad

esempio tessuti sani o malati per studiare l’espressione genica in una determinata

malattia.

Scopo del mio elaborato è stato quello di analizzare e filtrare migliaia di geni

presenti in un dataset di analisi di pazienti sottoposti ad una terapia contro il breast

cancer (cancro al seno)[1].

Per l’annotazione mi sono servito di alcuni tools utili a tale scopo[2]. Nei vari

capitoli della tesi illustrerò brevemente alcune delle funzioni di questi software e

nel capitolo sugli esperimenti illustrerò come ridurre e filtrare la grande mole di

geni presenti nei vari dataset.

Page 7: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

7

Capitolo 2

Analisi sistematica di geni usando IPA

2.1 Introduzione

IPA è un software web-based, sviluppato dalla Ingenuity Sistems[3], che aiuta i

ricercatori a modellare, analizzare e comprendere i complessi sistemi biologici e

chimici al centro della ricerca della scienza della vita. IPA fornisce la capacità di

comprendere la biologia a più livelli, integrando dati provenienti da una varietà di

piattaforme sperimentali e permette di approfondire le interazioni molecolari e

chimiche, fenotipi cellulari e processi patologici del sistema.

IPA è stato ampiamente adottata dalla comunità di ricerca in scienze biologiche e

viene citato in migliaia di articoli di riviste[4].

Questo software ha la possibilità di essere utilizzato con o senza dati. Ad esempio

è possibile scoprire nuove intuizioni dalle analisi dei dati derivati da espressioni e

microarray SNP, esperimenti di proteomica e piccoli esperimenti che generano

liste di gene. È anche possibile effettuare ricerche di informazioni mirate e

pertinenti sui geni, proteine, sostanze chimiche e farmaci e utilizzare queste

informazioni per i propri modelli biologici o iniziare a studiare in un settore di

ricerca.

Durante il mio lavoro ho avuto modo di usare parecchi tools utili per le analisi dei

dati in mio possesso, ognuno con una propria funzionalità, analisi ontologica,

annotazione genica, visualizzazione e analisi di reti biologiche ed altro.

Page 8: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

8

Cito ad esempio alcuni plugins del software Cytoscape[5], quali Bingo[6] e

Pingo[7], oppure i GENE ONTOLOGY (GO) Tools[8] del Lewis-Sigler Institute

for Integrative Genomics dell’università di Princeton e anche DAVID

(The Database for Annotation, Visualization and IntegratedDiscovery)[9] del LIB,

Saic-Frederick.

Ma IPA risulta il più completo sotto ogni punto di vista. Ma cosa lo rende

differente dagli altri?

IPA è distinto da altri strumenti, perché è un all-in-one che sfrutta l’ Ingenuity ®

Knowledge Base, il più grande database di questo tipo che ospita le relazioni

biologiche e chimiche estratte dalla letteratura scientifica.

Nella tabella, nel paragrafo successivo, descriverò brevemente alcune delle

funzioni di questo tools[10].

2.2 Tabella illustrativa delle funzioni

IPA Analysis Type Descrizione

Core Analysis Permette di interpretare piccole e grandi

serie di dati nel contesto dei processi

biologici, delle pathways e delle

networks molecolari.

Core Comparison Analysis Consente di analizzare i cambiamenti

negli stati biologici attraverso le

condizioni sperimentali. Analizzare set di

dati che rappresentano trattamenti

multipli e capire quali processi biologici

e / o malattie sono rilevanti per ogni

condizione.

IPA-Metabolomics® Analysis Fornisce un modo di analizzare i dati

metabolita per saperne di più sulla

Page 9: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

9

fisiologia e metabolismo cellulare.

IPA-Metabolomics Comparison

Analysis

Consente di analizzare i cambiamenti

negli stati biologici attraverso condizioni

sperimentali. Analizzare gruppi di dati

che rappresentano trattamenti metaboliti

multipli e capire quali processi biologici

e / o malattie sono rilevanti per ogni

condizione

IPA-Tox® Analysis Consente di valutare la tossicità e la

sicurezza dei composti d'interesse nelle

prime fasi del processo di sviluppo. L’

analisi di tossicità mostra rapidamente la

tossicità nei fenotipi e la patologia clinica

associata a un set di dati.

IPA-Tox Comparison Analysis Consente di analizzare i cambiamenti nei

fenotipi di tossicità attinenti e ed

endpoints di patologia clinici attraverso

tutte le osservazioni e capire che la

tossicità funzioni e / o percorsi sono

rilevanti per ciascun timepoint o dose

IPA-Biomarker® Analysis Consente di identificare e dare priorità ai

più rilevanti e promettenti candidati

biomarker molecolari da una serie di dati

proveniente da quasi tutte le fasi del

processo farmacologico di scoperta o di

ricerca della malattia. Priorità ai

biomarker molecolari sulla base delle

informazioni contestuali come la

connessione meccanicistica di malattie o

di rilevamento nei fluidi

corporei. Identifica i candidati biomarker

che sono comuni a uno stato di malattia e

Page 10: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

10

/ o alla risposta ai farmaci.

IPA-Biomarker Comparison Analysis Identifica i candidati biomarker che sono

comuni a una malattia e / o alla risposta

ai farmaci. Priorità biomarker molecolari

sulla base delle informazioni contestuali

come la connessione meccanicistica

malattie, il rilevamento di fluidi

corporei. Identifica i candidati biomarker

tra campioni multipli.

Page 11: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

11

Capitolo 3

Analisi sistematica e integrativa di geni

usando DAVID

3.1 Introduzione

L’ High-throughput genomico, proteomico e bioinformatico, come expression

microarray, promoter microarray, proteomic data and ChIP-on-CHIPs, prevede

cospicui capacità di studiare una grande varietà di meccanismi biologici,

comprese le associazioni con malattie. Queste tecnologie di solito risultano in una

grande lista di geni (che variano nel formato da centinaia a migliaia

di geni) coinvolti nelle condizioni biologiche studiate. L’analisi dei dati di insiemi

di volumi molto complessi e di grandi dimensioni è una compito impegnativo, che

richiede il supporto speciale di pacchetti software bioinformatici. Uno di questi

è DAVID (Database for Annotation, Visualization and Integrated

Discovery)[11] in grado di estrarre caratteristiche / significati biologici

associati ad elenchi di geni di grandi dimensioni. DAVID è in grado di gestire

qualsiasi tipo di elenco , indipendentemente dalla piattaforma genomiche del

pacchetto software che lo ha generato. Rispetto ad altri servizi

simili, DAVID fornisce alcune caratteristiche e capacità uniche, come un

approccio integrato e ampliato back end annotation database,

un avanzato arricchimento di algoritmi modulari e una

potente capacità esplorativa in un integrato ambiente di data-mining.

Page 12: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

12

3.2 Accettazione degli ID gene dell'utente

su DAVID

ID Gene e annotazioni biologiche sono altamente ridondanti all'interno della vasta

gamma di banche dati pubbliche. Il DAVID knowledgebase è stato progettato

per raccogliere e integrare i differenti geni identificatori . La vasta gamma di

annotazioni biologiche e la non ridondante integrazione dei gene ID nel DAVID

knowlodgebase, consente agli ID gene dell’utente di essere mappato su tutto il

database, fornendo così una copertura completa dell’annotazione del

gene associato. Se una porzione significativa degli ID gene in input non è

mappato ad un DAVID ID interno, un modulo appositamente progettato, il

DAVID gene ID Conversion Tool[12], si avvierà per aiutarci a mappare questi ID.

3.3 DAVID gene name batch viewer

Alcuni ID gene, di solito non comunicano un significato biologico in sé per sé. Il

gene name batch viewer[13] è in grado di tradurre rapidamente una lista di geni

nel loro nome significativo. Così, prima di procedere ad analisi più completa con

altri strumenti, i ricercatori possono rapidamente dare uno sguardo al ai nomi dei

geni per ottenere una visione completa per il loro studio e di rispondere a

domande come: “La mia lista gene contiene importanti geni rilevanti per lo

studio? “. Inoltre, sono visualizzati una serie di collegamenti ipertestuali per ogni

voce gene, permettendo agli utenti di trovare altre informazioni funzionali su di

essi.

3.4 DAVID gene functional classification

La classificazione funzionale[14] dei geni fornisce distinte capacità per i

ricercatori di esplorare e visualizzare funzionalmente i geni correlati, come

un'unità, di concentrarsi sulla più grande rete biologica piuttosto che al livello di

un singolo gene. Infatti, la maggior parete de co-funzionamento dei geni hanno

diversificato i nomi in modo che i geni non possono essere

semplicemente classificati in gruppi funzionali in base ai loro nomi. Tuttavia, la

classificazione funzionale dei geni, realizzato con una serie di nuove tecniche di

Page 13: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

13

clustering fuzzy, è in grado di classificare i geni di ingresso in gruppi di

geni funzionalmente correlati (o classi) sulla base al loro termine

di annotazione delle co occorrenze piuttosto che sul nome del gene. Nel loro

insieme con la funzione “drill down” associata ad ogni modulo biologico e con

grafici per visualizzare le relazioni tra i molti-geni-a-molti-termini di

associazione, i ricercatori sono in grado di capire al meglio come i geni sono

associati tra loro con l’annotazione funzionale.

3.5 DAVID functional annotation chart

Lo schema di annotazione funzionale[15] fornisce l’analisi del rappresentativo

gene term sovrarappresentato, che è anche fornito da altri strumenti simili, per

identificare i più rilevanti (sovrarappresentati) termini biologici associati a un

elenco di geni. Rispetto ad altri simili strumenti di analisi, la

differenza notevole di questa funzione fornita da DAVID è il suo servizio

di annotazione estesa, passando da solo GO nella versione originale di DAVID

attualmente con oltre 40 categorie di annotazione, inclusi i termini GO, interazioni

proteina-proteina, i domini delle proteine funzionali, le malattie e le associazioni,

le bio-pathways, le caratteristiche di sequenza, omologia, espressione genica dei

tessuti e la letteratura.

Per sfruttare in pieno il noto KEGG e BioCarta pathways, DAVID pathway

viewer, al quale si accede cliccando sui link all'interno dei chart report, è grado di

visualizzare i geni da un lista degli utenti sulle pathway maps per facilitarne

l’interpretazione biologica in una rete.

3.6 DAVID functional annotation clustering

Questa funzione utilizza un nuovo algoritmo per misurare le relazioni tra i

termini di annotazione in base ai gradi della loro coassociazione dei geni per

raggruppare i contenuti di annotazione simili, ridondanti ed

eterogenei delle risorse uguali o in diversi gruppi di annotazione. Ciò riduce il

carico di associare termini simili ridondanti e rende l'interpretazione biologica più

concentrata in un livello di gruppo. Lo strumento fornisce inoltre uno sguardo

alle relazioni interne dei termini cluster e confrontarlo con il tipico lineare su

Page 14: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

14

cui termini di annotazione simili possono essere distribuiti tra centinaia o migliaia

di altri termini.

3.7 DAVID functional annotation table

E’ un motore di query per il DAVID knowledgebase, senza calcoli statistici. Data

una lista di geni, lo strumento può

rapidamente interrogare l’annotazione corrispondente per ogni gene e

presentarli in formato tabella. Così, gli utenti sono in grado di esplorare

l’annotazione in maniera gene-by-gene. Si tratta di un utile modulo analitico in

particolare quando gli utenti vogliono guardare da vicino la annotazione di

geni molto interessanti.

Page 15: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

15

Capitolo 4

Biolayout. Un sistema per l’analisi di geni

secondo la network di interazione

4.1 Introduzione

BioLayout express3D[16] è un potente strumento per la visualizzazione e l'analisi

di reti molto grandi.

Facilita la conversione di dati dimensionali in grafici 3D basati sulla correlazione,

rendendo grandi insiemi di dati rapidi e facili da interpretare. I progressi

nei metodi di high throughput alle biotecnologie nell'ultimo decennio hanno

portato ad enormi quantità di dati che vengono generati da singoli esperimenti e

l'analisi di questi dati ha presentato il serio ostacolo nella conversione a utili

risultati. BioLayout express3D è stato appositamente studiato per la

visualizzazione, il clustering, l'esplorazione e l'analisi dei grafici di network di

grandi dimensioni a due e tre dimensioni derivati principalmente, ma non

esclusivamente, da dati biologici.

BioLayout express3D è compatibile con tutti i sistemi operativi più comuni, tra

cui Windows, Linux e Mac.

Include le seguenti caratteristiche:

Parallelizzazione, consentendo l'utilizzo di tutti i core disponibili

simultaneamente e accelerando così tempo di funzionamento

Supporta l'inserimento di più tipi di dati (txt, SIF, matrix, expression, graphml)

Permette il rendering interattivo dei grafici di grandi dimensioni (>50.000 nodi,

milioni di archi)

Page 16: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

16

Le sue potenziali applicazioni possono essere:

visualizzazione, analisi e manipolazione di correlazione dei dati di grandi

dimensioni tra cui microarrays, sequencing, protein interaction and metabolic

pathways

rendering e animazione dei pathways metaboliche e di segnalazione

Le applicazioni che richiedono analisi di correlazione di grandi insiemi di dati o

la visualizzazione della rete

4.2 BioLayout Express3D Data Input Formats

BioLayout Express3D supporta l'input di dati[17] in un numero di formati diversi:

Regular (.layout, .txt, .tgf)

Cytoscape SIF format (.sif)

Graphml (.graphml)

Matrix (.matrix)

Expression (.expression)

Questi sono i formati di input di base per i grafi di BioLayout Express3D. Sul sito

del produttore sono presenti parecchi file di esempio. I file di input sono molto

flessibili e semplici.

Inziamo introducendo il semplice formato multi colonna( .layout, .txt). Questo è

forse il più semplice formato di input per la gestione dei tipi di dati eterogenei in

BioLayout. Il formato consente una gamma completa di nodi, archi e classi per

essere creati da un semplice formato colonna che può essere preparato in un foglio

elettronico come Excel. Il formato di base per definire le regole può variare, può

contenere solo i nomi dei due nodi, o altrimenti aggiungere anche il peso dell’arco

o magari anche un annotazione.

I file a matrice possono essere generati da un gruppo di numeri con qualsiasi

misura di correlazione, ma devono avere l’estensione .matrix in modo che

Biolayout li riconosca. All’apertura di un file .matrix, una finestra di dialogo

“matrix CutOff” apparirà per richiedere all’utente di definire la soglia oltre la

quale i rapporti saranno tracciati.

Page 17: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

17

Il formato “.expression”, di base è una riga di intestazione, seguita da una singola

riga per ciascuna sonda (set) / gene sulla matrice. Ogni riga deve iniziare con

l'identificatore unico di quella riga (nodo).

Colonne di annotazione possono seguire l'identificatore (questi sono opzionali,

ma molto utili), seguito infine dalle colonne di dati grezzi, che sono solitamente di

tipo numerico. Le colonne sono di solito dei tab separati e le voci di testo sono

circondati da virgolette.

GraphML è stato progettato per descrivere le proprietà strutturali e visive di un

network grafico. Le sue caratteristiche principali includono il supporto diretto,

grafi non orientati e misti, ipergrafi, grafici gerarchici, rappresentazioni grafiche,

riferimenti a dati esterni, per applicazioni specifiche degli attributi dei dati

e parser leggeri. A differenza di molti altri formati di file per i

grafici, GraphML non usa una sintassi personalizzata. E’ basato, invece su XML,

e quindi è adatto come denominatore comune per tutti tipi di servizi di

generazione, l'archiviazione o l'elaborazione grafici di rete. Una volta creato,

un file .GraphML, esso potrà essere aperto direttamente in Biolayout Express3D.

4.3 Creazione di classi

I nodi possono essere assegnati a diverse classi in modo che più

annotazioni possono essere sovrapposte sullo stesso grafico. Esempi di tali

annotazioni possono essere termini Gene Ontology o numeri di classificazione di

enzimi, assegnati ai nodi di un grafo di proteine. Classi di nodi si differenziano gli

uni dagli altri principalmente per colore e, in alternativa, forma o dimensione

del nodo. BioLayout Express3D opera su un sistema di insiemi di classe, che si

riferiscono al tipo complessivo di classi che vengono assegnati (ad

esempio, GO Term, Numero CE). Ogni nodo può avere una sola classi di

annotazione all'interno di un set di classi. Non è necessario che tutti i

nodi hanno un'annotazione in qualsiasi set di classi. Nodi senza una classe

definita vengono aggiunti a una classe predefinita annotata.

Page 18: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

18

4.4 Metodo di normalizzazione e dipendenza della

piattaforma

BioLayout Express3D non possiede la capacità di normalizzare i dati, né in linea

di principio non importa se i dati di input sono stati normalizzati, log-trasformati

o convertiti in rapporto con i dati metrici. Una matrice di

correlazione sarà calcolata e sarà tracciato un grafico a prescindere. Tuttavia, la

dimensione e la struttura del grafo sarà fortemente influenzata da questi fattori.

BioLayout Express3D non è limitato ad analizzare i dati da qualsiasi

piattaforma di microarray accademica o commerciale, il formato di input è lo

stesso indipendentemente dalla piattaforma che ha generato i dati.

Page 19: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

19

Capitolo 5

Il Data Mining e l’annotazione funzionale per

l’analisi di espressioni di geni e la

caratterizzazione di biomarcatori.

5.1 Descrizione del dataset

Il set di dati con cui ho lavorato in partenza è stato estrapolato da una serie di

analisi fatte su un campione di 99 pazienti che hanno ricevuto un trattamento

contro il tumore al seno.

I dati erano così distribuiti: nelle colonne gli identificativi dei pazienti e nelle

righe migliaia di geni con i valori id log ratio per ogni paziente. Ogni paziente è

stato diviso in due classi, zero ed uno.

Un ulteriore classificazione è stata fatta a questo dataset applicando un algoritmo

di data mining.

Molti algoritmi di calcolo sono stati progettati e adattati per la classificazione di

espressione genica. Si tratta di tecniche di clustering, reti neurali artificiali e di

Support Vector Machine.

Il metodo di classificazione usato è stato in grado di estrarre un insieme di regole

di associazione utilizzati per classificare i profili genici non classificati. Questo

metodo si basa su un algoritmo di estrapolazione dei dati per identificare massimi

set di elementi frequenti[18]. Analogamente ad altri metodi, si riduce la quantità

di dati provenienti da microarray. In generale, solo una piccola frazione dei valori

di espressione genica sono veramente discriminatorie e per il restante non sono

informativi.

Page 20: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

20

L’algoritmo in questione si chiama MAFIA (MAximal Frequent Itemset

Algorithm)[19]. L’algoritmo MAFIA è una implementazione efficiente per

trovare itemsets frequenti massimali, soprattutto quando gli insiemi nel database

sono molto lunghi. Il sistema di ricerca di MAFIA usa un attraversamento depth-

rst dell’insieme reticolo del gene con un meccanismo di pruning. Questo evita

l’enumerazione esaustiva di tutti gli insiemi del gene candidato secondo il

principio di monotonicità. Nel principio di monotonicità, si afferma che ogni

sottoinsieme di un itemset frequente è esso stesso frequente. Questo scarta i

candidati che hanno un sottoinsieme non frequente che usa questa proprietà.

Il risultato di questa classificazione è stata la creazione di due dataset contenenti le

regole di associazione per ogni classe. Dieci regole nella ‘relapse(classe 0)’ e nove

nella ‘no relapse(classe 1)’.

5.2 Annotazione con IPA

La versione di IPA con cui ho lavorato io è quella trial. A parte alcune limitazioni,

per la maggior parte temporali, il tools ha lavorato perfettamente annotando molti

geni utili nello studio di una terapia contro il breast cancer.

In breve le attività da me svolte con IPA:

Formattare i dati in un modo che IPA possono caricare.

Impostare le opzioni di caricamento e identificare l’ID e le colonne di

osservazione.

L'analisi della Impostare i parametri: se gli insiemi di dati sono grandi,

regolare i valori di cutoff di espressione (s) per limitare le loro

dimensioni.

Eseguire l'analisi.

Filtrare i dati estrapolando i biomarcatori dalla lista.

1) Preparare i dati per il caricamento.

Page 21: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

21

E’ preferibile caricare i dati in un foglio di calcolo excel, assicurarsi che ci sia una

sola riga di intestazione. (IPA può essere impostato per ignorare la prima fila

quando si fa i calcoli). Muovere gli ID molecolari alla prima colonna (IPA utilizza

la prima riga per indovinare i tipi di identificatori che vengono utilizzati per le

molecole).

IPA consente un massimo di 20 osservazioni. Per questo motivo per analizzare il

primo dataset con in 99 pazienti ho dovuto suddividere in dati in 5 parti per poi

analizzarle.

Per i campioni con le regole non ce n’è stato bisogno in quanto per ogni regola è

stato visualizzato solo il suo IDgene e il suo valore di intensity.

2) Avviare IPA

Page 22: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

22

3) Carica i dati in IPA.

Dal menu file->Carica Dataset ho selezionato il mio set di dati excel.

Successivamente ho impostato alcuni campi per la lettura dei nostri valori.

E’ sempre consigliato di selezionare il “Formato flessibile”, selezionare “yes” se

si dispone di una riga di intestazione nel set di dati. Selezionare il tipo di

Identifier, nel nostro caso “Gene Symbol - human” ed infine selezionare la

piattaforma del microarray da cui provengono i dati, se non si è sicuri è possibile

selezionare “Non specificato/applicabile”.

Infine bisogna selezionare la colonna ID del nostro file e le successive colonne

che serviranno per le osservazioni, specificando se i valori sono ad esempio di log

ratio, p-value, intesity e così via. Le colonne che non serviranno per le nostre

analisi potranno essere ignorate

IPA salva i dati nel database di Gestione Progetti nell'ambito dei progetti

selezionati.

Page 23: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

23

Il passo successivo all’upload dei nostri dataset è stato quello dell’annotazione,

applicando una serie di filtri tramite la funzione “new filter dataset” che combina

anche l’estrapolazione dei biomarcartori.

Questa è la parte più importante delle analisi, perché è qui che ridurremo

maggiormente i nostri geni per una più accurata annotazione.

Accedendo al pannello di questa funzione ci troveremo a settare alcuni campi che

interagiranno con il database di IPA dove sono conservati i nostri geni da

annotare.

Qui di seguito l’elenco dei possibili filtri da applicare, nelle mie analisi ho dato

maggiore peso nella selezione della specie, delle linee cellulari, nel tipo di

malattia e nel filtro biomarcatore.

Species : Filtro per i geni che esistono in una particolare specie. Nel nostro caso

Human.

Tissues & Cell Lines : filtro per i geni espressi in un particolare tessuto o una

linea cellulare. Essendo geni generati da una terapia contro il tumore al seno, sono

andato a selezionare le ‘cellular line’ del breast cancer.

Molecules Types : Filtro per le famiglie di molecole specifiche. Selezionando un

qualsiasi elemento del filtro, si specifica che siete interessati alle molecole

caratterizzate da una classe di una specifica sostanza chimica o di una famiglia di

proteine. Nella mie analisi non ho selezionato alcuna di queste.

Disease : Filtro per i geni associati a una particolare malattia. Nel nostro caso

‘cancer’.

Biofluid : Filtro per le proteine rilevabili in un fluido particolare del corpo. Non

avendo maggiori informazioni sulle nostre analisi ho lasciato anche questo campo

deselezionato.

Page 24: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

24

Biomarkers : filtro per le applicazioni di biomarcatori1 specifici, compresa la

diagnosi, efficacia, prognosi, progressione della malattia, risposta alla terapia, o la

sicurezza, nonché per malattie specifiche. Questa è forse la parte più importante

per l’annotazione dei nostri geni, in quanto il software andrà a selezionare quei

biomarcatori specifici per il breast cancer e propri per un applicazione di risposta

ad una terapia.

1 In biologia cellulare un biomarcatore è una molecola che permette di individuare e isolare un

particolare tipo di cellule, mentre in genetica un biomarcatore (marcatore genetico) è un

frammento della sequenza di DNA causa di malattia o di una certa predisposizione patologica.

Page 25: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

25

Dataset Filter Summary

Consider only molecules where

(species = Human) AND

(cell lines = Other Breast Cancer Cell Lines OR BT-549 OR NCI-ADR-RES OR

MCF7 OR MDA-N OR MDA-MB-435 OR Breast Cancer Cell Lines not

otherwise specified OR HS 578T OR T47-D OR MDA-MB-231) AND

(diseases = Cancer) AND

(((biomarker applications = Response to Therapy) AND (biomarker diseases =

breast cancer)) OR biomarkers = Not a known Biomarker)

Il risultato di queste analisi sarà una riduzione drastica del nostro numero di geni,

come ad esempio nelle varie regole avremo una lista di all’incirca 100 IDgene per

ognuna di esse.

Una volta creata la lista sarà possibile rivedere la tabella di annotazione con

l’elenco dei geni e con una serie di informazioni utili per future analisi, come le

applicazioni dei biomarcatori, i farmaci e i vari sinonimi al gene.

Page 26: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

26

Capitolo 6

Annotazione delle regole di associazione e

definizione dei biomarcatori.

Un ulteriore analisi statistica è stata da me svolta sulle regole di associazione,

create con l’algoritmo MAFIA.

Le migliaia di geni presenti nelle nostre regole sono state poi ridotte annotandoli

con il software dell’Ingenuity Software, IPA.

Da qui ho eseguito due tipi di annotazione. Una che estrapolava solamente quei

geni associati ad i biomarcatori riconosciuti per la cura del breast cancer, ed

un'altra con i biomarcatori “non conosciuti” ma ugualmente relazionati con il

tumore al seno.

Per le prime associazioni il numero di geni è visibilmente basso in quanto

vengono presi solamente i biomarcatori riconosciuti dalla Gene Ontology per la

cure del breast cancer[20], vedi ad esempio il tp53 il MYC e JUMB che

codificano il p53 o altri marcatori come ERBB2. Per le seconde invece il numero

dei geni sale mediamente a 100, ma ugualmente utili perché biomarcatori in fase

di studio da parte dei ricercatori.

6.1 Istogrammi biomarcatori

Per semplificare la visualizzazione delle tabelle risultati dalle analisi ho creato

degli istogrammi dove nell’asse delle ascisse sono presenti le regole e nell’asse

delle ordinate il numero di geni presenti.

Inziamo a rappresentare le regole annotate che contengono più geni, ovvero quelle

comprensive dei biomarker ‘non conosciuti’.

Page 27: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

27

Numero geni mappati Numero biomarker

Regola_0 380 95

Regola_1 353 92

Regola_2 359 87

Regola_3 383 95

Regola_4 477 121

Regola_5 360 79

Regola_6 316 72

Regola_7 367 102

Regola_8 441 108

Regola_9 467 116

Page 28: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

28

Numero geni mappati Numero biomarker

Regola_0 1013 127

Regola_1 483 91

Regola_2 527 92

Regola_3 475 87

Regola_4 504 95

Regola_5 490 95

Regola_6 503 82

Regola_7 434 82

Regola_8 473 91

Page 29: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

29

Numero geni mappati Numero biomarker

Wilcoxon 50 16

Welch_TTest 50 16

TTest 50 16

SAM 50 15

Rank_Prod 50 15

LIMMA 50 15

Page 30: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

30

Qui di seguito gli istogrammi per le regole filtrate ammettendo solamente in

biomarcatori conosciuti

Il numero dei geni mappati per entrambi i set è riportato nelle tabelle precedenti,

cambia solamente il numero dei biomarcatori, visibilmente inferiore.

Page 31: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

31

Per quanto riguarda l’analisi dei Top_50 includendo solamente i biomarcatori

conosciuti non ha generato alcun valore.

Page 32: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

32

6.2 Istogrammi intersezioni e geni unici

Per una maggiore selezione dei geni per ogni regola ho proceduto con

l’intersezione delle varie regole, suddivise per classi.

Dalle intersezioni è possibile notare anche quei geni che sono unici per ogni

regola, cioè che non si trovano in nessun altro elenco.

Solitamente in bioinformatica le intersezioni tra le regole vengono visualizzate

attraverso i diagrammi di eulero venn, ma data la mole di geni e di regole, il

grafico risultante sarebbe stato solamente confusionario e illeggibile.

Qui di seguito riporto un diagramma di venn creato con le prime cinque regole

della Class_0:

Nelle pagine che seguono rappresenterò con gli istogrammi le varie intersezioni e

il numero di geni unique per ogni regola.

Page 33: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

33

Tabella 1 - Class_0 not a known biomarker

Page 34: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

34

Tabella 2 - Class_1 not a known biomarker

Page 35: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

35

Tabella 3 - Top_50 not a known biomarker

Page 36: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

36

Tabella 4 - Class_0 known biomarkers

Tabella 5 - Class_1 known biomarkers

Page 37: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

37

6.3 Istogramma biomarcatori specifici

Qui di seguito riporto il grafico ottenuto dalla differenza delle tabelle unione

(ovvero l’elenco di tutti i geni presi univocamente per ogni classe di regole).

Il risultato di questa differenza darà i biomarcatori specifici per ogni classe.

Page 38: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

38

Capitolo 7

Visualizzazione della rete con Biolayout

In questo capitolo descriverò brevemente come illustrare una rete con

BioLayout express3D[21].

Come ho descritto nel capitolo 4 BioLayout express3D è un potente strumento per

la visualizzazione e l'analisi di reti molto grandi.

Come esempio prenderò il nostro dataset originario da dove sono state costruite le

varie regole, ampiamente analizzate e descritte precedentemente.

Per prima cosa bisogna formattare il file di input in maniera tale da renderlo

leggibile al programma. L’estensione da me utilizzata è stata la “.expression”.

Una volta sistemato le tabelle del file di input diamo in pasto al software il tutto.

Per aprire il file selezionate: File → Apri. La finestra di dialogo ‘Apri

file’ apparirà, trovate e selezionate il file e fare clic su Apri.

Apparirà la finestra “Load Expression Data” (Fig. 1), quindi fare clic su OK. In

genere, non sarà necessario modificare le impostazioni all'interno di

questa finestra. Dopo il caricamento dei dati in memoria il programma inizierà a

calcolare una matrice di correlazione.

Il numero di calcoli necessari aumenta esponenzialmente con il numero di

righe del file di input. Un piccolo file di appena alcune migliaia di righe di

dati saranno calcolati molto rapidamente.

Page 39: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

39

Figura 1 - Load Expression Data

Una volta che il file di matrice di correlazione è stato calcolato, apparirà la

finestra “Expression Graph Settings”. Questo presenta due grafici derivati

dai dati (Fig. 2). Sulla sinistra della finestra di dialogo è riportato un grafico

della dimensione rete rispetto soglia di correlazione per i dati.

Sull'asse x è riportato il numero di nodi e archi, sull'asse y nell'intervallo la soglia

di correlazione dei valori memorizzati.

Le due linee di punti rappresentano il numero di nodi (rosa, inferiore) e

archi (arancione, superiore) che sarebbero inclusi nel grafico su tutta la

gamma di soglie potenzialmente selezionabili. La linea rossa verticale indica il

valore selezionato (predefinita r = 0,85. Più basso è il taglio, maggiore è

il grafico.

Sulla destra della finestra viene stampato un grafico della distribuzione del grado

dei nodi, alla soglia selezionata.

Page 40: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

40

Figura 2 - Expression Graph Settings

Cliccando su OK, finalmente visualizzeremo il grafo della nostra rete:

Page 41: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

41

Bibliografia e web reference

1. Xiaosheng Wang Richard Simon - Microarray-based Cancer Prediction

Using Single Genes (2011).

2. Purvesh Khatri and Sorin Draghici - Ontological analysis of gene

expression data: current tools, limitations, and open problems (2005).

3. http://www.ingenuity.com

4. http://www.ingenuity.com/science/science_spotlight.html

5. http://www.cytoscape.org/

6. http://www.psb.ugent.be/cbd/papers/BiNGO/Home.html

7. http://www.psb.ugent.be/esb/PiNGO/

8. http://go.princeton.edu/

9. http://david.abcc.ncifcrf.gov/

10. http://www.ingenuity.com/library/index.html

11. Glynn Dennis Jr, Brad T Sherman, Douglas A Hosack, Jun Yang, Wei

Gao, H Clifford Lane and Richard A Lempicki - DAVID: Database for

Annotation,Visualization, and Integrated Discovery (2003).

12. http://david.abcc.ncifcrf.gov/content.jsp?file=conversion.html

13. http://david.abcc.ncifcrf.gov/content.jsp?file=linear_search.html

14. http://david.abcc.ncifcrf.gov/content.jsp?file=functional_classification.htm

15. http://david.abcc.ncifcrf.gov/content.jsp?file=functional_annotation.html

16. Athanasios Theocharidis, Anton J. Enright, Stjin van Dongen2 and Tom C.

Freeman - BioLayout Express3D Version 2.0 Reference Manual to Tools

and Functions.

17. http://www.biolayout.org/support/

18. A.Ferro , S. Forte , R. Giugno , G. Pigola , A. Pulvirenti - Automatic

multiclass gene expression data classification.

Page 42: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

42

19. Akdes Serin and Martin Vingron - Supplementary File for DeBi:

Discovering Differentially Expressed Biclusters using a Frequent Itemset

Approach.(2011).

20. Jeffrey S Ross, Gerald P Linette, James Stec, Edwin Clark, Mark Ayers,

Nick Leschly, W Fraser Symmans, Gabriel N Hortobagyi and Lajos

Pusztai – Breast cancer biomarkers and molecular medicine

21. Tom C. Freeman, Leon Goldovsky, Markus Brosch, Stijn van Dongen,

Pierre Mazière, Russell J. Grocock, Shiri Freilich, Janet Thornton, Anton

J. Enright - Construction, Visualisation, and Clustering of Transcription

Networks from Microarray Expression Data (2007).

Page 43: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

43

Appendice

A causa delle grandi dimensioni delle tabelle create durante l'annotazione delle

varie regole dei dataset, si è pensato di inserire i vari file di output nel server

Galileo della facoltà.

Le tabelle sono quindi reperibili al seguente indirizzo:

http://galileo.dmi.unict.it/utenti/Angelo/annotazioni/index.html

Page 44: Annotazione funzionale di dati di espressioni genichegalileo.dmi.unict.it/utenti/Angelo/annotazioni/Tesi_Angelo_Giaq... · 7 Capitolo 2 Analisi sistematica di geni usando IPA 2.1

44

Ringraziamenti

Giunto al termine del mio corso di studi desidero esprimere la mia gratitudine a

tutti coloro che mi hanno aiutato e sostenuto in questo lungo e duro percorso.

Un grazie particolare va alla mia relatrice, Professoressa Rosalba Giugno, per la

sua disponibilità, cortesia e soprattutto pazienza dimostratami durante la stesura

della tesi.

Ringrazio i miei genitori che in questi anni non hanno mancato di incoraggiarmi

sostenermi e consigliarmi, oltre che di assumersi gli oneri della mia istruzione.

Un grazie di cuore va ad Erika mi è sempre stata accanto, sopportando le mie crisi

e miei continui cambiamenti di umore, ma incoraggiandomi sempre ad andare

avanti.

Ricordo infine con tanto affetto e gratitudine tutti i mie colleghi per avermi aiutato

durante gli studi ed aver reso piacevole il lunghi anni passati a Catania.

Angelo