Corso di Laurea Specialistica in Informatica Bioinformatica A.A. 2010/2011 Prof. Alfredo Ferro...

Post on 25-Feb-2016

59 views 0 download

description

Corso di Laurea Specialistica in Informatica Bioinformatica A.A. 2010/2011 Prof. Alfredo Ferro 09/03/2011. Contatti. Prof. Alfredo Ferro: ferro@dmi.unict.it Dott. Giuseppe Pigola: pigola@dmi.unict.it Dott. Alfredo Pulvirenti: apulvirenti@dmi.unict.it - PowerPoint PPT Presentation

Transcript of Corso di Laurea Specialistica in Informatica Bioinformatica A.A. 2010/2011 Prof. Alfredo Ferro...

Corso di Laurea Specialistica in InformaticaCorso di Laurea Specialistica in Informatica

BioinformaticaBioinformaticaA.A. 2010/2011A.A. 2010/2011

Prof. Alfredo FerroProf. Alfredo Ferro09/03/201109/03/2011

ContattiContatti

• Prof. Alfredo Ferro: ferro@dmi.unict.it

• Dott. Giuseppe Pigola: pigola@dmi.unict.it

• Dott. Alfredo Pulvirenti: apulvirenti@dmi.unict.it• Dott.ssa Rosalba Giugno: giugno@dmi.unict.it

Orari di Ricevimento (per appuntamento)Orari di Ricevimento (per appuntamento)

• Prof. Alfredo FerroLunedì,Mercoledì,Venerdì 16.00 – 17.00Ufficio 324 – Blocco I, 2° PianoTel. 095 7383071ferro@dmi.unict.it

• Dott. Giuseppe Pigola Lunedì,Mercoledì,Venerdì 16.00 – 17.00

Ufficio 308- Blocco I , 2° PianoTel. 095 7383087pigola@dmi.unict.it

Orario lezioniOrario lezioni

• Lunedì,Mercoledì e Venerdì 17-19 – Aula 2

Modalità d'esameModalità d'esame

• Prova orale/laboratorio• Progetto

Testi consigliatiTesti consigliati

• Valle et al.Introduzione alla BioinformaticaZanichelli

• Jambeck, GibasDeveloping Bioinformatics Computer SkillsO'Reilly

• LewinIl Gene – Edizione CompattaZanichelli

Genomica e ProteomicaGenomica e Proteomica

• La genomica è una branca della biologia molecolare che si occupa dello studio del genoma degli organismi viventi. – In particolare si occupa della struttura, contenuto, funzione

ed evoluzione del genoma. • La proteomica è una disciplina che studia il

proteoma, il complemento tempo-specifico e cellulo-specifico del genoma.

• Il proteoma è l'insieme di tutte le proteine espresse in una cellula:– Dinamico nel tempo– Varia in risposta a fattori esterni– Differisce tra i diversi tipi cellulari di uno stesso organismo

Cos'è la Bioinformatica?Cos'è la Bioinformatica?

• E’ la disciplina che studia le interazioni fra Informatica e processi biologici. Essa viene anche chiamata Biologia Computazionale.

• Utilizza i metodi propri dell'informatica per la risoluzione di problemi biologici.

• La genomica e la proteomica sono basate sulla Bioinformatica, per l'elaborazione, l'interpretazione e la visualizzazione dell'enorme quantità di dati che producono.

• La nuova era è iniziata con il Progetto Genoma Umano e con la produzione della sequenza completa del DNA umano e di altri organismi.

La BioinformaticaLa Bioinformatica

• Necessità di interpretare la grande mole di dati collezionate dai biologi.

• DNA(memoria), RNA(comunicazione), Proteine(computazione-esecuzione) etc..

• Quali parti del DNA controllano certi processi?

• Qual è la funzione di certe proteine?

I principali tipi di datiI principali tipi di dati

• Biosequenze– DNA, RNA, Proteine

• Strutture– DNA, Secondaria dell'RNA, Secondaria e Terziaria

delle proteine• Dati di interazione

– DNA-Proteina, RNA-RNA, RNA-Proteina, Proteina-Proteina

• Livelli di espressione– RNA (microarray)– Proteine (protein array)

Esempio 1Esempio 1

• In una sequenza proteica è possibile individuare regioni funzionalmente importanti.

• Ogni sequenza proteica è codificata da una sequenza genomica.

• Supponiamo che la regione X nel moscerino sia cruciale in una certa funzione.

• Domanda: esiste un analogo nell'uomo?• Risposta: effettuando una ricerca per

similarità della regione X nel genoma umano è possibile individuare dei geni candidati.

Esempio 2Esempio 2

• Tutte le cellule di un individuo contengono lo stesso DNA.

• Eppure un neurone è molto diverso da un globulo bianco!

• Che cosa li rende così diversi nella forma e nella funzione?

• Sebbene il DNA sia lo stesso, esso contiene delle regioni importanti in tutte le cellule ed altre specifiche per alcune di esse.

• Mediante un'analisi del trascrittoma (microarray) è possibile stabilire quali regioni del DNA contengono informazioni relative al funzionamento di ognuna delle due cellule.

Esempio 3: Eyless e Aniridia: wet-biologyEsempio 3: Eyless e Aniridia: wet-biology

• Eyless è un gene della Drosophila melanogaster (moscerino della frutta) la cui rimozione (wet biology) causa la generazione di mosche senza occhi.

• I biologi hanno anche identificato un gene umano Aniridia la cui mancanza o eccessiva mutazione, tale da non far funzionare la corrispondente proteina, causa il mancato sviluppo dell’iride negli occhi.

Eyless e Aniridia: BioinformaticaEyless e Aniridia: Bioinformatica

• Operiamo una query a NCBI dando come input a BLAST la biosequenza del gene Eyless e ricercando match con Aniridia.

• Il risultato mostra due regioni altamente simili. Il match è illustrato da una sequenza in mezzo alle due confrontate, contenente l’amminoacido nel caso di match perfetto, il segno + se c’è una similarità chimica (ad esempio D ed E sono acidi aspartico e glutammico), blank (cioè spazio vuoto) nel caso di NON MATCH.

QUERY BLAST EYLESS-ANIRIDIAQUERY BLAST EYLESS-ANIRIDIA

pir||A41644 homeotic protein aniridia - human Length = 447 Score = 256 bits (647), Expect = 5e-67 Identities = 128/146 (87%), Positives = 134/146 (91%), Gaps = 1/146 (0%) Query: 24 IERLPSLEDMAHKGHSGVNQLGGVFVGGRPLPDSTRQKIVELAHSGARPCDISRILQVSN 83 I R P+ M + HSGVNQLGGVFV GRPLPDSTRQKIVELAHSGARPCDISRILQVSN Sbjct: 17 IPRPPARASMQNS-HSGVNQLGGVFVNGRPLPDSTRQKIVELAHSGARPCDISRILQVSN 75 Query: 84 GCVSKILGRYYETGSIRPRAIGGSKPRVATAEVVSKISQYKRECPSIFAWEIRDRLLQEN 143 GCVSKILGRYYETGSIRPRAIGGSKPRVAT EVVSKI+QYKRECPSIFAWEIRDRLL E Sbjct: 76 GCVSKILGRYYETGSIRPRAIGGSKPRVATPEVVSKIAQYKRECPSIFAWEIRDRLLSEG 135 Query: 144 VCTNDNIPSVSSINRVLRNLAAQKEQ 169 VCTNDNIPSVSSINRVLRNLA++K+Q Sbjct: 136 VCTNDNIPSVSSINRVLRNLASEKQQ 161 Score = 142 bits (354), Expect = 1e-32 Identities = 68/80 (85%), Positives = 74/80 (92%) Query: 398 TEDDQARLILKRKLQRNRTSFTNDQIDSLEKEFERTHYPDVFARERLAGKIGLPEARIQV 457 +++ Q RL LKRKLQRNRTSFT +QI++LEKEFERTHYPDVFARERLA KI LPEARIQV Sbjct: 222 SDEAQMRLQLKRKLQRNRTSFTQEQIEALEKEFERTHYPDVFARERLAAKIDLPEARIQV 281 Query: 458 WFSNRRAKWRREEKLRNQRR 477 WFSNRRAKWRREEKLRNQRR Sbjct: 282 WFSNRRAKWRREEKLRNQRR 301

Match Parziale e NON EsattoMatch Parziale e NON Esatto

• Eyless ed Aniridia hanno match significativi solo nelle posizioni 24-169 e 398-477 di Eyless con le posizioni 17-161 e 222-301 di Aniridia rispettivamente. Tutto il resto NON presenta match significativi.

• Tuttavia il match è significativo per cui possiamo dedurre proprietà dell’Aniridia da quelle del più conosciuto Eyeless (struttura, funzione,effetti sul fenotipo(caratteristiche visibili o misurabili) etc..)

Programma del corsoProgramma del corso• Biologia molecolare: cellule, genomi ed evoluzione• Biologia molecolare: RNA e trascrizione• Biologia molecolare: La traduzione e le proteine• Basi di dati biologiche• Allineamento di sequenze• Gene prediction• Predizione della struttura secondaria dell’RNA• RNA non codificanti: miRNA e siRNA• Analisi del trascrittoma – Microarray• Systems Biology e Network biologiche• Sistemi per il mining di network biologiche• Il linguaggio Perl

Cellule, genomi e Dogma della Biologia Cellule, genomi e Dogma della Biologia MolecolareMolecolare• La cellula• Il Genoma

– Geni, pseudogeni, ripetizioni• Struttura dei geni• Il Dogma della Biologia Molecolare

– Trascrizione (DNA -> RNA)– Traduzione (RNA -> Proteine)

Basi di dati biologicheBasi di dati biologiche

• Dati biologici e loro formati– Sequenze biologiche

• Banche dati generiche– NCBI, EMBL, DDBJ

• NCBI– Entrez: Nucleotide, Protein, Gene

• EMBL– Ensembl!

Allineamento di sequenzeAllineamento di sequenze

• Omologia, similarità e distanza• Funzioni di scoring e matrici di sostituzione• Allineamento Pairwise: algoritmo di Needleman-Wunsch• Allineamento Pairwise locale: BLAST, Smith-Waterman• Allineamento Multiplo• Funzioni di scoring: sum-of-pairs, entropia, circular sum• Center star method• Profili• Allineamento progressivo: algoritmo di Feng-Doolittle• ClustalW• Metodi basati su consistenza: T-Coffee, ProbCons• Valutazione di allineamenti multipli• Motif finding

Il linguaggio PerlIl linguaggio Perl

• Perl– Il linguaggio di scripting più utilizzato in

Bioinformatica– Interpretato– Punto di forza: espressioni regolari– Linguaggio "colla": utile nell'automatizzazione di

esperimenti, test e nella conversione di formati

Gene predictionGene prediction

• Modelli di Markov Nascosti (HMM)• Metodi per la predizione di geni

– ORF– Modelli statistici– Individuazione di Esoni ed introni

• Tool per la predizione di geni– GenScan

Predizione della struttura secondaria Predizione della struttura secondaria dell’RNAdell’RNA• Struttura secondaria dell’RNA• Rappresentazione di strutture secondarie• Metodi probabilistici per la predizione• Tool per la predizione della struttura dell’RNA

– MFold

Analisi del trascrittoma e MicroarrayAnalisi del trascrittoma e Microarray

• Microarray technology• Analisi di dati da microarray• Cenni su protein array

RNA non codificanti e miRNARNA non codificanti e miRNA

• I miRNA• Database di miRNA• Predizione di geni miRNA• Predizione di target per miRNA

– miRanda• RNA interference e siRNA

Database specializzatiDatabase specializzati

• NCBI– Pubblicazioni scientifiche:Pubmed– Profili di espressione: GEO– Polimorfismi: dbSNP– Interrogazione del DB via script: EUtils

• Browser genomici– NCBI MapViewer– UCSC Genome Browser

• miRNA– miRBase, TarBase, miRò

• GO: Gene Ontology• Pathways

– KEGG, Pathway Commons• Ensembl! BioMart

Network biologicheNetwork biologiche

• Teoria dei grafi• Misure di Centralità• Classificazione delle network• Clustering e metodi per l'identificazione dei clusters• Network scale-free e gerarchiche• Rilevamento della struttura modulare• Algoritmi tradizionali

– Single linkage clustering– Average linkage clustering

• Algoritmi basati su betweenness centrality (Girvan, Newman)

Sistemi per il mining di network biologicheSistemi per il mining di network biologiche

• Sistemi di visualizzazione di network– Cytoscape

• Ricerca – Netmatch

• Annotazione di network con miRNA– miRScape