Banche Dati proteiche -...

20
Informatica e Bioinformatica A. A. 2013-2014 1 Un altro grande database è UniProt, The Universal Protein Resource (http://www.uniprot.org/) nel quale sono radunate le sequenze proteiche, e le annotazione delle stesse, ottenute grazie a: determinazione diretta della sequenza proteica traduzione di sequenze nucleotidiche per le quali sia stata individuata o predetta la funzione di gene codificante la proteina Uniprot è un consorzio che nasce dalla collaborazione tra: European Bioinformatics Institute (EBI); SIB Swiss Institute of Bioinformatics; Protein Information Resource (PIR). Banche Dati proteiche UniProt è una risorsa onnicomprensiva che in realtà raduna diversi database, tra cui fondamentale è UniProtKB (Protein knowledgebase)

Transcript of Banche Dati proteiche -...

Page 1: Banche Dati proteiche - didattica.cribi.unipd.itdidattica.cribi.unipd.it/bioinfo/Lezioni/Lezione_20-marzo-2014.pdf · Informatica e Bioinformatica – A. A. 2013-2014 1 Un altro grande

Informatica e Bioinformatica – A. A. 2013-2014 1

Un altro grande database è UniProt, The Universal Protein Resource (http://www.uniprot.org/)

nel quale sono radunate le sequenze proteiche, e le annotazione delle stesse, ottenute grazie a:

determinazione diretta della sequenza proteica

traduzione di sequenze nucleotidiche per le quali sia stata individuata o predetta la

funzione di gene codificante la proteina

Uniprot è un consorzio che nasce dalla

collaborazione tra:

European Bioinformatics Institute (EBI);

SIB Swiss Institute of Bioinformatics;

Protein Information Resource (PIR).

Banche Dati proteiche

UniProt è una risorsa onnicomprensiva

che in realtà raduna diversi database, tra

cui fondamentale è

UniProtKB (Protein knowledgebase)

Page 2: Banche Dati proteiche - didattica.cribi.unipd.itdidattica.cribi.unipd.it/bioinfo/Lezioni/Lezione_20-marzo-2014.pdf · Informatica e Bioinformatica – A. A. 2013-2014 1 Un altro grande

Informatica e Bioinformatica – A. A. 2013-2014 2

Swiss-Prot (http://web.expasy.org/docs/swiss-prot_guideline.html)

Il punto di forza di questo

database è l’elevato livello

di annotazione effettuata

dai suoi curatori.

Page 3: Banche Dati proteiche - didattica.cribi.unipd.itdidattica.cribi.unipd.it/bioinfo/Lezioni/Lezione_20-marzo-2014.pdf · Informatica e Bioinformatica – A. A. 2013-2014 1 Un altro grande

Informatica e Bioinformatica – A. A. 2013-2014 3

Query di sequenza in UniProt

Siamo interessati a conoscere la sequenza proteica codificata dalla lactate dehydrogenase A

Page 4: Banche Dati proteiche - didattica.cribi.unipd.itdidattica.cribi.unipd.it/bioinfo/Lezioni/Lezione_20-marzo-2014.pdf · Informatica e Bioinformatica – A. A. 2013-2014 1 Un altro grande

Informatica e Bioinformatica – A. A. 2013-2014 4

Anche in questo caso

possiamo ottenere la

sequenza proteica

E molte altre informazioni

sulla struttura secondaria,

terziaria (via PDB), sulle

varianti conosciute e sulla

funzione della proteina

ricercata

Page 5: Banche Dati proteiche - didattica.cribi.unipd.itdidattica.cribi.unipd.it/bioinfo/Lezioni/Lezione_20-marzo-2014.pdf · Informatica e Bioinformatica – A. A. 2013-2014 1 Un altro grande

Informatica e Bioinformatica – A. A. 2013-2014 5

I database proteici secondari

Contengono il risultato di analisi eseguite sulle sequenze contenute nei database

primari per arricchire il dato di informazioni utili.

Esempio: da Swiss-Prot sono stati ricavati i database secondari Prosite e

Pfam, nei quali si pone maggior rilievo alla classificazione delle famiglie e

dei domini proteici.

http://prosite.expasy.org/

Database of protein domains, families and functional sites

as well as associated patterns and profiles to identify them

http://pfam.sanger.ac.uk/

Large collection of protein families, each represented by

multiple sequence alignments and HMMs

Page 6: Banche Dati proteiche - didattica.cribi.unipd.itdidattica.cribi.unipd.it/bioinfo/Lezioni/Lezione_20-marzo-2014.pdf · Informatica e Bioinformatica – A. A. 2013-2014 1 Un altro grande

Informatica e Bioinformatica – A. A. 2013-2014 6

Famiglie proteiche e domini

Nonostante l’elevato numero di proteine esistenti, la maggior parte di esse può venire raggruppata in un numero limitato di famiglie in base alla similarità tra le loro sequenze.

Studiando le famiglie proteiche si nota che durante l’evoluzione alcune regioni si sono meglio conservate di altre.

Analizzando le proprietà costanti e variabili di questi gruppi di sequenze simili, si può ricavare una firma per una famiglia proteica o dominio, che contraddistingue le proteine di un gruppo da altre proteine non correlate.

I domini permettono di assegnare una nuova proteina ad una specifica famiglia proteica e così formulare ipotesi sulla sua funzione.

Proteine o domini proteici appartenenti a una particolare famiglia solitamente

condividono attributi funzionali e derivano da un comune progenitore: queste

considerazioni sono fondamentali per effettuare un’analisi comparativa.

Page 7: Banche Dati proteiche - didattica.cribi.unipd.itdidattica.cribi.unipd.it/bioinfo/Lezioni/Lezione_20-marzo-2014.pdf · Informatica e Bioinformatica – A. A. 2013-2014 1 Un altro grande

Informatica e Bioinformatica – A. A. 2013-2014 7

Proteine formate da più di un dominio si sono probabilmente evolute per fusione di

geni che contenevano tali domini: fusione genica è fattore importante nell’evoluzione.

Altro esempio: proteine (Zasp, ALP, CLP, ecc.) contenenti domini PDZ e LIM. Questi

domini possono interagire e legare altre proteine

Complesso della

trascrizione

DNA

Seq. DNA

promotore

DNA binding domain

activation

domain

Fattore di

trascrizione

Domini proteici Molte proteine, specialmente quelle di grandi dimensioni, sono formate da più parti funzionali

organizzate in strutture tridimensionali distinte che vengono chiamate ‘domini proteici’.

Ad esempio alcuni fattori di trascrizione hanno due domini, uno in grado legarsi con una

particolare sequenza di DNA, l’altro in grado di attivare la trascrizione.

Page 8: Banche Dati proteiche - didattica.cribi.unipd.itdidattica.cribi.unipd.it/bioinfo/Lezioni/Lezione_20-marzo-2014.pdf · Informatica e Bioinformatica – A. A. 2013-2014 1 Un altro grande

Informatica e Bioinformatica – A. A. 2013-2014 8

Esempi: Domini LIM associati ad altri domini (Sono riportate solo alcune strutture proteiche contenenti il LIM domain)

PFAM, PROSITE, ma anche SMART (http://smart.embl.de/) e InterPro

(http://www.ebi.ac.uk/interpro/) sono tutti database contenenti domini

funzionali delle proteine.

Page 9: Banche Dati proteiche - didattica.cribi.unipd.itdidattica.cribi.unipd.it/bioinfo/Lezioni/Lezione_20-marzo-2014.pdf · Informatica e Bioinformatica – A. A. 2013-2014 1 Un altro grande

Informatica e Bioinformatica – A. A. 2013-2014 9

Page 10: Banche Dati proteiche - didattica.cribi.unipd.itdidattica.cribi.unipd.it/bioinfo/Lezioni/Lezione_20-marzo-2014.pdf · Informatica e Bioinformatica – A. A. 2013-2014 1 Un altro grande

Informatica e Bioinformatica – A. A. 2013-2014 10

Tra i 16 diversi record presenti

in PROSITE che contengono

il termine ricercato troviamo il

dominio PDZ (PS50106)

Page 11: Banche Dati proteiche - didattica.cribi.unipd.itdidattica.cribi.unipd.it/bioinfo/Lezioni/Lezione_20-marzo-2014.pdf · Informatica e Bioinformatica – A. A. 2013-2014 1 Un altro grande

Informatica e Bioinformatica – A. A. 2013-2014 11

Nota: gli Hidden Markov Models sono complessi modelli statistici che dall’analisi di

sequenze primarie permettono la predizione di domini proteici e strutture proteiche.

Page 12: Banche Dati proteiche - didattica.cribi.unipd.itdidattica.cribi.unipd.it/bioinfo/Lezioni/Lezione_20-marzo-2014.pdf · Informatica e Bioinformatica – A. A. 2013-2014 1 Un altro grande

Informatica e Bioinformatica – A. A. 2013-2014 12

Esempio di ricerca in Pfam

Ricerca dei domini presenti nella

proteina ZASP: sono individuati

6 record

Possono essere visualizzati le

principali architetture proteiche

che possiedono domini PDZ

Page 13: Banche Dati proteiche - didattica.cribi.unipd.itdidattica.cribi.unipd.it/bioinfo/Lezioni/Lezione_20-marzo-2014.pdf · Informatica e Bioinformatica – A. A. 2013-2014 1 Un altro grande

Informatica e Bioinformatica – A. A. 2013-2014 13

Possono essere visualizzati

anche gli allineamenti dei

domini nelle differenti

proteine

Page 14: Banche Dati proteiche - didattica.cribi.unipd.itdidattica.cribi.unipd.it/bioinfo/Lezioni/Lezione_20-marzo-2014.pdf · Informatica e Bioinformatica – A. A. 2013-2014 1 Un altro grande

Informatica e Bioinformatica – A. A. 2013-2014 14

I browser genomici UCSC genome browser University of California Santa Cruz

L’enorme aumento dei dati riguardanti interi genomi, in particolare quelli derivanti dai progetti di sequenziamento di vertebrati, ha richiesto lo sviluppo di veri e propri browser di genomi.

Per questo motivo presso la UCSC è stato sviluppato uno dei primi genome browser in grado di fornire una rapida visualizzazione grafica di ogni regione di genoma di qualsivoglia lunghezza assieme ad una grande quantità di informazioni come:

geni noti, geni predetti, ESTs (expressed sequence TAGs), mRNA,

elementi regolativi, geni omologhi di altri organismi, ecc.

Successivamente i principali siti (NCBI, EBI ecc.) hanno sviluppato piattaforme sempre più complesse, in grado di integrare il maggior numero di informazioni su una certa regione in particolare del genoma umano e di numerosi altri organismi.

(http://genome.ucsc.edu/)

Definizione di browser: interfaccia utente che permette di la navigazione tra

oggetti, ad esempio Mozilla Web Browser.

Page 15: Banche Dati proteiche - didattica.cribi.unipd.itdidattica.cribi.unipd.it/bioinfo/Lezioni/Lezione_20-marzo-2014.pdf · Informatica e Bioinformatica – A. A. 2013-2014 1 Un altro grande

Informatica e Bioinformatica – A. A. 2013-2014 15

http://genome.ucsc.edu/

Page 16: Banche Dati proteiche - didattica.cribi.unipd.itdidattica.cribi.unipd.it/bioinfo/Lezioni/Lezione_20-marzo-2014.pdf · Informatica e Bioinformatica – A. A. 2013-2014 1 Un altro grande

Informatica e Bioinformatica – A. A. 2013-2014 16

Organismo di cui si

vuole visualizzare la

regione genomica

Gruppo di organismi

di interesse

group Nota: durante il sequenziamento

di un genoma, spesso sono

rilasciate versioni successive

specialmente nella fase finale

del progetto: possono essere più

o meno definitive.

Qui si fa riferimento a varie

versioni (release) del genoma

umano (l’ultima è del 2009).

Page 17: Banche Dati proteiche - didattica.cribi.unipd.itdidattica.cribi.unipd.it/bioinfo/Lezioni/Lezione_20-marzo-2014.pdf · Informatica e Bioinformatica – A. A. 2013-2014 1 Un altro grande

Informatica e Bioinformatica – A. A. 2013-2014 17

Pulsanti di spostamento sul

genoma

Pulsanti per ingrandire o

rimpicciolire l’area di interesse

Posizione attuale

sul genoma

Permette di “saltare” sulla posizione

digitata sulla finestra di sinistra

chr: rappresentazione

schematica e posizione

Page 18: Banche Dati proteiche - didattica.cribi.unipd.itdidattica.cribi.unipd.it/bioinfo/Lezioni/Lezione_20-marzo-2014.pdf · Informatica e Bioinformatica – A. A. 2013-2014 1 Un altro grande

Informatica e Bioinformatica – A. A. 2013-2014 18

Posizione (bp)

Geni con esoni,

le barre spesse, e

introni, le barre

sottili.

Traccia dei

trascritti

Grado di conservazione

della sequenza tra

organismi diversi

Page 19: Banche Dati proteiche - didattica.cribi.unipd.itdidattica.cribi.unipd.it/bioinfo/Lezioni/Lezione_20-marzo-2014.pdf · Informatica e Bioinformatica – A. A. 2013-2014 1 Un altro grande

Informatica e Bioinformatica – A. A. 2013-2014 19

Moltissimi sono i campi a disposizione, essi possono essere visualizzati in modo

diverso o nascosti utilizzando le opzioni presenti nella parte inferiore della pagina

Ci sono varie possibilità

di visualizzazione di ogni

informazione sul genome

browser.

Provate ad esercitazione

Tipologia di traccia

Page 20: Banche Dati proteiche - didattica.cribi.unipd.itdidattica.cribi.unipd.it/bioinfo/Lezioni/Lezione_20-marzo-2014.pdf · Informatica e Bioinformatica – A. A. 2013-2014 1 Un altro grande

Informatica e Bioinformatica – A. A. 2013-2014 20

UCSC Genome Browser: descrizione del gene scelto

….e molte altre informazioni!!