Lezione03 - Banche datidocente.unife.it/matteo.ramazzotti/bioinfo/03 - Databanks.pdf · Banche...
Transcript of Lezione03 - Banche datidocente.unife.it/matteo.ramazzotti/bioinfo/03 - Databanks.pdf · Banche...
Banche dati
Si possono raggruppare in varie categorie in base al tipo di dato biologico che raccolgono e organizzano, ma ce ne sono alcune che sono da considerarsi fondamentali:
- banche dati di sequenze nucleotidiche (dette anche primarie)
- banche dati di espressione genica
- banche dati proteiche
Su queste se ne impiantano molte altre, che articolano le varie informazioni a seconda dei casi e degli scopi della banca dati e su cui è possibile effettuare ricerche in modo molto mirato.
In questo corso verranno trattate le banche dati proteiche anche se non bisogna dimenticare che molti dati sulle
proteine derivano dalle banche dati primarie, cioè quelle nucleotidiche.
Banche dati: un po’ di storia
• Inizio anni 70: nasce la tecnologia del DNA ricombinante, che permette di manipolare le sequenze nucleotidiche e di capire la struttura, la funzione e l’organizzazione del DNA.
• Fine anni 70: pubblicazione dei primi dati genomici, con le prime sequenze nucleotidiche codificanti liberamente accessibili attraverso i rudimenti della rete disponibili a quel tempo tra le varie università.
• 2001: il Consorzio Pubblico Internazionale e la Celera Genomicsforniscono dati del genoma umano completo, aprendo la strada ai progetti di sequenziamento a tappeto.
Successivamente, l’approccio biotecnologico ha fornito una serie imponente di dati di natura proteomica grazie all’analisi spettrometricae all’elettroforesi 2-D, ed una serie altrettanto vasta di dati di trascrittomica grazie alla tecnologia dei microarray.
Insieme ai dati nasce l’esigenza di sistemi di archiviazione e di ritrovamento facili e esaustivi, in modo da averli a disposizione in ogni istante, dato che
sebbene ci siano tantissime informazioni, ognuna deve essere convalidata e confermata, essendo per la maggior parte dati grezzi non rielaborati.
una banca dati è il posto dove cercare i dati da cui partire per una ricerca, non il suo punto di arrivo.
Banche dati: significato
Conoscere il dato non significa capire il dato, serve sempre un approccio sperimentale classico perché questo sia veramente
utile.
1965: Margareth Dayhoff compila un atlante di proteine omologhestudiando le relazioni tra le sequenze primarie
1970: l’atlante viene reso pubblico in versione elettronica nella banca dati NBRF
=> nasce la prima banca dati proteica.
Ancora non ci sono dati di sequenziamento nucleotidico nella banca, sono tutti dati di natura biochimica classica, ma
l’idea di rendere disponibili in modo libero dei dati accumulati e organizzati è alla base del concetto che muove gli organizzatori e i curatori delle banche dati, e che muove anche i fondi per la loro gestione.
I pionieri
Banche dati: infrastrutture
EMBNet, nata nel 1988 come rete europea a supporto della ricerca bio-molecolare, oggi conta 41 nodi nazionali in paesi europei ed extraeuropei (in Italia il nodo è a Bari).
APBioNet (Asian-Pacific BiologicNetwork), gemelleta con EMBNet, con un’organizzazione analoga.
Oggi le due banche dati primarie più importanti sono accessibili dai centri
EBI (Cambridge, UK) : EMBL data-library
NCBI (USA) : GenBank
1981: nasce nel Laboratorio Europeo di Biologia Molecolare ad Heidelberg (Germania) l’EMBL-datalibrary, 519 entries con sequenze di DNA e RNA, autore Kurt Stueber
1982: nasce una banca dati simile negli USA, darà vità alla GenBank, autore Walter Goad
1986: nel National Institute of Genetics in Mishima (Giappone) nasce un mirror della GenBank, la DDBJ
1992: i tre centri si consorziano nell’ INSDC (International Nucleotide Sequence Database Collaboration) stabilendo regole comuni per la gestione delle banche dati.
Banche dati primarie
http://www.ddbj.nig.ac.jp/
http://www.embl.de/
http://www.ncbi.nlm.nih.gov/
http://www.insdc.org/
Banche dati primarie: i numeri
DDBJ release 80.0
EMBL release 102
GenBank release 176
0.00E+00
2.00E+07
4.00E+07
6.00E+07
8.00E+07
1.00E+08
1.20E+08
1.40E+08
3 -1982
53 -1987
67 -1991
82 -1994
97 -1996
112 -1999
127 -2001
142 -2004
157 -2006
172 -2009
Release - Date
Entr
ies
0
2E+10
4E+10
6E+10
8E+10
1E+11
1.2E+11
Bas
e Pa
irs
Entries Base Pairs
Organizzazione di un database biologico
L’oggetto principale è la ENTRY, una unità riconoscibile grazie ad un identificatore univoco, che possiede una descrizione organizzata in campi standardizzati riconoscibili grazie ad HEADERS (o qualifiers) univoci nella banca dati.
es. Identificatore -----------------
Autore -----------------
Data -----------------
ecc.
Ogni banca dati presenta 2 versioni delle entries:
Flat-file: un file di testo semplice, formattato, non interattivo.
HTML : pagina web interattiva, di facile consultazione.
Banche dati primarieLe banche dati primarie sono la “sorgente” di tutte le altre banche dati, servono regole ferree e condivise affinché si possano sincronizzare “on a daily basis”.
Per questo nasce il concetto di Feature Table
http://www.insdc.org/documents/feature_table.html
La feature table INSDCNiente è lasciato al caso (almeno nelle intenzioni) nel definire uno standard condiviso per la condivisione delle informazioni tra banche dati: oltre che ai campi (Feature keys) e ai valori (qualifiers) anche il numero di spazi e la formattazione del testo ha una definizione rigorosa.
Feature keys(66)
Qualifiers (/xxx=)(154)
“In 2005 the International Nucleotide Sequence Database Collaboration (INSDC) introduced the lat_onqualifier that allows to describe precisely where the sequenced specimen was collected. The mapabove shows the geographical distribution of samples annotated so far.”
L’importanza dei “qualifier”I qualifier indicano che tipo di informazione si trova in un dato campo. Neesistono attualmente 154, alcuni davvero curiosi…
Formattazione dei flat filesUna formattazione così rigorosa assicura il corretto funzionamento dei programmi che eseguono il cosiddetto “parsing” dell’informazione.
EMBL GenBank
Interattività e dati incrociati
L’interattività ha un ruolo centrale per una banca dati, perché permette di navigare tra le sue entries e quelle di altri database.
Sia i flat-file sia le pagine web sono ricchi di cross-references, riferimenti che mandano ad altre banche dati generiche o specializzate.
Qualifier: /db_xref="database:identifier"
Definition: database cross-reference: pointer to related informationin another database
Scope: all feature keys
Value format: "database:identifier" where database is the name of the database containing related information, and identifier is the internal identifier of the related information according to the namingconventions of the cross-referenced database.
Examples:
cross reference to GDB identifier: /db_xref="GDB:39999" cross reference to Swiss-Prot entry: /db_xref="Swiss-Prot:P12345"
Incrociare i dati: il qualifier /db_xrefAl fine di mantenere una uniformità rigorosa, anche le cross-referencessono pre-classificate: il campo /db_xref serve a “puntare” banche dati esterne affidabili e verificate (es. non si può puntare wikipedia…).
Detto questo però ogni consorzio però è libero di puntare ciò che vuole: le /db_xref sono ufficiali, le altre no…
Banche dati genomiche più utilizzate
http://www.ncbi.nlm.nih.gov/sites/genome
http://gib.genes.nig.ac.jp/
http://www.ensembl.org/index.html
Uso delle guide, fondamentale…Le banche dati non possono essere relegata ad una lezione: sono entitàcomplesse e ognuna ha le sue peculiarità. Non è nemmeno possibile mandare a memoria i dettagli di utilizzo di ogni banca dati.
La cosa più utile è abituarsi a consultare le guide online, ogni banca dati che si rispetti ne ha una…
Genome browser EMBLMolto complesso, piuttosto intuitivo, fornisce delle mappe clickabili dei cromosomi che vengono zoomati fino ad arrivare al dettaglio dei geni, sei CDS e delle sequenze, che alla fine possono essere scaricate.
Genome browser NCBIRelativamente semplice, tramite lo zoom è possibile aumentare o diminuire il dettaglio. Clickando sui link si aggiungono dettagli e si punta alla sequenza o al contesto cromosomico.
Genome browser DDBJIl più semplice (e il meno annotato), forse troppo semplice. Muovendosi sulla mappa grafica si scorre il cromosoma evidenziando CDS, RNA e “altro” utilizzando un’utile legenda a blocchi colorati.
Banche dati proteiche più utilizzate
UniProt raccoglie le informazioni dei database Swiss-prot, TrEMBL e PIR. Offre la possibilità di effettuare Text Search o Blast Search. Viene curato anche un database NON RIDONDANTE (UniRef).
Molto curato e dattagliato, con annotazioni circa funzione, struttura, modificazioni e altre informazioni utili
E’ la traduzione in silico di ogni entry codificante del database primario dell’EMBL, non è accurato, ma è ricchissimo
E’ il discendente diretto del database della Dayhoff, è curato a mano e le annotazioni sono molto ricche e precise
Banche dati proteiche più utilizzate
E’ un database di famiglie e domini proteici comprensiva di pattern e motivi (signatures) che identificano e rendono riconoscibili e classificabili le proteine. La ricerca in prosite comprende anche altri database strutturali e di classificazione.
una signature formattata, definita anche pattern, permette di indicare con precisione le sequenze tipiche e le loro varianti.
Integr8 è una immensa raccolta di proteine catalogate per organismo di appartenenza e permette analisi inter-proteomiche mediante opportuni programmi di confronto.
Pfam è una raccolta di proteine allineate e di profili generati con i modelli nascosti di Markov (HMM) che descrivono quasi tutte le famiglie e i domini proteici conosciuti. Da qui è possibile una analisi dettagliata sfruttando le risorse disponibili nel server del Sanger Institute per l’analisi familiare delle proteine.
Banche dati proteiche più utilizzate
Database di Protein Fingerprints, cioèpattern caratteristici di certe famiglie proteiche
Database di domini proteici generato in modo automatico da Swiss-Prot e TrEMBL
Database di architetture proteicheannotate per organismo e per famiglia
Database di strutture tridimensionali di proteine altre componenti proteiche
Banche dati proteiche più utilizzate