Bionformatica Banche dati biologiche NBRF (1970) EMBL (1980), GenBank e DDBJ (1986) PROSITE, EPD...

Bionformatica

Banche dati biologiche

NBRF (1970)

EMBL (1980), GenBank e DDBJ (1986)

PROSITE, EPD (1985)

PDB (Protein Data Bank)

Sistemi di interrogazione:

SRS

Entrez

Metodologie bio-computazionali

Programmi per la ricerca di similarità delle sequenze (BLAST e FASTA

Studi di evoluzione molecolare

Predizioni di strutture di RNA

Predizioni di strutture secondarie proteiche

Predizioni di strutture tridimensionali proteiche

Compiti della bioinformatica:

1) Mettere a punto dei sistemi idonei per collezionare ed interrogare l’enorme mole di dati biologici.

2) Progettazione, implementazione ed applicazione di metodi matematico-statistici rivolti

- alla caratterizzazione funzionale delle sequenza biologiche,

- a studi di evoluzione molecolare

- a studi strutturali degli acidi nucleici e delle proteine.

La bioinformatica

Nasce negli anni 70 quando vennero pubblicate le prime sequenze nucleotidiche e cominciò a nascere l’esigenza di avere a disposizione sistemi informatici per l’archiviazione e l’analisi di dati di sequenza che sono state prodotte nel futuro in grande quantità.

Tre pacchetti per analizzare i dati:

EMBOSS

http://emboss.sourceforge.net/

Genetic Computer Group

(commerciale)

Phylip

Analisi di evoluzione molecolare

Infrastrutture bioinformatiche:

EBI (UK) EMBL http://www.ebi.ac.uk

NCBI GenBank http://www.ncbi.nlm.nih.gov:8000

Expasy http://www.expasy.org

Sanger http://www.sanger.org

SIB http://www.isb-sib.ch

EMBnet http://www.embnet.org

http://www.ebi.ac.uk/

http://www.ncbi.nlm.nih.gov:8000/

http://www.expasy.org/

Programma del corso

Le lezioni in laboratorio riguarderanno i seguenti argomenti:

- Elementi di base di Informatica e Programma Access- Interrogazione di banche dati biologiche usando Entrez, SRS etc.

- Ricerca in banche dati di sequenze nucleotidiche.

- Ricerca in banche dati di sequenze e strutture proteiche.

- Studio ed utilizzo di banche dati di geni e trascrittomi.

- Allineamento di sequenze di acidi nucleici e di proteine mediante i programmi

BLAST e FASTA.

- Utilizzo di algoritmi per allineamenti multipli globali e locali e per la costruzione di

alberi filogenetici (ad es. i programmi CLUSTAL e PHYLIPS).

- Predizione della struttura secondaria di RNA.

- Ricerca di motivi e pattern funzionali in proteine.

- Programmi per la predizione della struttura secondaria (metodi statistici e neural

network).

- Programmi per la visualizzazione grafica di strutture proteiche.

- Programmi per la predizione di struttura tridimensionale delle proteine.

- Banche dati di interazioni proteiche e programmi di docking.

Esercitazioni:

-Ricerca in banche dati di sequenze nucleotidiche (EMBL, GenBank) e

proteiche (SWISSPROT, Uni-Prot)-Ricerca in banche dati di strutture proteiche (PDB, CATH e SCOP)-Utilizzo del programma Access-Interrogazione in banche dati mediante SRS-Localizzazione di un gene sul genoma umano mediante Ensembl.

- Predizione di geni codificanti proteine in sequenze genomiche.

- Determinazione della struttura di un gene mediane il confronto tra la sequenza

genomica e l’mRNA maturo.

- Analisi di sequenze proteiche (peso molecolare, punto isoelettrico) utilizzando i

tools sul sito Expasy.

- Predizione della struttura secondaria di una proteina di cui è nota la sequenza

mediante i programmi JPred e PsiPred.

- Modellamento per omologia della struttura tridimensionale di una proteina a partire

dalla sola sequenza usando SwissModel.

Scopo di realizzare una banca dati

Consentire la consultazione e l’analisi delle informazioni in essa contenute e di ogni altra informazione a esse correlate e memorizzate in altre banche dati

Tipi di banche dati:

Primarie o derivateNelle banche dati primarie sono presenti solo le informazioni minime necessarie da associare ai dati per identificarli al meglio.Le banche dati derivate contengono invece insiemi di dati omogenei che possono derivare da banche dati primarie, ma rivisti e annotati con varie informazioni che danno un valore aggiunto alla banca dati stessa.

Non Curate o curateLe banche dati non curate contengono i dati grezzi così come sono forniti da chi li ha ottenuti, o con annotazioni da sistemi automatici.Le banche dati curate presentano informazioni che sono verificate, confrontate con quelle di altre banche dati, opportunamente corrette (o per lo meno con segnalazione di possibili errori e conflitti con altri dati)

RelazionaliNelle banche dati relazionali i dati sono gestiti come tabelle, tutte correlate tra loro (ACCESS è un esempio di programma per creare database).

Banche dati biologiche

Una banca dati biologica raccoglie informazioni e dati derivanti dalla letteratura e da analisi effettuate sia in laboratorio sia attraverso analisi bioinformatiche.

Ogni banca dati biologica è caratterizzata da un elemento biologico centrale che costituisce l’oggetto principale intorno al quale viene costruita la entry della banca dati.

Esempi di elemento centrale:

1) la sequenza nucleotidica di DNA nelle banche dati di acidi nucleici

2) promotore nelle banche dati di promotori eucariotici.

Ciascuna entry raccoglie tutte le informazioni che caratterizzano l’elemento centrale.

Esempio entry in EMBL

File flat-file

File sequenziale nel quale ogni classe di informazione è riportata su una o più linee consecutive identificate da un codice a sinistra caratterizzante gli attributi annotati nella linea stessa.

Vantaggi:1. Molto semplice da creare2. Facilmente analizzabile da diversi programmi

Svantaggi:Dati eterogenei difficilmente maneggiabili

Ogni sequenza inviata al database viene contrassegnata

da un accession number (AC) permanente per l’entry.

Viene anche assegnata una entry name (ID).

Altre informazioni annotate:

DT: date di creazione e aggiornamento

KW: parole chiave per la descrizione

OS: nome della specie

OC: classificazione tassonomica

RN, RA, RT, RL: informazioni sulla bibliografia

FT: regioni funzionalmente caratterizzate

SQ: sequenza nucleotidica

Codici in un File flat-file


- Riferimenti scientifici

- Sequenze nucleotidiche

- Sequenze proteiche

- Strutture Proteiche

- Interazioni tra molecole

- dati di espressione genica

- malattie genetiche

- pathway biochimici

Sequenze nucleotidiche: GenBank

EMBL

LocusLink

GeneCards

RefSeq

UniGene

Ensembl

Altre banche dati : PubMed OMIM UTR 2DPAGE IARC P53

Proteine SwissProt UniProt PROSITE PDB ENZYME CATH SCOP PDBsum


Banche dati di letteratura scientifica (PubMed)

Banche dati di sequenze nucleotidiche (EMBL, GenBank, DDBJ)

Banche dati di geni (LocusLink, GeneCards, RefSeq, UniGene)

Banche dati di genomi (Ensembl)

Banche dati di prodotti di trascrizione (dbEST, UniGene)

Banche dati di profili di espressione (GEO, ArrayExpress)

Banche dati di polimorfismi e mutazioni (dbSNPs, HGMD)

Banche dati di sequenze proteiche (SwissProt, UniProt, PIR)

Banche dati di motivi e domini proteici (PROSITE, Pfam)

Banche dati di strutture proteiche (PDB, CATH e SCOP)

Banche dati di profili di proteomica (OPD)

Banche dati di pathways metabolici (ENZYME, PATHWAYS)

Banche dati mitocondriali (MITOMAP)

Banche dati di malattie genetiche (OMIM)

PUBMED (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?DB=pubmed)

E’ considerata la banca dati per eccellenza della letteratura medica e biologica.

E’ consultabile in modo gratuito e permette il link diretto ai siti delle riviste per visionare o scaricare l’articolo (gratuitamente o a pagamento a seconda della policy della rivista).

Le ricerche in PubMed possono essere effettuate tramite diverse opzioni:1. Autore2. Rivista3. Parole chiave

usando anche le possibilità offerte dal database

Esercizio:

Ricerchiamo gli articoli che negli ultimi 3 anni riguardano gli “amminacidi” usando l’opzione Limits

Esempio PUBMED

Esempio Risultato (febbraio 2007)

Banche dati di sequenze nucleotidiche

EMBL (Inghilterra) http://www.ebi.ac.uk/embl/

GenBank (America) http://www.ncbi.nlm.nih.gov/Genbank/

DDBJ (Giappone) http://www.ddbj.nig.ac.jp/Welcome-e.html

Per ogni sequenza le informazioni riportate sono identiche anche se la struttura dei file è abbastanza diversa

Banche dati di sequenze nucleotidiche

Esercizi:

1. Ricercare la sequenza nucleotidica che corrisponde all’Accession number M10051 in EMBL.

2. Ricercare in GenBank tutte le entry che corrispondono al termine “myoglobin”

3. Confrontare le entry nelle due banche dati se ricerchiamo in entrambe all’Accession number M10051

UNIPROT (http://www.pir.uniprot.org)

E’ la banca dati di riferimento per le sequenze proteiche. Deriva da un consorzio tra:1. SWISSPROT (http://www.ebi.ac.uk/swissprot/access.html): banca dati originale, sviluppata in Svizzera. E’ una banca dati altamente curata, con alto livello di annotazione (descrizione della proteina, delle funzioni, della sua struttura, di modificazioni post-traslazionali e post-trasduzionali, di varianti, di polimorfismi etc), alto livello di integrazione con altri database, basso livello di ridondanza. Questa banca dati ci fornisce entry di formato flat-file che si differenzia da quello di EMBL soprattutto per qunto riguarda le features che descrivono nelle proteine la presenza di aa modificati, regioni peptidiche corrispondenti ad isoforme, domini strutturali e siti di polimorfismi

2. TREMBL (http://www.ebi.ac.uk/trembl/access.html): banca dati di sequenze proteiche ottenute tramite traduzione delle sequenze nucleotidiche contenute in EMBL, annotate automaticamente. Di queste sequenze annotate una parte che costituisce SPTREMBL è inserita in SWISSPROT mentre la parte relativa alle proteine immunologiche è raccolta in REMTREMBL. In SRS con il termine SWALL è indicato l’insieme di SWISSPROT+ SPTREMBL.

3. PIR (http://pir.georgetown.edu): altra banca dati di sequenze proteiche sviluppata negli USA. E’ molto curata e ben annotata, ma è poco integrata con altri database e quindi offre minori vantaggi nel suo uso.

Dal sito UniProt

UniProt has three components, each optimized for different uses.

The UniProt Knowledgebase (UniProtKB) is the central access point for extensive curated protein information, including function, classification, and cross-reference.

The UniProt Reference Clusters (UniRef) databases combine closely related sequences into a single record to speed searches.

The UniProt Archive (UniParc) is a comprehensive repository, reflecting the history of all protein sequences.

Esempio UniProt home page

Esempio di output

Se clicco su MYG_HUMAN

Database di STRUTTURE

PDB (http://www.rcsb.org/pdb/home/home.do):Banca dati di riferimento per i dati strutturali 3D di proteine, comprendente le coordinate atomiche determinate attraverso analisi cristallografiche ai raggi X, analisi NMR o altre tecniche (microscopia elettronica etc.).Comprende anche una sezione dedicata alle strutture delle proteine determinate tramite metodi computazionali.Anche in questo caso è stato recentemente creato un consorzio tra le tre organizzazioni responsabili del mantenimento dei server: RCSB (USA), MSD-EBI (EU) e PDBj (Giappone)

MMDB [Entrez's Molecular Modeling Database] http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Structure

NDB (http://ndbserver.rutgers.edu/) : banca dati di strutture di acidi nucleici, soli o assieme a proteine

CSD (http://www.ccdc.cam.ac.uk/products/csd/) : banca dati di strutture di piccole molecole organiche ed organometalliche

Esempio HomePage PDB

2MM1

Esempio di file PDB

Altre banche dati che riguardano la struttura delle proteine:

DSSP (Dictionary of Protein Secondary Structure) raccolta delle strutture secondarie.

Programma: http://bioweb.pasteur.fr/seqanal/interfaces/dssp-simple.html

Database http://swift.cmbi.ru.nl/gv/dssp/

HSSP (Homology derived Secondary Structure of Proteins) contiene informazioni utili per costruire modelli di proteine.

Database http://swift.cmbi.kun.nl/gv/hssp/

FSSP (Fold classification based on Secondary Structure alignment of Proteins) include l’allineamento con le proteine di struttura simile e riporta i residui che sono equivalenti nelle strutture.

PDBsum (http://www.ebi.ac.uk/thornton-srv/databases/pdbsum/) riassume per ogni proteina tutte le informazioni derivanti dalle varie banche dati correlati.

SCOP [Structural Classification of Proteins] (http://scop.mrc-lmb.cam.ac.uk/scop/) organizza le strutture proteiche gerarchicamente seguendo criteri evolutivi e di similarità strutturale.

CATH (http://www.cathdb.info/latest/index.html) presenta una classificazione strutturale simile a quellla offerta da SCOP, basata su confronti di strutture.

Esempio pagina web PDBsum e risultato di una ricerca

Esempio pagina web CATH

Esempio pagina web SCOP

Esercizi:

-Ricercare in CATH e SCOP le entries relative alla keyword “myoglobin”

-Ricercare in PDBsum l’entry “2MM1”

-Usare DSSP per assegnare la struttura secondaria della proteina che corrisponde al codice 2MM1

HGMD (Human Gene Mutation Database)Questa banca dati raccoglie i dati presenti in letteratura sulle mutazioni derivanti da alterazioni e disfunzioni geniche.Si annotano solo mutazioni sperimentalmente determinate sul DNA e non sulla proteina, ma le mutazioni silenti sono annotate solo se determinano influenze sullo splicing.Ogni mutazione è associata al fenotipo clinico

OMIM (Online Mendelian Inheritance in Man)La banca dati OMIM nasce da un catalogo (MIM) per la raccolta delle informazioni correlate alle malattie genetiche di natura mendeliana.Il database attualmente contiene informazioni non solo su malattie genetiche di tipo autosomico, ma anche su malattie associate ad alterazioni dei cromosomi sessuali e dei mitocondri. Presenta cross-links a diverse altre banche dati.

Sistema ENSEMBL (http://www.ensembl.org/index.html) raccoglie dati relativi alle annotazioni del genoma umano, murino, pesce zebra (Danio rerio) e la zanzara (Anopheles gambiae). Annotare un genoma significa caratterizzare le sue funzioni attraverso la ricerca di dati già determinati o attraverso l’applicazione di metodologie bioinformatiche che consentono di caratterizzare nuove funzioni

Banche dati di motivi e domini proteici

InterPro (http://www.ebi.ac.uk/interpro/) è una risorsa bioinformatica che raccoglie varie informaioni strutturali e funzionali relative ad una proteina o ad una famiglia di proteine.

All’interno di InterPro sono comprese varie banche dati:

PROSITE (http://www.ebi.ac.uk/ppsearch/): annota patterns amminoacidici individuati in un set di sequenze proteiche attraverso analisi in silico e studi sperimentali.

PRODOM http://prodom.prabi.fr/prodom/current/html/form.php?typeform=KW è un database che raccoglie dati relativi a famiglie di proteine generate dall’applicazione di PSI-BLAST, che partendo dal confronto di una sequenza proteica contro un database diproteine, raccoglie in un multiallineamento tutte le sequuenze proteiche per le quali Blast ha determinato uno score più aòtro di un score indicato come threshold.

PFAM è una banca dati di famiglie di proteine accomunate da elementi strutturali e funzionali.

Esercizio:

Ricerca in PRODOM inserendo la parola “myoglobin” in Keyword Search

PRINTS è un database che raccoglie sequenze proteiche in clusters definiti da un comune Fingerprint dove per Fingerprint si intende l’insieme di più motivi conservatie dedotti dall’osservazione di un multiallineamento ottenuto applicando algoritmi per la ricerca di similarità locali.

SMART è una risorsa che raccoglie dati relativi a domini proteici e consente la ricerca di domini in nuove sequenze proteiche

Esempio Prosite

Modalità di ricerca dei dati

È possibile utilizzare la logica booleana che consente di effettuare intersezioni (AND), somme (OR) ed esclusioni (BUT NOT) di insiemi di dati.

Sistemi di interrogazione:

SRS Entrez

EMBL Genbank

PDB MMDB

…… …….

Per SRS: http://srs.ebi.ac.uk/srsbin/cgi-bin/wgetz?-page+srsq2+-noSession

Per Entrez: http://www.ncbi.nlm.nih.gov/gquery/gquery.fcgi

ENTREZ (http://www.ncbi.nlm.nih.gov/Database/index.html)

Comprende Medline banca dati bibliografica

OMIM malattie mendeliane

GenBank sequenze genomiche

Taxonomy classificazione degli organismi

La ricerca viene fatta sempre usando la combinazione di AND, OR and BUT NOT.

Come SRS permette la navigazione tra le varie banche dati disponibili utilizzando il meccanismo dei neighbors

Il comando History visualizza tutte le query selezionate nell’ambito però di una singola categoria (nucleotidi, proteine etc). History è l’equivalente di Resuls in SRS

I dati associati a ciascuna query possono essere salvati e visualizzati mediante il comando Text

Esercizio con Entrez (http://www.ncbi.nlm.nih.gov/gquery/gquery.fcgi):

Cosa succede se io ricerco inserendo la keyword: myoglobin?

Cosa succede se io ricerco inserendo la keyword: myoglobin human?

SRS:

- consente di interrogare più banche dati contemporaneamente più banche dati biologiche

- sfrutta i meccanismi di codifica di cross-referencing e consente la navigazione tra le banche dati

Nella top page sono riportati i nomi di tutte le banche dati indicizzate su server e raggruppate in categorie.

A sinistra di ciascuna categoria è riportata una box con

– quando è visibile l’intero elenco delle banche dati

+ quando c’è solo un testo succinto che descrive le caratteristiche della banca dati e dei suoi contenuti.

Ci sono due possibili Query:

1. Standard Query Form

2. Extended Query Form

Le Query usano 3 criteri possibili:

AND: & in SRS

OR: | in SRS

BUT NOT: ! in SRS

Possibili funzioni:

Formati di visualizzazione menu View

Salvare i dati comando Save

Link consente di ottenere informazioni su dati presenti nella banca dati e correlati ai dati associati alla query prescielta.

Launch consente di applicare programmi di analisi ai dati di sequenza associati alla query selezionata

Tool: Blast, Fasta e Clustal

In pratica SRS ci permette di:

1. scegliere i database da utilizzare per la ricerca

2. immettere una o più query concatenate

3. visualizzare i risultati in modo personalizzabile

4. Applicare i programmi di analisi ai risultati ottenuti

5. salvare nel server EBI i risultati di una ricerca e di richiamarli successivamente

Esempi pratici ……….

Differenze tra Entrez ed SRS:ENTREZ: E’ un sistema disponibile sul sito dell’NCBI (www.ncbi.nlm.nih.gov) per interrogare ed estrarre dati dalle più varie banche dati esistenti.Non è commercialmente disponibile e quindi non può essere scaricato ed installato localmente, né è possibile modificare le banche dati implementate sul sistema.

SRS – Sequence Retrieval SystemIl nome può suggerire un uso limitato a “sequenze”. In realtà è un sistema utilizzabile su qualunque tipo di database. Molti centri di ricerca hanno installato SRS sul proprio web server utilizzandolo per offrire un servizio di consultazione di banche dati. Uno dei sistemi SRS più curati è quello presente sul sito dell’EBI (www.ebi.ac.uk)

Esercizio usando SRS:

1. Ricercare in UniProt/SWISSProt tutte le sequenze di mioglobine

2. Lanciare un Blast su una sequenza a vostra scelta

3. Selezionare tutte le sequenze e ricercare le strutture corrispondenti nella banca dati PDB

4. Scelta una struttura ricercare le corrispondenti strutture riportate in DSSP

5. Modificare il modo di visualizzare i risultati

6. Salvare i risultati

7. Data una sequenza predire la sua struttura secondaria mediante Garnier

Bionformatica Banche dati biologiche NBRF (1970) EMBL (1980), GenBank e DDBJ (1986) PROSITE, EPD...

Documents

Transcript of Bionformatica Banche dati biologiche NBRF (1970) EMBL (1980), GenBank e DDBJ (1986) PROSITE, EPD...