Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – [email protected].

136
Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – [email protected]

Transcript of Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – [email protected].

Page 1: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

BioinformaticaBanche dati biologiche

Dr. Giuseppe Pigola – [email protected]

Page 2: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Banche dati biologiche Le banche dati sono dei contenitori costruiti per

immagazzinare grandi quantità di dati biologici in modo efficiente e razionale;

Le banche dati biologiche raccolgono informazioni e dati derivati da: Letteratura; Analisi di laboratorio (in vitro e in vivo); Analisi bioinformatiche (in silico).

Ogni banca dati è caratterizzata da un elemento biologico centrale che costituisce l’oggetto intorno al quale viene costruita la ENTRY principale della banca dati;

Bioinformatica2

Page 3: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Banche dati biologichie La maggior parte delle banche dati sono fruibili in

formato Flat-file: Ogni entry è memorizzata in un file di testo generalmente strutturato, contenente le informazioni;

Con il crescere dei dati si è reso necessario adottare DBMS;

Uso del web per accedere a informazioni tra loro correlate (cross-referencing) attraverso link ipertestuali;

Banche dati in formato XML;Bioinformatica3

Page 4: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Banche dati biologichie Ridondanze e Errori:

Errori durante l’estrazione delle sequenze; Algoritmi per la previsione di strutture imperfetti; Inserimento erroneo di duplicati nei DB; Diversi nomi per la stessa sequenza; Non vi è un’unica struttura per un gene (splicing

alternativi). Lo stesso gene può essere rappresentato da numerose sequenze nei vari DB;

NCBI accetta tutte le sequenze ma le eleva al rango di REFSEQ (sequenza di riferimento) e assegna un refseqID solo dopo numerosi controlli anche manuali;

Bioinformatica4

Page 5: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Banche dati primarie Sono banche dati di sequenze di acidi nucleici (DNA,

RNA): EMBL datalibrary (EMBL – European Molecular

Biology Laboratory - 1980); GenBank (NCBI – National Center for

Biotechnology Information - 1982); DDBJ (DNA Database of Japan - 1986).

Esiste un accordo tra le tre banche per cui l’inserimento di dati in una, comporta l’automatico inserimento nelle altre;

EMBL adotta un formato diverso dalle altre due;Bioinformatica5

Page 6: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

NCBI - http://www.ncbi.nlm.nih.gov/

Bioinformatica6

NCBI – National Center for Biotechnology Information.Gestisce un gran numero di DB tra i quali:• Gene

Contiene dati inerenti i geni di tutte le specie caratterizzate, quali la struttura genica ed il contesto genomico, le ontologie, le interazioni con altri geni ed i link alle sequenze ed alla relative pubblicazioni scientifiche.

• NucleotideContiene le sequenze nucleotidiche di tutte le specie caratterizzate, siano esse codificanti o meno.

• ProteinHa la stessa struttura di Nucleotide ma è relativo alle sequenze aminoacidiche.

• PubmedE’ il database delle pubblicazioni scientifiche di carattere biologico e biomedico. Per ogni articolo è disponibile l’abstract. Pubmed Central contiene articoli completi scaricabili gratuitamente.

• TaxonomyContiene la classificazione dei vari organismi;

Page 7: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

NCBI - http://www.ncbi.nlm.nih.gov/

Bioinformatica7

Esempio di entry in GenBank

• LOCUS: Entry name;

• ACCESSION: Accession Number;

• SOURCE: Organismo;

• REFERENCE;

Page 8: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

NCBI - http://www.ncbi.nlm.nih.gov/

Bioinformatica8

Esempio di entry in GenBank

• FEATURES;

• ORIGIN;

Page 9: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

EMBL - http://srs.ebi.ac.uk

Bioinformatica9

EMBL – European Molecular Biology LaboratoryAnche EMBL permette di accedere a numerosi DB. •EMBL DataLibrary

Contiene dati inerenti Geni e Sequenze Nucleotidiche;

•UniProtContiene dati proteici (gestito da un consorzio di cui fa parte EMBL);

• NCBISi appoggia anche a NCBI per ricercare informazioni relative a pubblicazioni (PUBMED) o malattie genetiche (OMIM);

Page 10: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

EMBL - http://srs.ebi.ac.uk

Bioinformatica10

Esempio di entry in EMBL

• ID Entry name;

• AC Accession Number;

• OS Source Organism;

• OC Tassonomia;

• KW Parole Chiave;

• RA Autori;

• RT Titolo;

• DR Cross Reference;

Page 11: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

EMBL - http://srs.ebi.ac.uk

Bioinformatica11

Esempio di entry in EMBL

• FT Features;

• SQ Sequenza;

Page 12: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

DDBJ - http://www.ddbj.nig.ac.jp/

Bioinformatica12

DDBJ – DNA Data bank of Japan

Si tratta in pratica di una copia di NCBI;

Mette a disposizione tool per ricercare e analizzare dati molto simili a quelli che vedremo per Entrez;

Il formato adottato da DDBJ per i flat-file è identico a quello di NCBI;

Page 13: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Interrogazione di banche dati I sistemi più utilizzati per interrogare le banche dati

sono:

Entrez (Sviluppato da NCBI): Permette di accedere a numerose banche dati (anche contemporaneamente) attraverso una interfaccia web. Permette di effettuare ricerche testuali sui DB utilizzando

diverse sintassi per i vari DB.

SRS - Sequence Retrieval System (Sviluppato da EBI – European Bioinformatics Institute);

Anche DDBJ offre un metodo di ricerca e analisi dei dati via WEB (ma in pratica si tratta delle stesse cose che vedremo per Entrez e SRS);

Bioinformatica13

Page 14: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Entrez - http://www.ncbi.nlm.nih.gov/Entrez

Bioinformatica14

Page 15: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Entrez - http://www.ncbi.nlm.nih.gov/Entrez

Bioinformatica15

Ricerca in tutti i database

Risorse principali:

• Nucleotide;

• Protein;

•Genome;

• Gene;

• Taxonomy;

• Pubmed;

Page 16: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Entrez

Bioinformatica16

Cerchiamo informazioni relativamente al gene umano TP53

Clicchiamo in corrispondenza di Gene

Page 17: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Entrez

Bioinformatica17

Opzioni di filtraggio;

Ricerca di informazioni correlate;

Dettagli;

Etc;

La prima voce è quello che cerchiamo

Page 18: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Entrez

Bioinformatica18

Simbolo Ufficiale, Nome del Gene, Tipo di gene, Classificazione, breve Sommario

Page 19: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Entrez

Bioinformatica19

Taxonomy Browser: Classificazione dell’organismo

Page 20: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Entrez

Bioinformatica20

Classificazione dell’organismo

Gerarchia di classificazione

Page 21: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Entrez

Bioinformatica21

Database contenente la informazioni sulla sequenza (in questo caso HGNC)

Page 22: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Entrez

Bioinformatica22

Nome e simbolo del gene

Page 23: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Entrez

Bioinformatica23

ID unico fornito da dall’autorità HGNC: HUGO Gene Nomenclature Committee

Page 24: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Entrez

Bioinformatica24

Approved: Il gene ha un simbolo approvato da HGNC;Entry withdrawn: Il gene precedentemente approved non esiste più;Symbol withdrawn: - La entry, predentemente approvata è stata fusa con un’altra;

Page 25: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Entrez

Bioinformatica25

Indica la posizione del gene o la regione del cromosoma

Page 26: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Entrez

Bioinformatica26

Alias

Page 27: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Entrez

Bioinformatica27

Il Reference Sequence ID fornito da NCBI e Accession Numbers Per le sequenze di riferimento (Link rispettivamente a mRNA, CDS, etc.)

Page 28: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Entrez

Bioinformatica28

L’entry per TP53 sul DBGenBank (mRNA)

Locus:Nome identificativo;

Accession Number: ID;

Keywords: parole chiavi che identificano la funzione biologica;

Source Organism: Classificazione;

Reference: informazioni bibliografiche;

Page 29: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Entrez

Bioinformatica29

Features: Carateristiche della sequenza; Eventuali introni ed esoni, promotori, enanchers, etc…

Traduzione

Page 30: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Entrez

Bioinformatica30

Link alla Coding SequenceViene indicato anche il punto di inizio e di fine.

Page 31: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Entrez

Bioinformatica31

Sequenza dell’mRNA relativo al gene.

Page 32: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Entrez

Bioinformatica32

Salvare l’entry come file oppure in clipboard o collections (NCBI memorizza temporaneamente le informazioni);

Modalità di visualizzazione

Page 33: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Entrez

Bioinformatica33

Alcuni formati standard delle sequenze. (A) FASTA, (B) GCG

Page 34: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Entrez

Bioinformatica34

Link ai relativi geni per gli organismi Mouse e Rattus Norvegicus

Page 35: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Entrez

Bioinformatica35

Link agli articoli correlati su Pubmed e CiteXplore

Page 36: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Entrez

Bioinformatica36

Page 37: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Entrez

Bioinformatica37

Page 38: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Entrez

Bioinformatica38

Ogni riga rappresenta una variante di splicing (le varianti differiscono nel numero e nelle dimensioni degli esoni, indicati da rettangolini, gli introni sono rappresentati dalle linee sottili).

Contesto genomico: Regione genomica di appartenenza e geni limitrofi.Le frecce indicano il filamento (destra: senso, sinistra: antisenso).

Sequenza genomica di riferimento con relativi link al FASTA o entry GenBank

Page 39: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Entrez

Bioinformatica39

Fenotipi patologici correlati al gene (malattie);

Sono forniti dei link a delle informazioni aggiuntive;

Page 40: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Entrez

Bioinformatica40

Interazioni con proteine coinvolte nell’HIV.

Interazioni note con altre proteine. Link a tali sequenze e pubblicazioni relative.

Page 41: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Entrez

Bioinformatica41

• Markers correlati;

• Variazioni del gene o malattie associate in varie popolazioni;

• Omologia (Ortologhi in altre specie);

• Pathways in cui il gene è coinvolto;

• Annotazioni ontologiche (Processi, funzioni e localizzazione cellulare);

Informazioni relative alla proteina(solo per geni codificanti proteine);

Page 42: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Entrez

Bioinformatica42

Qui troviamo I link alle sequenze nucleotidiche e proteiche relative al gene.

Diversi link per ogni variante di splicing.

Page 43: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Entrez

Bioinformatica43

Sequenze correlate (ad es precalcolate con BLAST) con link ai DB Nucleotide, Protein;

Link addizionali a sorgenti esterne;

Page 44: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Entrez

Bioinformatica44

Modalità di visualizzazione;

Salvare l’entry come file oppure in clipboard o collections (NCBI memorizza temporaneamente le informazioni);

Page 45: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Entrez

Bioinformatica45

Una Tabella con le informazioni sulla struttura del gene per ogni variante di splicing;

Page 46: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Entrez

Bioinformatica46

Link alla entry in Nucleotide del mRNA;

Posizionandoci con il mouse sul nome di una isoforma viene visualizzato un menu a tendina con informazioni e link;

Link alla entry in Protein della proteina relativa;

Page 47: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Contiene le sequenze nucleotidiche di tutte le specie caratterizzate, siano esse codificanti o meno.

Bioinformatica47

Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore

Page 48: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Metodi di ricerca: Simbolo o nome di un gene o proteina : Ad es. BAX;

Ricerca per Accession Number ad es. CAA79696, NP_778203, 263191547, BC043443, NM_002020 etc);

Ricerca per autore: Ad es. Smith JR (Cognome seguito dalle iniziali senza punti);

Ricercare una frase esatta: Ad es. "contactin associated protein";

Usare gli operatori booleani: AND, OR, NOT (ad es. contactin AND neurofascin);

Bioinformatica48

Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore

Page 49: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Metodi di ricerca: Usare gli operatori booleani: AND, OR, NOT insieme alle parentesi

Bioinformatica49

Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore

g1p3 AND (response element OR promoter)

Di default viene applicato l’operatore AND:

Tp53 mouse

Usare Wild Cards “*” oppure “?”

Page 50: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Metodi di ricerca: Usare i Limits;

Cliccare su limits nella pagina

principale di entrez Nucleotide

Data di pubblicazione; Data di Modifica; Db sorgente: EMBL,Genbank,

DDBJ, etc;

Tipo di molecola: DNA,RNA,

mRNA, cRNA;

Localizzazione della sequenza:mitocondrio, nucleo, etc;

Escludere lavori incompleti; Escludere brevetti;

Bioinformatica50

Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore

Page 51: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Metodi di ricerca: Usare i Limits: Field tags;

Bioinformatica51

Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore

Selezionando ad esempio Organism possiamo usare nella ricerca il nome dell’organismo (ad es. “human, mouse, green plant, bacteria, drosophila similis”

Una volta fatta la ricerca possiamo filtrare ancora i dati utilizzando il menu sulla destra della pagina dei risultati;

Page 52: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Metodi di ricerca: Usare i Limits: Possono essere usati anche

direttamente nel campo di ricerca racchiusi tra [ ]

Bioinformatica52

Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore

[accession] Accession number;[all field];[author];[ecrno] EC/RN Number (enzyme commission number);[Gene Name] [Issue] [title] [journal] etc…Parametri pubblicazione;[Publication date] Data di Pubblicazione e eventuale Modifica;Lunghezza della sequenza;

Ricerca avanzata

Page 53: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Metodi di ricerca: Usare i Limits. Esempi:

Bioinformatica53

Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore

Frogs AND 2010/06[Publication Date]

110:500[Sequence Length]

2009/3/1:2009/9/30[Publication Date]

NC_0000*[Accession] AND Human[Organism]

Page 54: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Metodi di ricerca: Advanced Search:

Bioinformatica54

Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore

Page 55: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Metodi di ricerca: Advanced Search e History:

Bioinformatica55

Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore

Nella pagina della ricerca avanzata è presente una History delle query fatte recentemente:

Ciascuna query ha un nome nel formato “#NUMERO”; E’ possibile riutilizzare query nella history e combinarle tra loro

usando gli operatori booleani;

Page 56: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

DIVERSI TIPI DI ENTRY. mRNA (ad es. entry U90223);

DNA (ad es. Entry AF018430);

Le due entry si riferiscono a: mRNA relativo ad un gene con informazioni relative a , CDS e Proteina;

La seconda mostra come un gene si presenta effettivamente su un tratto di cromosoma (varianti di splicing, presenza di esoni introni etc etc);

Bioinformatica56

Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore

Page 57: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

mRNA ENTRY: U90223

Bioinformatica57

Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore

Page 58: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

DNA Entry: AF018430

Due varianti di splicing

Bioinformatica58

Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore

Page 59: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

DNA Entry: AF018430

Bioinformatica59

Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore

Prendi i nucleotidi da 1 a 1735 dalla entry AF018429.Aggiungi i nucleotidi da 1 a 1177 dalla entry AF018430.Aggiungi i nucleotidi da 1 a 45 dalla entry AF018431.Aggiungi i nucleotidi da 658 a 732 dalla entry AF018432.

Page 60: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Contiene le sequenze create dalla traduzione di sequenze nucleotidiche codificanti provenienti da GenBank, EMBL,DDBJ;

Le sequenze proteiche sono importate inoltre da db esterni quali Protein Information Resource (PIR), SWISS-PROT, Protein Research Foundation (PRF).

Le sequenze proteiche sono inoltre estratte da strutture provenienti da Protein Data Bank (PDB).

Bioinformatica60

Entrez - Protein http://www.ncbi.nlm.nih.gov/protein

Page 61: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Metodi di ricerca: Sono identici a quelli visti per Nucleotide;

Bioinformatica61

Entrez - Protein http://www.ncbi.nlm.nih.gov/protein

Page 62: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Metodi di ricerca: Usare i Limits;

Cliccare su limits nella pagina

principale di entrez Protein

Data di pubblicazione; Data di Modifica; Db sorgente: EMBL,Genbank,

DDBJ, etc;

Escludere lavori incompleti, brevetti, etc.

Bioinformatica62

Entrez - Protein http://www.ncbi.nlm.nih.gov/protein

Page 63: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Metodi di ricerca: Usare i Limits: Possono essere usati anche

direttamente nel campo di ricerca racchiusi tra [ ]

Bioinformatica63

Entrez - Protein http://www.ncbi.nlm.nih.gov/protein

I tag sono identici a quelli visti per Nucleotide ad eccezione di alcuni come ad es:

[molecular weight]

Ricerca avanzata

Page 64: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

La ricerca di tp53 nel db Protein.

Questa volta troviamo la sequenza proteica.

Bioinformatica64

Entrez - Protein http://www.ncbi.nlm.nih.gov/protein

Page 65: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

La ricerca di tp53 nel db Protein.

Ma possiamo sempre risalire alla Coding Sequence

Bioinformatica65

Entrez - Protein http://www.ncbi.nlm.nih.gov/protein

Page 66: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Scegliendo come modalità di visualizzazione “FASTA” otteniamo:

Bioinformatica66

Entrez - Protein http://www.ncbi.nlm.nih.gov/protein

Possiamo cambiare l’intervallo da visualizzare

Page 67: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Scegliendo come modalità di visualizzazione “FASTA” otteniamo:

Bioinformatica67

Entrez - Protein http://www.ncbi.nlm.nih.gov/protein

Trovare regioni di similarità tra tp53 e altre sequenze (BLAST);

Trovare regioni conservate in tp53 (CD-search);

Page 68: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Scegliendo come modalità di visualizzazione “FASTA” otteniamo:

Bioinformatica68

Entrez - Protein http://www.ncbi.nlm.nih.gov/protein

Trovare pattern all’interno della sequenza

Tutto quanto detto vale anche per Nucleotide.

Page 69: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Contiene geni. Mantiene informazioni relativamente a nomenclatura, localizzazione cromosomica, prodotti dei geni, malattie etc.

Bioinformatica69

Entrez - Gene http://www.ncbi.nlm.nih.gov/gene

Page 70: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Metodi di ricerca: Sono identici a quelli visti per Nucleotide e Protein;

Bioinformatica70

Entrez - Genehttp://www.ncbi.nlm.nih.gov/gene

Page 71: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Metodi di ricerca: Usare i Limits;

Cliccare su limits nella pagina

principale di entrez Gene

Search Field tags: Chromosome; Taxonomy ID; Gene Name; Gene Length; Disease/Phenotype; Etc…

Bioinformatica71

Entrez - Gene http://www.ncbi.nlm.nih.gov/gene

Page 72: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Metodi di ricerca: Usare i Limits: Organismo

Bioinformatica72

Entrez - Gene http://www.ncbi.nlm.nih.gov/gene

Page 73: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Metodi di ricerca: Usare i Limits: Opzioni e Date;

Bioinformatica73

Entrez - Gene http://www.ncbi.nlm.nih.gov/gene

Page 74: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Metodi di ricerca: Usare i Limits: Tassonomia;

Bioinformatica74

Entrez - Gene http://www.ncbi.nlm.nih.gov/gene

Page 75: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Metodi di ricerca: Usare i Limits: Possono essere usati anche

direttamente nel campo di ricerca racchiusi tra [ ]

Bioinformatica75

Entrez - Gene http://www.ncbi.nlm.nih.gov/gene

I tag sono identici a quelli visti per Nucleotide e Protein ad eccezione di alcuni come ad es:

[exon count][taxonomy ID][disease/phenotype][cromosome]

Ricerca avanzata

Page 76: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Esempi di Query:

Bioinformatica76

Entrez - Gene http://www.ncbi.nlm.nih.gov/gene

Page 77: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

PubMed è un database di citazioni e abstract della letteratura biomedica.

Quando l’intero articolo è disponibile, vengono forniti link per la consultazione (Pubmed Central, la biblioteca nazionale degli USA).

Tutorial: http://www.nlm.nih.gov/bsd/disted/pubmedtutorial

Bioinformatica77

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed

Page 78: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

PubMed contiene al suo interno 4 database: MEDLINE

citazioni dal 1966 ad oggi; abstract; MESH; aggiornamento settimanale;

OLDMEDLINE con citazioni dal 1951 al 1965 , no abstract, no

MESH PREMEDLINE (In Process citations)

per citazioni non ancora indicizzate; no MeSH ; aggiornamento giornaliero

PUBLISHER SUPPLIED CITATIONS per citazioni ricevute via elettronica direttamente

dall’editore. Non ancora pubblicate in cartaceo.

Bioinformatica78

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed

Page 79: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Anche PubMed ha il suo formato Flat file:

[AU] campo autore

[TI] campo titolo

[TA] nome della rivista

[LA] lingua di pubblicazione dell’articolo

[MH] Mesh terms (soggetti)

[DP] data di pubblicazione(A/M/G)

[EDAT] data di inserimento nel pubmed (A/M/G)

[AB] abstract

Bioinformatica79

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed

Page 80: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Metodi di ricerca: Usare i Limits;

Cliccare su limits nella pagina

principale di entrez Pubmed

Data di pubblicazione; Tipo di articolo; Linguaggio; Specie; Sesso;

Bioinformatica80

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed

Page 81: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Metodi di ricerca: Ricerca Avanzata;

[mesh] Medical Subject Headings (termini biomedici indicizzati in un vocabolario curato da NCBI). Usati per indicare un argomento.

Esempio: tutte le pubblicazioni di “smith” dal 2009 al 2010

Bioinformatica81

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed

Page 82: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Bioinformatica82

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed

Usare il tag MeSH - Medical Subject Headings.Dalla Pagina della ricerca avanzata è possibile accedere al vocabolario di termini medici utili alla ricerca.

Page 83: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Bioinformatica83

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed

Proviamo a ricercare nel DB di MeSH il termine “brain neoplasm”

Ci sono delle sottointestazioni relative al termine che possiamo selezionare

Page 84: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Bioinformatica84

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed

Il DB è organizzato ad albero. Possiamo selezionare un nodo e ricercare le eventuali sottocategorie correlate.

Page 85: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Bioinformatica85

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed

Infine possiamo aggiungere a “Search Builder” il relativo tag di ricerca oppure fare direttamente una ricerca su PubMed.

Page 86: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Bioinformatica86

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed

Anche il DB MeSH ha la sua ricerca avanzata di termini medici.

Page 87: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Metodi di ricerca. Esempi: Ricercare articoli scritti da “Bonnie W. Ramsey” riguardo

la terapia genica nella fibrosi cistica cystic fibrosis gene therapy ramsey bw

Quando si conosce solo il cognome di un autore si può usare il tag [au]: brody[au]

Da alcuni anni Pubmed sta inserendo anche i nomi completi degli autori;

Bioinformatica87

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed

Page 88: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Risultati di una ricerca:

Bioinformatica88

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed

FiltriSend to

Display Settings

Page 89: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Risultati di una ricerca:

Bioinformatica89

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed

Page 90: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Metodi di ricerca. Single Citation Matcher.

Bioinformatica90

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed

Page 91: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Metodi di ricerca. Topic-Specific Queries.

Bioinformatica91

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed

Page 92: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Metodi di Ricerca. Clinical Query:

Bioinformatica92

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed

Page 93: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Metodi di Ricerca. Clinical Query:

Ricerca degli aspetti clinici della terapia genica nella fibrosi cistica, selezionare la categoria “Therapy”, lo scope “Narrow”, e la query: cystic fibrosis gene therapy

Ricerca di reviews su terapia inalatoria nella polmonite: inhalation therapy pneumonia

Per trovare informazioni su anemia falciforme, dalla pagina Clinical Queries scegliere “Genetic Counseling” dal menu “Topic” e immettere i termini di ricerca seguente nella casella di ricerca: sickle cell anemia

Bioinformatica93

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed

Page 94: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Catalogo Riviste. Pubmed mette a

disposizione anche un metodo di ricerca di riviste del settore;

Bioinformatica94

Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed

Page 95: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Esercitazione 1: Ricercare dalla pagina principale di Entrez il gene il cui

accession number è BC043443; Quanti risultati otteniamo nel db Gene? Quale è il nome ufficiale del gene? Gli altri possibili Nomi? In quale filamento del dna si trova? Quante varianti di Splicing? Sono tutte codificanti proteina? A quali malattie è associato? E’ coinvolto nel processo dell’apoptosi? Quanto è lunga la coding sequence della prima variante di

slicing?

Bioinformatica95

EntrezEsercitazioni

Page 96: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Esercitazione 1I: La citocromo c ossidasi (cox4) è un complesso multimerico

localizzato nella membrana mitocondriale interna che partecipa al trasporto degli elettroni nella catena respiratoria mitocondriale. Vogliamo selezionare il gene corrispondente alla subunità 4 umana presente nel cromosoma 16 e prendere poi la sequenza nucleotidica e la relativa traduzione proteica.

STEP 1: Da Entrez selezioniamo il DB Gene; STEP 2: Nel campo di ricerca digitiamo:(homo sapiens[Organism]) AND (16[Chromosome]) AND “cytochrome c oxidase” AND (“subunit

4” OR “subunit iv” OR “cox4”)

STEP 3: Il primo risultato ottenuto è quello che cercavamo (isoforma 1). Cliccliamo sulla sequenza e successivamente sul link “primary Source” e poi “Genbank”

STEP 4 : Recuperare la sequenza mRNA relativa. Recuperare la CDS in formato fasta e la relativa traduzione.

Bioinformatica96

EntrezEsercitazioni

Page 97: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Esercitazione III: Quale è la tassonomia di “drosophila melanogaster”? Suggerimento: Dalla pagina principale di Entrez digitare

drosophila melanogaster[organism] (o equivalentemente selezionando il DB taxonomy digitare drosophila melanogaster)

Bioinformatica97

EntrezEsercitazioni

Page 98: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Esercitazione IV: Utilizzando Entrez cercare il gene tp53 del cane (Canis

familiaris). Di che tipo di gene si tratta? In quale cromosoma si trova? Quale è il refSeq Status? Quante isoforme ci sono? In quale filamento si trova? (senso/antisenso) Ci sono geni omologhi in altri organismi? Quali?

Bioinformatica98

EntrezEsercitazioni

Page 99: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Esercitazione V: Dal DB Protein selezionare la proteina CAD99002. Quale è il nome della proteina? Quale è la lunghezza della proteina? Quale è la lunghezza della coding sequence?

Bioinformatica99

EntrezEsercitazioni

Page 100: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Esercitazione VI: Quante proteine umane sono presenti in banca dati? Quante di queste sono codificate dal genoma mitocontriale?

(suggerimento: usare limits dal db protein)

Bioinformatica100

EntrezEsercitazioni

Page 101: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Esercitazione VII: Quanti articoli ha pubblicato G. Pesole nel 2005? Quanti articoli in pubmed contengono la parola

“Bioinformatics”? Quanti articoli bioinformatici ha pubblicato Alfredo Ferro fino

ad oggi? Quanti di questi riguardano la backtranslation? (suggerimento: usare il nome completo)

Cercare articoli review sull’ischemia cerebrale (cerebral ischemia) come argomento principale riguardante la fascia di età fra i 45 e 64 anni. (sugg: guardate bene i limits).

Ricercare articoli sulla osteoporosi (osteoporosis) nelle donne.

Quale è il nome completo della rivista “Ann. Entomol. Soc. Am.”

Quale è il nome completo della rivista PNAS.Bioinformatica101

EntrezEsercitazioni

Page 102: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Esercitazione VIII: Trovare la tassonomia del pomodoro (tomato). Quale è il

nome scientifico? Trovare la tassonomia della vite (wine grape). Quale è il

nome scientifico?

Bioinformatica102

EntrezEsercitazioni

Page 103: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

SRS - http://srs.ebi.ac.uk

Bioinformatica103

Page 104: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

SRS - http://srs.ebi.ac.uk

Bioinformatica104

SRS (Sequence Retrieval System) è un sistema per la ricerca e l’estrazione di dati biologici via web;

SRS consente la navigazione attraverso varie banche dati sfruttando il cross-referencing;

La gran parte delle opzioni messe a disposizione da SRS sono uguali a quelle di Entrez;

Generalmente quando usiamo SRS e Entrez, il numero di sequenze che otteniamo attraverso i due sistemi è diverso a causa di un diverso aggiornamento delle banche dati utilizzate dai due sistemi di interrogazione;

Page 105: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

SRS - http://srs.ebi.ac.uk

Bioinformatica105

Proviamo a ricercare il gene corrispondente alla subunità 4 umana di citocromo c ossidasi

Selezioniamo Library Page dalla home page di EMBL-EBI

Page 106: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

SRS - http://srs.ebi.ac.uk

Bioinformatica106

Scegliamo il DB in cui effettuare la ricerca;

Possiamo scegliere tra:

Standard Query; Extended Query;

Page 107: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

SRS - http://srs.ebi.ac.uk

Bioinformatica107

Dopo aver scelto EMBL come DB e standard query inseriamo nei campi di ricerca i termini da ricercare utilizzando (come per Entrez i tag appropriati)

Page 108: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

SRS - http://srs.ebi.ac.uk

Bioinformatica108

I termini verranno correlati con un operatore AND

Page 109: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

SRS - http://srs.ebi.ac.uk

Bioinformatica109

Query in formato testuale con operatori booleani e tag per restringere la ricerca.Ci sono alcune piccole differenze rispetto a Entrez: Ad esempio gli operatori booleani sono indicati con &, !, | etc.

Page 110: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

SRS - http://srs.ebi.ac.uk

Bioinformatica110

Risultato della ricerca:Il primo record è “ipotetical”Il terzo Record è quello che cercavamo (isoforma 1);

Page 111: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

SRS - http://srs.ebi.ac.uk

Bioinformatica111

E’ possibile selezionare una o più sequenze e richiamare su di essa un programma come ad es. BLAST, CLUSTALW, FASTA, Transeq (traduzione in aminoacidi), Backtranseq (backtranslation), etc etc.

Page 112: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

SRS - http://srs.ebi.ac.uk

Bioinformatica112

Cliccando sul link relativo otteniamo la pagina contenente le informazioni;

E’ praticamente molto simile a quella di Entrez.

Page 113: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

SRS - http://srs.ebi.ac.uk

Bioinformatica113

Tra le altre informazioni troviamo le Features della sequenza (Introni, esoni etc etc).

Traduzione

Page 114: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

SRS - http://srs.ebi.ac.uk

Bioinformatica114

In fondo alla pagina troviamo anche la sequenza

Page 115: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

SRS - http://srs.ebi.ac.uk

Bioinformatica115

Esercizio IRicercare in SRS tutte le sequenze nucleotidiche riguardanti i muscoli nell’uomo che si riferiscano a myosin oppure a telethonin ma non a skelectal.

Page 116: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

SRS - http://srs.ebi.ac.uk

Bioinformatica116

Esercizio IIEffettuare tutte le ricerche fatte su entrez anche su srs.

Page 117: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

DDBJ - http://www.ddbj.nig.ac.jp/

Bioinformatica117

Page 118: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

DDBJ - http://www.ddbj.nig.ac.jp/searches-e.html

Bioinformatica118

Ricerca di sequenze:

Page 119: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

Altre Banche dati SWISSPROT/UNIPROT (http://www.ebi.ac.uk/swissprot/access.html):

banca dati originale, sviluppata in Svizzera. E’ una banca dati altamente curata, con alto livello di annotazione

(descrizione della proteina, delle funzioni, della sua struttura, di modificazioni post-traslazionali e post-trasduzionali, di varianti, di polimorfismi etc), alto livello di integrazione con altri database, basso livello di ridondanza.

Questa banca dati fornisce entry flat-file che si differenziano da EMBL soprattutto per quanto riguarda le features che descrivono nelle proteine la presenza di aa modificati, regioni peptidiche corrispondenti ad isoforme, domini strutturali e siti di polimorfismi;

PIR (http://pir.georgetown.edu): altra banca dati di sequenze proteiche sviluppata negli USA. E’ molto curata e ben annotata, ma è poco integrata con altri database e quindi offre minori vantaggi nel suo uso.

Bioinformatica119

Page 120: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

UNIPROT

Bioinformatica120

Page 121: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

UNIPROT Dal sito di EBI possiamo

accedere al DB UniProt tramite ricerca testuale o SRS;

Possiamo inoltre eseguire tools come BLAST, CLUSTALW su sequenze del DB;

Possaimo accedere a una libreria Java per l’accesso remoto al DB;

Bioinformatica121

Page 122: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

UNIPROT - http://www.uniprot.org/uniprot/

Ricerca Testuale

Bioinformatica122

Tool: In questo caso stiamo effettuando una ricerca

Page 123: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

UNIPROT - http://www.uniprot.org/uniprot/

Ricerca Testuale

Bioinformatica123

Ricerchiamo la proteina relativa a TP53 in Homo Sapiens

Page 124: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

UNIPROT - http://www.uniprot.org/uniprot/

Ricerca Testuale

Bioinformatica124

Otteniamo una lista di entry: La prima è quello che cerchiamo.

Da notare l’Entry Name tipico di UniProt.

Cliccando sulla entry otteniamo numerose informazioni (in parte uguali a Entrez)

Page 125: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

UNIPROT - http://www.uniprot.org/uniprot/

Bioinformatica125

Formato della Entry: XML, FASTA, TXT

Informazioni e Funzione

Ma c’e’ anche:• Bibliografia;• Le interazioni;• Ontologie;• Features: Binding

site, Motif,Siti attivi;

Page 126: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

UNIPROT - http://www.uniprot.org/uniprot/

Bioinformatica126

TOOLS:

A questo punto possiamo ad esempio fare un BLAST sulla proteina.

Page 127: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

UNIPROT - http://www.uniprot.org/uniprot/

Bioinformatica127

Otteniamo gli stessi risultati di BLAST su NCBI visualizzati in modo diverso.

Page 128: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

UNIPROT - http://www.uniprot.org/uniprot/

Bioinformatica128

Possiamo allineare due o più sequenze anche mettendo solo l’identificativo

Page 129: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

UNIPROT - http://www.uniprot.org/uniprot/

Bioinformatica129

Scaricare una o più entry

Page 130: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

UNIPROT - http://www.uniprot.org/uniprot/

Bioinformatica130

Mappare uno o più ID di UniProt nell’ID di un altro DB (GenBank, PIR, PDB, etc. etc.)

Può essere molto utile ad esempio quando cerchiamo la struttura 3D di una proteina in PDB.

Page 131: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

UNIPROT - http://www.uniprot.org/uniprot/

Ricerca Testuale Avanzata

Bioinformatica131

Ricerca avanzata con operatori booleani e tag per filtrare

(La sintassi è leggermente diversa da quella vista per Entrez e SRS).

Page 132: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

UNIPROT - http://www.uniprot.org/uniprot/

Bioinformatica132

Esercitazione I: Ricercare la sequenza URIC_PAPHA. Quale è l’organismo? Quanto è lunga la sequenza? Quali sono i processi biologici in cui è coinvolta? Indicare la posizione nella proteina di Binding site.

Page 133: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

PIR - http://pir.georgetown.edu

Bioinformatica133

Page 134: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

PIR - http://pir.georgetown.edu

Clicchiamo su Search/Analysis – Text Search

Bioinformatica134

Page 135: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

PIR - http://pir.georgetown.edu

In modo del tutto analogo agli altri tool possiamo effettuare una ricerca utilizzando operatori booleani e/o tag per il filtraggio.

Bioinformatica135

Page 136: Bioinformatica Banche dati biologiche Dr. Giuseppe Pigola – pigola@dmi.unict.it.

PIR - http://pir.georgetown.edu

Tool: BLAST; FASTA; Ricerca di pattern

in DB; NEEDLEMAN-

WUNSCH; CLUSTALW; T-Coffee; Muscle; Visualizzazione

grafica di domini;

Bioinformatica136