BLAST: Basic Local Alignment Search...

32
Lezione 9 NCBI: National Center for Biotechnology Information

Transcript of BLAST: Basic Local Alignment Search...

Lezione 9

NCBI: National Center for Biotechnology Information

Come possiamo strutturare le informazioni e renderle disponibili?

Banche dati (database)

L’elemento di partenza di ogni database è la tabella: una tabella è un insieme di righe e colonne; ogni colonna contiene un dato relativo alla cosa che stiamo descrivendo; ogni riga corrisponde ad una istanza della cosa.

Se parlassimo di persone avremmo che ogni riga corrisponde ad una persona ed ogni colonna corrisponde ad una caratteristica della persona (altezza, peso eccetera)

In termini di database ogni colonna è un campo, ogni riga un record.

Un database può essere composto di più tabelle. Ciò che rende un database relazionale è la presenza di legami fra le tabelle, di connessioni logiche, di relazioni, appunto.

Nome cognome Università/Centro di ricerca

dipartimento indirizzo

Silvia Fuselli Unife SVEB Via Borsari 46 Ferrara

Emiliano Trucchi Unife SVEB Via Borsari 46 Ferrara

Pierpaolo Maisano Delser

TrinityCollege

Smurfit Institute of Genetics

College Green, Dublin 2 Ireland

Flat file: docenti e istruttori del corso BAG 2015

ridondante

record

campo

Relational databaseCostituito da una sarie di tabelle connesse tra loro. Le informazioni non sono ridondanti

Istruttore_ID Nome cognome Contatto_ID

1 Silvia Fuselli 1

2 Emiliano Trucchi 1

3 Pierpaolo MaisanoDelser

3

Tabella istruttori

Tabella contatti

Contatto_ID Università/Centro di ricerca

dipartimento indirizzo

1 Unife SVEB Via Borsari 46 Ferrara

2 Trinity College Smurfit Institute of Genetics

College Green, Dublin 2 Ireland

Chiave primaria

Chiave secondaria

Chiave primaria

Come cercare nei database?

Utilizzo di key words (parole chiave) o identificatori specifici (accession numbers)

Operatori booleani:

Voglio ottenere dati sul gene LDH nella nostra specie:LDH AND human

Voglio ottenere dati sul gene LDH escludendo i primatiLDH NOT primates

Voglio ottenere lavori scientifici pubblicati da Caramelli D E/O Lari M

Come cercare nei database?

In alternativa alle parole chiave potrei usare BLAST (vedi lezione

Ricerche in banche dati (databases) attraverso l’uso di BLAST

NCBI several databases among which GenBank http://www.ncbi.nlm.nih.gov/

EMBL (European Molecular Biology laboratory)http://www.ebi.ac.uk/

DDBJ (DNA databank of Japan)http://www.ddbj.nig.ac.jp/index-e.html

Database più importanti per sequenze nucleotidiche (genetiche e genomiche):

EBI/NCBI/DDBJ• These 3 databases contain mainly the same information within

2-3 days (few differences in format and syntax)

• Serve as archives containing all sequences (single genes, ESTs, complete genomes, etc.) derived from:– Genome projects

– Sequencing centers

– Individual scientists

– Literature

– Patent offices

• Non-confidential data exchanged daily

• The database triples approximately every 12 months.

European Bioinformatics Institute

National Center for Biotechnology Information

Ricercare informazioni «across databases» in NCBI http://www.ncbi.nlm.nih.gov/gquery/

L'Entrez Global Query Cross-Database Search System è un sistema di ricerca integrato tra banche dati biomediche contenenti informazioni di tipo differente.

Entrez è coordinato dal National Center for Biotechnology Information (NCBI) statunitense, parte della National Library of Medicine (NLM) (essa stessa parte dei National Institutes of Health (NIH)).

Proviamo a cercare il nome di un gene: LDH (lattato deidrogenasi)

Restringiamo all’uomo con l’operatore booleano AND

Seguiamo il link a PubMed:

Possiamo vedere l’abstract

E ottenere l’articolo intero se siamo autorizzati (per esempio siamo nella rete di unife)

Nel menu a sinistra selezioniamo REVIEW come tipo di pubblicazione, fra le altre troveremo la seguente:

Restringiamo all’uomo con l’operatore booleano AND

Seguiamo il link ad OMIM: Online Mendelian Inheritance in Man®

An Online Catalog of Human Genes and Genetic DisordersUpdated 20 November 2015

Vediamo i risultati (items) 2-3-4

Seguiamo il link ai database di SNP

Gli SNP vengono catalogati con un “rs” univoco

Ora facciamo una ricerca per patologia: vogliamo trovare gli SNP (single nucleotide polymorphisms) associati al cancro al seno e disegnare un saggio di laboratorio (PCR) per tipizzarli

Key workds: Early onset breast cancer, ricerca in Entrez

Seguiamo il link a GENE

Troverete molte informazioni sul gene e sulla regione cromosomica in cui si trova. Verso la fine della pagina trovate il link a dbSNP

sinonimi

Non sinonimi

frameshift

Alcune varianti hanno provato effetto patogenico

Il database più noto in NCBI è GenBank

WGS: Whole Genome Shotgun SubmissionsWhole Genome Shotgun (WGS) projects are genome assemblies of incomplete genomes or incomplete chromosomes of prokaryotes or eukaryotes that are generally being sequenced by a whole genome shotgun strategy. WGS projects may be annotated, but annotation is not required. NCBI has a Prokaryotic Genomes Annotation Pipeline that may be requested at the time the genome files are submitted to GenBank. This pipeline generates a submission-ready annotated file that the submitter could edit prior to data release.

Guardate bene tutte le statistiche per farvi un’idea di come GenBank stia evolvendoTra le altre:

Cerchiamo in GenBank il gene del citocromo B (si trova sul mitocondrio) del pesceGarra rufa (anche detto doctor fish)

Per farvi due risate.. http://www.dottorfish.com/it/garra-rufa.php

gene

Intero mitocondrio

Il locus e l’organismo (source)

Referenze bibliografiche

FEATURES: la sequenza e le sue caratteristiche

formati

Molto importante: identificatore UNIVOCO, accession number

In questo caso gene e cds coincidono (non è sempre così, vedere lezioni precedenti)

Sequenza tradotta in aminoacidi

Sequenza in formato GenBank

Sequenza in formato FASTA

The SRA not only provides a place where

researchers can archive their short read data,

but also enables them to quickly access known

data and their associated experimental

descriptions (metadata) with pin-point

accuracy.