I DATABASE Elenco: Statistiche (Vedere i vari database): .

43
I DATABASE Elenco: http:// www.ncbi.nlm.nih.gov/About/tools/restable_mol.ht ml Statistiche (Vedere i vari database): http:// www.ncbi.nlm.nih.gov/About/tools/restable_stat.h tml

Transcript of I DATABASE Elenco: Statistiche (Vedere i vari database): .

Page 1: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

I DATABASE

•Elenco:

•http://www.ncbi.nlm.nih.gov/About/tools/restable_mol.html

•Statistiche (Vedere i vari database):

•http://www.ncbi.nlm.nih.gov/About/tools/restable_stat.html

Page 2: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

NUCLEOTIDE

Page 3: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

“LIMITS”•È possibile “limitare” la ricerca, creando delle query anche piuttosto complesse

Page 4: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

“LIMITS”•Ad esempio scegliere solo le sequenze di Sus scrofa

E’ possibile selezionare solo alcuni dei record risultanti ed effettuare delle operazioni solo su essiAd esempio visualizzarne la sequenza, salvarli su file....

numero di record mostrati per pagina

clickando qui si vede il record

Page 5: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

“DISPLAY”•Con DISPLAY è possibile selezionare il formato con cui visualizzare i risultati

Page 6: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

“SEND TO”

Con clipboard si

possono salvare

informazioni sul sito per 8

ore

•Con SEND TO è possibile scegliere se mandare i risultati come testo (senza link o checkbox) a video o se downloadarlo come un file locale sul PC (ad esempio per successive elaborazioni)

Page 7: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

UN RECORD•LOCUS un codice

•DEFINITION•descrizione della sequenza•ACCESSION un codice•ORGANISM•l’organismo a cui appartiene•la sequenza (e tassonomia)•REFERENCE•Riferimenti bibliografici a•quella sequenza o chi l’ha•sottomessa•FEATURES•alcune caratteristiche•e link importanti•ORIGIN•la sequenza

Page 8: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

“LIMITS”•Proviamo a limitare ulteriormente la ricerca

Page 9: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

“PREVIEW”

•PREVIEW permette di vedere solo il numero di record che soddisfano la query.

Page 10: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

“INDEX”

•INDEX permette di usare il numero delle query (preceduto da #) anzichè riscrivere tutto (si possono fare anche operazioni booleane

Page 11: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

IL BOTTONE “SUBSEQUENCE”•Una volta visualizzato un record di sequenza è possibile estrarne solo una sottosequenza o trovarne l’inverso complementare

Page 12: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

IL BOTTONE “FEATURES”•Permette di togliere dalle FEATURE del record visualizzato come ad esempio delle informazioni che potrebbero essere numerosissime e poco significative come ad esempio i SNP

•Vedere il record della sequenza nucleotidica della telethonina•http://www.ncbi.nlm.nih.gov:80/entrez/viewer.fcgi?db=nucleotide&val=19924299•e rimuovere gli SNP

Page 13: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

OPERATORI BOOLEANI•Questi dovreste conoscerli dalla matematica e dall’informatica!

ATTENZIONE! Oltre a quello nucleare, esiste anche il genoma mitocondriale, nei database sono depositate sequenze derivanti da entrambe le sorgenti!!!

Page 14: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

OPERATORI BOOLEANI•Esempio di OR

•Esempio di AND (non esistono sequenze contemporaneamente di maiale e di pollo)

Page 15: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

UN ERRORE•Attenzione: se abbiamo limitato la ricerca, tutti i termini scritti sulla linea di query si riferiscono a quella limitazione (ad esempio il campo organismo)

Page 16: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

CORRETTO!•In tal caso bisogna specificare a quale campo si riferisce ogni temine della query

Page 17: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

ATTENZIONE AL MINUSCOLO•Attenzione: gli operatori booleani vanno indicati in MAIUSCOLO!

Sbagliato!

Giusto!

Page 18: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

SORGENTI DEI DATI

Record proveniente da DDBJ (con codice AK096328.1)Record provenienti da REFSEQ, database di sequenze di trascritti (con codice NM_021245.2)

Record proveniente da GENBANK, (con codice BC013330.1)

Il codice “gi” è identificativo all’interno del database nucleotidico globale di NCBI

•Come già accennato il database NUCLEOTIDICO dell’NCBI contiene numerose sorgenti di dati. Dalla riga di intestazione del formato FASTA si può capire quale

•[gb|emb|dbj|sp|pir]

Page 19: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

LINK A TAXONOMY

Link a taxonomy (database degli organismi rappresentati in NUCLEOTIDE di NCBI

•Vediamo più in dettaglio alcuni dei campi ed in particolare i link agli altri database integrati in ENTREZ

Page 20: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

LINK A PUBMED•Link alle pubblicazioni scientifiche riguardanti quell’argomento

LEZIONE 5-01mar2005

Page 21: I DATABASE Elenco:  Statistiche (Vedere i vari database): .
Page 22: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

PubMed, disponibile tramite NCBI Entrez retrieval system, è stato sviluppato dal National Center for Biotechnology Information (NCBI) alla National Library of Medicine (NLM), è localizzato presso il National Institutes of Health (NIH). Entrez (come già discusso) è il sistema di ricerca testuale e di recupero utilizzato all’NCBI per servizi che includono PubMed, Sequenze di nucleotidi e Proteine, Genomi completi, Tassonomia, OMIM e molti altri.PubMed è stato disegnato per fornire accesso alle citazioni della letteratura biomedica, inoltre consente l’accesso e il link ad altre risorse biomolecolari di Entrez.

Page 23: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

Esempio di una ricerca in PubMed

Testo ricercato

visualizzazione

Parametri “avanzati” di ricerca

Page 24: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

• In stretta relazione con le banche dati primarie di nuceotidi, esistono numerose banche dati di geni,

• ad esempio presso l’NCBI è stata sviluppata la banca dati LocusLink.

• Come si può dedurre dal nome, questo database assegna per ogni locus genetico, ossia per ogni elemento funzionale di un genoma (ad esempio un gene codificante una proteina):

• il nome ufficiale,• eventuali sinonimi,• il link a OMIM,• gli accession numbers delle sequenze nucleotidiche associate

a quel locus e presenti nelle banche dati primarie,• Il codice della classificazione internazionale degli enzimi (se si

tratta di un enzima),• Il link ad altre banche dati NCBI costituenti il pacchetto per la

genomica quali RefSeq (in cui a ciascuna entry è associata per es.la sequeza completa tra le ridondanti) ed UniGene.

Page 25: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

Quindi LocusLink fornisce un’interfaccia per effettuare delle query singole a sequenze curate* ed informazioni descrittive su singoli loci genetici.A breve LocusLink verrà rimpiazzato da Entrez Gene che integrerà le informazioni provenienti da LocusLink e da RefSeq per i genomi completamente sequenziati.

*si intende per sequenza curata un sequenza che è stata sottoposta ad un processo di verifica (spesso manuale) e di controllo che consente di eliminare errori, ridondanza nel numero delle sequenze (vedi database primari di nucleotidi, ecc.).

Page 26: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

I link forniti sono estremamente interessanti: ad esempio si possono ottenere ulteriori informazioni sul gene in database come PubMed e OMIM

LEZIONE 5-01mar2005

Page 27: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

Why GeneCards?La comunità scientifica ha recentemente sviluppato un gran numero di risorse web contenenti informazioni di carattere biologico e medico, questo trend è stato incentivato dalla necessità di immagazzinare e distribuire i dati ottenuti dal “Progetto Genoma Umano”.Tuttavia l’integrazione di tutti I dati biomedici in un browser accessibile non è ancora stato raggiunto. Inoltre il crescente numero di differenti sorgenti di dati hanno creato un labirinto di informazioni che fa sì che spesso non si riescano a recuperare I dati voluti.Al fine di testare nuovi approcci per un navigazione efficiente nelle informazioni biomediche è stata sviluppata la GeneCards Encyclopedia. Un aspetto cruciale della strategia di GeneCards è l’utilizzo della nomenclatura standard come ad esempio i simboli dei geni approvati.

IL DATABASE GeneCards

Page 28: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

Esempio di una “query su GeneCards”

Profilo di espressione utile per valutare il livello di espressione del gene in esame in vari tessuti e calcolato con metodi differenti.

Link a geni “ortologhi**” in altri organismi

LEZIONE 5-01mar2005

Page 29: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

**Durante il processo evolutivo è noto che si generano specie differenti da un antenato comune.Nelle specie che derivano da questo processo detto di “speciazione”, gran parte dei geni dell’antenato comune vengono mantenuti e nella gran parte dei casi da un gene se ne ottengono due, uno per ognuna delle due specie. Questi due geni si definiscono geni ortologhi.

SPECIE 1Gene “A”

SPECIE 2Gene “A-1”

SPECIE 3Gene “A-2”

Page 30: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

• Come detto in precedenza mutazioni, ossia alterazioni della sequenza nucleotidica di un gene, possono riflettersi in alterazioni della funzionalità della proteina da esso codificata. Questo mutazioni possono quindi causare le cosiddette malattie genetiche.

• ES: una mutazione a carico del gene della β globina fa sì che una particolare base del gene venga sostituita con un’altra, ciò altera il codone e nella proteina ciò si riflette nella sostituzione di un glutamato con una valina e in una ridotta funzionalità della proteina che causa una malattia genetica detta anemia a cellule falciformi.

• Mutazioni a carico di geni differenti causano molte malattie genetiche diverse per questo è stato costituito il database OMIM.

Page 31: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

                                                                    

Questo database è un catalogo di geni umani e di disordini genetici prodotto da Victor A. McKusick e dai suoi colleghi alla Johns Hopkins University e svilluppato per il web dall’ NCBI, il “National Center for Biotechnology Information”. Il database contiene informazioni testuali e referenze; contiene inoltre numerosi link a MEDLINE, ai record delle sequenze all’ NCBI ed ad altri database ed altri link a risorse collegate.Come in altri database NCBI è possibile fare delle ricerche avanzate utilizzando opzioni quali “Limits, Preview/Index, History, and Clipboard”.

Page 32: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

TEXT Since at least as early as 1970, 2 alpha loci have been known to exist in some humans (Brimhall et al., 1970): hemoglobins G (Pest) and J (Buda) showed the existence of at least 2 alpha chains in the Hungarians studied (141800.0041, 141850.0008), whereas hemoglobin J (Tongariki) indicated that in Melanesians only 1 alpha locus exists (141800.0077). The alpha locus is apparently double in Chinese (Kan, 1974), whereas in American blacks, chromosomes with single or double alpha loci are about equally frequent (Huisman, 1974). Rucknagel and Dublin (1974) estimated that a chromosome with a single alpha locus has a frequency of about 0.27 in American blacks and about 0.36 in African blacks. Rucknagel and Rising (1975) studied an American black family in which of 5 persons heterozygous for hemoglobin G (Philadelphia), an alpha-chain mutant, 3 had about 30% Hb G and 2 had 40%. They suggested that the former persons have 2 alpha hemoglobin loci and the latter persons 1 such locus….

Esempio di una query sul database OMIM: da notare l’estensiva descrizione di quanto noto sulla/e malattia/e determinate da mutazioni a carico del gene in esame

Page 33: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

UCSC genome browser

• Questo browser genomico è stato sviluppato per fronteggiare il problema dell’enorme aumento di dati genomici derivanti in particolare dai progetti di sequenziamento dei vertebrati.

• Ovviamente è poco utile avere lunghe stringhe di basi corrispondenti ai singoli cromosomi dei vari organismi.

• Per questo motivo l’UCSC genome browser fornisce una rapida visualizzazione grafica di ogni regione di genoma di qualsivoglia lunghezza assieme ad una grande quantità di informazioni come:

• geni noti, geni predetti, ESTs (expressed sequence TAGs), mRNA, geni omologhi di altri organismi, ecc..

Page 34: I DATABASE Elenco:  Statistiche (Vedere i vari database): .
Page 35: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

Organismo di cui si vuole visualizzare la regione genomica

Durante il sequenziamento sitematico di un genoma, spesso vengono rilasciate versioni successive specialmente nella fase conclusiva del progetto; esse possono essere più o meno definitive. Qui si fa riferimento a varie versioni (release) del genoma umano.

Gruppo di organismi di interesse

LEZIONE 5-01mar2005

Page 36: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

Pulsanti di spostamento sul genoma

Pulsanti per ingrandire o rimpicciolire l’area di interesse

Posizione attuale sul genoma

Permette di “saltare” sulla posizione digitata sulla finestra di sinistra

Chromosoma, rappresentazione schematica e posizione attuale

Page 37: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

Posizione (bp)

Geni con esoni (sbarrette spesse) ed introni (sbarrette sottili)

ESTs

Grado di conservazione della sequenza tra organismi diversi

Page 38: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

Moltissimi sono i campi a disposizione, essi possono essere visualizzati (dense-full o pack) o nascosti (hide) utilizzando le opzioni presenti nella parte inferiore della

pagina

Ci sono varie possibilità di visualizzazione di ogni informazione sul genome browser, si possono fare varie prove ad esercitazione

Page 39: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

• Il numero crescente di sequenze geniche note e di informazioni disponibili su di esse spesso causa dei problemi come per esempio l’assegnazione di nomi multipli allo stesso gene oppure l’assegnazione di funzioni differenti alla stessa proteina. Queste funzioni possono essere tutte corrette (spesso una proteina svolge più di una funzione) ma esse devono essere rese disponibili agli utenti e definite utilizzando una terminologia corretta per far sì che non si generino descrizioni troppo soggettive e lasciate completamente al libero arbitrio dello scopritore della proteina o del gene.

• Per questo motivo è stato fondato il database GeneOntology che fornisce una definizione precisa del ruolo svolto dalle singole proteine tramite un vocabolario (delle ontologie) che consenta di definire in modo corretto e non arbitrario il o i processi biologici cui una proteina partecipa, la/e sue funzioni molecolari e la sua localizzazione/i cellulare.

Page 40: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

GeneOntology

Page 41: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

The ontologiesI tre principi che stanno alla base delle gene ontologies sono: “molecular function”, “biological process” e “cellular component”. Un prodotto genico ha una o più funzioni molecolari ed è utilizzato in uno o più processi biologici ed esso potrebbe essere associato con uno o più componenti cellulari. Per esempio, il prodotto genico citocromo C può essere descritto dal termine di funzione molecolare “electron transporter activity”, dal termine di processo biologico “oxidative phosphorylation” e “induction of cell death”, e dal termine della categoria componente cellulare “mitochondrial matrix” e “mitochondrial inner membrane”.

Page 42: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

• Come si vede nella precedente slide un termine di gene ontology molto “generico” (ad esempio organelle organization and biogenesis) “contiene al suo interno” più termini di gene ontology via via più specifici (es. mitochondrion organization and biogenesis).

• Questo fa sì che man mano che si va “verso il basso” le definizioni diventino sempre più precise ed i geni che soddisfano a quella descrizione sempre meno.

• Questo albero può quidi essere “letto” a più livelli, da quelli più generali che stanno in alto a quelli via via sempre più specifici che stanno in basso.

Page 43: I DATABASE Elenco:  Statistiche (Vedere i vari database): .

Quanti sono i database disponibili in rete?Una risposta si può ottenere al seguente sito:http://www.infobiogen.fr/services/dbcat/DBCAT, The Public Catalog of Databases Attualmente esistono più di 500 database di carattere biologico che sono stati raggruppati in questo sito in otto categorie principali:

Il numero di database inoltre è in continua crescita e la rivista NAR (nucleic acids research) dedica ogni anno un numero speciale per la descrizione dei database biologici.