Banche dati Parte 2 -...

13
Laboratorio di Bioinformatica I Banche dati Banche dati Parte 2 Dott. Sergio Marin Vargas (2014 / 2015)

Transcript of Banche dati Parte 2 -...

Page 1: Banche dati Parte 2 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_b_Banche_dati_Google_Scholar... · Banche dati Parte 2 Dott. Sergio Marin Vargas (2014 / 2015) E’ un motore

Laboratorio di Bioinformatica I

Banche datiBanche datiParte 2

Dott. Sergio Marin Vargas (2014 / 2015)

Page 2: Banche dati Parte 2 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_b_Banche_dati_Google_Scholar... · Banche dati Parte 2 Dott. Sergio Marin Vargas (2014 / 2015) E’ un motore

https://scholar.google.it/

E’ un motore di ricerca di Google, specializzato nella ricerca di articoli scientifici.

Google Scholar

Stringa di ricerca

Risultati

Filtro x anno

Come citare

Quanti hanno

citato questo

articolo

Page 3: Banche dati Parte 2 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_b_Banche_dati_Google_Scholar... · Banche dati Parte 2 Dott. Sergio Marin Vargas (2014 / 2015) E’ un motore

� Parte A:

� Trovare l’articolo originale nel quale Watson andCrick formularono l’ipotesi della struttura del DNA.� In quale anno è stato pubblicato ?

� Da quanti è stato citato ?

Esercizio 1 Google Scholar

� Da quanti è stato citato ?

� Parte B:

� Trovare l’articolo di Nature Genetics con DOI(Document of Interest) 10.1038/75556.� A cosa è riferito l’articolo?

� Chi è il primo nome dell’articolo?

� A quale istituto appartiene (apparteneva) il primo nome ?

Page 4: Banche dati Parte 2 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_b_Banche_dati_Google_Scholar... · Banche dati Parte 2 Dott. Sergio Marin Vargas (2014 / 2015) E’ un motore

www.uniprot.org

Uniprot

Swiss-Prot

Stringa di ricerca Ricerca avanzata

TrEMBL

Page 5: Banche dati Parte 2 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_b_Banche_dati_Google_Scholar... · Banche dati Parte 2 Dott. Sergio Marin Vargas (2014 / 2015) E’ un motore

Uniprot – Risultato ricerca (TFR1)

FiltriUNIPROT

entrySwiss-Prot

TrEMBL

Page 6: Banche dati Parte 2 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_b_Banche_dati_Google_Scholar... · Banche dati Parte 2 Dott. Sergio Marin Vargas (2014 / 2015) E’ un motore

Uniprot – Protein Entry (TFR1)

Sezioni

Page 7: Banche dati Parte 2 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_b_Banche_dati_Google_Scholar... · Banche dati Parte 2 Dott. Sergio Marin Vargas (2014 / 2015) E’ un motore

Uniprot – Sezioni

Function: Funzione della proteina e processi biologici.

Names & Taxonomy: Diversi nomi della proteine, del gene e gli organismi.

Subcellular location: Localizzazione della proteina nella cellula e topologia.

Pathology & Biotech: Malattie correlate ed esperimenti di mutagenesis.

PTM / Processing: Modificazioni Post-traduzionali ed eventi di processamento.

Expression: Dove viene espressa la proteina.

Interaction: Con cosa interagisce la proteina.Interaction: Con cosa interagisce la proteina.

Structure: Collegamenti ai database con la struttura 3D della proteina (se c’è)

Family & Domains: Domini strutturali della proteina, motif, filogenetica.

Sequence: Sequenza della proteina (delle diverse isoforme)

Cross-references: Collegamenti ad altri database.

Publications: Pubblicazioni.

Entry information: Informazioni di UNIPROT sul entry.

Miscellaneous: Qualsiasi altri informazione non compressa nelle precedenti.

Similar proteins: Collegamento a UNIREF (cluster di UNIPROT).

Page 8: Banche dati Parte 2 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_b_Banche_dati_Google_Scholar... · Banche dati Parte 2 Dott. Sergio Marin Vargas (2014 / 2015) E’ un motore

� Nel database Uniprot si cerchi “hemoglobin subunit beta”

limitando la ricerca (advanced search) a Homo sapiens (si noti l’autocompletamento).

Si selezioni il primo record (P68871)

� Notare la differenza con l’entry di NCBI Proteins NP_000509.1.

� Come sono annotati le diverse regioni della sequenza in NCBI

Esercizio 2 UNIPROT

� Come sono annotati le diverse regioni della sequenza in NCBI

Proteins e in UNIPROT?

� In quali processi biologici è coinvolta?

� Quanti riferimento bibliografici sono presenti?

� Come sono annotate gli SNP?

� Quante strutture sono risolte per NMR?

� Si trovano facilmente informazioni su patologie mendeliane?

� Selezionare i cluster con identità al 90% ed analizzarlo.

Page 9: Banche dati Parte 2 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_b_Banche_dati_Google_Scholar... · Banche dati Parte 2 Dott. Sergio Marin Vargas (2014 / 2015) E’ un motore

� Nel database Uniprot si cerchi la proteina Transferrinreceptor (TFR1) per l’uomo (P02786).

� Quante isoforme ha ?

� Ha la struttura risolta ? Se si, a partire da quale aminoacido è

risolta.

� Quale è il nome del gene che la codifica (entrare in HGNC)

Esercizio 3 UNIPROT

� Quale è il nome del gene che la codifica (entrare in HGNC)

� Nel database Uniprot si cerchi la proteina Transferrinreceptor 2 (TFR2) per l’uomo (Q9UP52).

� Quante isoforme ha, se ne ha più di una perche ?

� Ha la struttura risolta ? Se si, a partire da quale aminoacido è

risolta.

� Quale è il nome del gene che la codifica (entrare in HGNC)

Page 10: Banche dati Parte 2 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_b_Banche_dati_Google_Scholar... · Banche dati Parte 2 Dott. Sergio Marin Vargas (2014 / 2015) E’ un motore

ExPASyBioinformatics Resource Portal (SIB)

http://www.expasy.org/

Page 11: Banche dati Parte 2 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_b_Banche_dati_Google_Scholar... · Banche dati Parte 2 Dott. Sergio Marin Vargas (2014 / 2015) E’ un motore

� Scaricare il fasta della sequenza genomica di human

hemoglobin subunit beta (NM_000518.4).

� Visitare il sito di ExPASy (expasy.org):

� Provare il tools TRANSLATE (resources A..Z) per

Esercizio 4 ExPASy Translate

� Provare il tools TRANSLATE (resources A..Z) per

tradurre automaticamente una sequenza genica

in una proteica.

� Sottomettere la sequenza genomica scaricata

� Quale frame è corretto (confrontare la sequenza

predetta con quella reale NP_000509.1)?

� Perché ci sono 6 frames?

Page 12: Banche dati Parte 2 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_b_Banche_dati_Google_Scholar... · Banche dati Parte 2 Dott. Sergio Marin Vargas (2014 / 2015) E’ un motore

Esercizio 5

� Individuare codice RefSeq di gene e proteina

per RAC1 in Homo sapiens. � Scaricare le sequenze FASTA

� Indicare la prima voce di funzione, processo e � Indicare la prima voce di funzione, processo e componente nella Gene Ontology

� In Uniprot individuare RAC1 in Homo sapiens. � Qual è il suo codice Uniprot?

� Interagisce con la proteina ARFIP2?

� Esistono strutture risolte per NMR per la proteina?

� Secondo la risoluzione quale è la miglior struttura risolta?

� Ci sono isoforme della proteina, quante ?

Page 13: Banche dati Parte 2 - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_b_Banche_dati_Google_Scholar... · Banche dati Parte 2 Dott. Sergio Marin Vargas (2014 / 2015) E’ un motore

Esercizio 6

� In PubMed individuare gli articoli con primo

autore “Smith” e che hanno tra gli argomenti

principali la malattia di Alzheimer e con

l’incremento di ferro, pubblicati dal 2010 al’incremento di ferro, pubblicati dal 2010 a

oggi.

� Ripetere la ricerca utilizzando Google

Scholar.

� Su quale rivista è stato pubblicato ?