Database PROTEIN DATA BANK (RCSB PDB) di Eleonora...

13
Database PROTEIN DATA BANK (RCSB PDB) di Eleonora Borsato Cos'è il database PDB? La banca dati RCSB PDB è il deposito centrale di dati biologici di struttura e contiene informazioni estremamente dettagliate e accurate su strutture proteiche, su complessi proteici e su acidi nucleici sperimentalmente ottenuti. PDB è stato creato nel 1971, dal Brookhaven National Laboratory, quando ancora non esisteva la possibilità di visualizzare graficamente le strutture 3D delle proteine al computer così si è ovviato a questo problema annotando tutte le posizioni spaziali relative degli atomi che costituivano le proteine ed è per questo che è estremamente dettagliato. Le diverse strutture sono state ottenute per mezzo di cristallografie a raggi X e di spettroscopia NMR (risonanza magnetica nucleare). Il primo metodo permette di identificare la posizione degli atomi di una proteina fissata con maggior o minor certezza in base al fattore di temperatura (B- factor), mentre con il secondo metodo si ha una proteina in soluzione perciò è possibile risolverla anche nei suoi diversi stati conformazionali, quest'ultima tecnica è più utile per visualizzare proteine che interagiscono con ligandi. A cosa serve PDB? PDB permette di visualizzare tutte li informazioni relative alla struttura secondaria e terziaria, se note sperimentalmente, di qualsiasi proteina o complesso partendo da una query che può essere il nome della proteina o il suo codice PDB (specifico e univoco per ogni singola proteina). PDB contiene solo informazioni ricavate da esperimenti e non fa alcun tipo di predizione, infatti, nel caso non esista la proteina cercata, PDB restituisce alcuni esempi di proteine in esso contenute molto simili alla nostra. Se si possiede la sequenza amminoacidica si può anche facilmente fare una ricerca in un database di sequenze (FASTA, BLAST...) e si può da qua scegliere un omologo molto vicino, ricavare il suo codice PDB e poi vedere se questa sequenza è presente nel database PDB. A questo punto sta a noi decidere se avvalerci dei dati cristallografici o se usare uno dei tanti sistemi di predizione.

Transcript of Database PROTEIN DATA BANK (RCSB PDB) di Eleonora...

Page 1: Database PROTEIN DATA BANK (RCSB PDB) di Eleonora Borsatodidattica.cribi.unipd.it/biomoldue/biomol2-2010/esercitazioni/Tesine... · estremamente dettagliate e accurate su strutture

Database PROTEIN DATA BANK

(RCSB PDB)

di

Eleonora Borsato

Cos'è il database PDB?

La banca dati RCSB PDB è il deposito centrale di dati biologici di struttura e contiene informazioni

estremamente dettagliate e accurate su strutture proteiche, su complessi proteici e su acidi nucleici

sperimentalmente ottenuti.

PDB è stato creato nel 1971, dal Brookhaven National Laboratory, quando ancora non esisteva la

possibilità di visualizzare graficamente le strutture 3D delle proteine al computer così si è ovviato a

questo problema annotando tutte le posizioni spaziali relative degli atomi che costituivano le

proteine ed è per questo che è estremamente dettagliato.

Le diverse strutture sono state ottenute per mezzo di cristallografie a raggi X e di spettroscopia

NMR (risonanza magnetica nucleare). Il primo metodo permette di identificare la posizione degli

atomi di una proteina fissata con maggior o minor certezza in base al fattore di temperatura (B-

factor), mentre con il secondo metodo si ha una proteina in soluzione perciò è possibile risolverla

anche nei suoi diversi stati conformazionali, quest'ultima tecnica è più utile per visualizzare

proteine che interagiscono con ligandi.

A cosa serve PDB?

PDB permette di visualizzare tutte li informazioni relative alla struttura secondaria e terziaria, se

note sperimentalmente, di qualsiasi proteina o complesso partendo da una query che può essere il

nome della proteina o il suo codice PDB (specifico e univoco per ogni singola proteina).

PDB contiene solo informazioni ricavate da esperimenti e non fa alcun tipo di predizione, infatti,

nel caso non esista la proteina cercata, PDB restituisce alcuni esempi di proteine in esso contenute

molto simili alla nostra.

Se si possiede la sequenza amminoacidica si può anche facilmente fare una ricerca in un database di

sequenze (FASTA, BLAST...) e si può da qua scegliere un omologo molto vicino, ricavare il suo

codice PDB e poi vedere se questa sequenza è presente nel database PDB.

A questo punto sta a noi decidere se avvalerci dei dati cristallografici o se usare uno dei tanti sistemi

di predizione.

Page 2: Database PROTEIN DATA BANK (RCSB PDB) di Eleonora Borsatodidattica.cribi.unipd.it/biomoldue/biomol2-2010/esercitazioni/Tesine... · estremamente dettagliate e accurate su strutture

Come iniziare?

Aprendo il databese PDB al sito http://www.pdb.org/pdb/home/home.do, facilmente raggiungibile

anche tramite la ricerca in google di “PDB”, ci si trova davanti ad una pagina con tre colonne:

quella più a sinistra è la colonna dei menù, quella centrale è la parte principale del sito, quella più a

destra presenta le novità. (fig. 1)

Esempio:

Per spiegare meglio l'utilizzo del database PDB mi avvalgo di un esempio cercando di prendere in

considerazione tutte le possibili alternative che si possono presentare.

Come esempio prendo l'enzima aldolasi umana, della quale non conosco il codice PDB.

Inserisco nel campo della query il nome dell'enzima cercato e lancio la ricerca tramite “search”.

(fig. 2). Oltre al nome dell'enzima (text) o al suo codice PDB, che non è sempre facilmente

reperibile, anche se, se esistente, si può trovare attraverso CATH o UniProt, la ricerca si può fare

per mezzo di altre tipologie di ricerca selezionabili dal menù a tendina. (fig. 3)

Si possono utilizzare direttamente le opzioni di “avanced search” (fig. 4) oppure si può raffinare la

ricerca in un secondo momento (fig. 5) ricordando che l'avanced search è consigliata quando si

vuole trovare una struttura precisa di cui si conosce già qualcosa, mentre quando si procede alla

fig. 1: home page di RCSB PDB

Page 3: Database PROTEIN DATA BANK (RCSB PDB) di Eleonora Borsatodidattica.cribi.unipd.it/biomoldue/biomol2-2010/esercitazioni/Tesine... · estremamente dettagliate e accurate su strutture

cieca è preferibile lanciare una ricerca generale il tutto il databese e poi restringere il campo

secondo le esigenze.

fig. 2: modulo di ricerca

fig. 3: menù a tendina del modulo di ricerca

fig. 4: possibili ricerche fatte da "avanced search"

fig. 5: pagina per limitare la ricerca

Page 4: Database PROTEIN DATA BANK (RCSB PDB) di Eleonora Borsatodidattica.cribi.unipd.it/biomoldue/biomol2-2010/esercitazioni/Tesine... · estremamente dettagliate e accurate su strutture

Siccome sto cercando informazioni generali sull'aldolasi ho fatto una ricerca contro database e da

“refine query” ho selezionato ciò che mi interessava. E siccome volevo ottenere l'aldolasi umana,

cristallizzata per mezzo dei raggi X e che avesse una risoluzione di 2 Amstrong, cioè la più bassa tra

le possibili per le aldolasi umane cristallizzate, ho selezionato questi parametri.

Molte operazioni su PDB sono relativamente lente, perciò raccomando di attendere fino a che non

sia stata completamente ricaricata la pagina prima di procedere ad un'altra operazione.

Ottengo un solo output, il cui codice PDB è 1ALD.

Ma si possono ottenere più output e tra questi possiamo scegliere quello che più ci interessa o che

più soddisfa le nostre esigenze.

Dalla barra (fig. 6) in alto alla pagina si può accedere a diversi tipi di informazioni inerenti la

proteina, che per facilità di consultazione sono divise per argomenti. Le tratterò separatamente.

SUMMARY

La pagina che si apre, definita “summary” mostra delle informazioni generali sulla proteina che

corrisponde al codice PDB 1ALD.

Nella “primary citation” si trovano i nomi degli autori della cristallizzazione e i riferimenti alle

riviste in cui è stato pubblicato il lavoro con la possibilità di accedervi per mezzo del link. Vi è poi

riportato l'abstact di PubMed e le parole chiave dell'articolo.

Questa sezione perciò ci da una visone generale della proteina in questione e ci permette di

scegliere se continuare la nostra ricerca su questa proteina o se è necessario fare una nuova ricerca.

Se riteniamo che l'output ottenuto sia interessante si può proseguire nell'analisi.

Sempre nella pagina “summary” si trovano altre informazioni generali quali una descrizione

sommaria della proteina e un riepilogo delle nostra ricerca che ci permette di contestualizzarla

nell'organismo di appartenenza.

Inoltre nella parte a destra è presente un'immagine 3D della struttura biologica cercata e vi è il link

diretto alla visualizzazione con Jmol.

Nel caso volessimo usare un altro visualizzatore proteico che richiede il file di testo PDB, possiamo

scaricarlo dai tre menù in alto a destra e precisamente da “download files”, scegliendo “PDB file

fig. 6: barra da cui accedere alle diverse sezioni

Page 5: Database PROTEIN DATA BANK (RCSB PDB) di Eleonora Borsatodidattica.cribi.unipd.it/biomoldue/biomol2-2010/esercitazioni/Tesine... · estremamente dettagliate e accurate su strutture

(text)”. Ma sempre da questo menù si possono scaricare moltissimi file che servono per studiare la

nostra proteina attraverso altri programmi o direttamente, infatti si può per esempio scaricare la

sequenza amminoacidica in formato FASTA.

Oppure se si vuole solo fare una consultazione, senza scaricare files, si può visualizzare, attraverso

“display files” ciò che ci interessa che è l'equivalente di ciò che si può scaricare. (fig. 7)

Per esempio, la parte più importante del RCSB PDB, quella per cui questo database è nato, si trova

andando in “display files” e poi in “PDB file”. Si aprirà una pagina in cui sono annotate

accuratamente moltissime informazioni.

All'inizio ci sono delle informazioni generali, come il titolo del lavoro, gli autori che hanno fatto la

cristallizzazione, alcune informazioni su quale organismo è stato usato per la cristallografia, giornali

sui quali è stato pubblicato il lavoro ecc... Ma la parte importante corrisponde a SEQRES e ad

ATOM. In SEQRES è indicata la sequenza amminoacidica della proteina, mentre in ATOM sono

riportate tutte le posizioni, nelle 3 dimensioni dello spazio, di tutti gli atomi visibili nella

cristallografia o nel NMR (talvolta il numero di atomi presenti in SEQRES è maggiore di quelli

riportati in ATOM perché non tutti sono visibili o perché sono regioni disordinate e perciò

difficilmente cristallizzabili, o perché sono atomi interni in proteine globulari o complessi

estremamente grandi, oppure la cristallografia non era buona).

La prima colonna indica il numero progressivo degli atomi, la seconda colonna riporta il tipo di

atomo, la terza l'amminoacido di cui fa parte, la quarta il numero progressivo degli amminoacidi, la

quinta, sesta e settima colonna indicano rispettivamente le posizioni lungo le tre dimensioni dello

fig. 7: pagina summary con evidenziato il menù di "download files"

Page 6: Database PROTEIN DATA BANK (RCSB PDB) di Eleonora Borsatodidattica.cribi.unipd.it/biomoldue/biomol2-2010/esercitazioni/Tesine... · estremamente dettagliate e accurate su strutture

spazio (X, Y, Z). L'ottava e la nona colonna riportano dei valori che indicano l'affidabilità

dell'indicazione spaziale: l'ottava colonna riporta l'occupancy, cioè indica quante volte un certo

atomo è stato visto in quella posizione e nel caso abbia più conformazioni possibili il valore scende

sotto 1.00 che è il valore massimo, cioè quando è sempre stato visto in quella posizione; mentre la

nona colonna indica il B-factor, cioè quel valore che indica la mobilità di un certo atomo e perciò

l'incertezza della sua posizione dovuta ai moti termici. (fig. 8)

I^ II^ III^ IV^ V^ VI^ VII^ VIII^ IX^

SEQUENCE

La pagina che si apre selezionando “sequence” ci fornisce delle informazioni sulla struttura

secondaria e, nel caso si tratti di un complesso, ci fornisce informazioni su ogni singola catena.

Nell'aldolasi è presente una sola catena e di questa oltre a una rappresentazione della struttura

secondaria ci viene fornita una descrizione consistente in: descrizione, in cui c'è il nome della

catena, tipo di catena, il codice UniProt che permette di avere molte altre informazioni non

strutturali, la lunghezza in amminoacidi, la classificazione secondo SCOP, ed infine, molto

importante, sono riportate le percentuali della parte della catena che si trova in alfa elica e in beta

strand secondo diversi programmi di predizione, selezionabili da “more annotation”. (fig. 9)

Se vengono aggiunti più predittori di sequenza secondaria le diverse predizioni vengono disposte

una sotto l'altra nella rappresentazione grafica e sono confrontabili. (fig. 10)

fig. 8: esempio della sezione ATOM del file PDB

Page 7: Database PROTEIN DATA BANK (RCSB PDB) di Eleonora Borsatodidattica.cribi.unipd.it/biomoldue/biomol2-2010/esercitazioni/Tesine... · estremamente dettagliate e accurate su strutture

Inoltre tramite il link “clustering results” nella sezione “Redundancy Reduction and Sequence

Clustering” si può accedere ad una pagina che mostra un riassunto di diverse catene simili che sono

contenute in PDB e che possono essere consultate oppure sono elencate tutte le subunità di un

complesso. Infine in “sequence display” si può accedere alla visualizzazione tramite Jmol. (fig. 11)

fig. 9: descrizione dell'unica catena della proteina

fig. 10: rappresentazione grafica della struttura secondaria mettendo a confronto diverse predizioni

Page 8: Database PROTEIN DATA BANK (RCSB PDB) di Eleonora Borsatodidattica.cribi.unipd.it/biomoldue/biomol2-2010/esercitazioni/Tesine... · estremamente dettagliate e accurate su strutture

ANNOTATION

Questa pagina mostra tutte le diverse classificazioni che sono state fatte per questa proteina dai

diversi siti di classificazione proteica come SCOP, CATH, Pfam e GO. (fig. 12)

fig. 11: link a "clustering results" e al visualizzatore 3D

fig. 12: esempio di pagina "annotation"

Page 9: Database PROTEIN DATA BANK (RCSB PDB) di Eleonora Borsatodidattica.cribi.unipd.it/biomoldue/biomol2-2010/esercitazioni/Tesine... · estremamente dettagliate e accurate su strutture

SEQ SIMILARITY

La pagina è la stessa che si può raggiungere anche da “clustering results” nella pagina “sequence”.

Mostra una tabella in cui si possono selezionare altre proteine e il loro grado di identità con la

nostra sequenza proteica.

Se si trova un grado di similarità del 100% significa che si tratta della stessa proteina, ma che ha più

codici PDB assegnati in quanto il risultato è stato ottenuto mediante esperimenti diversi e con

tecniche diverse e siccome il codice PDB è univoco per ogni lavoro, si trovano più codici riferiti

alla stessa proteina.

Si può facilmente capire che si tratta della stessa proteina confrontando il “codice EC” e la

“tassonomia” mostrati in tabella. (fig. 13)

3D SIMILARITY

Questa pagina è estremamente utile se si vuole studiare il grado di similarità strutturale della nostra

query con altre strutture contenute nel database PDB.

Infatti vengono elencate, con i rispettivi gradi di similarità, le diverse proteine che sono contenute in

PDB e ci permette, tramite Jmol, di vedere le due o più catene sovrapposte di nostro interesse e

inoltre c'è un allineamento tra le due sequenze amminoacidiche. (figg. 14, 15, 16)

fig. 13: esempio di pagina di "seq similarity" con il risultato della selezione delle sequenze con il 100% di identità di sequenza

Page 10: Database PROTEIN DATA BANK (RCSB PDB) di Eleonora Borsatodidattica.cribi.unipd.it/biomoldue/biomol2-2010/esercitazioni/Tesine... · estremamente dettagliate e accurate su strutture

fig. 14: esempio di pagina “3D similarity”

fig. 15: esempio di sovrapposizione di due catene simili

Page 11: Database PROTEIN DATA BANK (RCSB PDB) di Eleonora Borsatodidattica.cribi.unipd.it/biomoldue/biomol2-2010/esercitazioni/Tesine... · estremamente dettagliate e accurate su strutture

LITERATURE

Questa pagina fornisce una serie di collegamenti alla letteratura scientifica inerenti la proteina, in

primis si trova il riferimento al lavoro che ha portato alla cristallizzazione della proteina e poi sono

elencati altri lavori affini.

BIOL. & CHEM.

Si può trovare qui una dettagliatissima descrizione della proteina dal punto di vista biologico e

chimico; le informazioni sono divise per sezioni: “structure details”, “protein details” e “gene

details”.

Ci sono molti link che permettono facilmente di raggiungere i diversi programmi o database citati

così da velocizzare la ricerca.

fig. 16: esempio di allineamento tra le due catene a confronto

Page 12: Database PROTEIN DATA BANK (RCSB PDB) di Eleonora Borsatodidattica.cribi.unipd.it/biomoldue/biomol2-2010/esercitazioni/Tesine... · estremamente dettagliate e accurate su strutture

METHODS

Sono riportati i dettagli tecnici dell'esperimento di cristallografia.

GEOMETRY

Sono riportati i dettagli tecnici di ciò che l'esperimento ha prodotto, con grande attenzione al FDS

(fold deviation score, definito come un multiplo della deviazione standard per un valore di

riferimento specifico) che indica quanto i nostri dati si discostano da dei valori di riferimento.

Questa pagina è divisa in cinque sezioni: “graphics”, “MolProbity Ramachandran plot” “bond

length ”, “bond angle ” e “dihedral angle ”. (fig. 17)

fig. 17: esempio di pagina "geometry"

Page 13: Database PROTEIN DATA BANK (RCSB PDB) di Eleonora Borsatodidattica.cribi.unipd.it/biomoldue/biomol2-2010/esercitazioni/Tesine... · estremamente dettagliate e accurate su strutture

LINKS

Sono elencati una serie di links a programmi esterni che possono essere utili a completare l'analisi

della struttura biologica cercata. (fig. 18)

fig. 18: esempio di pagina "links"