STRUTTURA E FUNZIONE DI BIOMOLECOLE · PDF file Homology Modeling L’ Homology Modeling...
date post
26-Jan-2020Category
Documents
view
3download
0
Embed Size (px)
Transcript of STRUTTURA E FUNZIONE DI BIOMOLECOLE · PDF file Homology Modeling L’ Homology Modeling...
1
STRUTTURA E FUNZIONE DI BIOMOLECOLE
Predizione della Struttura Tridimensionale della proteina umana ETHE-1 con Homology Modeling
Sofia Cividini
2
INTRODUZIONE
Lo scopo del presente lavoro è stato quello di riuscire a predire attraverso
Homology Modeling un modello tridimensionale della struttura della proteina
umana ETHE1 che è presente nella matrice mitocondriale e di cui si conosce
soltanto la sequenza primaria. Il gene che codifica per questa proteina, quando è
mutato, è responsabile di una grave e devastante malattia metabolica infantile
detta Encefalopatia Etilmalonica. Per poter attuare questo progetto è stato quindi
necessario ricercare degli omologhi di ETHE1 di cui era già stata risolta
empiricamente la struttura tridimensionale attraverso cristallografia a raggi-X o
NMR ed utilizzare poi il programma Swiss-PDBViewer per l’ Homology Modeling
come verrà descritto in seguito.
Homology Modeling
L’ Homology Modeling rappresenta uno dei migliori metodi attualmente utilizzati
per la predizione della struttura tridimensionale (3D) di quelle proteine di cui si
conosce solamente la sequenza primaria e deriva dalla teoria della selezione
naturale. Lo scopo dell’ Homology Modeling è quindi quello di costruire un
modello 3D per una determinata proteina di struttura sconosciuta (target
sequence) in base alla similarità di sequenza con proteine (template) le cui
strutture tridimensionali sono invece già state risolte per mezzo delle comuni
tecniche cristallografiche (cristallografia a raggi-X o NMR). Per potere costruire un
modello realistico occorre che vengano rispettate due condizioni:
1. La proteina target e la/le proteine stampo devono avere una percentuale di
similarità di sequenza primaria sufficientemente alta (25-30% o più); in
questo caso si è sicuri del fatto che le due o più proteine considerate siano
degli omologhi, cioè derivino da un progenitore ancestrale comune. Le
strutture 3D delle proteine appartenenti ad una certa famiglia sono più
conservate delle loro sequenze primarie per cui, se esiste una buona
percentuale di similarità di sequenza primaria, si può di solito assumere
che esista anche una buona similarità strutturale.
3
2. E’ necessario che venga fatto un allineamento sufficientemente accurato tra
la sequenza target e le sequenze stampo considerate. L’ Homology Modeling
procede modellando il backbone della sequenza target in base a quello della
sequenza stampo, usando l’allineamento di sequenza per decidere dove
posizionare ciascun residuo. Perciò, la qualità dell’ allineamento di sequenza
è di cruciale importanza; benché esistano molti strumenti che permettono
di fare gli allineamenti in modo automatico, successivamente è sempre
necessario ricontrollare ed aggiustare manualmente l’allineamento stesso
per migliorarne ulteriormente la qualità (solitamente ci si basa sugli
allineamenti multipli forniti da ClustalW).
All’ inizio, la tecnica di routine dell’ Homology Modeling fa in modo che il
backbone della proteina target venga accomodato nella stessa maniera di quello
della proteina stampo. Questo significa che non solo le posizioni dei Cα, ma anche
gli angoli phi e psi e le strutture secondarie siano costruite in modo identico alla
proteina stampo. Successivamente, i packages di Homology Modeling più
sofisticati riescono ad aggiustare le posizioni delle catene laterali per ridurre al
minimo le collisioni e possono offrire inoltre strumenti di minimizzazione
dell’energia o di dinamica molecolare che rappresentano tutti dei tentativi di
miglioramento del modello. Anche se due proteine hanno un’ elevata identità di
sequenza ed una struttura secondaria e terziaria molto simile (folds identici), esse
non avranno comunque mai un backbone esattamente uguale, neanche in
condizioni comparabili. Per questo motivo, ci si deve aspettare che un modello
ricavato con Homology Modelling non sia proprio del tutto identico alla struttura
reale. Tutte le differenze nelle strutture del backbone proteico sono quantificate
attraverso un parametro detto rmsd, che sta per root mean square deviation e si
riferisce alle posizioni degli atomi di Cα. Un modello può essere considerato
“sufficientemente accurato” quando il suo rmsd si trova all’interno dell’ intervallo
di deviazioni osservate per le strutture sperimentali che mostrano un livello di
identità di sequenza simile al target ed alle sequenze stampo. Esempio: se noi
definiamo che un buon modello di predizione di struttura ha un valore di rmsd
4
un’identità di sequenza >=60% con la proteina target affinché si abbia una
percentuale di successo maggiore del 70%.
Errori nei modelli costruiti con Homology Modeling
Quando la similarità tra la proteina-target e le proteine-stampo diminuisce, gli
errori nel modello aumentano. Vediamo quali sono i tipi di errori che si possono
principalmente verificare:
� Errori nell’impaccamento delle catene laterali → quando le sequenze
divergono, l’impaccamento delle catene laterali nel core proteico cambia.
Gli errori nelle catene laterali sono critici se si verificano in regioni che
sono coinvolte nella funzione della proteina (sito-attivo e siti di binding di
ligandi)
� Distorsioni e shifts nelle regioni correttamente allineate → Come
conseguenza della divergenza delle sequenze, la conformazione della
catena principale cambia anche se il fold rimane lo stesso.
� Errori nelle regioni senza uno stampo → i segmenti della sequenza
target che non hanno una regione equivalente nella struttura stampo (per
esempio: inserzioni o loops) rappresentano le regioni più difficili da
modellare.
� Errori dovuti ad un errato allineamento → Questi rappresentano il
grosso degli errori che vengono commessi nell’ Homology Modeling,
specialmente quando l’identità di sequenza tra target-stampo diminuisce al
di sotto del 30%. Comunque gli errori di allineamento possono essere
minimizzati in due modi:
1. di solito è possibile usare un gran numero di sequenze per costruire un
allineamento multiplo anche se la maggior parte di queste sequenze non
ha strutture 3D note; gli allineamenti multipli sono in genere più realistici
degli allineamenti a coppie.
2. si può migliorare l’allineamento modificando iterativamente quelle regioni
nell’allineamento stesso che corrispondono agli errori predetti nel modello.
� Stampi non corretti → questo diventa un potenziale problema quando le
proteine che sono usate come stampo sono solo lontanamente correlate al
target (identità di sequenza
5
Valutazione dei modelli L’informazione che può essere ricavata da un modello di predizione di struttura
dipende dalla qualità del modello stesso. Diventa quindi essenziale stimare
l’accuratezza del modelli 3D ricavati con l’ Homology Modeling per poterli poi
correttamente interpretare. Il modello può essere valutato sia nella sua interezza
che a partire da singole regioni. Esistono molti programmi e server che
permettono di valutare un determinato modello (PROCHECK, ERRAT, BIOTECH,
AQUA, SQUID, ecc). Il primo passo nella valutazione di un modello è quello di
verificare che il modello abbia il corretto fold. Un modello avrà il fold corretto se:
� sarà stata scelta la giusta sequenza-stampo
� la sequenza-stampo sarà stata allineata approssimativamente in modo
corretto con la sequenza-target
Il fold di un modello può essere valutato in vari modi:
� attraverso un’alta similarità di sequenza con la proteina-stampo più vicina
� attraverso un’ energia basata sullo Z-score
� attraverso la conservazione nella sequenza target di residui chiave per la
funzione o la struttura della proteina stessa
Una volta che è stato accertato il fold del modello, una valutazione più dettagliata
della sua accuratezza può essere ottenuta in base alla similarità tra il target e le
sequenze-stampo. Un’ identità di sequenza superiore al 30% garantisce in linea
generale un modello di predizione relativamente buono per via delle ben note
relazioni tra similarità di struttura e di sequenza tra due proteine, della natura
geometrica del modeling che forza il modello ad essere quanto più vicino
possibile allo stampo e dell’ incapacità dell’attuale procedura di modeling di
recuperare un allineamento sbagliato.
ETHE-1
Le mutazioni che colpiscono il gene che codifica per la proteina ETHE1 sono
responsabili dell’ Encefalopatia Etilmalonica, che è una patologia metabolica
infantile estremamente grave che colpisce il cervello, il tratto gastro-intestinale ed
i vasi periferici. Nei pazienti affetti da questa sindrome si trovano alti livelli di
acido etilmalonico nei fluidi corporei e una grande diminuzione dell’ attività della