STRUTTURA E FUNZIONE DI BIOMOLECOLE · PDF file Homology Modeling L’ Homology Modeling...

Click here to load reader

  • date post

    26-Jan-2020
  • Category

    Documents

  • view

    3
  • download

    0

Embed Size (px)

Transcript of STRUTTURA E FUNZIONE DI BIOMOLECOLE · PDF file Homology Modeling L’ Homology Modeling...

  • 1

    STRUTTURA E FUNZIONE DI BIOMOLECOLE

    Predizione della Struttura Tridimensionale della proteina umana ETHE-1 con Homology Modeling

    Sofia Cividini

  • 2

    INTRODUZIONE

    Lo scopo del presente lavoro è stato quello di riuscire a predire attraverso

    Homology Modeling un modello tridimensionale della struttura della proteina

    umana ETHE1 che è presente nella matrice mitocondriale e di cui si conosce

    soltanto la sequenza primaria. Il gene che codifica per questa proteina, quando è

    mutato, è responsabile di una grave e devastante malattia metabolica infantile

    detta Encefalopatia Etilmalonica. Per poter attuare questo progetto è stato quindi

    necessario ricercare degli omologhi di ETHE1 di cui era già stata risolta

    empiricamente la struttura tridimensionale attraverso cristallografia a raggi-X o

    NMR ed utilizzare poi il programma Swiss-PDBViewer per l’ Homology Modeling

    come verrà descritto in seguito.

    Homology Modeling

    L’ Homology Modeling rappresenta uno dei migliori metodi attualmente utilizzati

    per la predizione della struttura tridimensionale (3D) di quelle proteine di cui si

    conosce solamente la sequenza primaria e deriva dalla teoria della selezione

    naturale. Lo scopo dell’ Homology Modeling è quindi quello di costruire un

    modello 3D per una determinata proteina di struttura sconosciuta (target

    sequence) in base alla similarità di sequenza con proteine (template) le cui

    strutture tridimensionali sono invece già state risolte per mezzo delle comuni

    tecniche cristallografiche (cristallografia a raggi-X o NMR). Per potere costruire un

    modello realistico occorre che vengano rispettate due condizioni:

    1. La proteina target e la/le proteine stampo devono avere una percentuale di

    similarità di sequenza primaria sufficientemente alta (25-30% o più); in

    questo caso si è sicuri del fatto che le due o più proteine considerate siano

    degli omologhi, cioè derivino da un progenitore ancestrale comune. Le

    strutture 3D delle proteine appartenenti ad una certa famiglia sono più

    conservate delle loro sequenze primarie per cui, se esiste una buona

    percentuale di similarità di sequenza primaria, si può di solito assumere

    che esista anche una buona similarità strutturale.

  • 3

    2. E’ necessario che venga fatto un allineamento sufficientemente accurato tra

    la sequenza target e le sequenze stampo considerate. L’ Homology Modeling

    procede modellando il backbone della sequenza target in base a quello della

    sequenza stampo, usando l’allineamento di sequenza per decidere dove

    posizionare ciascun residuo. Perciò, la qualità dell’ allineamento di sequenza

    è di cruciale importanza; benché esistano molti strumenti che permettono

    di fare gli allineamenti in modo automatico, successivamente è sempre

    necessario ricontrollare ed aggiustare manualmente l’allineamento stesso

    per migliorarne ulteriormente la qualità (solitamente ci si basa sugli

    allineamenti multipli forniti da ClustalW).

    All’ inizio, la tecnica di routine dell’ Homology Modeling fa in modo che il

    backbone della proteina target venga accomodato nella stessa maniera di quello

    della proteina stampo. Questo significa che non solo le posizioni dei Cα, ma anche

    gli angoli phi e psi e le strutture secondarie siano costruite in modo identico alla

    proteina stampo. Successivamente, i packages di Homology Modeling più

    sofisticati riescono ad aggiustare le posizioni delle catene laterali per ridurre al

    minimo le collisioni e possono offrire inoltre strumenti di minimizzazione

    dell’energia o di dinamica molecolare che rappresentano tutti dei tentativi di

    miglioramento del modello. Anche se due proteine hanno un’ elevata identità di

    sequenza ed una struttura secondaria e terziaria molto simile (folds identici), esse

    non avranno comunque mai un backbone esattamente uguale, neanche in

    condizioni comparabili. Per questo motivo, ci si deve aspettare che un modello

    ricavato con Homology Modelling non sia proprio del tutto identico alla struttura

    reale. Tutte le differenze nelle strutture del backbone proteico sono quantificate

    attraverso un parametro detto rmsd, che sta per root mean square deviation e si

    riferisce alle posizioni degli atomi di Cα. Un modello può essere considerato

    “sufficientemente accurato” quando il suo rmsd si trova all’interno dell’ intervallo

    di deviazioni osservate per le strutture sperimentali che mostrano un livello di

    identità di sequenza simile al target ed alle sequenze stampo. Esempio: se noi

    definiamo che un buon modello di predizione di struttura ha un valore di rmsd

  • 4

    un’identità di sequenza >=60% con la proteina target affinché si abbia una

    percentuale di successo maggiore del 70%.

    Errori nei modelli costruiti con Homology Modeling

    Quando la similarità tra la proteina-target e le proteine-stampo diminuisce, gli

    errori nel modello aumentano. Vediamo quali sono i tipi di errori che si possono

    principalmente verificare:

    � Errori nell’impaccamento delle catene laterali → quando le sequenze

    divergono, l’impaccamento delle catene laterali nel core proteico cambia.

    Gli errori nelle catene laterali sono critici se si verificano in regioni che

    sono coinvolte nella funzione della proteina (sito-attivo e siti di binding di

    ligandi)

    � Distorsioni e shifts nelle regioni correttamente allineate → Come

    conseguenza della divergenza delle sequenze, la conformazione della

    catena principale cambia anche se il fold rimane lo stesso.

    � Errori nelle regioni senza uno stampo → i segmenti della sequenza

    target che non hanno una regione equivalente nella struttura stampo (per

    esempio: inserzioni o loops) rappresentano le regioni più difficili da

    modellare.

    � Errori dovuti ad un errato allineamento → Questi rappresentano il

    grosso degli errori che vengono commessi nell’ Homology Modeling,

    specialmente quando l’identità di sequenza tra target-stampo diminuisce al

    di sotto del 30%. Comunque gli errori di allineamento possono essere

    minimizzati in due modi:

    1. di solito è possibile usare un gran numero di sequenze per costruire un

    allineamento multiplo anche se la maggior parte di queste sequenze non

    ha strutture 3D note; gli allineamenti multipli sono in genere più realistici

    degli allineamenti a coppie.

    2. si può migliorare l’allineamento modificando iterativamente quelle regioni

    nell’allineamento stesso che corrispondono agli errori predetti nel modello.

    � Stampi non corretti → questo diventa un potenziale problema quando le

    proteine che sono usate come stampo sono solo lontanamente correlate al

    target (identità di sequenza

  • 5

    Valutazione dei modelli L’informazione che può essere ricavata da un modello di predizione di struttura

    dipende dalla qualità del modello stesso. Diventa quindi essenziale stimare

    l’accuratezza del modelli 3D ricavati con l’ Homology Modeling per poterli poi

    correttamente interpretare. Il modello può essere valutato sia nella sua interezza

    che a partire da singole regioni. Esistono molti programmi e server che

    permettono di valutare un determinato modello (PROCHECK, ERRAT, BIOTECH,

    AQUA, SQUID, ecc). Il primo passo nella valutazione di un modello è quello di

    verificare che il modello abbia il corretto fold. Un modello avrà il fold corretto se:

    � sarà stata scelta la giusta sequenza-stampo

    � la sequenza-stampo sarà stata allineata approssimativamente in modo

    corretto con la sequenza-target

    Il fold di un modello può essere valutato in vari modi:

    � attraverso un’alta similarità di sequenza con la proteina-stampo più vicina

    � attraverso un’ energia basata sullo Z-score

    � attraverso la conservazione nella sequenza target di residui chiave per la

    funzione o la struttura della proteina stessa

    Una volta che è stato accertato il fold del modello, una valutazione più dettagliata

    della sua accuratezza può essere ottenuta in base alla similarità tra il target e le

    sequenze-stampo. Un’ identità di sequenza superiore al 30% garantisce in linea

    generale un modello di predizione relativamente buono per via delle ben note

    relazioni tra similarità di struttura e di sequenza tra due proteine, della natura

    geometrica del modeling che forza il modello ad essere quanto più vicino

    possibile allo stampo e dell’ incapacità dell’attuale procedura di modeling di

    recuperare un allineamento sbagliato.

    ETHE-1

    Le mutazioni che colpiscono il gene che codifica per la proteina ETHE1 sono

    responsabili dell’ Encefalopatia Etilmalonica, che è una patologia metabolica

    infantile estremamente grave che colpisce il cervello, il tratto gastro-intestinale ed

    i vasi periferici. Nei pazienti affetti da questa sindrome si trovano alti livelli di

    acido etilmalonico nei fluidi corporei e una grande diminuzione dell’ attività della