Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA...

60
Bioinformatica Bioinformatica Corso di Laurea Specialistica in Informatica Corso di Laurea Specialistica in Informatica Analisi della Analisi della struttura dell’RNA struttura dell’RNA 27/04/2011 27/04/2011

Transcript of Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA...

Page 1: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

BioinformaticaBioinformaticaCorso di Laurea Specialistica in InformaticaCorso di Laurea Specialistica in Informatica

Analisi della Analisi della struttura dell’RNAstruttura dell’RNA

27/04/201127/04/2011

Page 2: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

Analisi della struttura dell’RNAAnalisi della struttura dell’RNA

• La struttura dell’RNA• Struttura dell’RNA mediante analisi

comparativa• Predizione della struttura secondaria:

L’algoritmo di Nussinov• Predizione della struttura secondaria:

Minimizzazione dell’energia• Un tool per la predizione della struttura

secondaria: Mfold

Page 3: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

L'RNAL'RNA

• L’RNA (Acido Ribonucleico) è un polimero organico costituito da ribonucleotidi.

• E’ sintetizzato da enzimi detti RNA polimerasi, solitamente sulla base di uno stampo di DNA.

• Esistono diversi tipi di RNA, ognuno dei quali svolge una determinata funzione.

• L’mRNA (RNA Messaggero) trasporta l’informazione per la sintesi delle proteine dal nucleo al citoplasma. L’informazione principale sta nella sua sequenza, ma studi recenti hanno rivelato l’importanza della sua struttura nella regolazione dell’espressione genica.

Page 4: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

tRNAtRNA

• I tRNA (RNA Transfer) sono in grado di riconoscere i codoni nelle sequenze di mRNA e di trasportare gli aminoacidi corrispondenti nei ribosomi, durante la sintesi proteica.

• La loro struttura secondaria è ben determinata ed è fondamentale per la loro funzione.

Page 5: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

rRNA e ribozimirRNA e ribozimi

• L’rRNA (RNA Ribosomiale) è un costituente dei ribosomi ed ha funzione catalitica assieme alle proteine ribosomiali.

• Gli RNA con funzione di catalizzatore sono generalmente chiamati Ribozimi (RNA-Enzimi) e tale funzione gli viene conferita dalla loro struttura tridimensionale.

• Quindi questo tipo di RNA sono simili alle proteine, in quanto devono assumere una struttura particolare per poter svolgere la loro funzione.

• Data la loro capacità di immagazzinare informazione e di partecipare alle reazioni chimiche, gli RNA sono considerati tra le molecole più antiche, ancor più di DNA e proteine.

Page 6: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

Il Backbone dell’RNAIl Backbone dell’RNA

• La catena di RNA ha un backbone (scheletro) formato da gruppi zucchero-fosfato aventi come catene laterali le basi Adenina (A), Guanina (G), Citosina (C) e Uracile (U).

• Le catene di RNA hanno lunghezza che varia solitamente tra le 100 e le 10000 basi, molto inferiore quindi a quella del DNA.

• Esistono RNA a doppio e a singolo filamento; questi ultimi sono particolarmente interessanti, data la loro capacità di assumere strutture tridimensionali anche molto complesse.

Page 7: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

L’appaiamento delle basiL’appaiamento delle basi

• Appaiamenti canonici di Watson-Crick– Legami idrogeno A=U e GC

• Wobbles– Legami idrogeno G=U (virtualmente stabili come A=U)

Page 8: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

I Wobble G=UI Wobble G=U

• I legami G=U introducono una deformazione nella struttura dell’RNA. Tale deformazione produce un adattamento della struttura che promuove l’attività catalitica.

• Esperimenti effettuati su molecole di tRNA, mostrano come i legami G=U siano indispensabili per lo svolgimento della funzione.

• Infatti, la “correzione” di tali appaiamenti ad appaiamenti canonici di W/C, inattiva il tRNA impedendogli di funzionare correttamente.

• Le coppie G=U sono meno stabili delle coppie canoniche e questo rende le molecole più reattive.

Page 9: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

La struttura secondaria dell’RNALa struttura secondaria dell’RNA

• Si definisce struttura secondaria di una molecola di RNA il preciso ripiegamento bidimensionale adottato in seguito alla formazione di legami idrogeno tra coppie di basi complementari.

• La struttura secondaria dell’RNA è considerata come una combinazione di diversi elementi strutturali, ciascuno dei quali contribuisce in modo indipendente all’energia libera della struttura complessiva.

• La struttura secondaria di una molecola di RNA è definita come l’insieme di appaiamenti di basi, sij, tra i nucleotidi i e j, sempre con i<j.

• Per una coppia di basi (i,j) si ha sempre j-i>3, ovvero ci sono sempre tre basi tra una coppia di basi appaiate. Questo perché lo scheletro dell’RNA non può ripiegarsi e tornare indietro in meno di 3 basi.

Page 10: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

La struttura secondaria dell’RNALa struttura secondaria dell’RNA

Page 11: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

La struttura secondaria dell’RNALa struttura secondaria dell’RNA

• Due coppie di basi (i,j) e (h,k) con i<h possono essere:– Annidate, se i<h<k<j– Non correlate, se i<j<h<k– Collegate, se i<h<j<k

• Due coppie di basi collegate formano uno collegamento incrociato detto pseudoknot:

Page 12: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

La struttura secondaria dell’RNALa struttura secondaria dell’RNA

• Una struttura secondaria di RNA è un insieme di coppie di basi annidate o non correlate, privo quindi di basi collegate (pseudoknot).

• Quindi una struttura secondaria di RNA può essere rappresentata mediante un grafo lineare senza intersezioni tra archi:

• Ovviamente non tutti gli insiemi di coppie di basi rappresentano una struttura secondaria valida dal punto di vista dei vincoli chimico-fisici.

Page 13: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

Elementi strutturaliElementi strutturali

• Oltre alle regioni duplex (a doppio filamento) dette stem, gli elementi base della struttura di un RNA sono:– Regioni a singolo filamento– Hairpins (forcine)– Bulge loops (protuberanze)– Mismatch – Internal loops– Giunzioni

Page 14: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

Le regioni “single-stranded”Le regioni “single-stranded”

• Le regioni a singolo filamento consistono di nucleotidi non appaiati, alle estremità 5’ o 3’ della molecola o tra regioni “duplex” della struttura secondaria.

Page 15: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

HairpinsHairpins

• Una forcina consiste in un duplex collegato da un loop.

• Gli hairpin sono spesso siti di legame per le proteine e sono coinvolti nelle strutture terziarie di RNA.

• La dimensione minima di un loop è di 3 basi, ma i loop di 4 o 5 nucleotidi sono i più stabili.

• E’ possibile avere loop anche molto grandi.

Page 16: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

Bulge loopsBulge loops

• Una protuberanza consiste di nucleotidi non appaiati su un filamento di un duplex nel quale il filamento opposto ha tutti i nucleotidi appaiati.

• I bulge loops creano delle pieghe nella struttura della doppia elica del duplex, che dipendono dal tipo di nucleotidi coinvolti e da quelli nelle immediate vicinanze.

• La distorsione introdotta dalle protuberanze può estendersi alle regioni duplex vicine.

Page 17: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

MismatchesMismatches

• I mismatch consistono di due nucleotidi che non possono formare un legame canonico ma che instaurano un qualche tipo di legame o formano un loop di due nucleotidi (si “respingono”).

• I wobble G=U possono essere classificati come dei “mismatch”. Tuttavia le deformazioni introdotte da tali legami non formano pieghe significative nello scheletro.

Page 18: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

Internal loopsInternal loops

• I loop interni contengono 3 o più nucleotidi che non sono in grado di formare legami di W/C e contengono almeno un nucleotide spaiato su ciascun filamento.

• I loop possono chiudersi instaurando legami non canonici o restare aperti, permettendo la formazione di interazioni terziarie con altre parti della molecola.

• I loop possono essere simmetrici o asimmetrici; questi ultimi sono termodinamicamente meno stabili.

Page 19: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

GiunzioniGiunzioni

• Le giunzioni contengono 3 o più regioni duplex con un numero variabile di nucleotidi spaiati che congiungono le eliche.

• I nucleotidi spaiati nelle giunzioni controllano i legami tra le eliche e determinano la struttura tridimensionale della molecola.

Page 20: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

Rappresentazione a parentesi Rappresentazione a parentesi

• La struttura secondaria di RNA può essere rappresentata attraverso stringhe nell’alfabeto {(, ., )}:

• Nel caso evidenziato si avrà:UCCUAACAAGAGGA

((((......))))

Page 21: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

Rappresentazione a parentesiRappresentazione a parentesi

• Sia dato:UCCUAACAAGAGGA

((((......))))• Ogni parentesi aperta corrisponde ad una

parentesi chiusa, secondo una logica a “stack”. Le parentesi più interne si chiudono prima di quelle più esterne.

• La parentesi relativa alla quarta base U si chiude con la parentesi relativa alla quart’ultima base C, e così via.

• I punti indicano nucleotidi non appaiati.

Page 22: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

Analisi della struttura dell’RNAAnalisi della struttura dell’RNA

• La struttura dell’RNA• Struttura dell’RNA mediante analisi

comparativa• Predizione della struttura secondaria:

L’algoritmo di Nussinov• Predizione della struttura secondaria:

Minimizzazione dell’energia• Un tool per la predizione della struttura

secondaria: Mfold

Page 23: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

L’Evoluzione dell’RNA è vincolata dalla L’Evoluzione dell’RNA è vincolata dalla strutturastruttura

• Molti RNA omologhi possiedono strutture simili senza tuttavia condividere una similarità di sequenza significativa.

• Cambiamenti nella sequenza sono spesso tollerati purché delle mutazioni compensatorie mantengano la complementarietà delle basi appaiate.

• La struttura rappresentata in figura è il consenso di un sito di legame per una proteina del fago R17.

• Nella struttura rappresentata in figura, solo 4 nucleotidi sono specificati e 2 di essi sono degenerati (R = Purina, Y = Pirimidina).

Page 24: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

L’Evoluzione dell’RNA è vincolata dalla L’Evoluzione dell’RNA è vincolata dalla struttura (2)struttura (2)

• Se volessimo ricercare tale regione in sequenze nucleotidiche, non avrebbe senso utilizzare un metodo di allineamento di sequenze standard.

• Se cercassimo infatti la sequenza

NNNNNNNRNNANYANNNNNNN

nel genoma del fago MS2 (correlato ad R17) troveremmo ben 38 corrispondenze!

• Tuttavia, aggiungendo informazioni sulle coppie appaiate nella struttura secondaria, troveremmo un solo match, nella regione di legame autentica.

Page 25: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

Ricavare la struttura dal confronto di Ricavare la struttura dal confronto di sequenzesequenze

• In un allineamento multiplo di RNA strutturalmente corretto, le coppie di basi conservate sono spesso rivelate dalla presenza di mutazioni compensatorie correlate frequenti.

• E’ pertanto possibile predire in maniera abbastanza affidabile la struttura secondaria mediante analisi comparativa di sequenze correlate.

• Le due posizioni evidenziate covariano mantenendo la complementarietà. Questa covariazione implica una coppia di basi.

Page 26: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

Raffinamenti iterativiRaffinamenti iterativi

• Ricavare la struttura corretta attraverso analisi comparativa richiede un allineamento multiplo strutturalmente corretto.

• Ma ricavare un allineamento multiplo strutturalmente corretto richiede la conoscenza della struttura corretta!

• La struttura viene dunque determinata mediante un processo di raffinamento iterativo.

• Inizialmente viene eseguito un allineamento di sequenze senza informazioni strutturali e tale allineamento viene utilizzato per ricavare una struttura.

• Tale struttura viene dunque utilizzata per riallineare le sequenze e ricavare una nuova struttura.

• Il processo viene iterato finché la struttura si stabilizza.

Page 27: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

Analisi della struttura dell’RNAAnalisi della struttura dell’RNA

• La struttura dell’RNA• Struttura dell’RNA mediante analisi

comparativa• Predizione della struttura secondaria:

L’algoritmo di Nussinov• Predizione della struttura secondaria:

Minimizzazione dell’energia• Un tool per la predizione della struttura

secondaria: Mfold

Page 28: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

Predizione della struttura secondaria Predizione della struttura secondaria dell’RNAdell’RNA

• A partire da una certa sequenza di RNA, si possono ricavare molte strutture secondarie plausibili, ed il numero di possibili strutture cresce esponenzialmente con la lunghezza della sequenza.

• Una sequenza di sole 200 basi ha circa 1050 possibili strutture!

• Occorre dunque distinguere tra strutture biologicamente corrette e strutture non corrette:

– Attraverso una funzione di scoring che assegni alle strutture corrette il punteggio più alto;

– Attraverso un algoritmo che permetta di valutare gli score di tutte le strutture possibili.

Page 29: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

L’algoritmo di Nussinov per la L’algoritmo di Nussinov per la massimizzazione delle coppie di basimassimizzazione delle coppie di basi

• L’algoritmo di Nussinov è un algoritmo di programmazione dinamica che determina la struttura con il maggior numero di basi appaiate.

• Si tratta di un criterio troppo semplicistico in quanto non è detto che la struttura reale sia quella con il maggior numero di basi appaiate, tuttavia questo algoritmo è alla base di altri algoritmi più sofisticati di minimizzazione energetica e basati su probabilità.

• L’algoritmo di Nussinov è ricorsivo; esso calcola la struttura migliore della sequenza in input a partire dalle strutture migliori di piccole sottosequenze.

Page 30: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

L’algoritmo di NussinovL’algoritmo di Nussinov

• L’idea chiave dell’algoritmo è basata sull’osservazione che ci sono solo 4 possibili modi di ottenere la migliore struttura per la sequenza i, j a partire dalle migliori strutture delle sottosequenze più piccole:– Aggiungi la posizione non appaiata i alla struttura migliore per la

sottosequenza i+1, j;– Aggiungi la posizione non appaiata j alla struttura migliore per la

sottosequenza i, j-1;– Aggiungi la coppia i,j alla struttura migliore per la sottosequenza

i+1, j-1;– Combina due sottostrutture ottimali i, k e k+1, j.

Page 31: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

L’algoritmo di Nussinov (2)L’algoritmo di Nussinov (2)

• Sia data una sequenza x di lunghezza L x1, x2, …, xL.

• Si definisce la funzione di scoring (i,j) tale che (i,j)=1 se xi e xj sono basi complementari e (i,j)=0 altrimenti.

• Si calcolano ricorsivamente gli score (i,j), che rappresentano il numero massimo di coppie di basi possibili per la sottosequenza xi, …, xj.

Page 32: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

L’algoritmo di Nussinov (3)L’algoritmo di Nussinov (3)

• Passo iniziale:

• Passo ricorsivo (a partire dalle sottosequenze di lunghezza 2 fino ad L):

Liii

Liii

...1per 0),(

...2per 0)1,(

)],1(),([max

),()1,1(

)1,(

),1(

max),(

jkki

jiji

ji

ji

ji

jki

Page 33: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

L’algoritmo di Nussinov: Esempio (1)L’algoritmo di Nussinov: Esempio (1)

• Applichiamo l’algoritmo di Nussinov alla sequenza GGGAAAUCC.

• Consideriamo una matrice LxL, in questo caso 9x9:

G G G A A A U C C

G 0

G 0 0

G 0 0

A 0 0

A 0 0

A 0 0

U 0 0

C 0 0

C 0 0

Liii

Liii

...1per 0),(

...2per 0)1,(

Page 34: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

L’algoritmo di Nussinov: Esempio (2)L’algoritmo di Nussinov: Esempio (2)

G G G A A A U C C

G 0 0

G 0 0

G 0 0

A 0 0

A 0 0

A 0 0

U 0 0

C 0 0

C 0 0

)],1(),([max

),()1,1(

)1,(

),1(

max),(

jkki

jiji

ji

ji

ji

jki

/)]2,1(),1([max

0)2,1()1,2(

0)1,1(

0)2,2(

max)2,1(

21 kkk

Page 35: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

L’algoritmo di Nussinov: Esempio (3)L’algoritmo di Nussinov: Esempio (3)

G G G A A A U C C

G 0 0

G 0 0 0

G 0 0

A 0 0

A 0 0

A 0 0

U 0 0

C 0 0

C 0 0

)],1(),([max

),()1,1(

)1,(

),1(

max),(

jkki

jiji

ji

ji

ji

jki

/)]3,1(),2([max

0)3,2()2,3(

0)2,2(

0)3,3(

max)3,2(

32 kkk

Page 36: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

L’algoritmo di Nussinov: Esempio (4)L’algoritmo di Nussinov: Esempio (4)

G G G A A A U C C

G 0 0

G 0 0 0

G 0 0 0

A 0 0 0

A 0 0 0

A 0 0 1

U 0 0

C 0 0

C 0 0

)],1(),([max

),()1,1(

)1,(

),1(

max),(

jkki

jiji

ji

ji

ji

jki

/)]3,1(),2([max

1)7,6()6,7(

0)6,6(

0)7,7(

max)7,6(

32 kkk

Page 37: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

L’algoritmo di Nussinov: Esempio (5)L’algoritmo di Nussinov: Esempio (5)

• Gli score per sottosequenze di lunghezza 2:

G G G A A A U C C

G 0 0

G 0 0 0

G 0 0 0

A 0 0 0

A 0 0 0

A 0 0 1

U 0 0 0

C 0 0 0

C 0 0

Page 38: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

L’algoritmo di Nussinov: Esempio (6)L’algoritmo di Nussinov: Esempio (6)

G G G A A A U C C

G 0 0 0 0

G 0 0 0 0 0

G 0 0 0 0 0

A 0 0 0 0 1

A 0 0 0 1

A 0 0 1 1

U 0 0 0 0

C 0 0 0

C 0 0

)],1(),([max

),()1,1(

)1,(

),1(

max),(

jkki

jiji

ji

ji

ji

jki

1]00,10max[

))]7,7()6,4((

)),7,6()5,4(max[(

)]3,1(),4([max

1)7,4()6,5(

0)6,4(

1)7,5(

max)7,4( 74

kkk

Page 39: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

L’algoritmo di Nussinov: Esempio (7)L’algoritmo di Nussinov: Esempio (7)

G G G A A A U C C

G 0 0 0 0 0 0 1

G 0 0 0 0 0 0 1 2

G 0 0 0 0 0 1 2

A 0 0 0 0 1 1 1

A 0 0 0 1 1 1

A 0 0 1 1 1

U 0 0 0 0

C 0 0 0

C 0 0

)],1(),([max

),()1,1(

)1,(

),1(

max),(

jkki

jiji

ji

ji

ji

jki

1]1,0,1,1,1max[

))]8,8()7,2((

)),8,7()6,2((

)),8,6()5,2((

)),8,5()4,2((

)),8,4()3,2(max[(

)]8,1(),2([max

2)8,2()7,3(

1)7,2(

2)8,3(

max)8,2(

82

kkk

Page 40: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

L’algoritmo di Nussinov: Esempio (8)L’algoritmo di Nussinov: Esempio (8)

• Il valore in posizione (1,L), in questo caso (1,9)=3 è lo score massimo, ovvero il numero di coppie di basi nella struttura col maggior numero di basi appaiate.

G G G A A A U C C

G 0 0 0 0 0 0 1 2 3

G 0 0 0 0 0 0 1 2 3

G 0 0 0 0 0 1 2 2

A 0 0 0 0 1 1 1

A 0 0 0 1 1 1

A 0 0 1 1 1

U 0 0 0 0

C 0 0 0

C 0 0

• Ci sono spesso diverse strutture con lo stesso numero di basi appaiate.

• Per trovarle eseguiamo il traceback a partire dalla entry (1,L).

Page 41: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

L’algoritmo di Nussinov: Traceback (1)L’algoritmo di Nussinov: Traceback (1)

• Inizializzazione:– Push (1,L) onto stack (pila);

G G G A A A U C C

G 0 0 0 0 0 0 1 2 3

G 0 0 0 0 0 0 1 2 3

G 0 0 0 0 0 1 2 2

A 0 0 0 0 1 1 1

A 0 0 0 1 1 1

A 0 0 1 1 1

U 0 0 0 0

C 0 0 0

C 0 0

• Ricorsione – Ripeti finchè lo stack non è vuoto:

pop (i,j) (Estrai dalla pila)if i>=j continue;else if (i+1,j)= (i,j) push(i+1,j)else if (i,j-1)= (i,j) push(i,j-1);else if (i+1,j-1)+i,j= (i,j):

record i,j base pair;push (i+1,j-1);

else for k=i+1 to j-1:if (i,k)+ (k+1,j)= (i,j):

push (k+1,j); push (i,k); break.

Page 42: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

L’algoritmo di Nussinov: Traceback (2)L’algoritmo di Nussinov: Traceback (2)

• Inizializzazione:– Push (1,L) onto stack (pila);

G G G A A A U C C

G 0 0 0 0 0 0 1 2 3

G 0 0 0 0 0 0 1 2 3

G 0 0 0 0 0 1 2 2

A 0 0 0 0 1 1 1

A 0 0 0 1 1 1

A 0 0 1 1 1

U 0 0 0 0

C 0 0 0

C 0 0

pop (i,j) (Estrai dalla pila)if i>=j continue;else if (i+1,j)= (i,j) push(i+1,j)else if (i,j-1)= (i,j) push(i,j-1);else if (i+1,j-1)+i,j= (i,j):

record i,j base pair;push (i+1,j-1);

else for k=i+1 to j-1:if (i,k)+ (k+1,j)= (i,j):

push (k+1,j); push (i,k); break.

(1,9)=3

Page 43: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

L’algoritmo di Nussinov: Traceback (3)L’algoritmo di Nussinov: Traceback (3)

• Inizializzazione:– Push (1,L) onto stack (pila);

G G G A A A U C C

G 0 0 0 0 0 0 1 2 3

G 0 0 0 0 0 0 1 2 3

G 0 0 0 0 0 1 2 2

A 0 0 0 0 1 1 1

A 0 0 0 1 1 1

A 0 0 1 1 1

U 0 0 0 0

C 0 0 0

C 0 0

pop (i,j) (Estrai dalla pila)if i>=j continue;else if (i+1,j)= (i,j) push(i+1,j)else if (i,j-1)= (i,j) push(i,j-1);else if (i+1,j-1)+i,j= (i,j):

record i,j base pair;push (i+1,j-1);

else for k=i+1 to j-1:if (i,k)+ (k+1,j)= (i,j):

push (k+1,j); push (i,k); break.

(2,9)=3 (i,j)=(1,9)=3

Page 44: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

L’algoritmo di Nussinov: Traceback (4)L’algoritmo di Nussinov: Traceback (4)

• Inizializzazione:– Push (1,L) onto stack (pila);

G G G A A A U C C

G 0 0 0 0 0 0 1 2 3

G 0 0 0 0 0 0 1 2 3

G 0 0 0 0 0 1 2 2

A 0 0 0 0 1 1 1

A 0 0 0 1 1 1

A 0 0 1 1 1

U 0 0 0 0

C 0 0 0

C 0 0

pop (i,j) (Estrai dalla pila)if i>=j continue;else if (i+1,j)= (i,j) push(i+1,j)else if (i,j-1)= (i,j) push(i,j-1);else if (i+1,j-1)+i,j= (i,j):

record i,j base pair;push (i+1,j-1);

else for k=i+1 to j-1:if (i,k)+ (k+1,j)= (i,j):

push (k+1,j); push (i,k); break.

(3,8)=2 (i,j)=(2,9)=3

2::G-C::9

Page 45: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

L’algoritmo di Nussinov: Traceback (5)L’algoritmo di Nussinov: Traceback (5)

• Inizializzazione:– Push (1,L) onto stack (pila);

G G G A A A U C C

G 0 0 0 0 0 0 1 2 3

G 0 0 0 0 0 0 1 2 3

G 0 0 0 0 0 1 2 2

A 0 0 0 0 1 1 1

A 0 0 0 1 1 1

A 0 0 1 1 1

U 0 0 0 0

C 0 0 0

C 0 0

pop (i,j) (Estrai dalla pila)if i>=j continue;else if (i+1,j)= (i,j) push(i+1,j)else if (i,j-1)= (i,j) push(i,j-1);else if (i+1,j-1)+i,j= (i,j):

record i,j base pair;push (i+1,j-1);

else for k=i+1 to j-1:if (i,k)+ (k+1,j)= (i,j):

push (k+1,j); push (i,k); break.

(4,7)=1 (i,j)=(3,8)=2

3::G-C::82::G-C::9

Page 46: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

L’algoritmo di Nussinov: Traceback (6)L’algoritmo di Nussinov: Traceback (6)

• Inizializzazione:– Push (1,L) onto stack (pila);

G G G A A A U C C

G 0 0 0 0 0 0 1 2 3

G 0 0 0 0 0 0 1 2 3

G 0 0 0 0 0 1 2 2

A 0 0 0 0 1 1 1

A 0 0 0 1 1 1

A 0 0 1 1 1

U 0 0 0 0

C 0 0 0

C 0 0

pop (i,j) (Estrai dalla pila)if i>=j continue;else if (i+1,j)= (i,j) push(i+1,j)else if (i,j-1)= (i,j) push(i,j-1);else if (i+1,j-1)+i,j= (i,j):

record i,j base pair;push (i+1,j-1);

else for k=i+1 to j-1:if (i,k)+ (k+1,j)= (i,j):

push (k+1,j); push (i,k); break.

(5,6)=0 (i,j)=(4,7)=1

4::A-U::73::G-C::82::G-C::9

Page 47: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

L’algoritmo di Nussinov: Traceback (7)L’algoritmo di Nussinov: Traceback (7)

• Inizializzazione:– Push (1,L) onto stack (pila);

G G G A A A U C C

G 0 0 0 0 0 0 1 2 3

G 0 0 0 0 0 0 1 2 3

G 0 0 0 0 0 1 2 2

A 0 0 0 0 1 1 1

A 0 0 0 1 1 1

A 0 0 1 1 1

U 0 0 0 0

C 0 0 0

C 0 0

pop (i,j) (Estrai dalla pila)if i>=j continue;else if (i+1,j)= (i,j) push(i+1,j)else if (i,j-1)= (i,j) push(i,j-1);else if (i+1,j-1)+i,j= (i,j):

record i,j base pair;push (i+1,j-1);

else for k=i+1 to j-1:if (i,k)+ (k+1,j)= (i,j):

push (k+1,j); push (i,k); break.

(6,6)=0 (i,j)=(5,6)=0

4::A-U::73::G-C::82::G-C::9

Page 48: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

L’algoritmo di Nussinov: Traceback (8)L’algoritmo di Nussinov: Traceback (8)

• Inizializzazione:– Push (1,L) onto stack (pila);

G G G A A A U C C

G 0 0 0 0 0 0 1 2 3

G 0 0 0 0 0 0 1 2 3

G 0 0 0 0 0 1 2 2

A 0 0 0 0 1 1 1

A 0 0 0 1 1 1

A 0 0 1 1 1

U 0 0 0 0

C 0 0 0

C 0 0

pop (i,j) (Estrai dalla pila)if i>=j continue;else if (i+1,j)= (i,j) push(i+1,j)else if (i,j-1)= (i,j) push(i,j-1);else if (i+1,j-1)+i,j= (i,j):

record i,j base pair;push (i+1,j-1);

else for k=i+1 to j-1:if (i,k)+ (k+1,j)= (i,j):

push (k+1,j); push (i,k); break.

(i,j)=(6,6)=0

4::A-U::73::G-C::82::G-C::9

Page 49: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

L’algoritmo di Nussinov: Traceback (9)L’algoritmo di Nussinov: Traceback (9)

• Inizializzazione:– Push (1,L) onto stack (pila);

G G G A A A U C C

G 0 0 0 0 0 0 1 2 3

G 0 0 0 0 0 0 1 2 3

G 0 0 0 0 0 1 2 2

A 0 0 0 0 1 1 1

A 0 0 0 1 1 1

A 0 0 1 1 1

U 0 0 0 0

C 0 0 0

C 0 0

pop (i,j) (Estrai dalla pila)if i>=j continue;else if (i+1,j)= (i,j) push(i+1,j)else if (i,j-1)= (i,j) push(i,j-1);else if (i+1,j-1)+i,j= (i,j):

record i,j base pair;push (i+1,j-1);

else for k=i+1 to j-1:if (i,k)+ (k+1,j)= (i,j):

push (k+1,j); push (i,k); break.

5::A A::64::A-U::73::G-C::82::G-C::9

1::G

Page 50: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

Analisi della struttura dell’RNAAnalisi della struttura dell’RNA

• La struttura dell’RNA• Struttura dell’RNA mediante analisi

comparativa• Predizione della struttura secondaria:

L’algoritmo di Nussinov• Predizione della struttura secondaria:

Minimizzazione dell’energia• Un tool per la predizione della struttura

secondaria: Mfold

Page 51: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

Folding dell’RNA e minimizzazione Folding dell’RNA e minimizzazione dell’energia liberadell’energia libera

• Il folding dell’RNA è determinato dalla biofisica piuttosto che dal conteggio e dalla massimizzazione delle coppie di basi.

• La stabilità termodinamica di una molecola di RNA ripiegata in una particolare struttura secondaria può essere misurata in termini di Energia Libera G che viene liberata passando da una molecola lineare a singolo filamento a una molecola che ha assunto la sua struttura secondaria più stabile.

• Molecole di RNA di piccole dimensioni si ripiegano con alta probabilità nella struttura di minima energia, ma non è noto se molecole di dimensioni maggiori, a causa del numero elevato di strutture possibili, adottino una struttura di minimo energetico locale piuttosto che assoluto.

Page 52: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

Folding dell’RNAFolding dell’RNA

• Secondo Tinoco et al., la diminuzione complessiva di energia libera è pari alla somma dei contributi indipendenti di ogni motivo elementare presente nella struttura.

• Quindi, se è noto il valore di energia libera di ogni motivo elementare di struttura secondaria, è possibile calcolare con buona approssimazione il valore globale di energia libera.

• La diminuzione di energia libera prodotta dall’appaiamento delle basi può essere calcolata sommando i contributi indipendenti di ogni possibile coppia di basi, G-C, A-U o G-U, dove

GGC< GAU< GGU

Page 53: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

Folding dell’RNAFolding dell’RNA

• In realtà è stato osservato che la stabilizzazione energetica della doppia elica è dovuta in gran parte alle interazioni delle basi adiacenti impilate lungo l’asse dell’elica (energia di stacking).

• Per questa ragione, dato che il contributo energetico di ciascuna coppia di basi dipende dalla coppia di basi adiacenti, la diminuzione di energia libera può essere stabilita più correttamente per ciascuna combinazione di coppie di paia di basi.

• In questo modo l’energia libera di uno stem di N basi può essere calcolato dalla somma dei contributi delle N-1 coppie di basi appaiate.

Page 54: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

Tabelle di Freier dei contributi energeticiTabelle di Freier dei contributi energetici

• Stacking

• Bulge loop (in funzione della lunghezza)

5’- GU AU UA CG GC

3’-

GU -0,5 -0,5 -0,7 -1,5 -1,3

AU -0,5 -0,9 -1,1 -1,8 -2,3

UA -0,7 -0,9 -0,9 -1,7 -2,1

CG -1,9 -2,1 -2,3 -2,9 -3,4

GC -1,5 -1,7 -1,8 -2 -2,9

1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 25 30

3,2 5,2 6 6,7 7,4 8,2 9,1 10 10,5 11 11,8 12,5 13 13,6 14 15 15,8

Page 55: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

Tabelle di Freier dei contributi energeticiTabelle di Freier dei contributi energetici

• Hairpin loop (in funzione della lunghezza)

• Internal loop (in funzione della lunghezza)

Gli appaiamenti “closing” sono quelli alla base del loop.

Closing 1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 25

CG 99,9 99,9 7,4 5,9 4,4 4,3 4,1 4,1 4,2 4,3 4,9 5,6 6,1 6,7 7,1 8,1

AU 99,9 99,9 7,4 5,9 4,4 4,3 4,1 4,1 4,2 4,3 4,9 5,6 6,1 6,7 7,1 8,1

Closing 1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 25

CG-CG 99,9 0,8 1,3 1,7 2,1 2,5 2,6 2,8 3,1 3,6 4,4 5,1 5,6 6,2 6,6 7,6

CG-AU 99,9 0,8 1,3 1,7 2,1 2,5 2,6 2,8 3,1 3,6 4,4 5,1 5,6 6,2 6,6 7,6

AU-AU 99,9 0,8 1,3 1,7 2,1 2,5 2,6 2,8 3,1 3,6 4,4 5,1 5,6 6,2 6,6 7,6

Page 56: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

Calcolo dell’energia liberaCalcolo dell’energia libera

• Utilizzando i valori riportati nelle tabelle di Freier, calcoliamo l’energia libera della struttura in figura, relativa alla sequenza:

5’- AAGAUGCUACGGUGAAGCAUCA -3’

G = GGC/AU + GAU/UA + GUA/GC + GGC/CG + GCG/UA +

Ghairpin_loop = (-2,3) + (-0,9) + (-1,8) + (-3,4) + (-1,7) + 4,1

= -6.0 Kcal/mol

Page 57: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

L’algoritmo di Zuker ed MfoldL’algoritmo di Zuker ed Mfold

• La struttura a minima energia può essere calcolata ricorsivamente mediante l’algoritmo di Zuker, un algoritmo di programmazione dinamica molto simile a quello di Nussinov.

• Una variante efficiente dell’algoritmo di Zuker è implementata all’interno del pacchetto Mfold, disponibile su web e in versione scaricabile per l’uso locale.

• Data una sequenza di RNA, Mfold restituisce le strutture secondarie a minima energia più probabili, dato che la struttura biologicamente corretta è di solito sub-ottimale, piuttosto che quella a minima energia.

Page 58: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

Analisi della struttura dell’RNAAnalisi della struttura dell’RNA

• La struttura dell’RNA• Struttura dell’RNA mediante analisi

comparativa• Predizione della struttura secondaria:

L’algoritmo di Nussinov• Predizione della struttura secondaria:

Minimizzazione dell’energia• Un tool per la predizione della struttura

secondaria: Mfold

Page 59: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

MfoldMfold

• Il tool Mfold è disponibile all’indirizzo: http://frontend.bioinfo.rpi.edu/applications/mfold/cgi-bin/rna-form1.cgi

Page 60: Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dellRNA 27/04/2011.

Output di MfoldOutput di Mfold