Analisi bioinformatiche di sequenze...

6
Andrea Telatin Anno Accademico 2010/2011 – Esercitazioni di Biologia Molecolare II Analisi bioinformatiche di sequenze regolatorie Lo scarabeo d’oro In un racconto di Edgar Allan Poe, “lo scarabeo d’oro”, il protagonista si imbatte nel seguente messaggio cifrato: 53‡‡†305))6*;4826)4‡.)4‡);806*;48†8 ¶60))85;1‡(;:‡*8†83(88)5*†;46(;88*96 *?;8)*‡(;485);5*†2:*‡(;4956*2(5*—4)8 ¶8*;4069285);)6†8)4‡‡;1(‡9;48081;8:8‡ 1;48†85;4)485†528806*81(‡9;48;(88;4 (‡?34;48)4‡;161;:188;‡?; Un primo approccio per scoprire l’alfabeto nascosto con cui poi decifrare il messaggio è sfruttare alcune proprietà della lingua in cui il messaggio è scritto (l’inglese). Ogni lettera appare nei testi con frequenza diversa, e questo può servire a decifrare messaggi in cui la cifratura si basi su sostituzioni di caratteri. Ordinando i caratteri per frequenza decrescente otteniamo il seguente codice: Messaggio: 8 ; 4 ) + * 5 6 ( ! 1 0 2 9 3 : ? ' - ] . English: e t a o i n s r h l d c u m f p g w y b v … E una volta applicate le opportune sostituzioni… sfiilfcsoorntaeuroaikoaiotecrntaeleyrcooestvenpinelefheeosnltarhtee nmrnwteonihtaesotsnlupnihtamsrnuhsnbaoeyentacrmuesotorleoaiitdhimta ecedtepeidtaelestaoaeslsueecrnedhimtaetheetahiwfataeoaitdrdtpdeetiw t Questo primo tentativo non ha portato ad un risultato intelleggibile. Un approccio un po’ più raffinato prevede di utilizzare la frequenza non dei caratteri, bensì delle parole che compongono i testi. La parola più frequente – sempre nella lingua inglese – è ‘the’. Nel testo cifrato è ’48;’. Sostituendolo in tutto il testo otteniamo: 53‡‡†305))6*the26)h‡.)h‡)te06*the†e ¶60))e5t1‡(t:‡*e†e3(ee)5*†th6(tee*96 *?te)*‡(the5)t5*†2:*‡(th956*2(5*—h)e ¶e*th0692e5)t)6†e)h‡‡t1(‡9the0e1te:e‡ 1the†e5th)he5†52ee06*e1(‡9thet(eeth (‡?3hthe)h‡t161t:1eet‡?t Compare 4 volte la parola ‘the’, ma troviamo anche ‘t(ee’ che potrebbe celare la parola inglese ‘tree’. Procedendo per passi il protagonista del racconto riesce a decifrare l’intero messaggio (lo puoi trovare online!). Cercare motivi nel DNA è sicuramente più difficile, eppure una lezione appresa dalla decifrazione di questo messaggio (ovvero di misurare le frequenze con cui appaiono singole lettere o parole intere) può essere utile...

Transcript of Analisi bioinformatiche di sequenze...

Andrea Telatin Anno Accademico 2010/2011 – Esercitazioni di Biologia Molecolare II

Analisi bioinformatiche di sequenze regolatorie

Lo scarabeo d’oro In un racconto di Edgar Allan Poe, “lo scarabeo d’oro”, il protagonista si imbatte nel seguente messaggio cifrato:

53‡‡†305))6*;4826)4‡.)4‡);806*;48†8 ¶60))85;1‡(;:‡*8†83(88)5*†;46(;88*96 *?;8)*‡(;485);5*†2:*‡(;4956*2(5*—4)8 ¶8*;4069285);)6†8)4‡‡;1(‡9;48081;8:8‡ 1;48†85;4)485†528806*81(‡9;48;(88;4 (‡?34;48)4‡;161;:188;‡?;

Un primo approccio per scoprire l’alfabeto nascosto con cui poi decifrare il messaggio è sfruttare alcune proprietà della lingua in cui il messaggio è scritto (l’inglese). Ogni lettera appare nei testi con frequenza diversa, e questo può servire a decifrare messaggi in cui la cifratura si basi su sostituzioni di caratteri. Ordinando i caratteri per frequenza decrescente otteniamo il seguente codice:

Messaggio: 8 ; 4 ) + * 5 6 ( ! 1 0 2 9 3 : ? ' - ] . English: e t a o i n s r h l d c u m f p g w y b v …

E una volta applicate le opportune sostituzioni…

sfiilfcsoorntaeuroaikoaiotecrntaeleyrcooestvenpinelefheeosnltarhteenmrnwteonihtaesotsnlupnihtamsrnuhsnbaoeyentacrmuesotorleoaiitdhimtaecedtepeidtaelestaoaeslsueecrnedhimtaetheetahiwfataeoaitdrdtpdeetiwt

Questo primo tentativo non ha portato ad un risultato intelleggibile. Un approccio un po’ più raffinato prevede di utilizzare la frequenza non dei caratteri, bensì delle parole che compongono i testi. La parola più frequente – sempre nella lingua inglese – è ‘the’. Nel testo cifrato è ’48;’. Sostituendolo in tutto il testo otteniamo:

53‡‡†305))6*the26)h‡.)h‡)te06*the†e ¶60))e5t1‡(t:‡*e†e3(ee)5*†th6(tee*96 *?te)*‡(the5)t5*†2:*‡(th956*2(5*—h)e ¶e*th0692e5)t)6†e)h‡‡t1(‡9the0e1te:e‡ 1the†e5th)he5†52ee06*e1(‡9thet(eeth (‡?3hthe)h‡t161t:1eet‡?t

Compare 4 volte la parola ‘the’, ma troviamo anche ‘t(ee’ che potrebbe celare la parola inglese ‘tree’. Procedendo per passi il protagonista del racconto riesce a decifrare l’intero messaggio (lo puoi trovare online!). Cercare motivi nel DNA è sicuramente più difficile, eppure una lezione appresa dalla decifrazione di questo messaggio (ovvero di misurare le frequenze con cui appaiono singole lettere o parole intere) può essere utile...

Analisi di promotori eucariotici La trascrizione è un evento finemente regolato da una classe di proteine (i fattori di trascrizione) che formano complessi di attivazione o repressione della trascrizione in prossimità del promotore (spesso coinvolgendo elementi diverse migliaia di basi a monte (gli enhancer). Un possibile quadro del complesso di reclutamento dell’RNA polimerasi potrebbe essere come questo:

Come si nota, alcuni fattori di trascrizione hanno la proprietà di legare il DNA, mentre altri, interagendo con i primi, partecipano alla formazione del complesso di attivazione. Analizzando la sequenza di DNA che si ritiene essere il promotore di un gene, pertanto, dovremmo essere in grado di trovare le “impronte” di questo complesso… anzi, di più di un possibile complesso, perché ogni promotore può reclutare – in tempi e tessuti diversi – un diverso macchinario molecolare. Descrizione e ricerca di motivi Il sito di legame di un fattore di trascrizione (TFBS secondo l’acronimo inglese) è la sequenza specifica riconosciuta dalla proteina nel DNA. Un primo obiettivo per un biologo computazionale è quello di riuscire a descrivere nel modo migliore la preferenza di un fattore di trascrizione (Fig. 1). Un approccio naïve come quello di annotare il “consensus” spesso non è sufficientemente sensibile: spesso un TF si lega a siti con diverse modifiche rispetto al “consensus”. Possiamo quindi iniziare valutando tutti i siti di legami noti per il TF in esame, e annotando la frequenza con cui ciascuna base compare in una determinata posizione otteniamo una “matrice di peso” (PFM, Position Frequence Matrix), che passando al logaritmo (come descritto nella review di Wasserman e Sandelin) diventa una matrice pesata. Il vantaggio di pasare al logaritmo è che possiamo sommare i valori, anziché fare le moltiplicazioni. Con una matrice siamo in grado di dare un punteggio ad una data stringa di DNA e valutare quanto sia distante dalla preferenza del fattore di trascrizione. Se notate, l’ottava sequenza di Fig. 1 è la più distante dalle altre. Quel sito di legame certo avrà un punteggio alto ma non massimo se valutato alla luce della matrice di peso. Con questa descrizione del sito di legame possiamo scorrere il genoma alla ricerca di altri siti di legame per lo stesso fattore. La lunghezza limitata e la forte degenerazione fanno sì che troveremo un largo numero di siti spesso inesatti… ovvero senza un significato funzionale. Gli autori della review chiamano questo fenomeno “Futility Theorem”, ovvero la sensibilità dei metodi fin’ora messi in pratica è alta, ma la specificità è drammaticamente bassa, e >90% delle predizioni non ha alcun senso.

Figura 1 – Descrizione di motivi (da Wasserman e Sandelin 2004). Provate a fare da voi i conti per costruire la matrice di peso, siete d’accordo con quella riportata nell’articolo? Dimostrare il “Futility theorem” Esiste un database che raccoglie i siti di legame a fattori di trascrizione: JASPAR. Se lo consultate potete sfogliare i siti in base alla clade o alla singola specie, vi verranno date le sequenze che lo hanno originato, la matrice e – visivamente – il “sequence logo” come quello di figura 1f. Se provate a scrivere nel box di sinistra una sequenza di DNA puramente casuale e lanciate la ricerca di uno o più motivi con ogni probabilità riuscirete a trovarne qualcuno. Se anziché poche righe mettete 500 basi di un promotore, e selezionate tutti i fattori della specie da cui proviene il DNA, troverete centinaia di hit. Chissà che fra queste non ci sia qualche “predizione” corretta! In fig. 2-3 trovate un esempio di JASPAR all’opera.

Fig 2. JASPAR: un database di motivi regolatori.

Fig 3. Ricerca del motivo “TFAP2A” in tre righe di nucleotidi a caso… Bingo! Trovato il sito di legame. Va sottolineato che JASPAR è un database, non un programma per effettuare predizioni. I programmi che cercano regioni regolatorie devono combinare l’uso delle matrici ad altre informazioni. L’idea generale è di ridurre le posizioni in cui effettuare la ricerca cercando in qualche modo di evidenziare le regioni promotoriali e mascherare le altre.

Un setaccio per filtrare i siti corretti Man mano che si accumulano maggiori dettagli sulla biologia molecolare del gene, il numero di predizioni errate cala. Evidentemente non è il solo riconoscimento di un motivo nel DNA a dare avvio alla trascrizione, ma una complessa rete di eventi e di segnali. Ad esempio lo stato di condensazione della cromatina rende alcuni siti accessibili e impedisce l’accesso ad altri. Esistono quindi segnali di rimodellamento della cromatina che rendono, in un certo tessuto ed in un certo momento dello sviluppo, alcuni promotori accessibili ed altri no. Un metodo sperimentale per descrivere questo fenomeno è la ricerca di siti ipersensibili alla Dnasi I. Se mappiamo in un browser genomico queste regioni, possiamo rafforzare le predizioni di siti che cadono al suo interno e scartare (o ridurre il punteggio) per i siti di regioni che apparentemente sono condensate. Un altro setaccio, molto potente e molto usato, si chiama phylogenetic footprinting. La probabilità che una sequenza di DNA rimanga conservata nel corso dell’evoluzione dipende dai vincoli che questa impone. Un sito di legame per fattori di trascrizione tenderà ad essere conservato molto di più che una regione “spaziatrice”. Scegliendo quindi un set di geni ortologhi e confrontando le regioni a monte degli stessi, dovremmo essere in grado di individuare regioni putativamente regolatorie In fig. 4 trovate una schermata di un browser genomico centrata nel gene IL4. Trovate evidenziate tre tracce (PipMaker, VISTA e UCSC Conservation) che con approcci diversi indicano il grado di conservazione del DNA se confrontato con regioni omologhe. Sono evidenziati, inoltre, i siti di ipersensibilità alla DNasi I. Si nota, a monte del gene, un picco di conservazione.

Figura 4 – Browser genomico centrato sul gene IL4 con in evidenza tracce di conservazione. (2) Questo può aiutarci a fare predizioni corrette? Per lo meno riduciamo drammaticamente il numero di fasi positivi: in figura qui sotto si vede che dei tanti siti predetti per il fattore MEF2, solo 2 cadono in regioni altamente conservate.

Figura 5 – Allineamento genomico Uomo-Topo per evidenziare il grado di conservazione. (1)

Ricerca di motivi regolatori ab initio Se cercare motivi conosciuti è un impresa ardua, predire l’esistenza di siti nuovi lo è ancora di più. Esistono situazioni in cui può aver senso tentare un approccio di ricerca di motivi sconosciuti, il caso tipico è l’aver determinato che un set di geni viene co-regolato. Da esperimenti di microarray o di RNA-Seq potete confrontare i livelli di espressione di tutti i geni di un organismo in un determinato tessuto. Dal confronto dei profili di espressione di più tessuti o condizioni diverse (stress, somministrazione di un farmaco,…) potete ricavare dei set di geni che mostranolo stesso andamento in situazioni diverse, per questo ritenuti co-regolati. Se prendiamo le regioni a monte di questi geni, possiamo tentare un approccio tipo “scarabeo d’oro”. In poche parole si tratta di contare la frequenza con cui appaiono tutte le parole di n caratteri in un genoma, e poi applicare la medesima procedura solo sulle regioni coregolate. L’ipotesi è che queste celino una parola che sarà sovrarappresentata. Un sistema per applicare questo approccio è stato sviluppato nel gruppo Pesole (vedi il paper di Pavesi et al.). Il programma sviluppato si chiama “Weeder” ed è di provata fama(4) nel difficile panorama della ricerca di motivi ab initio. Bibliografia

1) Wasserman and Sandelin, “Applied bioinformatics for the identification of regulatory elements” (2004, Nat. Rev. Genet.)

2) Nardone, Lee, Ansel and Rao, “Bioinformatics for the ‘bench biologist’: how to find regulatory regions in genomic DNA” (2004, Nat. Immunol.)

3) Pavesi et al., MoD Tools: regulatory motif discovery... (2006, Nucleic Acids Research) 4) Tompa et al., “Assessing computational tools for the discovery of transcription factor binding sites”

(2005, Nat. Biotech.)