ASSEMBLAGGIO E FINISHING DEI FRAMMENTI SEQUENZIATI ...€¦ · blast ed hanno, infatti, la...

12
ASSEMBLAGGIO E FINISHING DEI FRAMMENTI SEQUENZIATI Assemblaggio di contig e di trascritti. Ruolo della ridondanza I concetti di contigui (contig), consenso (consensus), copertura (coverage) e sequenze gemelle (mate pairs) sono trattati più estesamente nei corsi di Genomica, ma sono sinteticamente riportate le informazioni fondamentali nella dispensa di supporto. Questa sezione illustra invece come i tool sviluppati dalla bioinformatica riescano a gestire e confrontare i dati di sequenza su larga scala, consentendo di assemblare genomi e trascrittomi. Un primo concetto da chiarire è il ruolo della ridondanza. Chi ha seguito corsi di bioinformatica di base sa già che nei database bibliografici e di sequenza a ridondanza ha un valore negativo, poichè rallenta le ricerche e ne confonde i risultati. Al contrario, nell’assemblaggio dei genomi e dei trascrittomi, la ridondanza ha un valore positivo in quanto fondamentale per escludere gli errori. Le polimerasi, con frequenza variabile, possono introdurre errori nella sequenza. Questo tipo di errore di incorporazione non è rilevabile nei cromatogrammi poiché può essere presente nelle parti di alta qualità. Tuttavia, poiché gli errori di sequenziamento sono casuali, la probabilità che lo stesso errore riguardi la stessa posizione è molto bassa. Conseguentemente, nel caso una sequenza sia stata ottenuta più volte, gli errori non capiteranno nella stessa posizione e ciascun errore tenderà a risultare unico nella specifica posizione, mentre le altre sequenze mostreranno la base corretta. Si può facilmente comprendere che se una sequenza è stata ottenuta solo una volta, ciò non consente di identificare gli errori, poiché non c’è ridondanza che faccia emergere posizioni in cui le sequenze hanno basi diverse. Regioni in cui la sequenza è ottenuta due volte permettono solo di rilevare la presenza di errori, ma non di determinarne la natura perché, in caso di divergenza, il sostanziale “pareggio” non fornisce elementi per stabilire quale sia la base “giusta” e quale l’errore. Quindi, per stabilire se c’è un errore, è necessario avere almeno (ma è un requisito davvero minimo ) 3 sequenze allineate: nel caso ci siano errori, questi saranno rappresentati 1 sola volta, mentre nella stessa posizione la base corretta sarà rappresentata 2 volte. Tuttavia, un livello di ridondanza significativamente maggiore è necessario per distinguere errori di sequenziamento da polimorfismi. Infatti, quando si sequenzia il DNA la differenza in una base non necessariamente corrisponde ad un errore. Le mutazioni che causano gravi difetti molecolari e cellulari e quindi una patologia sono poco frequenti, ma variazioni della sequenza di uno stesso gene (varianti alleliche) possono essere presenti in molte posizioni e dar luogo a numerosi polimorfismi. In particolare, in regioni del DNA scarsamente soggette a pressione selettiva in quanto non funzionalmente rilevanti se mutate, possono accumularsi mutazioni e basi differenti nella stessa posizione possono avere frequenze simili. Pertanto, solo confrontando un numero elevato di sequenze è possibile escludere “falsi errori” che invece corrispondono a polimorfismi. Tornando all’esempio precedente, trovare che in una certa posizione due sequenze hanno una T e la terza una C può far pensare ad un errore. Ma potrebbe anche trattarsi di polimorfismo. Se le sequenze confrontate sono 30 ed il polimorfismo non è raro, potremmo trovare che le sequenze con una C siano ancora minoritarie, ma più d’una (ad esempio, 4 o 5). In tal caso è verosimile ipotizzare che la sequenza con la C sia un allele meno rappresentato e diventa inverosimile pensare che l'errore (che è casuale) si sia accanito 4- 5 volte proprio su quella posizione. Nel caso la sequenza con la C resti solo una anche su 30, l’ipotesi che sia un errore diventa più solida, ma non si può escludere che si tratti di un polimorfismo più raro.

Transcript of ASSEMBLAGGIO E FINISHING DEI FRAMMENTI SEQUENZIATI ...€¦ · blast ed hanno, infatti, la...

Page 1: ASSEMBLAGGIO E FINISHING DEI FRAMMENTI SEQUENZIATI ...€¦ · blast ed hanno, infatti, la capacità di individuare le “somiglianze” tra le differenti sequenze prodotte. La procedura

ASSEMBLAGGIO E FINISHING DEI FRAMMENTI SEQUENZIATI Assemblaggio di contig e di trascritti. Ruolo della ridondanza I concetti di contigui (contig), consenso (consensus), copertura (coverage) e sequenze gemelle (mate pairs) sono trattati più estesamente nei corsi di Genomica, ma sono sinteticamente riportate le informazioni fondamentali nella dispensa di supporto. Questa sezione illustra invece come i tool sviluppati dalla bioinformatica riescano a gestire e confrontare i dati di sequenza su larga scala, consentendo di assemblare genomi e trascrittomi. Un primo concetto da chiarire è il ruolo della ridondanza. Chi ha seguito corsi di bioinformatica di base sa già che nei database bibliografici e di sequenza a ridondanza ha un valore negativo, poichè rallenta le ricerche e ne confonde i risultati. Al contrario, nell’assemblaggio dei genomi e dei trascrittomi, la ridondanza ha un valore positivo in quanto fondamentale per escludere gli errori. Le polimerasi, con frequenza variabile, possono introdurre errori nella sequenza. Questo tipo di errore di incorporazione non è rilevabile nei cromatogrammi poiché può essere presente nelle parti di alta qualità. Tuttavia, poiché gli errori di sequenziamento sono casuali, la probabilità che lo stesso errore riguardi la stessa posizione è molto bassa. Conseguentemente, nel caso una sequenza sia stata ottenuta più volte, gli errori non capiteranno nella stessa posizione e ciascun errore tenderà a risultare unico nella specifica posizione, mentre le altre sequenze mostreranno la base corretta. Si può facilmente comprendere che se una sequenza è stata ottenuta solo una volta, ciò non consente di identificare gli errori, poiché non c’è ridondanza che faccia emergere posizioni in cui le sequenze hanno basi diverse. Regioni in cui la sequenza è ottenuta due volte permettono solo di rilevare la presenza di errori, ma non di determinarne la natura perché, in caso di divergenza, il sostanziale “pareggio” non fornisce elementi per stabilire quale sia la base “giusta” e quale l’errore. Quindi, per stabilire se c’è un errore, è necessario avere almeno (ma è un requisito davvero minimo) 3 sequenze allineate: nel caso ci siano errori, questi saranno rappresentati 1 sola volta, mentre nella stessa posizione la base corretta sarà rappresentata 2 volte.

Tuttavia, un livello di ridondanza significativamente maggiore è necessario per distinguere errori di sequenziamento da polimorfismi. Infatti, quando si sequenzia il DNA la differenza in una base non necessariamente corrisponde ad un errore. Le mutazioni che causano gravi difetti molecolari e cellulari e quindi una patologia sono poco frequenti, ma variazioni della sequenza di uno stesso gene (varianti alleliche) possono essere presenti in molte posizioni e dar luogo a numerosi polimorfismi. In particolare, in regioni del DNA scarsamente soggette a pressione selettiva in quanto non funzionalmente rilevanti se mutate, possono accumularsi mutazioni e basi differenti nella stessa posizione possono avere frequenze simili. Pertanto, solo confrontando un numero elevato di sequenze è possibile escludere “falsi errori” che invece corrispondono a polimorfismi. Tornando all’esempio precedente, trovare che in una certa posizione due sequenze hanno una T e la terza una C può far pensare ad un errore. Ma potrebbe anche trattarsi di polimorfismo. Se le sequenze confrontate sono 30 ed il polimorfismo non è raro, potremmo trovare che le sequenze con una C siano ancora minoritarie, ma più d’una (ad esempio, 4 o 5). In tal caso è verosimile ipotizzare che la sequenza con la C sia un allele meno rappresentato e diventa inverosimile pensare che l'errore (che è casuale) si sia accanito 4-5 volte proprio su quella posizione. Nel caso la sequenza con la C resti solo una anche su 30, l’ipotesi che sia un errore diventa più solida, ma non si può escludere che si tratti di un polimorfismo più raro.

Page 2: ASSEMBLAGGIO E FINISHING DEI FRAMMENTI SEQUENZIATI ...€¦ · blast ed hanno, infatti, la capacità di individuare le “somiglianze” tra le differenti sequenze prodotte. La procedura

In caso di dubbio, solo la ripetizione del sequenziamento dello stesso clone permette di chiarire: essendo l’errore casuale, non sarà ripetuto sulla stessa base.

L’analisi degli elettroferogrammi ottenuti viene eseguita da programmi specificamente sviluppati per verificare la bontà del sequenziamento, quali ad esempio Phred, un programma in linguaggio C di base calling disponibile per differenti piattaforme (Linux, Unix, Mac OS X e Windows). Phred è in grado di leggere cromatogrammi nei formati SCF ("Standard Chromatogram Format", un formato universale adottato da numerosi software di elaborazione e visualizzazione dei cromatogrammi) ed ABI (il formato proprietario, ma diffusissimo della Applied Biosystems); in output produce file con formati adatti alla visualizzazione estesa, sintetica o all’elaborazione successiva da parte di altri programmi. In particolare, oltre a mantenere il formato SCF, può produrre output in formato FASTA o nel formato PHD utilizzabile da Consed. Phred applica metodi statistici per valutare la qualità di ogni base sequenziata. Sulla base della posizione teorica in cui dovrebbero essere localizzati i picchi nell’elettroferogramma, viene analizzata la posizione di ogni base e l’area di ogni picco. Dal confronto tra posizioni reali e calcolate si definisce un valore di affidabilità per ogni base. I quality score attribuiti da Phred sono associati logaritmicamente [Q = -10 log10( Pe )] alle probabilità d’errore, come mostrato dalla seguente tabella:

Phred quality score Probability that the base is called wrong Accuracy of the base call 10 1 in 10 90% 20 1 in 100 99% 30 1 in 1,000 99.9% 40 1 in 10,000 99.99% 50 1 in 100,000 99.999%

Per la produzione di contigui gli strumenti bioinformatici si basano essenzialmente sulla logica di blast ed hanno, infatti, la capacità di individuare le “somiglianze” tra le differenti sequenze prodotte. La procedura di assemblaggio deve tenere conto della polarità della sequenza e del fatto che il sequenziamento può avvenire in entrambe le direzioni. I programmi per l’assemblaggio dei frammenti devono pertanto (i) valutare tutte le possibili sovrapposizioni di sequenza in entrambe le direzioni, al fine di determinare la migliore soluzione di allineamento e (ii) generare una sequenza consenso per ogni contig e (iii) attribuire un valore di affidabilità ad ogni base della sequenza consenso.

Tra tali programmi Phrap, uno dei più usati sia nei progetti pubblici di sequenziamento genomico che da industrie biotech. Phrap è in grado di assemblare in pochi minuti 2-3000 sequence reads (ovviamente, il tempo varia al variare della potenza dei PC utilizzati). L’assemblaggio di genomi batterici sequenziati con approccio shotgun può essere realizzato in poche ore. Phrap usa i quality scores di Phred per valutare la qualità dei consensus; quando necessario, però, permette di assemblare le sequenze anche a partire dalla zona che Phred giudica di bassa qualità. Inoltre, Phrap tiene conto delle informazioni sul metodo di sequenziamento utilizzato e delle conferme/mismatch relative alle reads del filamento complementare. In tal modo, rispetto ad algoritmi più vecchi in cui per stabilire il consenso è semplicemente valutato un criterio di “maggioranza”, che non pesa differenzialmente sequenze di alta e bassa qualità, Phrap consente di definire consensus più affidabili, escludendo errori sistematici. In pratica, Phrap allinea le sequenze mediante ricerca di “parole” di lunghezza stabilita, come altri programmi di allineamento, ed attribuisce un punteggio sulla base della similarità delle basi e della affidabilità delle lettura. L’assemblaggio inizia a partire dagli allineamenti più significativi e procede a mosaico costruendo tratti contigui composti da più letture, definiti contig. Si creano così isole non ordinate di sequenza, che nel complesso definiscono la completa regione di partenza della quale non se ne conosceva la sequenza. Phrap usa i quality scores anche per valutare se i mismatch tra due sequenze sovrapposte derivano verosimilmente da errori causali, o da copie differenti di una sequenza ripetuta. Nel caso di repeats con identità del 95-98% (come le sequenze Alu umane) e sequenze di alta qualità gli assemblaggi sono solitamente corretti.

Page 3: ASSEMBLAGGIO E FINISHING DEI FRAMMENTI SEQUENZIATI ...€¦ · blast ed hanno, infatti, la capacità di individuare le “somiglianze” tra le differenti sequenze prodotte. La procedura

Cross_match è un programma che utilizza gli stessi algoritmi di Phrap, ma è più veloce. E’ ben noto che la velocità si paga in termini di accuratezza (e viceversa), cosicchè Phrap continua ad essere utilizzato per l’assemblaggio mentre Cross_match è utilizzato per fasi, quali ad esempio quelle di vector screening, dove non è necessario discriminare tra sequenze molto simili bensi tra sequenze (in questo caso, del vettore e dell’inserto) chiaramente divergenti. CodonCode Aligner è un ulteriore programma di assemblaggio e identificazione di mutazioni, rilasciato per sistemi operativi più diffusi (e quindi per l’uso personale) quali Windows e Mac OS. CodonCode Aligner combina la compatibilità con i quality scores di Phred-Phrap con un ambiente grafico più “easy-to-learn”:

Una volta rifiniti, i contigui devono essere ordinati in modo corretto. A tale scopo è necessario disporre di una interfaccia capace di visualizzare i risultati delle fasi di sequenziamento e assemblaggio. Consed è un programma sviluppato per la fase di finishing, durante la quale l’operatore, visualizzando i risultati dell’assemblaggio, potrà eseguire modifiche all’allineamento automatico e valutare la qualità del sequenziamento ed eventualmente decidere la ripetizione di regioni mancanti o di bassa qualità. In pratica, Consed provvede all'analisi delle sequenze gemelle (mate pairs) provenienti dallo stesso clone. Clustering di EST Il sequenziamento delle EST (Expressed Sequence Tag) è trattato, per gli aspetti sperimentali, nel corso di Genomica e brevemente nella dispensa di supporto, che illustra la necessità di ricostruire i trascritti lunghi attraverso l’approccio del clustering. I progetti di analisi dei trascrittomi spesso riguardano migliaia di EST le cui sequenze devono essere confrontate e raggruppate:

Page 4: ASSEMBLAGGIO E FINISHING DEI FRAMMENTI SEQUENZIATI ...€¦ · blast ed hanno, infatti, la capacità di individuare le “somiglianze” tra le differenti sequenze prodotte. La procedura

Lo scopo finale è quello di ricostruire il complemento di tutti i trascritti di un genoma, sia per avere un profilo del trascrittoma e della sua variazione in risposta a stimoli di crescita, differenziativi, in risposta a stress fisici, chimici o biotici, farmaci, patogeni ecc., sia per favorire l’identificazione dei geni sul genoma e per comprenderne, nel caso degli eucarioti e quindi di geni interrotti, la struttura, ovvero il numero e la posizione di esoni ed introni.

Il compito di raggruppare insieme le sequenze riconducibili ad un unico trascritto e separare tutti i gruppi è reso complesso dal fatto che, soprattutto nei genomi complessi, vi sono numerose regioni di ambiguità, ovvero tratti di sequenza identici o altamente simili sebbene appartenenti a trascritti diversi. Ciò è causato dall’amplificazione genica, ovvero la moltiplicazione dei paraloghi (copie, all’interno dello stesso genoma, di geni derivanti per duplicazione e divergenza dallo stess gene ancestore) e delle isoforme di splicing alternativo, che sono moltissime nell’uomo e negli organismi superiori. Inoltre, è fondamentale che le sequenze da clusterizzare non contengano ulteriori tratti ambigui (omopolimeri, sequenze di vettore, sequenze ripetitive o a bassa complessità), altrimenti si generano cluster di frammenti provenienti da trascritti diversi, ossia dei veri e propri artefatti!

Il primo passaggio neessario per raggruppare correttamente EST e trascritti full-length consiste nel raccoglierli in insiemi ordinati ed indicizzati (fasi di storage ed indexing). Successivamente è opportuno “ripulire” le sequenze eliminando i tratti ambigui facilmente identificabili, quali ad es. le sequenze dei vettori. Si procede quindi ad un clustering preliminare (initial clustering), con criteri di stringenza elevati, in cui sono raggruppate sequenze identiche o molto simili ed è possibile eliminare inutile ridondanza. In particolare, nei cluster possono essere eliminate alcune sequenze più corte, se esse sono identiche a frammenti di altre sequenze più lunghe dello stesso cluster, o anche sequenze identiche e della stessa lunghezza. Dopo aver eliminato parte della ridondanza con criteri di alta stringenza si può passare ad una fase di assemblaggio e di studio degli alllineamenti (alignment processing) che consente il cluster joining, ovvero di raggruppare alcuni cluster inizialmente separati solo per mismatch che in realtà non erano significativi. Restano esclusi dalla fase di riunione quei cluster che invece appartengono effettivamente a trascritti diversi:

Anche nel caso del clustering si pone l’antitesi precisione-velocità. In realtà la scelta non è mai antitetica ed il buonsenso porta ad usare sia algoritmi veloci che lenti e precisi, poiché in alcune fasi del processo conta la velocità ed in altre la precisione. E’ intuibile che nelle fasi di “scrematura” iniziale delle sequenze contaminanti e ridondanti si possono usare processi stringenti e veloci; nelle fasi finali di assemblaggio dei cluster è importante essere precisi.

La precisione è particolarmente importante nelle fasi di analisi delle regioni a bassa divergenza. Infatti, differenze nella sequenza possono corrispondere ad errori, ma anche a polimorfismi allelici di uno stesso gene o a divergenza tra paraloghi di una stessa famiglia genica, o infine all’uso di

Page 5: ASSEMBLAGGIO E FINISHING DEI FRAMMENTI SEQUENZIATI ...€¦ · blast ed hanno, infatti, la capacità di individuare le “somiglianze” tra le differenti sequenze prodotte. La procedura

esoni alternativi in varianti di splicing. Esistono differenti e numerosi algoritmi di clustering, ma in tutti i casi il processo prevede una serie di passaggi e condizioni alternative yes/no che portano a passaggi successivi diversi.

GENE PREDICTION NEI PROCARIOTI Com'è possibile individuare le regioni regolative e codificanti dei geni contenuti in un genoma? Il problema è (relativamente....) più semplice per i genomi procariotici. Infatti, i cromosomi batterici, oltre ad essere molto più piccoli di quelli degli eucarioti, contengono geni non interrotti e sono privi della gran quantità di sequenze ripetute che caratterizza il DNA degli eucarioti. Rispetto a questi ultimi, i procarioti hanno un minor numero di geni e la complessità delle regioni regolative è minore. Infine, proprio per le dimensioni ridotte, il numero di genomi procariotici sequenziati è più ampio, il che facilita le analisi di genomica comparata.

Poichè i geni dei procarioti non mostrano il ”problema” (da un punto di vista dell’analisi predittiva) dello splicing, ovvero non hanno sequenze codificanti interrotte, con una certa approssimazione si può dire che per identificare i geni dei batteri è necessario “tradurre” la sequenza del cromosoma nei sei possibili registri di lettura e focalizzare l’attenzione sulle regioni potenzialmente codificanti proteine (ORF, open reading frame) sufficientemente lunghe, accompagnate da promotori. La ricerca di ORF è un esempio di strategia intrinseca, poichè l'analisi riguarda solo le caratteristiche del genoma in esame, senza confrontarlo con entità esterne. La ricerca di ORF può essere complementata dallo studio del codon usage, ovvero l'utilizzo preferenziale ed organismo-specifico di alcuni codoni per specificare gli aminoacidi (si ricordi che il codice genetico è degenerato e quindi la maggior parte degli aminoacidi sono specificati da più codoni).

In realtà, anche i procarioti creano “problemi” all’identificazione dei geni. Infatti, non c’è corrispondenza univoca tra l’ORF di un gene ed il suo promotore, dal momento che un promotore può controllare l’espressione di RNA policistronici, ovvero codificanti più proteine. Inoltre, il fenomeno di geni sovrapposti, estrememente diffuso nei genomi virali, è presente anche nei procarioti. Un altro problema è la determinazione della lunghezza significativa per un’ORF. Infatti, solo quando si conosce la natura del prodotto proteico di un gene, ovvero il numero dei suoi residui aminoacidici, è possibile selezionare a priori ORF sulla base della lunghezza. Quando si “esplora” un cromosoma per cercare potenziali geni, invece, la struttura di questi ultimi è ignota, cosicchè i relativi prodotti potrebbero essere imprevedibilmente corti. Pertanto, poichè il parametro lunghezza minima, critico per la selezione di ORF potenzialmente corrispondenti a geni, deve prudenzialmente essere impostato sui valori più bassi noti, il numero di ORF da analizzare è alto, anche in considerazione del fatto che i registri di lettura sono 6 e non è possibile operare una selezione a priori tra le ORF sovrapposte. In realtà, il processo di identificazione dei geni, soprattutto negli ultimi anni, si è allontanato dai processi computazionali basati su parametri semplici, poichè ormai le informazioni disponibili riguardano un numero elevato di geni e proteine. Pertanto, un gran numero di sequenze codificanti è identificato per omologia, da programmi che identificano per allineamento regioni con similarità più o meno alta. L'identificazione dei geni in un genoma attraverso il confronto con i geni omologhi di altri genomi (ortologhi) è un esempio di strategia estrinseca. Nei batteri i geni sono spesso organizzati in gene clusters, ovvero insiemi di geni che operano in una stessa via metabolica o di risposta (i singoli geni hanno lo stesso colore sulla base della funzione della proteina codificata, mentre le linee tra una specie e l'altra collegano gli ortologhi).

Page 6: ASSEMBLAGGIO E FINISHING DEI FRAMMENTI SEQUENZIATI ...€¦ · blast ed hanno, infatti, la capacità di individuare le “somiglianze” tra le differenti sequenze prodotte. La procedura

L'organizzazione in cluster facilita l'identificazione dei geni nelle specie appena sequenziate, poichè oltre all'informazione derivante dall'omologia c'è anche una informazione basata sulla posizione:

Non può essere definita una regola per l'utilizzo preferenziale del metodo intrinseco o estrinseco. Anzi, in genere sono utilizzati in combinazione. Un esempio di programma che segue questo approccio è Orpheus, che inizialmente traduce il genoma nei sei registri di lettura, poi identifica un certo numero di sequenze per similarità, combinando l'analisi per omologia con la ricerca delle ORF. Poiché l’incremento nella potenza e velocità dei metodi di sequenziamento e nei mezzi informatici ha reso ormai il sequenziamento e l’analisi di un genoma procariotico un compito affrontabile con costi e tempi molto ridotti, nell’ultimo decennio gli sforzi si sono concentrati soprattutto sul miglioramento della qualità attraverso re-sequencing massivo (quasi sempre con next generation sequencing) e ricerca di escaped (o hidden) genes, ovvero di geni sfuggiti (e quindi nascosti) alle analisi precedenti. Il processo di recupero degli hidden genes spesso è favorito da analisi comparate, ovvero dal confronto tra interi genomi di ceppi o specie affini o anche molto differenti. Infatti, così come gli errori casuali difficilmente si ripetono nello stesso punto di una sequenza, la mancata individuazione di un gene non è sistematica tra specie diverse e se un gene è conservato, lo si identifica sicuramente. In pratica, se un generico gene “X” è conservato nei batteri ed il gene hidden “XA” non è stato (ancora) individuato nel genoma del Batterio A, molto probabilmente non sarà sfuggito all’identificazione il suo ortologo “XB” nel genoma del Batterio B (oppure “XC” nel genoma del Batterio C ecc...). Il resequencing nei procarioti è fondamentale per realizzare analisi significative. Si deve, infatti, tenere conto della enorme differenza tra il numero di generazioni che intercorre tra il sequenziamento di un genoma e l'analisi quando si lavora con procarioti o eucarioti. Se trovo mutazioni in un paziente affetto da una patologia, il confronto del suo DNA con quello del genoma umano in database ha senso, poichè in Homo sapiens le generazioni si alternano ogni 20-25 anni circa. Consideriamo ora un genoma batterico sequenziato nel 2000. Dopo circa 15 anni, è da considerarsi "vintage", poichè quello dei batteri circolanti ha avuto la possibilità di accumulare un enorme numero di mutazioni dopo tantissime generazioni. Considerando un ciclo di poco meno di 30 minuti, dopo un giorno il batterio è alla 50a generazione (l'equivalente di un millennio per gli umani) e dopo una settimana tra batterio sequenziato e circolante sono passate tante generazioni quanto tra noi e gli antichi Egizi. Dopo anni, la differenza in generazioni per un batterio è comparabile a quella tra i primi ominidi e l'uomo moderno. E' quindi comprensibile quanto siano importanti per qualsiasi progetto le differenze genomiche (e quindi proteomiche) tra i vari "strains" (ceppi) batterici, che possono essere differenti quasi quanto specie.

Page 7: ASSEMBLAGGIO E FINISHING DEI FRAMMENTI SEQUENZIATI ...€¦ · blast ed hanno, infatti, la capacità di individuare le “somiglianze” tra le differenti sequenze prodotte. La procedura

GENE PREDICTION NEGLI EUCARIOTI Negli eucarioti non ha senso cercare lunghe ORF prive di interruzioni, poichè solo negli eucarioti inferiori (ad es. nel lievito) la maggioranza dei geni non è interrotta da introni; negli organismi superiori i geni con introni sono di gran lunga più numerosi. Inoltre, soprattutto negli organismi più complessi, alcuni esoni possono essere molto piccoli, ovvero codificare pochi aminoacidi, cosicchè una soglia di ORF significativa basata su una lunghezza minima non può essere fissata perchè in tal modo aumenterebbero sia i falsi positivi, consistenti in ORF casuali presenti negli introni (che possono essere molto lunghi) che i falsi negativi (ORF più corte ma corrispondenti ad esoni). Quindi, ove possibile, per gli eucarioti il confronto con altri genomi consente di identificare la maggior parte dei geni: anche nel caso di specie distanti, ove gli ortologhi possono divergere molto, la similarità consente almeno di identificare il locus. Nella caratterizzazione di genomi eucariotici il problema principale non consiste tanto nella "identificazione" dei geni quanto nel chiarirne la struttura genomica precisa. Come per altri approcci in bioinformatica (ad esempio la predizione delle regioni transmembrana in una proteina multipass), gli algoritmi cn alto indice di confidence (affidabilità) possono fallire sui dettagli. In pratica, è relativamente "facile" rendersi conto che una specifica regione contiene un gene, mentre è molto più dificile stabilire "esattamente" i confini tra esoni ed introni. Ad esempio, è noto che gli introni iniziano con GT e terminano con AG. Ovviamente però, una ricerca per GT e AG nel genoma identifica un numero enorme di tali dinucleotidi. Infatti, la presenza di tali nucleotidi è condizione non sufficiente per lo splicing, che richiede anche sequenze consensus prossimali. Ciò ha portato allo sviluppo di matrici di posizione che ponderano la frequenza per taxon per nucleotide in relazione alla posizione circostante il sito di splicing. Il problema è complicato dal fatto che si dispone di dati soprattutto di organismi in cui lo splicing è più studiato, che sono quelli con i genomi già sequenziati; inoltre esistono sequenze non canoniche e alternative di splicing. Errare "di poche basi" a livello di sequenza di DNA può tuttavia avere grosse ripercussioni sulla predizione della sequenza proteica, dal momento che lo slittamento di una o due basi del registro di lettura altera completamente la traduzione della sequenza a valle, cambiando profondamente la predizione della sequenza aminoacidica. Il confronto tra trascrittoma e genoma di un organismo è fondamentale per identificare la divisione in esoni di molti geni: sia il cDNA completo di un gene che un trascritto parziale consentiranno di identificare tutti o alcuni esoni (Ex) per allineamento e, conseguentemente, le regioni intermedie che non mostrano allineamento sono identificate come introni (In):

Si deve però tenere conto del fatto che i trascritti sequenziati non necessariamente rappresentano tutti i trascritti, poichè in alcuni specifici stadi o tessuti alcuni geni non sono trascritti e quindi i relativi cDNA non sono ottenuti. Inoltre, per il fenomeno dello splicing alternativo, alcuni trascritti possono variare stadio- o tessuto-specificamente. E' per questo che i draft genomici sono continuamente aggiornati: le strutture dei geni vedono man mano comparire nuovi esoni, inizialmente non identificati e poi scoperti grazie all'allineamento con i contig di nuovi trascritti. Per ottenere il massimo potenziale predittivo, si preferisce utilizzare sia metodi intrinseci che estrinseci e confrontare la sequenza del genoma con il trascrittoma e con altri genomi, cercando allo stesso tempo promotori e - nelle traduzioni dinamiche nei sei registri di lettura - pattern e profili di proteine che possano rivelare putativi domini e siti sfuggiti agli altri step analitici. In pratica, il metodo migliore consiste nell'utilizzare molti sistemi di predizione. Poichè tale operazione può essere noiosa (e non è detto che tutti conoscano i metodi da utilizzare) sono stati sviluppati tool come Genotator, che utilizza un

Page 8: ASSEMBLAGGIO E FINISHING DEI FRAMMENTI SEQUENZIATI ...€¦ · blast ed hanno, infatti, la capacità di individuare le “somiglianze” tra le differenti sequenze prodotte. La procedura

approccio integrativo ovvero "lancia" una dozzina di software di analisi e predizione: ORF finding, analisi di similarità, ricerca di consensus di splicing, promotori, pattern e profili di proteine ecc.

Negli ultimi anni si è compreso che è molto importante mettere a punto algoritmi molto precisi di first exon finding e di small exon finding. Gli esoni molto piccoli spesso sfuggono all’identificazione, ma essi possono cambiare drasticamente non solo piccole regioni locali di riconoscimento, ma anche intere regioni, mandandole ad esempio fuori registro. Ad esempio, un piccolo esone di 15 paia di basi, che codifica quindi 5 aminoacidi, può cambiare localmente la struttura di un sito di interazione e perfino influire sul fold; un altro piccolo esone che introduca un codone di stop cambia drasticamente la struttura proteica, così come la cambia un esone di 14 bp, che manda fuori registro tutta la sequenza a valle. Gli algoritmi per l’identificazione di questi piccoli esoni, quindi, non possono basarsi su soglie normali per il ”taglio” delle ORF significativamente lunghe e non devono annullare il rumore prodotto da variazioni minime considerandolo come rumore di fondo. Vi sono geni in cui numerosi piccoli esoni sono alternativi, cosicchè la sequenza proteica delle varianti può mostrare anche un solo residuo di differenza. Questa variazione locale, se riguarda regioni regolative o siti d’interazione, può ad esempio modulare finemente l’affinità di recettori, canali, enzimi per il substrato ecc. Inoltre, è fondamentale individuare siti criptici di splicing e siti di inizio della trascrizione (TIS) alternativi. In pratica, molto spesso quello che viene considerato primo esone sulla base della presenza di una regione canonica 5’-UTR e/o della prima parte della sequenza codificante potrebbe presentare a monte un esone criptico alternativo. In altri casi, in aggiunta alla variazione per splicing dovuta a siti canonici di splicing, le varianti possono essere prodotte solo in alcuni tessuti, attraverso il riconoscimento di consensus subottimali da parte di subunità del macchinario di splicing espresse solo in tali tessuti. Infine, ulteriore variazione è prodotta per la capacità dei ribosomi di iniziare la traduzione sia dai TIS canonici che da TIS alternativi, nonché di reiniziare la traduzione* producendo più polipeptidi dallo stesso trascritto. (*nota di genetica/biologia molecolare: il reinizio della traduzione esiste in natura come "meccanismo di recupero": in caso di mutazioni che determinano il troncamento prematuro della traduzione, il reinizio consente di ottenere proteine tronche nella parte iniziale, talora completamente attive, o attive almeno in parte) Esistono software integrati e sempre più evoluti per definire correttamente la complessa struttura dei geni umani e degli organismi superiori. Ad esempio, ASPIC ottimizza la predizione delle varianti di splicing superando il tradizionale approccio basato solo su blast grazie all’integrazione di algoritmi di analisi dei consensus di splicing. Come sempre, i risultati migliori si ottengono attraverso approcci integrativi, ovvero i metodi che considerano sia le caratteristiche della sequenza che il confronto tra genoma, trascrittoma e con altre specie. Si può comprendere perchè il lavoro di identificazione dei geni in pratica non termina dopo il sequenziamento e le prime analisi e porta di conseguenza ad una serie di draft in cui le informazioni

Page 9: ASSEMBLAGGIO E FINISHING DEI FRAMMENTI SEQUENZIATI ...€¦ · blast ed hanno, infatti, la capacità di individuare le “somiglianze” tra le differenti sequenze prodotte. La procedura

divengono man mano più precise e complete, accompagnate da una sempre maggiore completezza e qualità dell'annotazione, ovvero dell'insieme delle informazioni relative agli elementi del genoma. L’identificazione di geni che codificano proteine o portano alla sintesi di RNA ribosomiali e transfer, si accompagna alla ricerca degli elementi regolativi, quali promotori ed enhancer. La ricerca combinata favorisce l'identificazione, poichè ad esempio se si individuano tipiche regioni regolative al 5' di un gene è ragionevole attendersi che al 3' di tali regioni vi sia appunto un gene, e viceversa. Negli ultimi anni si è rafforzato l’interesse per gli elementi che specificano i miRNA, coinvolti nella regolazione dell'espressione genica, nonché per le sequenze ripetute e di origine trasposonica (delle quali è disponibile una trattazione breve nella dispensa di supporto).

CONFRONTO TRA GENOMI Le analisi comparate spesso sono considerate fondamentali solo per studi di tipo evoluzionistico. Invece, sono fondamentali per la biomedicina e le biotecnologie. Per dimostrarlo, possono essere mostrati esempi relativi sia ai genomi eucariotici che a quelli procariotici e virali. Il confronto tra genomi virali, tra ceppi e specie di batteri patogeni è fondamentale per individuare i migliori candidati per lo sviluppo di vaccini, nonché per mettere a punto vaccini pan-protettivi, come illustrato nella sezione dedicata all’immunoinformatica ed alla reverse vaccinology in silico. Il confronto tra genomi eucariotici è fondamentale per la biomedicina, poiché consente di valutare l’effetto di mutazioni e discriminare quelle potenzialmente alla base di disordini ereditari da quelle che rappresentano polimorfismi allelici. Supponiamo ad esempio che in un essere umano sia individuata una mutazione nella sequenza codificante un enzima: come predire se l’attività enzimatica risulterà alterata o persa oppure no? Prima ancora di svolgere analisi molecolari si possono cercare marcatori funzionali, ma anche nel caso non si trovino, se il gene è conservato in altri organismi, l’allineamento multiplo permetterà di confrontare la sequenza umana wild type e quella mutante con numerose altre sequenze. Se in corrispondenza del residuo mutato una o più sequenze di altre specie mostrano solo lo stesso residuo (o residui molto simili) che è presente nel wild type, non si può escludere che la funzione sia alterata. Se invece le corrispondenti proteine di altre specie condividono lo stesso residuo “mutante” o residui simili, è probabile che tale variazione sia tollerata e quindi corrisponda ad un semplice ed innocuo polimorfismo. Il confronto tra genomi è molto importante anche per la farmagenomica. Tutti sanno che per la sperimentazione pre-clinica sono utilizzate cavie quali “animale modello” per mimare l’effetto di un farmaco su un organo / tessuto /tipo cellulare / bersaglio molecolare. Da anni topi e ratti sono utilizzati come modelli per malattie, anche attraverso mutagenesi, silenziamento, creazione di individui knock-out ecc. Talora, tuttavia, si commettono errori dovuti all’erronea identificazione di ortologhi e paraloghi. Sia l’uomo che i roditori, infatti, hanno numerose famiglie geniche, ovvero nei genomi enzimi, fattori di trascrizione, trasduttori, canali ed altre proteine possono essere codificate da più geni omologhi e la cui funzione è parzialmente ridondante. Inoltre, non sempre il numero e tipo di paraloghi è conservato tra uomo e roditori, cosicchè può capitare, ad esempio, che laddove nel topo vi è un solo gene, ve ne siano due in uomo, oppure che in entrambi gli organismi vi siano più paraloghi, ad esempio 3 in topo e 4 in uomo. Se non abbiamo identificato correttamente il rapporto di corrispondenza, rischiamo di utilizzare il modello sbagliato, ovvero studiare in topo il gene che non corrisponde realmente a quello umano. Ovviamente è possibile identificare tutti i paraloghi ed ortologhi solo attraverso il confronto di genomi completamente sequenziati e ben annotati. In genere, per identificare i rapporti tra i membri di due famiglie geniche in due o più organismi si segue l’approccio reciprocal-best-BLAST-hits (RBH), ovvero si considerano corrispondenti (ortologhi) quei geni le cui sequenze si identificano

Page 10: ASSEMBLAGGIO E FINISHING DEI FRAMMENTI SEQUENZIATI ...€¦ · blast ed hanno, infatti, la capacità di individuare le “somiglianze” tra le differenti sequenze prodotte. La procedura

reciprocamente come subject hit più simile attraverso blast. In pratica, usando come sonda un gene umano contro il genoma di topo, nel caso di famiglia genica, si otterranno più hits omologhe. Considerare direttamente quella più simile come ortologo sarebbe un errore, poiché potrebbe esservi nel genoma umano un gene ancora più simile, cioè il vero ortologo. Per questo motivo, la prima hit di topo viene usata come sonda blast contro il genoma umano: se trova come prima hit quella che era stata usata come prima sonda, l’ortologia tra le due sequenze è verosimile, altrimenti si va avanti e si provano tutte le combinazioni fino a quando non si stabilisce un quadro di correlazione. Spesso l’approccio è semplice ed efficace, ma le cose si complicano quando non vi è corrispondenza di numero e non possono essere stabilite correlazioni biunivoche. Sono stati pertanto sviluppati software quali ad esempio Ortholuge, che si avvalgono dell’ampliamento del confronto per stabilire relazioni filogenetiche con metodi robusti. L’ampliamento del confronto a più specie, infatti, consente di applicare metodi di confronto e validazione delle correlazioni quali il metodo di bootstrap, ben noto agli evoluzionisti, non applicabili al semplice confronto diretto tra due genomi o proteomi. La figura che segue mostra la pipeline di Ortholuge a titolo d’esempio di step di validazione o correzione del più semplice approccio RBH; si può notare che il software ha bisogno in input di un dataset ampio, ovvero un elenco di gruppi di ortologhi, che calcola più rapporti di distanza e formula delle soglie (cut-offs) per identificare distanze che si discostano dai rapporti normalmente osservati (unusual ratios):

Page 11: ASSEMBLAGGIO E FINISHING DEI FRAMMENTI SEQUENZIATI ...€¦ · blast ed hanno, infatti, la capacità di individuare le “somiglianze” tra le differenti sequenze prodotte. La procedura

Naturalmente non dobbiamo pensare che l’approccio più semplice, ovvero il metodo RBH, produca molti errori. E’ importante tuttavia essere consapevoli che, come sempre, una più accurata indagine bioinformatica preliminare può costare qualche giorno in più di lavoro ma in compenso può salvare mesi o anni di lavoro sperimentale se evita che questo sia indirizzato su un modello errato! Un ulteriore problema nell’uso dei modelli animali è la differenza nello splicing alternativo. Talora ci si fa ingannare dall’elevata similarità tra proteine. Il fatto che una proteina umana differisca solo per due-tre aminocaidi rispetto a quella murina e che i relativi trascritti siano espressi negli stessi tessuti ed in condizioni simili non deve ingannare. Infatti, a fronte di una sequenza codificante e di un profilo di espressione molto simili, può variare molto il tipo e numero di varianti di splicing dello stesso gene. Se una malattia dipende dall’alterazione nello splicing, ad esempio, il topo potrebbe essere un modello non adeguato, nel caso una o più varianti umane siano assenti o diverse in Mus musculus.

ANNOTAZIONE: UNA RISORSA CHE BISOGNA SAPER UTILIZZARE Il continuo aggiornamento dei draft è il frutto del contemporaneo lavoro di analisi bioinformatica e del flusso di informazioni che giungono dal mondo sperimentale (sequenziamento di nuovi cDNA, mutanti, varianti di splicing, caratterizzazione di geni, elementi regolativi, prodotti proteici ecc.). Inevitabilmente, quindi, l'annotazione mescola predizioni con dati verificati sperimentalmente. Ciò rappresenta una risorsa, poichè i dati sperimentali (cio che è) sono complementati con "ciò che potrebbe essere" e spesso proprio le predizioni sono utili per indirizzare le ricerche. Tuttavia è fondamentale accertarsi della natura di ciascuna definizione, di ciascun dato, poichè non sempre ciò è chiaramente indicato. Prendere per dato sperimentale una predizione può indirizzare scorrettamente una ricerca, poichè non si deve mai dimenticare che le predizioni, per quanto possano essere generate da un predittore molto affidabile, restano tali, in quanto predittori con affidabilità 100% non esistono. E' inoltre presente nei database una quantità crescente di dati ridondanti o errati, ovvero annotazione deduttiva derivante da deduzioni errate, spesso frutto di algoritmi definiti potenti poichè capaci di generare molti dati, ma non per questo validi (quantità non vuol dire qualità, anzi, spesso è vero il contrario...). Molti errori di deduzione derivano dal confronto per omologia. Prendiamo ad esempio le definizioni "-like" che riguardano molti geni e proteine. Se diamo per scontato che un gene definito "kinase-like" codifichi una protein chinasi, siamo in errore. Tale "etichetta", infatti, potrebbe essere stata attribuita sulla base della similarità (magari alta) senza verificare quale fosse la regione omologa. Poichè molte chinasi hanno anche altre regioni, oltre al dominio catalitico, può accadere ad esempio che un recettore mostri similarità di sequenza con il dominio extracellulare di una chinasi recettoriale, venendo definito per questo "kinase-like" pur avendo similarità 0% con il dominio chinasico:

Casi del genere (per qualsiasi tipo di definizione, non solo per le chinasi) sono abbastanza diffusi, soprattutto quando l'annotazione è generata automaticamente o curata da informatici bravissimi, ma poco familiari con geni e proteine. Dunque, è sempre opportuno verificare (ad es. usando la sequenza "kinase-like" come sonda in blast per evidenziare quali siano le regioni di similarità) prima di utilizzare le informazioni derivanti dall'annotazione per indirizzare il proprio lavoro. Ovviamente il rischio di imbattersi in false informazioni riguarda anche blast, cosicchè è necessario accertarsi che le regioni di similarità riguardino un gene o una proteina di funzione verificata sperimentalmente.

Page 12: ASSEMBLAGGIO E FINISHING DEI FRAMMENTI SEQUENZIATI ...€¦ · blast ed hanno, infatti, la capacità di individuare le “somiglianze” tra le differenti sequenze prodotte. La procedura

GENOME BROWSING

La quantità di dati genomici disponibili è enorme e per analizzarla sono necessari sistemi evoluti di navigazione che consentano di visualizzare regioni specifiche del genoma nelle quali fare zooming. Esistono molti browser genomici, alcuni dei quali molto specifici (ad esempio, dedicati ad un solo organismo). Due browsers molto utilizzati sono: UCSC Genome Browser ed Ensembl.

UCSC Genome Browser contiene la sequenza del genoma umano e di altri genomi e permette di navigare lungo la mappa dei cromosomi associandovi le annotazioni contenute nei vari database. Contiene vari tools: ricerche di omologia, confronto tra genomi, PCR virtuale ecc. Tra sezioni e tool da ricordare, Gene Sorter riporta dati di espressione, omologia ed altre informazioni su gruppi di geni correlabili in vari modi e Blat mappa velocemente una sequenza d’interesse nel genoma. Un’ulteriore sezione è il portale di ENCODE (Encyclopedia of DNA Elements), un consorzio internazionale che intende creare un elenco degli elementi funzionali del genoma umano a tutti i livelli: coding, non coding, regulatory. Gli elementi regolativi sono studiati tramite DNA hypersensitivity assays, saggi di metilazione del DNA, chromatin immunoprecipitation (ChIP) di proteine che interagiscono con il DNA, inclusi gli istoni modificati ed i fattori di trascrizione, seguiti da sequenziamento (ChIP-Seq).

Ensembl è un sistema integrato, che assembla automaticamente i frammenti del genoma, per trovare geni ed altre caratteristiche di interesse associati alla sequenza di DNA, integrare dati provenienti da altre fonti pubbliche ed riunire tutto in un database liberamente disponibile in rete. Inoltre, Ensembl sviluppa e mette a disposizione della comunità scientifica alcuni software “open”. Le predizioni geniche Ensembl sono basate su dati importati da UniProt/Swiss-Prot (annotazione manuale), UniProt/TrEMBL (annotazione automatica), NCBI RefSeq (annotazione parzialmente manuale). I gene builds di Ensembl sono costruiti in due passaggi fondamentali: nel primo sono allineati alla sequenza genomica sequenze di mRNA e proteine della specie e nel secondo l’allineamento riguarda specie correlate (ciò è particolarmente importante per organismi meno studiati). Un trascritto o “protein model” che corrisponde ad un’entry UniProt/Swiss-Prot, RefSeq o UniProt/TrEMBL, in Ensembl è classificato known gene; negli altri casi (ad es., similarità con ortologhi di altre specie) novel gene. Per tutti geni è disponibile una serie di visualizzazioni corrispondenti ai vari livelli di informazione: GeneView, ExonView, TransView e ProteinView. L’annotazione è corredata anche da caratteristiche associate alla sequenza del DNA come SNP (single nucleotide polymorphism), repeats (regioni di semplici sequenze ripetitive di DNA), regioni altamente omologhe ad altre sequenze contenute nei database pubblici, e così via. Per consultare i dati contenuti nel database si può accedere alla homepage di una specie, visualizzare la mappa del genoma (MapView). Selezionando una banda citogenetica o inserendo gli estremi (ad es. marcatori) dell’intervallo da visualizzare si ottiene la ContigView.

© Francesco Filippini, 2007-2017