ricognizione del software disponibile per analisi primaria di dati ngs

75
1 Consiglio Nazionale delle Ricerche Istituto di Calcolo e Reti ad Alte Prestazioni RICOGNIZIONE DEL SOFTWARE DISPONIBILE PER ANALISI PRIMARIA DI DATI NGS R. Cassandra, Mario R. Guarracino RT-ICAR-NA-2013-5 Novembre 2013 Consiglio Nazionale delle Ricerche, Istituto di Calcolo e Reti ad Alte Prestazioni (ICAR) – Sede di Napoli, Via P. Castellino 111, I-80131 Napoli, Tel: +39-0816139508, Fax: +39- 0816139531, e-mail: [email protected], URL: www.na.icar.cnr.it

Transcript of ricognizione del software disponibile per analisi primaria di dati ngs

Page 1: ricognizione del software disponibile per analisi primaria di dati ngs

1

Consiglio Nazionale delle Ricerche

Istituto di Calcolo e Reti ad Alte Prestazioni

RICOGNIZIONE DEL

SOFTWARE

DISPONIBILE PER

ANALISI PRIMARIA DI

DATI NGS R. Cassandra, Mario R. Guarracino

RT-ICAR-NA-2013-5 Novembre 2013

Consiglio Nazionale delle Ricerche, Istituto di Calcolo e Reti ad Alte Prestazioni (ICAR)

– Sede di Napoli, Via P. Castellino 111, I-80131 Napoli, Tel: +39-0816139508, Fax: +39-

0816139531, e-mail: [email protected], URL: www.na.icar.cnr.it

Page 2: ricognizione del software disponibile per analisi primaria di dati ngs

2

Consiglio Nazionale delle Ricerche

Istituto di Calcolo e Reti ad Alte Prestazioni

RICOGNIZIONE DEL

SOFTWARE

DISPONIBILE PER

ANALISI PRIMARIA DI

DATI NGS 1

R. Cassandra2, Mario R. Guarracino

2

Rapporto Tecnico N.:

RT-ICAR-NA-2013-5

Data:

Novembre 2013

1 Rapporto tecnico del laboratorio di Genomica, Trascrittomica e Proteomica GTP

2 High Performance Computing and Networking Institute Italian National Research Council

Via P. Castellino, 111, 80131, Napoli (Italy)

I rapporti tecnici dell’ICAR-CNR sono pubblicati dall’Istituto di Calcolo e Reti ad Alte Prestazioni del

Consiglio Nazionale delle Ricerche. Tali rapporti, approntati sotto l’esclusiva responsabilità scientifica

degli autori, descrivono attività di ricerca del personale e dei collaboratori dell’ICAR, in alcuni casi in un

formato preliminare prima della pubblicazione definitiva in altra sede.

Page 3: ricognizione del software disponibile per analisi primaria di dati ngs

1

PROGETTO PON_02_00619_3470457

VALUTAZIONE DEGLI EFFETTI DI GENI E

MOLECOLE SPECIFICHE SU PATTERN

TRASCRIZIONALI DETERMINATI, ATTRAVERSO

IBRIDAZIONE SU ARRAY E/O ANALISI SU LARGA

SCALA DI SEQUENZE TRASCRITTE

ATTIVITA’ 3.1 – RICOGNIZIONE DEL SOFTWARE DISPONIBILE PER

ANALISI PRIMARIA DI DATI NGS

Page 4: ricognizione del software disponibile per analisi primaria di dati ngs

2

Sommario

1. SOMMARIO ATTIVITA’ ............................................................................................................................... 3

2. INTRODUZIONE ALLE PIATTAFORME NGS ................................................................................................. 3

3. LA TECNOLOGIA NGS (Next Generation Sequencing) ............................................................................... 3

4. LE TECNOLOGIE HTS (High Throughput Sequencing) ................................................................................ 4

4.1. Roche 454 Genome Sequencer ......................................................................................................... 5

4.2. Illumina Genome Analyzer ................................................................................................................ 7

4.3. ABI SOLiD System ............................................................................................................................... 9

5. RNA-Seq ................................................................................................................................................... 11

6. ALLINEAMENTO E ASSEMBLY DELLE SEQUENZE GENERATE DA TECNOLOGIE HTS ................................ 12

7. SOFTWARE DISPONIBILI........................................................................................................................... 15

7.1. SOFTWARE DE NOVO SEQUENCING ................................................................................................ 15

7.2. SOFTWARE MAPPING SEQUENCING ............................................................................................... 38

7.3. SOFTWARE MAPPING SEQUENCING CON SET DI POSSIBILI GIUNZIONI NOTE DI SPLICING ........... 53

7.4. SOFTWARE MAPPING PER IDENTIFICARE EVENTUALI SITI DI SPLICING .......................................... 63

8. DISCUSSIONI ........................................................................................................................................ 72

Page 5: ricognizione del software disponibile per analisi primaria di dati ngs

3

1. SOMMARIO ATTIVITA’

Negli ultimi anni, parallelamente allo sviluppo delle metodiche di Next Generation Sequencing (NGS), sono

stati sviluppati diversi algoritmi e software per effettuare analisi primarie dei dati provenienti da

esperimenti di RNA-Seq, volti a risolvere sia il problema dell’identificazione dei trascritti di partenza

mediante mapping o assemblaggio sia il problema delle successive analisi quantitative circa l’espressione

genica. Il panorama del software disponibile è in continua espansione e pertanto è necessario effettuare

una approfondita ricognizione dei più recenti algoritmi che affrontano e si approcciano a tale nuova

metodica.

Sono stati individuati un totale di 99 software suddivisi in quattro categorie, come descritto nel capitolo 3,

che rispondono ai requisiti specificati nell’obiettivo oggetto di questo report.

2. INTRODUZIONE ALLE PIATTAFORME NGS

Le piattaforme di sequenziamento di nuova generazione (Next Generation Sequencing - NGS)

sviluppate negli ultimi anni, come ad esempio la Roche 454 GS - FLX System, Illumina Genome

Analyzer e Sistema HiSeq 2000 e System ABI SOLiD ™, hanno rivoluzionato il campo della

biologia e della ricerca medica (Schuster, 2008). Rispetto alla tradizionale tecnologia di

sequenziamento Sanger (Bentley, 2006; Sanger et al, 1977), queste nuove piattaforme di

sequenziamento generano dati molto più velocemente e producono un output molto più elevato di

sequenze, riducendo i costi di oltre un migliaio di volte (Shendure e Ji , 2008). La capacità di

generare rapidamente un enorme numero di brevi sequenze (reads) a prezzi sensibilmente ridotti, ha

notevolmente ampliato la portata dei progetti di sequenziamento realizzabili. Ad esempio, la

prospettiva di sequenziamento dell'intero genoma umano per un gran numero di campioni, è

diventata una realtà. L'emergere di piattaforme (NGS) evidenzia crescenti esigenze di metodi

statistici e strumenti bioinformatici per l'analisi e la gestione di enormi quantità di dati generati da

queste tecnologie. Esiste un gran numero di software per analizzare i dati NGS, anche se alcuni di

essi sono nelle fasi iniziali della loro disponibilità commerciale. Questi strumenti possono essere

utilizzati in molte categorie generali, tra cui l'allineamento di sequenza di reads verso un

riferimento, base-calling/o rilevamento di polimorfismi, de-novo assembly, rilevamento delle

varianti strutturali e la navigazione del genoma.

3. LA TECNOLOGIA NGS (Next Generation Sequencing)

La tecnologia NGS (Next Generation Sequencing) permette di affrontare una vasta gamma di

applicazioni di analisi genetica, tra cui: genomica comparativa, rilevamento polimorfismo ad alta

produttività, l'analisi di piccoli RNA, identificazione di geni mutanti in pathways di malattie, profili

del trascrittoma, profili di metilazione, e rimodellamento della cromatina. Gli ultimi anni hanno

Page 6: ricognizione del software disponibile per analisi primaria di dati ngs

4

visto la nascita di diverse piattaforme high-throughput sequencing (HTS) o (Next Generation

Sequencing, NGS) che si basano su varie implementazioni di sequenziamento. I prodotti

commerciali che si basano su questa tecnologia di sequenziamento, come già accennato, sono

Roche 454, di Illumina Genome Analyzer , solidi di ABI e il HeliScope da Helicos. Anche se queste

piattaforme sono molto diverse nei loro processi biochimici e, i loro workflow sono

concettualmente molto simili. Tutte permettono il sequenziamento di milioni di breve sequenze

(reads) contemporaneamente, e sono in grado di sequenziare un genoma umano completo a

settimana ad un costo 200 volte inferiore rispetto ai metodi precedenti. Inoltre, le piattaforme HTS

consentono la generazione di molti tipi di dati di sequenza: per esempio, sono usati per rendere il

sequenziamento de-novo (sequenziamento di un genoma o trascrittoma senza un riferimento) , per

ri-sequenziare individui quando esiste già un genoma di riferimento, sequenziare RNA per

quantificare il livello di espressione (RNA-Seq) e studiare la regolazione di geni mediante

sequenziamento di immunoprecipitazione della cromatina (ChIP-Seq ). L'avvento di piattaforme

HTS ha aperto molte opportunità per la scoperta di varianti genomiche. Anche se la comunità

bioinformatica ha risolto molti aspetti dell’analisi di tutti questi tipi di dati, in questo report saranno

presi in considerazioni software con le seguenti caratteristiche:

• Software in grado di lavorare senza alcuna sequenza di riferimento, generando di fatto un

trascrittoma de-novo, paragonabile ad un insieme di EST;

• Software in grado di mappare le sequenze prodotte rispetto ad una sequenza di riferimento,

sia essa un genoma o un trascrittoma noto, al fine di identificare quali geni risultano

effettivamente espressi nelle condizioni sperimentali oggetto di studio;

• Software in grado di mappare le sequenze prodotte contro un genoma noto e un set di

possibili giunzioni note di splicing, per l’identificazione di trascritti alternativi e quindi

isoforme alternative di uno specifico prodotto genico;

• Software in grado di mappare le sequenze prodotte su un genoma di riferimento,

identificando in maniera automatica i siti di splicing e quindi generando alla fine un insieme

di sequenze costituito da trascritti noti e nuovi trascritti putativi codificanti e non, espressi

nella specifica condizione sperimentale.

4. LE TECNOLOGIE HTS (High Throughput Sequencing)

Ricapitolando in breve, tramite NGS è quindi possibile ottenere in modo rapido (e più economico)

una grandissima quantità di sequenze (in una singola corsa è possibile ottenere giga-basi, ed ormai

quasi tera-basi, di informazioni). Per questo motivo la NGS è nota anche come high-throughput

sequencing (HTS). I workflow di tutte le tecnologie HTS attualmente disponibili sono molto simili

Page 7: ricognizione del software disponibile per analisi primaria di dati ngs

5

tra loro1. Nella NGS, il DNA di un individuo viene rotto in numerosissimi piccoli frammenti (ad

esempio attraverso l’uso di ultrasuoni) per costituire la cosiddetta libreria di sequenziamento

(sequencing library). Questi piccoli frammenti fungono da stampo per la sintesi di numerosi

frammenti complementari (dette reads). Ogni piccolo frammento del DNA originario viene cioè

copiato molte volte in un numero variabile di reads. A seconda del livello di precisione desiderato è

possibile configurare il sistema per ottenere un certo livello di coverage2, ossia un certo numero di

reads piuttosto che un altro (ad esempio, 30 reads per frammento (si definirebbe in gergo

“coverage” 30x). Le tecnologie HTS attualmente disponibili includono le macchine Illumina

Genome Analyzer (GA), Applied Biosystem ABI Solid , Roche 454 e Helicos Heliscope

sequencing machines (Tabella 1). In generale qualunque sequenziatore NGS può essere utilizzato

per diversi tipi di applicazione:

• Analisi dell’intero genoma di un individuo (Whole-Genome Sequencing, noto anche come

Whole-Genome Shotgun – WGS);

• Analisi dell’intero esoma (cioè della sola parte codificante del genoma: Whole-Exome

Sequencing – WES);

• Analisi di un ristretto gruppo di geni (pannello) o di un singolo gene.

Tabella 1: Riepilogo delle caratteristiche principali delle tre tecnologie HTS[2]

4.1. Roche 454 Genome Sequencer

La tecnica del sequenziamento ha profondamente cambiato la natura della ricerca medica e

biomedica e rappresenta il metodo pricipale per l'identificazione di variazioni di sequenza del DNA.

1 Alberto Magi, Matteo Benelli, Alessia Gozzini, Francesca Girolami, Francesca Torricelli and Maria Luisa Brandi,

Bioinformatics for Next Generation Sequencing Data, Genes 2010, 1, 294-307; 2 Coverage: numero di volte in cui una base è coperta dai singoli frammenti (se sarà basso avrò molti errori ma costerà

meno).

Page 8: ricognizione del software disponibile per analisi primaria di dati ngs

6

Il nuovo sequenziatore Roche Genome Sequencer FLX Titanium, noto anche come 4543, sfrutta un

nuovo concetto di sequenziamento, totalmente diverso rispetto alla tecnologia Sanger, a cui si

affianca offrendo nuove prospettive di ricerca. Il 454 si basa sulla tecnologia del

pirosequenziamento4 e permette di ottenere più di 400,000 sequenze (circa 100 milioni di basi

sequenziate) di 200/300 basi di lunghezza e di qualità elevatissima (>99,5% di accuratezza) con

un'unica corsa di circa 8 ore.

Inoltre la nuova tecnica dell'emPCR (emulsion-pcr) riduce drasticamente i tempi totali del processo,

eliminando la necessità di clonare il DNA da sequenziare. Il GS FLX System si basa

sull'amplificazione in vitro del DNA mediante PCR in emulsione e su un protocollo di

pyrosequencing (pirosequenziamento) modificato per il funzionamento su un supporto solido.

3 454/Roche.GSFLX+System.[Online].http://my454.com/products/gs-flx-system/index.asp.Jay;

4 Shendure and Hanlee Ji, “Next-generation DNA sequencing,” Nature Biotechnology, vol.26,no.10,Oct.2008;

Page 9: ricognizione del software disponibile per analisi primaria di dati ngs

7

Figura 1: Processo del pirosequenziamento.

La piattaforma tecnologica 454 è in grado di eseguire con costi 100 volte inferiori rispetto a quelli

richiesti dal tradizionale metodo di Sanger, il resequencing e il de novo assembly di interi genomi di

microrganismi. Il whole genome shotgun sequencing di batteri di circa 5 Mb può essere condotto

con un'unica corsa di sequenziamento in circa una settimana (coverage 20X ed accuratezza del

99,99%). Tale approccio, inoltre, non richiede l'impiego di vettori batterici.

4.2. Illumina Genome Analyzer

Introdotta sul mercato nel 2006 da Solexa e in seguito rinominata Genome Analyzer da

Illumina,questa piattaforma di sequenziamento ha origine dal lavoro di Turcatti et al.5 sul

sequenziamento a terminazione reversibile. La preparazione dei campioni prevede la denaturazione

della doppia elica e l’aggiunta degli adattatori, ottenendo un filamento stampo della sequenza da

sequenziare. Le piastre di sequenziamento o flow-cell di Genome Analyzer sono composte di otto

lane indipendenti, sulle cui superfici sono immobilizzati due diversi oligonucleotidi. I frammenti

sono immessi sulla piastra di sequenziamento, permettendo l’ibridazione tra i loro adattatori e i

complementari oligonucleotidi della piastra. Il legame si forma in entrambe le estremità dei

frammenti, che sono così immobilizzati sulla superficie della flow-cell, assumendo una forma “a

ponte” (vedi Figura 2). Dopo l’immobilizzazione ha inizio il processo di amplificazione: DNA

polimerasi sintetizza il filamento complementare, la molecola ottenuta viene denaturata e i due

5 G. Turcatti, A. Romieu, M. Fedurco, and A.P. Tairi, “A new class of cleavable fluorescent nucleotides: synthesis and

optimization as reversible terminators for DNA sequencing by synthesis,” Nucleic Acids Research, 2008;

Page 10: ricognizione del software disponibile per analisi primaria di dati ngs

8

filamenti rimangono legati alla piastra a una sola estremità. L’operazione si ripete ciclicamente: i

due frammenti si “piegano” fino a ibridare la loro estremità rimasta libera con un complementare

oligonucleotide della flow-cell, riassumendo nuovamente la forma a ponte e permettendo la sintesi

di un nuovo filamento complementare. I passaggi di immobilizzazione-sintesi-denaturazione

continuano fino a ottenere un cluster di migliaia di frammenti, legati a una estremità al substrato e

raccolti in uno spazio molto limitato. Il processo (rappresentato in Figura 2) è definito

amplificazione bridge-PCR, proprio in virtù della forma “a ponte” che i filamenti assumono quando

entrambi gli adattatori sono legati al substrato.

Figura 2: Processo di amplificazione clonale nella tecnologia Illumina (bridge PCR). I frammenti arricchiti con

adattatori (in giallo e verde) sono posti a contatto con la flow-cell e ibridano gli oligonucleotidi presenti sulla superficie,

assumendo una forma “a ponte”. Le fasi di amplificazione producono il filamento complementare, quindi la separazione

dei filamenti e la ripetizione ciclica, fino a ottenere i cluster di copie identiche dello stesso filamento.

I cluster ottenuti sono composti sia di filamenti uguali al filamento originale sia di filamenti inversi;

questi ultimi vengono rimossi, ottenendo cluster di circa 1000 copie identiche della stessa

sequenza. Ai frammenti di ogni cluster viene eseguito l’annealing6 del primer

7 di sequenziamento

che permette l’avvio della reazione di sequenziamento vera e propria. Ogni ciclo di sequenziamento

coinvolge una DNA polimerasi e i quattro dNTP a cui sono state apportate due modificazioni. La

doppia modifica consiste nell’incorporazione di un marcatore fluorescente che ne permette

l’identificazione e nell’aggiunta di un terminatore reversibile. Il terminatore è una molecola che

blocca il gruppo ossidrile8 impedendo l’ulteriore sintesi, in modo da garantire l’incorporazione di

una sola base. Questa limitazione è necessaria poiché in ogni ciclo sono forniti tutti i dNTP e quindi

la sintesi potrebbe riguardare più basi in contemporanea; il terminatore permette invece di arrestare

la sintesi dopo ogni singola incorporazione. Il terminatore è detto reversibile in quanto può essere

dissociato chimicamente, riattivando la sintesi. Dopo ogni incorporazione, un laser eccita il

fluorescente del dNTP generando un’emissione luminosa che ne permette l’identificazione. Quindi

il terminatore viene rimosso, continuando il sequenziamento della base successiva. Le prime

versioni di Illumina Genome Analyzer erano caratterizzate da un tasso di errore non trascurabile e

6 Annealing: Fase in cui i primers si appaiano alle sequenze complementari sul DNA stampo.

7 Primer:

8 Per ulterior dettagli e informazioni consultare http://it.wikipedia.org/wiki/Gruppo_ossidrilico.

Page 11: ricognizione del software disponibile per analisi primaria di dati ngs

9

da read di lunghezza molto inferiore rispetto a 454/Roche (35-50nt) ma erano in grado di ottenere

dati con un throughput di oltre 10000Mb al giorno (oltre 10 volte più di 454/Roche) a costi molto

contenuti. Le modifiche apportate alla tecnologia e ai protocolli sperimentali hanno sensibilmente

ridotto gli errori di sequenziamento, seppure siano ancora presenti dei bias9, e aumentato la

lunghezza delle read a 100 nt e oltre, facendola diventare la tecnologia più utilizzata nei progetti di

ri-sequenziamento e RNA sequencing.

4.3. ABI SOLiD System

Sviluppata sul metodo sequencing-by-ligation (a differenza dei due metodi sopra descritti che

possono essere definiti sequencing-by-synthesis) proposto dal laboratorio George Church nel

200510

, la piattaforma SOLiD viene introdotta nel mercato a partire dal 2007 da Applied

Biosystems. Dopo la denaturazione della doppia elica e l’aggiunta di adattatori, i frammenti sono

ibridati a delle sfere la cui superficie è ricoperta da oligonucleotidi complementari a uno degli

adattatori, come in 454/Roche. Nella tecnologia SOLiD le sfere sono però molto più piccole

(diametro 0,75 µm invece di 28 µm), permettendo una maggiore densità di sfere sequenziabili per

run. Le sfere sono messe in emulsione assieme ai reagenti e ai primer della PCR per ottenere

l’amplificazione clonale dei filamenti (em-PCR), in modo del tutto simile a quanto visto per

454/Roche. A differenza di quest’ultima tecnologia, la piastra di sequenziamento SOLiD non

dispone di pozzetti; le sfere sono invece legate alla superficie opportunamente trattata della piastra

di sequenziamento tramite la formazione di un legame covalente con le estremità dei filamenti

amplificati, modificate chimicamente11

. Mentre in 454/Roche esiste un numero predefinito di

pozzetti e quindi di sfere sequenziabili, con il sequenziatore SOLiD il limite al numero di sfere che

possono essere deposte sulla superficie è dato solo dal loro diametro (inferiore a 1 µm). La reazione

di sequenziamento non avviene grazie a DNA polimerasi, ma tramite DNA ligasi, un enzima in

grado di legare covalentemente due frammenti di DNA. L’acronimo SOLiD significa infatti

“Sequencing by Oligonucleotide Ligation and Detection”. Ogni ciclo di sequenziamento coinvolge

la sfera, un primer di sequenziamento, la ligasi e quattro sonde di dNTP. Le sonde sono composte

da 8 basi più un marcatore fluorescente e presentano un sito di rottura fra i nucleotidi 5 e 6. Le

prime due basi della sonda sono complementari a due nucleotidi da sequenziare, le basi da 3 a 5

sono degeneri, cioè capaci di appaiarsi a qualsiasi base della sequenza stampo, le basi 6, 7 e 8 sono

anch’esse degeneri e possono essere rimosse, assieme al marcatore fluorescente, tramite la rottura

del legame con la base in posizione 5. Una volta che una sonda si è appaiata alla sequenza stampo,

9 Kensuke Nakamura,Taku Oshima,Takuya Morimoto,Shun Ikeda, and et al, “Sequence-specific error profile of

Illumina sequencers,” Nucleic Acids Research Advance Access, vol. 1, no.13, May 2011; 10

Jay Shendure et al., “Accurate multiplex polony sequencing of anevolved bacterial genome,” Science, Sep. 2005; 11

Applied Biosystems.(2010) Applied Biosystems SOLiD 4 System - Templated Bead Preparation Guide. [Online].

http://www3.appliedbiosystems.com/cms/groups/mcb_support/documents/generaldocuments/cms_081748.pdf

Page 12: ricognizione del software disponibile per analisi primaria di dati ngs

10

avviene l’eccitazione del marcatore legato alla sonda e la conseguente emissione di fluorescenza.

Contemporaneamente, viene rotto il legame tra le posizioni 5 e 6, lasciando libero l’estremità 5’

della quinta base della sonda e permettendo il legame con una successiva sonda. L’emissione

luminosa è rilevata dalla strumentazione in modo da identificare il colore associato alla coppia delle

prime due basi. Ogni marcatore produce una specifica emissione luminosa che identifica 4 di 16

possibili coppie di nucleotidi (4 possibili nucleotidi su sue posizioni, si veda Figura 3).

Figura 3: Le possibili combinazioni di nucleotidi che i quattro colori dei marcatori fluorescenti rappresentano. Ciascun

colore non rappresenta univocamente una singola coppia di basi, ma 4 combinazioni sulle 16 possibili12

.

Detta n la posizione della base del primer (appaiato all’adattatore che lega la sequenza stampo alla

sfera), le basi n+1 e n+2 saranno quindi complementari alla sequenza stampo, così come le

successive basi n+6 e n+7 e così via. Per ciascuna di queste coppie di basi, lo strumento rileva un

segnale che può corrispondere a una delle sedici combinazioni possibili (Figura 3). Le basi n+3,

n+4 e n+5 sono anch’esse appaiate (in quanto degeneri) ma indeterminate. La loro identificazione

sarà resa possibile in un successivo ciclo di sequenziamento, spostando il primer in una nuova

posizione della sequenza stampo. Dopo l’appaiamento della prima sonda, il processo si ripete con il

legame di nuove sonde, l’identificazione e la separazione del marcatore e degli ultimi tre nucleotidi;

il numero delle iterazioni (solitamente 7) determina la lunghezza di lettura. Terminato il processo, il

filamento ottenuto è rimosso e un nuovo primer viene appaiato al filamento stampo in posizione n-.

Nel nuovo ciclo saranno univocamente appaiate le basi n+2 e n+3, nel ciclo successivo le basi n+3 e

n+4 e così via. Nel complesso sono eseguiti cinque cicli di sequenziamento, ciascuno con il primer

spostato in una posizione di volta in volta arretrata. I cinque cicli permettono di interrogare ogni

base della sequenza per due volte (in due indipendenti reazioni con diverse posizioni dei primer). Si

12

Applied Biosystems.5500xl Genetic Analyzer.[Online]. http://products.invitrogen.com/ivgn/product/4460730;

Page 13: ricognizione del software disponibile per analisi primaria di dati ngs

11

veda ad esempio la Figura 4: la base nella posizione di lettura 5 viene coinvolta dal primer numero

2 nel secondo ciclo (indicato in azzurro) e dal primer numero 3 nel primo ciclo (indicato in blu).

Questa doppia interrogazione permette di migliorare la bontà del sequenziamento.

Figura 4: Design del sequenziamento con tecnologia SOLiD. Sono rappresentati i cinque cicli (uno per riga) di

sequenziamento, ciascuno dei quali composto da sei passaggi di aggiunta di nuove sonde ad opera della ligasi. I punti

neri indicano le coppie di basi interrogate in ogni passaggio13

.

Il colore dell’emissione da parte del fluorescente permette di identificare la coppia delle prime basi,

ma non è sufficiente per distinguere un nucleotide dall’alto. Oltre alla specifica emissione per ogni

coppia è infatti necessario che una delle basi della sequenzia sia nota. La base nota è incorporata

nell’ultimo (il quinto) ciclo di sequenziamento e corrisponde all’ultimo nucleotide del primer.

Quindi, dato che ciascun colore rappresenta 4 possibili coppie di dNTP (Figura 5) e per ognuna di

esse il secondo nucleotide coincide con la prima base della coppia successiva, conoscere una base

della sequenza permette di interpretare tutta la sequenza nella sua interezza. La Figura 7 propone un

esempio di decodifica dei colori rilevati, nota la prima base della sequenza.

Figura 5: Esempio di decodifica dei colori per determinare la sequenza. Si suppongono note la prima base (A) e l’ordine

dei colori rilevati. Dallo schema di codifica (Figura 3) è evidente che se la coppia è identificata dal colore rosso e la

prima base è una A allora sicuramente la seconda base sarà una T. Nella seconda coppia, la prima base è la T appena

identificata e il colore della coppia è verde: la seconda base sicuramente sarà una G14

.

5. RNA-Seq

Uno degli utilizzi più attuali delle tecnologia NGS riguarda l’RNA-Sequencing (RNA-Seq).

L'RNA-Seq è un approccio recentemente sviluppato per l'analisi e profilazione del trascrittoma che

13

Applied Biosystems.5500xl Genetic Analyzer.[Online]. http://products.invitrogen.com/ivgn/product/4460730 14

Applied Biosystems.5500xl Genetic Analyzer.[Online]. http://products.invitrogen.com/ivgn/product/4460730

Page 14: ricognizione del software disponibile per analisi primaria di dati ngs

12

utilizza tecnologie di deep-sequencing (HTS)15

. Gli studi che utilizzano questo metodo hanno già

portato alla luce la portata e la complessità dei trascrittomi eucarioti l'RNA-Seq fornisce anche una

misura molto più preciso dei livelli di trascrizione e delle loro isoforme. In breve la tecnica

dell’RNA-Seq consiste nel selezionare una popolazione di RNA da studiare (totale o frazionata),

questa viene convertita in una libreria di frammenti di cDNA con adattatore collegato a una o

entrambe le estremità. Ogni molecola, con o senza amplificazione, viene poi sequenziata in alta

processività per ottenere sequenze corte da un'estremità (sequenziamento single-end) o entrambe le

estremità (sequenziamento pair-end). Le reads sono tipicamente di 30-400 bp, a seconda sulla

tecnologia di sequencing utilizzata, come ampiamente discusso nella Sezione 4.

6. ALLINEAMENTO E ASSEMBLY DELLE SEQUENZE GENERATE

DA TECNOLOGIE HTS

La prima sfida presentata dai dati provenienti da tecnologie HTS è il cosiddetto problema

dell’allineamento (o mapping) di reads. L'allineamento tra due sequenze biologiche consente di

individuare se vi è una relazione di somiglianza tra esse. Ad esempio, se la sequenza di un gene in

esame è molto simile a quella di un gene noto, è molto probabile che esso abbia una funzione

identica o simile. L’allineamento può avvenire tra sequenze di acidi nucleici o tra sequenze di

aminoacidi. L'allineamento di acidi nucleici riguarda sequenze di DNA poichè gli mRNA sono

riportati nelle banche dati come cDNA, come anche rRNA o tRNA sono rappresentati dalle

corrispondenti sequenze geniche. Da un punto di vista funzionale, il confronto tra le sequenze

aminoacidiche di due prodotti proteici è più informativo del confronto tra le sequenze che

codificano i rispettivi geni. Infatti, soprattutto negli eucarioti, differenze nelle sequenze introniche,

incluse inserzioni e delezioni, possono pesare in maniera determinante sul livello di similarità,

anche nel caso in cui non abbiano alcun effetto sulla maturazione del trascritto. Inoltre, residui

identici a livello aminoacidico possono essere codificati da codoni differenti, quindi ciò che è

evidentemente identico a livello proteico (stessi residui) non lo è a livello nucleotidico (una

sostituzione silente o una non silente hanno lo stesso peso nel calcolo della similarità nucleotidica).

Può apparire talora banale definire cosa è simile e cosa no tra due sequenze, ma un allineamento

manuale è facile solo quando le sequenze da allineare sono abbastanza simili. Quando invece i

confini tra regioni conservate e divergenti non sono immediatamente individuabili, poichè ad

esempio le due sequenze sono correlate ma mostrano una bassa similarità, diventa molto difficile

scegliere tra i possibili allineamenti alternativi e quindi è necessario stabilire un criterio per

individuare l'allineamento “migliore” tra quelli possibili. Gli algoritmi di allineamento sono pensati

in maniera tale che sia individuato il sistema per rendere minimo il numero delle differenze. Le

15

Zhong Wang, Mark Gerstein and Michael Snyder, RNA-Seq: a revolutionary tool for transcriptomics, Nature

Reviews Genetics 10, 57-63 (January 2009) | doi:10.1038/nrg2484;

Page 15: ricognizione del software disponibile per analisi primaria di dati ngs

13

analisi di allineamento possono rivelare l'omologia tra geni e tra proteine, ma è scorretto parlare di

“grado di omologia” o “percentuale di omologia”. Infatti l'omologia è un carattere qualitativo ed

esprime la correlazione evolutiva tra sequenze che derivano da un ancestore comune e si sono

differenziate attraverso un processo di speciazione molecolare. Dunque, se ci si vuole esprimere in

termini quantitativi, è corretto parlare di percentuali di “identità” e/o di “similarità”. Il DNA è

rappresentato da 4 lettere che corrispondono alle basi azotate, il cui ruolo biologico è

prevalentemente informativo: la successione delle basi nel DNA consente eventi di codifica e

riconoscimento necessari per specificare “prodotti” (in particolare proteine, attraverso il codice

genetico, ma anche molecole di rRNA, tRNA, snRNA. miRNA) ed individuare sequenze di

riconoscimento per le proteine che interagiscono, a vario titolo, con il DNA stesso (componenti

della cromatina, enzimi, fattori trascrizionali, ecc). Nel DNA le sostituzioni non sono equivalenti (le

transizioni sono più frequenti delle transversioni), ma si preferisce non distinguere, perchè il

rapporto transizioni/trasversioni può variare da caso a caso. Comunque, per il DNA non ha molto

senso parlare di residui "simili" ed in genere si preferisce fare riferimento all'identità.

Figura 5: Allineamento di due sequenze con un software di allineamento e visualizzazione.

Page 16: ricognizione del software disponibile per analisi primaria di dati ngs

14

Tutte le piattaforme HTS attuali sono in grado di produrre i dati nell'ordine di giga di paia di basi

(Gbp) al giorno macchina16

. Con l'emergere di questi dati, i ricercatori si sono resi conto che gli

strumenti tradizionali per l'allineamento di reads in maniera capillare, non sono efficienti per questa

enorme quantità di dati. Per questo motivo, sono stati sviluppate negli ultimi due anni, molti

strumenti di allineamento nuovi. Questi nuovi strumenti utilizzano i numerosi vantaggi specifici per

ciascuna delle nuove tecnologie di sequenziamento, come le brevi lunghezze delle sequenze di

Solexa , reads di SOLid e Helicos, il tasso di errore basso indel delle reads Illumina e la codifica d-

base delle reads SOLid. Questi nuovi strumenti, chiamati allineatori di short reads, superano le

prestazioni degli allineatori tradizionali (come BLAST17

) sia in termini di velocità sia d precisione.

Un algoritmo per l'allineamento di brevi sequenze reads prodotte da tecnologie HTS, deve essere in

grado di:

• Essere rapido ed efficiente ad allineare i miliardi di corte reads prodotte da questa tecnica;

• Consentire l'allineamento di reads non univoche (elementi ripetitivi nel riferimento) e di

reads che non si allineano esattamente con il genoma di riferimento (errori di

sequenziamento o variazioni).

Una delle applicazioni più rilevanti dell’allineamento di sequenze è quello di cercare eventuali

differenze all’interno di una sequenza che ad esempio codifica per lo stesso gene. All’interno di un

genoma la somma di queste differenze costituisce la variabilità interindividuale. Questa è

caratterizzata principalmente da variazioni di sequenza definite polimorfismi, vale a dire la presenza

ad un dato locus di due o più alleli, presenti con una frequenza maggiore (>1%) di quella che

potrebbe essere mantenuta da una mutazione18

. Lo studio della variabilità interindividuale

rappresenta una sfida per la medicina moderna soprattutto nella prospettiva di poter curare il malato

in maniera sempre più specifica e sicura, individuando il trattamento terapeutico più efficace. In

particolare lo studio delle varianti polimorfiche è diventato determinante nella comprensione dei

meccanismi alla base della suscettibilità alle diverse patologie multifattoriali, tra cui rientrano

malattie comuni quali l’asma, la psoriasi, il diabete, l’obesità, e le malattie cardiovascolari. Gli

SNPs, (Single Nucleotide Polymorphism) sostituzioni di un singolo nucleotide, rappresentano la

più grande fonte di variabilità interindividuale nel genoma dato che lo 0,5% di porzione variabile di

sequenza è responsabile non solo delle differenze fenotipiche tra gli individui, ma sopratutto delle

16

Metzker, M.L. Sequencing technologies – the next generation. Nat. Rev. Genet. 2010, 11, 31–46. 17

Kent, W.J. BLAT--the BLAST-like alignment tool. Genome Res. 2002, 4, 656-664. 18

Mutazione: Per mutazione genetica si intende ogni modifica stabile ed ereditabile nella sequenza nucleotidica di un

genoma o più generalmente di materiale genetico (sia DNA che RNA) dovuta ad agenti esterni o al caso, ma non alla

ricombinazione genetica. Una mutazione modifica quindi il genotipo di un individuo e può eventualmente modificarne

il fenotipo a seconda delle sue caratteristiche e delle interazioni con l'ambiente. Per ulteriori dettagli e informazioni

consultare http://it.wikipedia.org/wiki/Mutazione_genetica.

Page 17: ricognizione del software disponibile per analisi primaria di dati ngs

15

differenze in termini di predisposizione e resistenza alle malattie comuni. In passato è stata

formulata l’ipotesi CD = CV hypothesis “common disease/common variant”19

per la quale le

mutazioni (evento eccezionale) determinano le malattie rare (patologie mendeliane) mentre gli

SNPs (frequenti nel genoma) determinino la suscettibilità genetica alle malattie complesse. Le

varianti polimorfiche sono alla base dell’eziologia patologica di molte malattie e andrebbero

pertanto studiate su scala popolazionale piuttosto che su scala familiare. L’introduzione di

innovativi studi genotipici su larga scala (WGA, Whole Genome Association Study) ha permesso

l’identificazione di un nuovo repertorio di loci di suscettibilità di malattie complesse, con funzione

fino ad oggi sconosciuta, caratterizzati da elevate frequenze alleliche e basso rischio relativo

supportando maggiormente l’ipotesi CD = CV.

7. SOFTWARE DISPONIBILI

Nei successivi paragrafi si andranno a definire con maggiore precisione i software disponibili per

assembly de-novo di nuovi genomi e/o trscrittomi (44 software selezionati), per l’analisi e il

mapping delle sequenze contro un genoma e/o trascrittoma di riferimento (28 software selezionati),

per l’analisi e il mapping di sequenze utilizzando come input anche possibili giunzioni note di

splicing (13 software selezionati) e infine software per il mapping e la ricerca di nuovi trascritti per

identificare nuovi siti di splicing alternativi (14 software selezionati).

7.1. SOFTWARE DE NOVO SEQUENCING

Quando non esiste un genoma di riferimento, o si vuole assemblare un nuovo genoma di un

organismo, sono fondamentali strumenti che consentono l’assemblaggio de-novo di reads

provenienti da piattaforme HTS. Negli ultimi due anni, sono stati proposti molti algoritmi per

l'assemblaggio de novo, soprattutto per i genomi batterici. Tutti questi programmi sono basati su

una struttura dati chiamata grafo di De Bruijn20

,21

e differiscono per come trattano gli errori e se

usano informazioni read-pair. Ad oggi, assembly de novo del genoma umano da dati HTS è

soltanto in grado di ricostruire regioni di DNA brevi (contigs), ma la presenza di ripetizioni rende

difficile o impossibile assemblare pezzi più lunghi. L’ assemblaggio finale delle sequenze porta alla

generazione della sequenza genomica continua, che, in condizioni ideali, è costituita da tante

sequenze indipendenti quanti sono i cromosomi. In realtà questo risultato richiede molto lavoro, e

19

Studio di Associazione: Uno studio di associazione consiste nel confrontare la frequenza del fattore genetico (alleli,

genotipi o aplotipi) in un gruppo di individui affetti rispetto ad un gruppo di individui non affetti. Lo studio di

associazione caso-controllo può essere influenzato da diversi fattori come ad esempio il “mescolamento” di più

popolazioni. La popolazione dei controlli dovrebbe essere scelta per essere il più possibile simile alla popolazione dei

casi per tutti i possibili fattori confondenti (es. età, sesso, etnia, etc). 20

Pevzner, P.A.; Borodovsky, M.Y.; Mironov, A.A. Linguistics of nucleotide sequences. II: Stationary words in genetic

texts and the zonal structure of DNA. J. Biomol. Struct. Dyn. 1989, 6, 1027–1038. 21

Idury, R.M.; Waterman, M.S. A new algorithm for DNA sequence assembly. J. Comput. Biol. 1995, 2, 291–306.

Page 18: ricognizione del software disponibile per analisi primaria di dati ngs

16

viene raggiunto per gradi. Tipicamente i primi assemblaggi sono costituiti da contig di dimensioni

molto grandi non connessi tra loro. La sequenza genomica indicata come completa è allineata lungo

i cromosomi, ma spesso ancora contiene piccole aree di sequenza non nota. Le regioni contenenti

sequenze con alto grado di ripetitività raramente finiscono per essere completate in maniera

soddisfacente. Nonostante questi limiti, le sequenze così ottenute corrispondono in pratica alla

totalità delle regioni a singola copia nelle quali i geni strutturali e gli altri elementi funzionali sono

contenuti.

La tabella seguente presenta la maggior parte dei software attualmente sviluppati in grado di

lavorare senza alcuna sequenza di riferimento, generando una nuova sequenza che può essere un

genoma o trascrittoma de-novo.

Page 19: ricognizione del software disponibile per analisi primaria di dati ngs

17

SOFTWARE BREVE DESCRIZIONE TIPOLOGIA TECNOLOGIA LINGUAGGIO LICENZA SO BIBLIOGRAFIA

ABySS

ABySS è un assembler de-novo

disegnto per elaborare short reads

e grandi genomi.

De-Novo

assembly Solexa, SOLiD C++

Commercial -

freeware

POSIX - Linux -

Mac OS X

1. Simpson JT, Wong K, Jackman SD,

Schein JE, Jones SJ, Birol I. 2009.

Genome Research

2. Birol I, Jackman SD, Nielsen CB,

Qian JQ, Varhol R, Stazyk G, Morin

RD, Zhao Y, Hirst M, Schein JE,

Horsman DE, Connors JM, Gascoyne

RD, Marra MA, Jones SJ. 2009.

Bioinformatics.

Page 20: ricognizione del software disponibile per analisi primaria di dati ngs

18

ALLPATHS

ALLPATHS è un assembler de-

novo di microreads whole-

genome shotgun.

De-Novo

assembly Solexa, SOLiD C++ Freeware Linux

1. Butler J, MacCallum I, Kleber M,

Shlyakhter IA, Belmonte MK, Lander

ES, Nusbaum C, Jaffe DB.. 2008.

Genome Research

2. Maccallum I, Przybylski D, Gnerre S,

Burton J, Shlyakhter I, Gnirke A, Malek

J, McKernan K, Ranade S, Shea TP,

Williams L, Young S, Nusbaum C, Jaffe

DB.. 2009. Genome Biology

3. Gnerre S, Maccallum I, Przybylski D,

Ribeiro FJ, Burton JN, Walker BJ,

Sharpe T, Hall G, Shea TP, Sykes S,

Berlin AM, Aird D, Costello M, Daza R,

Williams L, Nicol R, Gnirke A,

Nusbaum C, Lander ES, Jaffe DB..

2010. PNAS.

AMOS

AMOS è un assembler whole-

genome modulare, Open-Source.

Assembly

Toolkit Sanger, 454 C - Perl Open source Linux

1. Pop M, Phillippy A, Delcher AL,

Salzberg SL.. 2004. Briefings in

Bioinformatics

Page 21: ricognizione del software disponibile per analisi primaria di dati ngs

19

CABOG

Celera Assembler è un software

scientifico per ricerche su DNA.

De-Novo

assembly

Sanger, 454,

Solexa C++ GPL Linux

1. Miller JR, Delcher AL, Koren S,

Venter E, Walenz BP, Brownley A,

Johnson J, Li K, Mobarry C, Sutton G.

2008. Bioinformatics

2. Consensus Generation and Variant

Detection by Celera Assembler -

Gennady Denisov et al. Bioinformatics

(2008) 24: 1035-40

CLCbio

Genomics

Workbench

CLCbio Genomics Workbench è

un assembly de-novo, assembly

con riferimento per cercare e

annotare SNPs and piccole indel.

Dispone di un’avanzata

interfaccia grafica per una facile

analisi di dati NGS di genomica,

trascrittomica ed epigenomica. Il

software contiene un tool con

wizard guidato e dispone di un

tool per sviluppatore SIMD.

Assembly

Toolkit

Sanger, 454,

Solexa, SOLiD Java - C++ Commercial

Windows - Mac

OS X - Linux

Per questo tool ci sono 6 riferimenti

bibliografici, di seguito I primi 3:

1. Zhao Q, Caballero OL, Levy S,

Stevenson BJ, Iseli C, de Souza SJ,

Galante PA, Busam D, Leversha MA,

Chadalavada K, Rogers YH, Venter JC,

Simpson AJ, Strausberg RL.. 2009.

PNAS

2. Wen KW, Dittmer DP, Damania B..

2009. J. Virol.

3. Tyler HL, Roesch LF, Gowda S,

Dawson WO, Triplett EW.. 2009. Mol

Plant Microbe Interact.

Contrail

Contrail è un software di

assembly basato sul framework

Apache Hadoop (framework che

supporta applicazioni distribuite

con elevato accesso ai dati sotto

una licenza libera e permette alle

applicazioni di lavorare con

De-Novo

assembly Java - Python Open source Multipiattaforma

Page 22: ricognizione del software disponibile per analisi primaria di dati ngs

20

migliaia di nodi e petabyte di

dati). Contrail può essere

utilizzato per assemblare grandi

genomi.

Curtain

Curtain is a Java wrapper around

next-generation assemblers such

as Velvet which allows the

incremental introduction of read-

pair information into the assembly

process. This enables the

assembly of larger genomes than

would otherwise be possible

within existing memory

constraints.

De-Novo

assembly Java

Apache

License Multipiattaforma

DecGPU

Parallel and distributed error

correction algorithm for high-

throughput short reads

De-Novo

assembly C++ GPLv3 Linux

1. Liu Y, Schmidt B, Maskell DL..

2011. BMC Bioinformatics

EDENA

An assembler dedicated to process

the millions of very short reads

produced by the Illumina Genome

Analyzer.

Assembly

genomi Illumina N/A GPLv3 Linux - Windows

1. Yu Peng, Henry Leung, S.M. Yiu,

Francis Y.L. Chin - IDBA - A Practical

Iterative de Bruijn Graph De Novo

Assembler

Page 23: ricognizione del software disponibile per analisi primaria di dati ngs

21

EULER

EULER-SR is a program for de

novo assembly of reads. Contrary

to the overlap-layout approach,

EULER-SR uses a de Bruijn

graph to construct an assembly.

The assembly of a genome

corresponds to an Eulerian path in

the de Bruijn graph. Long

(possibly erroneous) reads, and

mate-pairs are used to determine

parts of the correct Eulerian

traversal in the assembly.

De-Novo

assembly

Sanger, 454,

(Solexa ?) C++ - Perl Linux

Geneious

Search, organize and analyze

genomic and protein information

of any size via desktop program

that provides publication ready

images to enhance the impact of

your research.

Assembly

Toolkit

Sanger, 454,

Solexa Java

Commercial -

freeware

Windows - Mac

OS X - Linux -

Solaris

OLTRE 50 REFERENZE

GenomeBrowse

A free genome browser for

exploring sequencing pile-up and

coverage data with numerous

annotation tracks hosted on the

cloud.

Assembly

Toolkit N/A Freeware

Windows - Mac

OS X - Linux

Page 24: ricognizione del software disponibile per analisi primaria di dati ngs

22

GenoMiner

A proprietary NGS analysis

solution. Powerful hardware

comes with preinstalled software,

organized in workflows.

GenoMiner provide workflows

for Reference assembly, De novo

assembly, ChIPSeq, RNASeq and

more. You upload your files at the

beginning and you get the results

at the end while you can choose

from various tools to use for

analysis.

Assembly

Toolkit Java Commercial Linux

IDBA (Iterative

De Bruijn graph

short read

Assembler)

IDBA is a short read assembler

based on iterative De Bruijn

graph. It is developed under 64-bit

Linux, but should be suitable for

all unix-like system

De-Novo

assembly

Sanger, 454,

Solexa C++ Freeware

PosIX - Linux -

Linux 64

Page 25: ricognizione del software disponibile per analisi primaria di dati ngs

23

Lasergene

Lasergene is a comprehensive

DNA and protein sequence

analysis software suite comprised

of seven applications which

include functions ranging from

sequence assembly and SNP

detection, to automated virtual

cloning and primer design.

N/A Commercial Windows - Mac

OS X

MaSuRCA

assembler

MaSuRCA is whole genome

assembly software. It combines

the efficiency of the de Bruijn

graph and Overlap-Layout-

Consensus (OLC) approaches.

MaSuRCA can assemble data sets

containing only short reads from

Illumina sequencing or a mixture

of short reads and long reads

(Sanger, 454).

De-Novo

assembly

Sanger, Illumina,

454 C++ - Perl Freeware Linux

MIRA

(Mimicking

Intelligent Read

Assembly)

MIRA 3 è un assembler per EST e

Whole Genome Shotgun

Assemblly

Toolkit

Sanger, 454,

Solexa C++ GPL

Linux - Mac OS

X - UNIX

1. Chevreux B, Pfisterer T, Drescher B,

Driesel AJ, Müller WE, Wetter T, Suhai

S.. 2004. Genome Research

Page 26: ricognizione del software disponibile per analisi primaria di dati ngs

24

Newbler

The assembly/mapping program

developed by 454 Life Sciences

for of 454 data.

De-Novo

assembly 454, Sanger C++ Freeware Linux

Riferirsi alla pagina web del produttore.

http://my454.com/products/analysis-

software/index.asp

Page 27: ricognizione del software disponibile per analisi primaria di dati ngs

25

PASHA

PASHA is a parallel short read

assembler for large genomes

using de Bruijn graphs. Taking

advantage of both shared-memory

multi-core CPUs and distributed-

memory compute clusters,

PASHA has demonstrated its

potential to perform high-quality

de-novo assembly of large

genomes in reasonable time with

modest computing resources. Our

evaluation using three small real

paired-end datasets shows that

PASHA is able to produce better

assemblies with comparable

genome coverage and mis-

assembly rates compared to three

leading assemblers: Velvet,

ABySS and SOAPdenovo.

Moreover, PASHA achieves the

fastest speed for all three datasets

on a single CPU. For the human

genome, PASHA achieves

competitive assembly quality with

ABySS and is able to complete

the assembly in about 21 hours,

which is about 2.38× faster than

ABySS on the same hardware

configurations.

De-Novo

assembly Illumina C++ Freeware Linux

Yongchao Liu, Bertil Schmidt, and

Douglas L. Maskell: " Parallelized short

read assembly of large genomes using

de Bruijn graphs". BMC Bioinformatics,

2011, 12:354

Page 28: ricognizione del software disponibile per analisi primaria di dati ngs

26

Phrap

phrap is a program for assembling

shotgun DNA sequence data.

Among other features, it allows

use of the entire read and not just

the trimmed high quality part, it

uses a combination of user-

supplied and internally computed

data quality information to

improve assembly accuracy in the

presence of repeats, it constructs

the contig sequence as a mosaic of

the highest quality read segments

rather than a consensus, it

provides extensive assembly

information to assist in trouble-

shooting assembly problems, and

it handles large datasets.

De-Novo

assembly

Sanger, 454,

Solexa C Freeware Multipiattaforma

1. Bonfield JK, Staden R (1995): The

application of numerical estimates of

base calling accuracy to DNA

sequencing projects. Nucleic Acids Res.

1995 Apr 25;23(8):1406-10. PMID

7753633

Jump up;

2. Krawetz SA (1989): Sequence errors

described in GenBank: a means to

determine the accuracy of DNA

sequence interpretation. Nucleic Acids

Res. 1989 May 25;17(10):3951-7

Pipeline Pilot

Analysis and workflow

development of Next Generation

Sequencing and gene expression.

Assembly

Toolkit

C++ - Java - Perl

- R - Pilot Script Commercial Linux - Windows

Page 29: ricognizione del software disponibile per analisi primaria di dati ngs

27

QSRA

Quality-value guided Short Read

Assembler, created to take

advantage of quality-value scores

as a further method of dealing

with error. Compared to previous

published algorithms, our

assembler shows significant

improvements not only in speed

but also in output quality.

De-Novo

assembly

1. Bryant DW Jr, Wong WK, Mockler

TC. 2009. BMC Bioinformatics

Ray

de novo genome assembly is now

a challenge because of the

overwhelming amount of data

produced by sequencers. Ray

assembles reads obtained with

new sequencing technologies

(Illumina, 454, SOLiD) using

MPI 2.2 -- a message passing

inferface standard.

De-Novo

assembly

Illumina, Mix di

Illumina and 454 C++ GPL Linux - POSIX

1. Sébastien Boisvert, François

Laviolette, Jacques Corbeil.. 2010.

Journal of Computational Biology

Page 30: ricognizione del software disponibile per analisi primaria di dati ngs

28

SCARF

Scaffolded and Corrected

Assembly of Roche 454 A next-

gen sequence assembly tool for

evolutionary genomics. Designed

especially for assembling 454

EST sequences against high

quality reference sequences from

related species. SCARF was

created in order to knit together

low-coverage 454 contigs that do

not assemble during traditional de

novo assembly, using a reference

sequence library to orient the 454

sequences. SCARF is especially

well suited for non-contiguous or

low depth data sets such as EST

(expressed sequence tag) libraries.

SCARF can also be used to sort

and assemble a pool of 454

sequence data according to a set

of reference sequences (e.g. for

metagenomics).

De-Novo

assembly C GPLv3

Linux 32 - Linux

64

1. Barker, M. S., K. M. Dlugosch, A. C.

C. Reddy, S. N. Amyotte, and L. H.

Rieseberg. 2009. SCARF: Maximizing

next-generation EST assemblies for

evolutionary and population genomic

analyses. Bioinformatics 25(4): 535-

536.

Page 31: ricognizione del software disponibile per analisi primaria di dati ngs

29

SGA

SGA is a de novo assembler

designed to assemble large

genomes from high coverage

short read data.

Assembly

genomi

Illumina, Sanger,

(Roche 454, Ion

Torrent)

C++ GPLv3 Linux

1. Efficient de novo assembly of large

genomes using compressed data

structures - Jared T. Simpson and

Richard Durbin

Page 32: ricognizione del software disponibile per analisi primaria di dati ngs

30

SeqMan NGen

Sequence assembly software

using traditional, next-gen, and

third-gen techonologies.

Subsequent analysis of the

assembly, including SNP

discovery, coverage evaluation

and consensus annotation is

provided through full integration

with Lasergene.

Assembly

Toolkit N/A Commercial

Windows - Mac

OS X - Linux

Per questo tool ci sono 17 riferimenti

bibliografici, di seguito I primi 10:

1. Kumar S, Blaxter ML.. 2010. BMC

Genomics

2. Feldmeyer B, Wheat CW, Krezdorn

N, Rotter B, Pfenninger M.. 2011. BMC

Genomics

3. Koepke, T.. 2012. BMC Genomics

4. Stegemann S, Keuthe M, Greiner S,

Bock R. 2012. PNAS

5. Gyllborg MC, Sahl JW, Cronin DC

3rd, Rasko DA, Mandel MJ. 2012.

Journal of Bacteriology

6. Lemmon AR, Emme SA, Lemmon

EM. 2012. Systematic biology

7. Tulman ER, Liao X, Szczepanek SM,

Ley DH, Kutish GF, Geary SJ. 2012.

Microbiology

8. Nosil P, Gompert Z, Farkas TE,

Comeault AA, Feder JL, Buerkle CA,

Parchman TL. 2012. Proceedings:

Biological Sciences / The Royal Society

9. Hause BM, Stine DL, Sheng Z, Wang

Z, Chakravarty S, Simonson RR, Li F.

2012. Clinical and Vaccine Immunology

10. Stahl, B.. 2012. Journal of

Bacteriology

Page 33: ricognizione del software disponibile per analisi primaria di dati ngs

31

SeqPrep

Strips adapters and optionally

merges overlapping paired-end

(or paired-end contamination in

mate-pair libraries) illumina style

reads.

De-Novo

assembly C MIT POSIX

Sequencher

Desktop alignment software now

with plugins to MAQ and GSNAP

for NGS sequence date.

De-Novo

assembly

Dati di

tecnologie

tradizionali e

NGS

N/A Commercial Windows - Mac

OS X

SHARCGS

SHARCGS is a suitable tool for

fully exploiting novel sequencing

technologies by assembling

sequence contigs de novo with

high confidence and by

outperforming existing assembly

algorithms in terms of speed and

accuracy.

De-Novo

assembly Solexa Perl GPL Linux

1. Dohm JC, Lottaz C, Borodina T,

Himmelbauer H.. 2007. Genome

Research

SHORTY

SHORTY is targetted for de novo

assembly of microreads with mate

pair information and sequencing

errors. SHORTY has some novel

approach and features in

addressing the short read

assembly problem.

De-Novo

assembly C++ - Perl

1. Hossain MS, Azimi N, Skiena S..

2009. Bioinformatics

Page 34: ricognizione del software disponibile per analisi primaria di dati ngs

32

SHRAP

A sequencing protocol and

assembly methodology that

utilizes high-throughput short-

read technologies.

De-Novo

assembly

1. Sundquist A, Ronaghi M, Tang H,

Pevzner P, Batzoglou S.. 2007. PLoS

One

SOAPdenovo

SOAPdenovo, a short read de

novo assembly tool, is a package

for assembling short

oligonucleotide into contigs and

scaffolds.

De-Novo

assembly Solexa C GPLv3

Linux - Mac OS

X

1. Li R, Zhu H, Ruan J, Qian W, Fang

X, Shi Z, Li Y, Li S, Shan G,

Kristiansen K, Yang H, Wang J. 2009.

Genome Research

SOPRA

SOPRA is a tool designed to

exploit the mate pair/paired-end

information for assembly of short

reads. The main focus of the

algorithm is selecting a

sufficiently large subset of

simultaneously satisfiable mate

pair constraints to achieve a

balance between the size and the

quality of the output scaffolds.

Assembly

genomi

Illumina, SOLiD,

Sanger, 454 Perl GPL

Linux 64 - Mac

OS X

1. SOPRA: Scaffolding algorithm for

paired reads via statistical optimization -

Adel Dayarian, Todd P Michael and

Anirvan M Sengupta

Page 35: ricognizione del software disponibile per analisi primaria di dati ngs

33

SSAKE

SSAKE is written in PERL and

runs on Linux. SSAKE cycles

through short sequence reads

stored in a hash table and

progressively searches through a

prefix tree for the longest possible

identical overlap between any two

sequences. The algorithm was

used to assemble 25-36 bp

sequence reads from viral,

bacterial and fungal genomes and

on forty millions 25-mers

simulated using the whole-

genome shotgun (WGS) sequence

data from the Sargasso sea

metagenomics project.

Considering the number of

sequences to assemble, SSAKE is

robust and tractable.

De-Novo

assembly

Solexa, SOLiD,

Helicos Perl GPLv2 Linux

1. Rene´ L. Warren , Granger G.

Sutton1, Steven J. M. Jones and Robert

A. Holt - Assembling millions of short

DNA sequences using SSAKE -

Bioinformatics (2007) 23: 500-1

Page 36: ricognizione del software disponibile per analisi primaria di dati ngs

34

SR-ASM

SR-ASM algorithm is designed

for DNA assembly of the short

sequences coming from 454

sequencers.

De-Novo

assembly C++ Linux - UNIX

1. Blazewicz J, Bryja M, Figlerowicz M,

Gawron P, Kasprzak M, Kirton E, Platt

D, Przybytek J, Swiercz A, Szajkowski

L.. 2009. Comput Biol Chem.

SuccinctAssembly

Tools to build & analyze compact

versions of de Bruijn graphs.

De-Novo

assembly C

Commercial -

freeware Linux

1. Conway TC, Bromage AJ.. 2011.

Bioinformatics

SUTTA

De novo assembly algorithm for

assembling bacterial genomes

from second generation

sequencing data.

De-Novo

assembly

Commercial -

freeware

Linux 64 - Mac

OS X 64

1. Narzisi G, Mishra B.. 2010.

Bioinformatics

Page 37: ricognizione del software disponibile per analisi primaria di dati ngs

35

Taipan

Taipan uses greedy extensions

for contig construction but at each

step realizes enough of the

corresponding read graph to make

better decisions as to how

assembly should continue. We

show that this approach can

achieve an assembly quality at

least as good as the graph-based

approaches used in the popular

Edena and Velvet assembly tools

using a moderate amount of

computing resources.

De-Novo

assembly Illumina C Freeware Linux

VCAKE

De novo assembly of short reads

with robust error correction. An

improvement on early versions of

SSAKE.

De-Novo

assembly

Solexa,

(SOLiD?,

Helicos?)

C - Perl GPL Linux - Mac OS

X

1. Jeck WR, Reinhardt JA, Baltrus DA,

Hickenbotham MT, Magrini V, Mardis

ER, Dangl JL, Jones CD.. 2007.

Bioinformatics

Velvet

Velvet is a de novo genomic

assembler specially designed for

short read sequencing

technologies, such as Solexa or

454 or SOLiD.

De-Novo

assembly C GPL

Linux - Mac OS

X

1. Zerbino DR, Birney E.. 2008.

Genome Research;

2. Zerbino DR, McEwen GK, Margulies

EH, Birney E. 2009. PLoS One

Page 38: ricognizione del software disponibile per analisi primaria di dati ngs

36

Tabella 2: Lista dei software attualmente disponibili per de-novo sequencing.

VelvetOptimiser

VelvetOptimiser is a multi-

threaded Perl script for

automatically optimising the

parameter options for the Velvet

de novo sequence assembler.

De-Novo

assembly

Sanger, 454,

Solexa, SOLiD Perl GPLv2

Linux - Mac OS

X

ViralFusionSeq

Accurately discover viral

integration events and fusion

transcripts by the use of soft-

clipping information, read-pair

analysis, and targeted de novo

assembly.

Assembly

Toolkit Perl GPLv3 Linux 1. Jing-Woei Li. 2013. Bioinformatics

Page 39: ricognizione del software disponibile per analisi primaria di dati ngs

37

Di questi software elencati nella tabella precedente, sono stati presi in considerazione quelli più

utilizzati in letteratura presentandone uno studio comparativo come in Yong Lin et al.22

. I software

selezionati sono SSAKE (Warren et al., 2007), VCAKE (Jeck et al., 2007), SHARCGS (Dohm et

al., 2007), Euler-sr (Chaisson and Pevzner, 2008), Edena (Hernandez et al.,), Velvet (Zerbino and

Birney, 2008), Celera WGA Assembler (Miller et al., 2008), AbySS (Simpson et al., 2009) e

SOAPdenovo (Li et al., 2009). I software valutati sono riassunti nella successiva tabella con le varie

versioni e i sistemi operativi di esecuzione.

SOFTWARE VERSIONE E SISTEMA OPERATIVO

SSAKE v 3.7 – Linux

VCAKE v 2.0 - Linux, Mac OS X

Euler-sr v 1.1.2 – Linux

Edena v 2.1.1 - Linux, windows

Velvet v 1.0.18 - Linux, Mac OS X

AbySS v 1.2.6 - Linux, Mac OS X

SOAPdenovo v 1.05 - Linux x64, Mac OS X

Tabella 3: Software utilizzati per la valutazione in Yong Lin et al.

Anche se sono stati analizzati diversi criteri per la valutazione, quali il tempo di esecuzione,

l’utilizzo della RAM, N5023

e precisione di assemblaggio, i loro risultati sono stati basati su reads

simulate utilizzando un coverage 100× e un singolo tasso di errore di chiamata di base (1,0 %).

Ulteriori indagini sono necessarie per determinare se, e in che modo, questi strumenti di

assemblaggio sono differentemente influenzati da diverse grandezze di coverage, errori di

sequenziamento lunghezza delle reads e l'estensione di contenuto GC delle sequenze reads. Di

conseguenza, nello studio effettuato da Yong Lin et al., sono state studiate e confrontate le

prestazioni di sette tool più usati di de-novo assembly per tecnologie di sequenziamento di nuova

generazione, utilizzando una serie di parametri tra cui la lunghezza N50 (una misura standard di

connettività di assembly), profondità di coverage, la precisione di assembly , tempo di calcolo e

requisiti di memoria del computer e il loro utilizzo.

22

Lin Y, Li J, Shen H, Zhang L, Papasian CJ, Deng HW., Comparative studies of de novo assembly tools for next-

generation sequencing technologies., Bioinformatics. 2011 Aug 1;27(15):2031-7. doi: 10.1093/bioinformatics/btr319.

Epub 2011 Jun 2. 23

N50: la dimensione del contig per cui il 50% delle basi assemblate sono contenute in contigs di lunghezza N50 o

maggiore.

Page 40: ricognizione del software disponibile per analisi primaria di dati ngs

38

Il lavoro di Yong Lin et al. basandosi sui risultati delle loro analisi, hanno sviluppato linee guida

per la selezione ottima di diversi tool di assembly sotto differenti condizioni. Identificando e

riconoscendo le varie limitazioni dei specifici tool sotto differenti condizioni pratiche, Yong Lin et

al., hanno fornito anche un'utile guida e la direzione per migliorare gli attuali strumenti e/o la

progettazione di nuovi strumenti ad alte prestazioni.

Nell'analizzare i software in tabella, le prestazioni più alte sono date da valori più alti di N50, da

sequence coverage più alto, dai tassi di errore di assembly più bassi e dal consumo di risorse di

calcolo più basso (per consentire l’assembly dei genomi più grandi) . Ovviamente, le prestazioni dei

diversi tool di assembly sono dipendenti, in qualche misura, dalle condizioni di test. In generale,

SSAKE, Edena e Euler-sr hanno bisogno profondità superiori di coverage (~ 50×) rispetto a Velvet,

Abyss e SOAPdenovo (~ 30×) per generare lunghezze maggiori di N50; SOAPdenovo è stato il più

veloce di tutti gli strumenti , e ABySS ha quasi sempre usato meno spazio di memoria di tutti. In

tabella viene riassunto il risultato dello studio.

Tabella 4: Requisiti per la misura delle performance di assembly che comprendono, alto N50, elevato sequence

coverage (SC), basso tasso di errore di assembly (AER). Per diversi requisiti, si consiglia di utilizzare alcuni tool de-

novo con ordine di priorità in base alle proprietà delle sequenze reads, tra cui single-end/paired-end, contenuto di GC,

lunghezza della read e la lunghezza della sequenza. SE, single end reads, PE, paired end reads; Rigurado i tool: Eu,

Euler-sr, SS, SSAKE; Ed, Edena, AB, abisso, Ve, Velvet, così, SOAPdenovo.

7.2. SOFTWARE MAPPING SEQUENCING

Il mapping, a differenza del de-novo assembly, è il processo di confronto di ogni reads con il

genoma di riferimento. In pratica si ha a disposizione una sequenza di riferimento per allineare le

reads proveniente dal sequenziamento con tecnologie HTS. In questo modo, si ottiene un

allineamento o più allineamenti tra ogni reads e il genoma.

La tabella seguente presenta la maggior parte dei software attualmente sviluppati in grado di

lavorare con una sequenza di riferimento.

Page 41: ricognizione del software disponibile per analisi primaria di dati ngs

39

SOFTWARE BREVE DESCRIZIONE TIPOLOGIA TECNOLOGIA LINGUAGGIO LICENZA SO BIBLIOGRAFIA

ABMapper

Maps RNA-Seq reads to target

genome considering possible

multiple mapping locations and

splice junctions

Mapping C++ - Perl GPLv3 Linux

1. Lou S, Ni B, Lo LY, Kwok-

Wing Tsui S, Chan TF, Leung KS..

2010. Bioinformatics

2. Lou SK, Li JW, Qin H, Yim AK,

Lo LY, Ni B, Leung KS, Tsui SK,

Chan TF.. 2011. BMC

Bioinformatics

Page 42: ricognizione del software disponibile per analisi primaria di dati ngs

40

AGILE

A hash table based high throughput

sequence mapping algorithm for

longer 4A54 reads that uses diagonal

multiple seed-match criteria,

customized q-gram filtering and a

dynamic incremental search

approach among other heuristics to

optimize every step of the mapping

process.

Mapping C Linux

1. Sanchit Misra, Ankit Agrawal,

Wei-keng Liao, Alok Choudhary.

Anatomy of a Hash-based Long

Read Sequence Mapping

Algorithm for Next Generation

DNA Sequencing. Bioinformatics

2010; doi:

10.1093/bioinformatics/btq648.

2. Sanchit Misra, Ramanathan

Narayanan, Wei-keng Liao, Alok

Choudhary and Simon Lin.

pFANGS: Parallel High Speed

Sequence Mapping for Next

Generation 454-Roche Sequencing

Reads. In Proc. Ninth IEEE

International Workshop on High

Performance Computational

Biology (IPDPS 2010), April,

2010, Atlanta, GA.

3. Sanchit Misra, Ramanathan

Narayanan, Simon Lin and Alok

Choudhary. FANGS: High Speed

Sequence Mapping for Next

Generation Sequencing Reads. In

Proceedings of ACM Symposium

of Applied Computing (ACM

SAC), March 22-26, 2010, Sierre,

Switzerland.

Page 43: ricognizione del software disponibile per analisi primaria di dati ngs

41

Array Suite

(Array

Studio/Server)

Array Studio is a complete analysis

and visualization package for

NextGen sequencing data, as well as

other -OMIC data types. Array

Server is a backend enterprise server

for storage and analysis of -OMIC

and NextGen sequencing data.

Mapping C# Commercial Windows

BarraCUDA

Barracuda is a high-speed sequence

aligner based on BWA and utilizes

the latest Nvidia CUDA architecture

for accelerating alignments of

sequence reads generated by the

next-generation sequencers.

Mapping C - C++ -

CUDA GPLv3 Linux

1. Klus P, Lam S, Lyberg D,

Cheung MS, Pullan G, McFarlane

I, Yeo GS, Lam BY.. 2012. BMC

Research Notes

Page 44: ricognizione del software disponibile per analisi primaria di dati ngs

42

Bcbio-nextgen

Python scripts and modules for

automated next gen sequencing

analysis. These provide a fully

automated pipeline for taking

sequencing results from an Illumina

sequencer, converting them to

standard Fastq format, aligning to a

reference genome, doing SNP

calling, and producing a summary

PDF of results.

Mapping Python MIT Multipiattaforma

1. bcbio-nextgen: Automated,

distributed next-gen sequencing

pipeline - Roman Valls Guimera

BEAP

The Blast Extension and Assembly

Program (BEAP) uses a short

starting DNA fragment to

recursively blast nucleotide

databases to obtain all sequences

that overlaps to construct the a "full

length" sequence.

Mapping Perl Open Source Linux - UNIX

1. James E. Koltes, Zhi-Liang Hu,

and James M. Reecy. (2005)

"Localized Development of a High

Resolution Sequence Comparative

Map of Bovine Chromosome 6."

Plant & Animal Genome XIV

Conference, San Diego, CA,

January 15-19, 2005.

2. James E. Koltes, Zhi-Liang Hu,

Eric Fritz and James M. Reecy

(2009). BEAP: The BLAST

Extension and Alignment Program

— a tool for contig construction

and analysis of preliminary genome

sequence. ( BMC Research Notes

2009, 2:11 ).

Page 45: ricognizione del software disponibile per analisi primaria di dati ngs

43

Chipster

User-friendly NGS data analysis

software with built-in genome

browser and workflow functionality.

Chipster includes tools for ChIP-seq,

RNA-seq, miRNA-seq and MeDIP-

seq analysis, and functionality for

exome-seq and CGH-seq will soon

be added.

Mapping Java - R GPLv3 Multipiattaforma

1. Kallio MA, Tuimala JT,

Hupponen T, Klemela P, Gentile

M, Scheinin I, Koski M, Kaki J,

Korpelainen EI. 2011. BMC

Genomics

CLCbio

Genomics

Workbench

De novo and reference assembly

SNP and small indel detection and

annotation. Advanced and user-

friendly analyses of

genomictranscriptomic and

epigenomic NGS data in a graphical

user-interface. Wizard driven tools

and a freely available developer

toolkit SIMD implementation multi-

threading hybrid assembly

Integrated solution

Assembly

Toolkit

Sanger, 454,

Solexa, SOLiD Java - C++ Commercial

Windows - Mac

OS X - Linux

1. Zhao Q, Caballero OL, Levy S,

Stevenson BJ, Iseli C, de Souza SJ,

Galante PA, Busam D, Leversha

MA, Chadalavada K, Rogers YH,

Venter JC, Simpson AJ, Strausberg

RL.. 2009. PNAS

2. Wen KW, Dittmer DP, Damania

B.. 2009. J. Virol.

3. Tyler HL, Roesch LF, Gowda S,

Dawson WO, Triplett EW.. 2009.

Mol Plant Microbe Interact.

4. Anthony S. Amend, Keith A.

Seifert, Robert Samson, and

Thomas D. Bruns. 2010. PNAS

5. Petrie KL, Joyce GF.. 2010.

Nucleic Acids Research

6. Williams SL, Huang J, Edwards

YJ, Ulloa RH, Dillon LM, Prolla

Page 46: ricognizione del software disponibile per analisi primaria di dati ngs

44

TA, Vance JM, Moraes CT,

Züchner S.. 2010. Cell Metabolism

CloudBurst

CloudBurst is a parallel read-

mapping algorithm optimized for

mapping next-generation sequence

data to the human genome and other

reference genomes.

Mapping Java Open Source Multipiattaforma 1. Schatz MC. 2009.

Bioinformatics

GASSST

Fast and accurate aligner for short an

long reads Mapping C++ CeCILL Linux

1. Rizk, Guillaume and Lavenier,

Dominique. 2010. Bioinformatics

Page 47: ricognizione del software disponibile per analisi primaria di dati ngs

45

Geneious

Search, organize and analyze

genomic and protein information of

any size via desktop program that

provides publication ready images to

enhance the impact of your research.

Phylogenetics, Sequence analysis,

De-novo assembly, Whole Genome

Resequencing, Alignment, Systems

biology, Comparative genomics,

SNP discovery, InDel discovery,

Transcription Factor analysis,

Genomics, Population genetics,

Homology, Metagenomics, Read

alignment, Structural variation,

RNA-Seq, Motif analysis

Assembly

Toolkit

Sanger, 454,

Solexa Java

Commercial -

freeware

Windows - Mac

OS X - Linux -

Solaris

[1] Matthew Kearse, Richard Moir,

Amy Wilson, Steven Stones-Havas,

Matthew Cheung, Shane Sturrock,

Simon Buxton, Alex Cooper,

Sidney Markowitz, Chris Duran,

Tobias Thierer, Bruce Ashton,

Peter Meintjes1 and Alexei

Drummond, Geneious Basic: An

integrated and extendable desktop

software platform for the

organization and analysis of

sequence data, Bioinformatics

(2012) 28 (12): 1647-1649. doi:

10.1093/bioinformatics/bts199 First

published online: April 27, 2012

Page 48: ricognizione del software disponibile per analisi primaria di dati ngs

46

GenomeMapper

GenomeMapper is a short read

mapping tool designed for accurate

read alignments. It quickly aligns

millions of reads either with

ungapped or gapped alignments. It

can be used to align against multiple

genomes simulanteously or against a

single reference. If you are unsure

which one is the appropriate

GenomeMapper, you might want to

use the latter.

Mapping C Open Source Linux

1. Schneeberger K, Hagmann J,

Ossowski S, Warthmann N, Gesing

S, Kohlbacher O, Weigel D.. 2009.

Genome Biology

Geoseq

Instead of mapping the reads to

reference genomes or sequences,

Geoseq maps a reference sequence

against the sequencing data. It is

web-based, and holds pre-computed

data from public libraries.

Mapping Web-Based Multipiattaforma

1. Gurtowski J, Cancio A, Shah H,

George A, Homann R,

Sachidanandam R.. 2010. BMC

Bioinformatics

Page 49: ricognizione del software disponibile per analisi primaria di dati ngs

47

Gnumap

The Genomic Next-generation

Universal MAPper (gnumap) is a

program designed to accurately map

sequence data obtained from next-

generation sequencing machines

(specifically that of Solexa/Illumina)

back to a genome of any size.

Currently, gnumap is designed to be

used with the _int.txt data received

from the Solexa/Illumina machine.

Mapping C++ Open Source Linux - UNIX 64

1. Clement, N. L., Snell, Q., M. J.,

Hollenhorst, P. C., Purwar, J.,

Graves BJ, Cairns BR, Johnson

WE. 2009. Bioinformatics

Lasergene

Lasergene is a comprehensive DNA

and protein sequence analysis

software suite comprised of seven

applications which include functions

ranging from sequence assembly and

SNP detection, to automated virtual

cloning and primer design.

Mapping N/A Commercial Windows - Mac

OS X

Page 50: ricognizione del software disponibile per analisi primaria di dati ngs

48

MicroRazerS

MicroRazerS is a tool optimized for

mapping short RNAs onto a

reference genome.

Mapping C++ Open Source Linux

1. Anne-Katrin Emde, Marcel

Grunert, David Weese, Knut

Reinert and Silke Sperling.

MicroRazerS: rapid alignment of

small RNA reads. Bioinformatics

(2010) 26 (1): 123-124

MrFAST

mrFAST is designed to map short

reads generated with the Illumina

platform to reference genome

assemblies; in a fast and memory-

efficient manner.

Mapping C BSD UNIX

1. Alkan C, Kidd JM, Marques-

Bonet T, Aksay G, Antonacci F,

Hormozdiari F, Kitzman JO, Baker

C, Malig M, Mutlu O, Sahinalp SC,

Gibbs RA, Eichler EE. 2009.

Nature Genetics

Nexalign

Nexalign is a program to align

millions of short reads from next-

generation sequencing data sets to

reference genomes

Mapping C++ - R GPL UNIX

Novocraft

Novoalign is a program for mapping

short reads from the Illumina/SOLiD

sequencing platform(s) to a

reference genome.

Mapping C++ Commercial -

freeware

Mac OS X - Linux

64

1. Krawitz P, Rödelsperger C, Jäger

M, Jostins L, Bauer S, Robinson

PN.. 2010. Bioinformatics

Page 51: ricognizione del software disponibile per analisi primaria di dati ngs

49

PerM

PerM (Periodic Seed Mapping) uses

periodic spaced seeds to

significantly improve mapping

efficiency for large reference

genomes when compared to state-of-

the-art programs.

Mapping C++ Apache

License 2.0 Linux

1. Chen Y, Souaiaia T, Chen T..

2009. Bioinformatics

RazerS

RazerS allows the user to align

sequencing reads of arbitrary length

using either the Hamming distance

or the edit distance. The tool can

work either lossless or with a user-

defined loss rate at higher speeds.

Mapping C++ GPLv3 UNIX - Mac OS X

- Windows

1. Weese D, Emde AK, Rausch T,

Döring A, Reinert K.. 2009.

Genome Research

Page 52: ricognizione del software disponibile per analisi primaria di dati ngs

50

Readaligner

A tool for mapping (short) DNA

reads into reference sequences.

Align reads using either k-

mismatches or k-errors (mismatches,

insertions and deletions) model; see

README for different alignment

modes. Algorithms are based on

Burrows-Wheeler transform and

backward backtracking. Includes a

novel data structure called the

rotation index that finds alignments

with higher number of mismatches

in feasible time (but requires a larger

index and fixed length query reads).

Supports FASTA and FASTQ input,

and SAMTools output.

Mapping C++ Open Source Linux

1. V. Mäkinen, N. Välimäki, A.

Laaksonen and R. Katainen:

Unified View of Backward

Backtracking in Short Read

Mapping. To appear in Ukkonen

Festschrift 2010 (Eds. Tapio

Elomaa, Pekka Orponen, Heikki

Mannila), Springer-Verlag, LNCS

6060, pp. 182-195, 2010.

Page 53: ricognizione del software disponibile per analisi primaria di dati ngs

51

Segemehl

Map short reads to known genome

with tolerance for mismatches and

indels using suffix arrays for high

accuracy matching

Mapping C - C++ Open Source Linux - UNIX

1. Hoffmann, S, Otto C, Kurtz S,

Sharma CM, Khaitovich P, Vogel

J, Stadler PF, Hackelmueller J.

2009. PLoS Computational Biology

SeqMap

SeqMap is a tool for mapping large

amount of short sequences to the

genome.

Mapping C++ Open Source Multipiattaforma 1. Jiang H, Wong WH.. 2008.

Bioinformatics

Spiral Genetics

Spiral Genetics provides alignment

to reference, variant detection,

variant filtering and annotation for

any sized next generation

sequencing dataset. Using cloud

computing, the Spiral Platform can

produce results at ultra high speeds

through a web browser interface. No

computing infrastructure required.

Toolkit C++ Commercial Linux - Mac OS X

- Windows

Page 54: ricognizione del software disponibile per analisi primaria di dati ngs

52

ZOOM

ZOOM (Zillions Of Oligos

Mapped) is designed to map millions

of short reads, emerged by next-

generation sequencing technology,

back to the reference genomes, and

carry out post-analysis. ZOOM is

developed to be highly accurate,

flexible, and user-friendly with

speed being a critical priority.

Mapping Linux - Windows

1. ZOOM Lite: next-generation

sequencing data mapping and

visualization software.

Zhang Z, Lin H, Ma B.

Tabella 5: Lista dei software disponibili per il mapping di sequenze ad un riferimento conosciuto.

Page 55: ricognizione del software disponibile per analisi primaria di dati ngs

53

7.3. SOFTWARE MAPPING SEQUENCING CON SET DI POSSIBILI GIUNZIONI

NOTE DI SPLICING

Di software che effettuano mapping di sequenze su una di riferimento, si è ampiamente discusso

nella precedente sezione. In questa sezione si andranno ad identificare software che oltre a fornire in

input la sequenza con cui effettuare il confronto permette l’inserimento di sequenze le quali

potrebbero essere giunzioni note di splicing24

. Per descrivere brevemente lo splicing possiamo dire

che in biologia molecolare e in genetica, splicing è una modificazione del nascente pre-mRNA25

che avviene insieme o dopo la trascrizione, nella quale gli introni26

sono rimossi e gli esoni27

vengono uniti. Il termine splicing in pratica, indica uno dei processi, insieme al capping28

e alla

poliadenilazione29

, di maturazione del trascritto primario dei geni discontinui.

24

Splicing: Consultare http://it.wikipedia.org/wiki/Splicing per ulteriori dettagli e informazioni. 25

Pre-mRNA: Consultare http://it.wikipedia.org/wiki/Pre-mRNA per ulteriori dettagli e informazioni. 26

Introne: Consultare http://it.wikipedia.org/wiki/Introne per ulteriori dettagli e informazioni. 27

Esone: Consultare http://it.wikipedia.org/wiki/Esone per ulteriori dettagli e informazioni. 28

Capping: Consultare http://it.wikipedia.org/wiki/Capping per ulteriori dettagli e informazioni. 29

Poliadelinazione: Consultare http://it.wikipedia.org/wiki/Poliadenilazione per ulteriori dettagli e informazioni.

Page 56: ricognizione del software disponibile per analisi primaria di dati ngs

54

SOFTWARE BREVE DESCRIZIONE TIPOLOGIA TECNOLOGIA LINGUAGGIO LICENZA SO BIBLIOGRAFIA

Erange

ERANGE is a Python package for

doing RNA-seq and ChIP-seq.

RNA-Seq

Alignment Python Open source Multipiattaforma

1. Mortazavi A, Williams BA,

McCue K, Schaeffer L, Wold B.

2008. Nature Methods

IsoformEx

IsoformEx estimates transcript

expression levels and gene expression

levels from mRNA-Seq data.

RNA-Seq

Alignment Academic Use Linux 64

1. IsoformEx: isoform level gene

expression estimation using

weighted non-negative least

squares from mRNA-Seq data -

Hyunsoo Kim, Yingtao Bi,

Sharmistha Pal, Ravi Gupta and

Ramana V Davuluri

MapAl

MapAl is a tool for RNA-Seq

expression profiling that builds on the

established programs Bowtie and

Cufflinks. Allowing an incorporation of

‘gene models’ already at the alignment

stage almost doubles the number of

transcripts that can be measured

reliably.

RNA-Seq

Alignment Perl Open source Linux

Page 57: ricognizione del software disponibile per analisi primaria di dati ngs

55

OSA

OSA (Omicsoft Sequence Aligner), a

super-fast and accurate alignment tool

for RNA-Seq data. Benchmarked with

existing methods, OSA improves

mapping speed 4-10 folds with better

sensitivity and less false positives.

RNA-Seq

Alignment C# GPL

Linux - Mac OS

X - Windows

1. OSA: A fast and accurate

alignment tool for RNA-Seq -

Jun Hu, Huanying Ge, Matt

Newman and Kejun Liu

PERalign

A probabilistic framework is described

to predict the alignment to the genome

of all paired-end read transcript

fragments in a paired-end read dataset.

Starting from possible exonic and

spliced alignments of all end reads, our

method constructs potential splicing

paths connecting paired ends. An

expectation maximization method

assigns likelihood values to all splice

junctions and assigns the most probable

alignment for each transcript fragment.

RNA-Seq

Alignment C++ Open source Linux

1. Hu Y, Wang K, He X, Chiang

DY, Prins, JF, Liu J. 2010.

Bioinformatics

Page 58: ricognizione del software disponibile per analisi primaria di dati ngs

56

RNA-MATE

RNA-MATE is a computational

pipeline for alignment of data from

Applied Biosystems SOLID system.

Provides the possibility of quality

control and trimming of reads. The

genome alignments are performed

using mapreads and the splice junctions

are identified based on a library of

known exon-junction sequences. This

tool allows visualization of alignments

and tag counting.

RNA-Seq

Alignment Perl - Python GPL Linux

1. RNA-MATE: A recursive

mapping strategy for high-

throughput RNA-sequencing

data. Nicole Cloonan, Qinying

Xu, Geoffrey J. Faulkner, Darrin

F. Taylor, Dave T.P. Tang, and

Sean M. Grimmond -

Bioinformatics 2009,

25(19):2615-2616

Page 59: ricognizione del software disponibile per analisi primaria di dati ngs

57

RUM

RUM performs alignment based on a

pipeline, being able to manipulate reads

with splice junctions, using Bowtie and

Blat. The flowchart starts doing

alignment against a genome and a

transcriptome database executed by

Bowtie. The next step is to perform

alignment of unmapped sequences to

the genome of reference using BLAT.

In the final step all alignments are

merged to get the final alignment. The

input files can be in FASTA or FASTQ

format. The output is presented in

RUM and SAM format.

RNA-Seq

Alignment Perl Open source Linux

1. Comparative analysis of

RNA-Seq alignment algorithms

and the RNA-Seq unified

mapper (RUM) - Gregory R.

Grant, Michael H. Farkas, Angel

D. Pizarro, Nicholas F. Lahens,

Jonathan Schug, Brian P. Brunk,

Christian J. Stoeckert, John B.

Hogenesch and Eric A. Pierce

Page 60: ricognizione del software disponibile per analisi primaria di dati ngs

58

RNASEQR

RNASEQR accurately and effectively

map millions of RNA-seq sequences.

We have systematically compared

RNASEQR with four of the most

widely used tools using a simulated

data set created from the Consensus

CDS project and two experimental

RNA-seq data sets generated from a

human glioblastoma patient. Our

results showed that RNASEQR yields

more accurate estimates for gene

expression, complete gene structures

and new transcript isoforms, as well as

more accurate detection of single

nucleotide variants (SNVs).

RNASEQR analyzes raw data from

RNA-seq experiments effectively and

outputs results in a manner that is

compatible with a wide variety of

specialized downstream analyses on

desktop computers.

Python Open source Linux

1. RNASEQR—a streamlined

and accurate RNA-seq sequence

analysis program - Leslie Y

Chen, Kuo-Chen Wei, Abner

C.-Y. Huang, Kai Wang,

Chiung-Yin Huang, Danielle Yi,

Chuan Yi Tang, David J. Galas

and Leroy E. Hood

Page 61: ricognizione del software disponibile per analisi primaria di dati ngs

59

SAMMate

SAMMate is an open source GUI

software suite to process RNA-Seq

data. It is composed of two modules:

assemblySAM and SAMMate.

AssemblySAM employs a novel

method to localize and assemble RNA-

seq reads into RNA transcript

sequences.

SAMMate, a GUI RNA-seq

quantification pipeline, allows

biomedical researchers to quickly

process fasta/fastq and SAM/BAM

files, and is compatible with both

single-end and paired-end sequencing

technologies.

Open source Windows

1. Nguyen T, Deng N and Zhu

D: SASeq: A Selective and

Adaptive Shrinkage Approach to

Detect and Quantify Active

Transcripts using RNA-Seq.

Submitted.

2. Zhao Z, Nguyen T, Deng N,

Johnson K, Zhu D: SPATA: A

Seeding and Patching Algorithm

for de novo Transcriptome

Assembly. Bioinformatics &

Biomedicine Workshops, 2011

IEEE International Conference.

3. Xu G, Deng N, Zhao Z,

Flemington E, Zhu D. (2011)

SAMMate: A GUI tool for

processing short read alignment

information in SAM/BAM

format. Source Code for Biology

and Medicine.

4. Deng N, Puetter A, Zhang K,

Johnson K, Zhao Z, Taylor C,

Flemington E and Zhu D (2011)

Isoform-level microRNA-155

Target Prediction using RNA-

seq. Nucleic Acid Research.

Page 62: ricognizione del software disponibile per analisi primaria di dati ngs

60

SpliceSeq

SpliceViewer is a Java application that

allows researchers to investigate

alternative mRNA splicing patterns in

data from high-throughput mRNA

sequencing studies. Sequence reads are

mapped to splice graphs that

unambiguously quantify the inclusion

level of each exon and splice junction.

The graphs are then traversed to predict

the protein isoforms that are likely to

result from the observed exon and

splice junction reads. UniProt

annotations are mapped to each protein

isoform to identify potential functional

impacts of alternative splicing.

This tool may be used on a single

RNASeq sample to identify genes with

multiple spliceforms, on a pair of

samples to identify differential splicing

between the two, or on groups of

samples to identify statistically

significant group level differences in

splicing patterns.

Java Open source Multipiattaforma

1. Ryan MC, Cleland J, Kim R,

Wong WC, Weinstein JN(2012).

SpliceSeq: A Resource for

Analysis and Visualization of

RNA-Seq Data on Alternative

Splicing and Its Functional

Impacts. Bioinformatics,

10.1093.

Page 63: ricognizione del software disponibile per analisi primaria di dati ngs

61

X-Mate

A crucial step in the analysis of deep

sequencing data is mapping to a

reference genome. Accurate and

complete mapping greatly enhances the

potential discovery of biological results

and improves statistical predictions

while inaccurate or incomplete

mapping may lead to noise and reduced

coverage. We recently presented RNA-

MATE, a pipeline for the recursive

mapping of RNASeq data sets. With

the rapid increase in genome

resequencing projects, progression of

available mapping software and the

evolution of file formats, we present X-

MATE, an updated version of RNA-

MATE, capable of mapping both

RNASeq and DNA data sets and with

improved performance, output file

formats, configuration files, and

flexibility in core mapping software.

Perl Academic Use

X-MATE: A flexible system for

mapping short read data. David

Wood, Qinying Xu, John V.

Pearson, Nicole Cloonan, and

Sean M. Grimmond -

Bioinformatics (2011) 27(4):

580-581

Page 64: ricognizione del software disponibile per analisi primaria di dati ngs

62

Tabella 6: Lista dei software disponibili per il mapping di sequenze ad un riferimento conosciuto ed un insieme di possibili giunzioni per l’analisi.

Page 65: ricognizione del software disponibile per analisi primaria di dati ngs

63

7.4. SOFTWARE MAPPING PER IDENTIFICARE EVENTUALI SITI DI

SPLICING

Come già ampiamente descritto nei paragrafi precedenti, uno dei principali problemi dell’RNA-seq

è il bisogno di avere a disposizione dei software per l’analisi e . Il principale processo durante il

quale può avvenire la regolazione genica è la maturazione del pre-mRNA30

. Il pre-mRNA viene

rielaborato mediante rimozione degli introni e successivo montaggio degli esoni. Se da un pre-

mRNA vengono rimossi in maniera selettiva particolari esoni, si arriva alla sintesi di proteine

diverse. La maggior parte dei trascritti primari di mRNA contiene numerosi introni. Il meccanismo

di splicing riconosce i confini tra esoni e introni; ma che succederebbe se il pre-mRNA della β-

globina, contenente due introni, venisse tagliato dall’inizio del primo introne alla fine del secondo?

Verrebbero eliminati non solo i due introni, ma anche l’esone interposto. Ne risulterebbe una

proteina completamente nuova, senza le funzioni originarie della β-globina.

Uno splicing alternativo di questo tipo può costituire un meccanismo messo a punto appositamente

per generare una famiglia di proteine diverse a partire da un singolo gene. Nei mammiferi, per

esempio, esiste un unico tipo di pre-mRNA per la proteina strutturale chiamata tropomiosina, che

però viene tagliato in maniera differente in cinque tessuti distinti, per dare origine a cinque diversi

mRNA maturi. Questi vengono tradotti nelle cinque diverse forme di tropomiosina che si possono

trovare nel muscolo scheletrico, all'interno del muscolo liscio, nelle cellule del tessuto connettivo

(fibroblasti), in quelle del fegato e del cervello (Figura 6).

30

Maturazione dell’RNA: Per maggiori dettagli e informazioni consultare http://www.treccani.it/enciclopedia/rna-

apparati-per-la-maturazione-dell-rna_%28Enciclopedia-della-Scienza-e-della-Tecnica%29/# .

Page 66: ricognizione del software disponibile per analisi primaria di dati ngs

64

Figura 6: Lo splicing alternativo dà origine a diversi mRNA, e dunque a proteine diverse Nei mammiferi, la proteina

tropomiosina è codificata da un gene provvisto di 11 esoni. Il pre-mRNA della tropomiosina viene tagliato in modo

diverso nei diversi tessuti, dando origine alla produzione di cinque forme distinte della proteina. Figura estratta da

http://ebook.scuola.zanichelli.it/sadavabiologia/la-regolazione-durante-la-trascrizione/document-65# .

Prima che il genoma umano venisse sequenziato (nel 2001), si prevedeva di trovarvi un numero di

geni compreso tra 100 000 e 150 000. Fu davvero una sorpresa scoprire che invece erano solamente

24 000, molti meno degli mRNA prodotti! La maggior parte di questa differenza numerica deriva

dal meccanismo dello splicing alternativo. In effetti, indagini recenti hanno dimostrato che metà dei

geni umani va incontro a splicing alternativo. In pratica quindi, l’obiettivo dei software nella tabella

xxx è quello di ricercare dal mapping di sequenze ottenute mediante tecnologia NGS contro un

trascrittoma noto, siti di splicing alternativi a quelli già conosciuti.

Page 67: ricognizione del software disponibile per analisi primaria di dati ngs

65

SOFTWARE BREVE DESCRIZIONE TIPOLOGIA TECNOLOGIA LINGUAGGIO LICENZA SO BIBLIOGRAFIA

ABMapper

Maps RNA-Seq reads to target

genome considering possible

multiple mapping locations and

splice junctions

Genomics

Transcriptomics C++ - Perl GPLv3 Linux

1. Lou S, Ni B, Lo LY, Kwok-

Wing Tsui S, Chan TF, Leung

KS.. 2010. Bioinformatics

2. Lou SK, Li JW, Qin H, Yim

AK, Lo LY, Ni B, Leung KS,

Tsui SK, Chan TF.. 2011. BMC

Bioinformatics

Avadis NGS

Avadis NGS is a desktop software

platform for alignment, analysis,

visualization, and management of

data generated by next-generation

sequencing (NGS) platforms. It

supports workflows for RNA-Seq,

DNA-Seq, and ChIP-Seq analysis

and is designed with the biologist in

mind.

Toolkit Java - R Commercial Multipiattaforma

Page 68: ricognizione del software disponibile per analisi primaria di dati ngs

66

HMMSplicer

Here we introduce HMMSplicer, an

accurate and efficient algorithm for

discovering canonical and non-

canonical splice junctions in short

read datasets. HMMSplicer

identifies more splice junctions

than currently available algorithms

when tested on publicly available

A. thaliana, P. falciparum, and H.

sapiens datasets without a reduction

in specificity. HMMSplicer was

found to perform especially well in

compact genomes and on genes

with low expression levels,

alternative splice isoforms, or non-

canonical splice junctions. Because

HHMSplicer does not rely on pre-

built gene models, the products of

inexact splicing are also detected.

In addition, HMMSplicer provides

a score for every predicted junction

allowing the user to set a threshold

to tune false positive rates

depending on the needs of the

experiment. HMMSplicer is

implemented in Python. Code and

documentation are freely available

at the link below.

Python Open source Multipiattaforma

1. HMMSplicer: A Tool for

Efficient and Sensitive

Discovery of Known and Novel

Splice Junctions in RNA-Seq

Data Dimon MT, Sorber K,

Derisi JL - PLoS One 2010

Page 69: ricognizione del software disponibile per analisi primaria di dati ngs

67

MapSplice

The accurate mapping of reads that

span splice junctions is a critical

component of all analytic

techniques that work with RNA-seq

data. We introduce a second

generation splice detection

algorithm, MapSplice, whose focus

is high sensitivity and specificity in

the detection of splices as well as

CPU and memory efficiency.

RNA-Seq C++ GPL Linux - UNIX

1. MapSplice: Accurate

mapping of RNA-seq reads for

splice junction discovery - Kai

Wang; Darshan Singh; Zheng

Zeng; Stephen J. Coleman; Yan

Huang; Gleb L. Savich; Xiaping

He; Piotr Mieczkowski; Sara A.

Grimm; Charles M. Perou;

James N. MacLeod; Derek Y.

Chiang; Jan F. Prins; Jinze Liu

Nucleic Acids Research 2010;

doi: 10.1093/nar/gkq622

Page 70: ricognizione del software disponibile per analisi primaria di dati ngs

68

PASTA

PASTA is a complete pipeline for

the analysis of alternative splicing

using RNA-Sequencing data. The

first component of the pipeline,

described in the rest of this page,

implements a novel splice junction

detection algorithm based on

patterned subsequence alignments

and a detailed, species-specific

model of intronic context. The

method is highly sensitive, and is

able to reliably detect splice

junctions even at low sequencing

depths. The program is highly

configurable and easy to use. It is

distributed as a command-line tool

designed for inclusion in automated

RNA-Seq analysis pipelines in a

GNU/Linux environment.

RNA-Seq C Open source Linux

1. PASTA: splice junction

identification from RNA-

Sequencing data Tang S, Riva

A. BMC Bioinformatics. 2013;

14:116

Page 71: ricognizione del software disponibile per analisi primaria di dati ngs

69

SeqSaw

A package for mapping of spliced

reads and unbiased detection of

novel splice junctions from RNA-

seq data.

RNA-Seq C++ GPL Linux

1. Wang L, Wang X, Liang Y,

Zhang X.. 2011. Biochem

Biophys Res Commun.

SpliceMap

Detects splice junctions from

RNA-seq data. This method does

not depend on any existing

annotation of gene structures and is

capable of finding novel splice

junctions with high sensitivity and

specificity. It can handle long reads

(50–100 nt) and can exploit paired-

read information to improve

mapping accuracy.

RNA-Seq

Alignment Python - C++ Open source

Linux - Mac OS

X 64

1. KF Au, H Jiang, L Lin, Y

Xing, WH Wong. 2010. Nucleic

Acids Research

SplicingViewer

SplicingViewer is an integrated tool

developed to enable users to detect

the splice junctions, annotate

alternative splicing events, and

visualization of the patterns of

alternative splicing events.

RNA-Seq Java

GPL

Commercial

BioLicense

LGPL

BSD License

Linux - Mac OS

X - Windows

1. Detection, annotation and

visualization of alternative

splicing from RNA-Seq data

with SplicingViewer

Q Liu, C Chen, E Shen, F Zhao,

Z Sun, J Wu - Genomics, 2012 -

Elsevier

Page 72: ricognizione del software disponibile per analisi primaria di dati ngs

70

SplitSeek

De novo prediction of splice

junctions in short-read RNA-seq

data, suitable for detection of novel

splicing events and chimeric

transcripts.

RNA-Seq

Alignment Perl GPL

1. Ameur A, Wetterbom A,

Feuk L, Gyllensten U.. 2010.

Genome Biology

Supersplat

Using a genomic reference and

RNA-seq high-throughput

sequencing datasets, supersplat

empirically identifies potential

splice junctions at a rate of (~)11.4

million reads per hour.

RNA-Seq

Alignment C++

1. Bryant DW Jr, Shen R, Priest

HD, Wong WK, Mockler TC..

2010. Bioinformatics

TopHat

TopHat is a fast splice junction

mapper for RNA-Seq reads. It

aligns RNA-Seq reads to

mammalian-sized genomes using

the ultra high-throughput short read

aligner Bowtie, and then analyzes

the mapping results to identify

splice junctions between exons.

RNA-Seq

Alignment C++ Open source

Linux - Mac OS

X 64

1. TopHat: discovering splice

junctions with RNA-Seq

Cole Trapnell et al.

Bioinformatics (2009) 25:

1105–1111

Page 73: ricognizione del software disponibile per analisi primaria di dati ngs

71

TrueSight

TrueSight is a method which for the

first time combines RNA-seq read

mapping quality and coding

potential of genomic sequences into

a unified model. The model is

further utilized in a machine-

learning approach to precisely

identify SJs. Both simulations and

real data evaluations showed that

TrueSight achieved higher

sensitivity and specificity than

other methods.

RNA-Seq

Alignment C++ - Perl Open source Linux

1. TrueSight: a new algorithm

for splice junction detection

using RNA-seq - Yang Li,

Hongmei Li-Byarlay, Paul

Burns, Mark Borodovsky, Gene

E. Robinson and Jian Ma

Tabella 7: Lista dei software disponibili per il mapping di sequenze ad un riferimento conosciuto ed un insieme di possibili giunzioni per l’analisi.

Page 74: ricognizione del software disponibile per analisi primaria di dati ngs

72

8. DISCUSSIONI

L'emergere delle tecnologie HTS sta permettendo il sequenziamento dei genomi e trascrittomi ad un

costo notevolmente basso, e nello stesso tempo ha aperto un nuovo scenario nella conoscenza del

genotipo umano31

. Ad oggi, sono disponibili, come visto nei capitoli precedenti, una varietà di

strumenti software per l'analisi dei dati di sequenziamento di nuova generazione, che vanno da

software di allineamento di reads ad algoritmi per l'individuazione di varianti strutturali. Tuttavia,

anche se in tutte le sezioni di questo report si è discusso dei forti progressi compiuti negli ultimi

anni nell’analisi dei dati HTS, c'è ancora molto lavoro da fare. Innanzitutto, gli algoritmi per

l'analisi di reads ad alta profondità di coverage (DOC) dovrebbero essere migliorati per ottenere

maggiore risoluzione nell’identificazione di varianti strutturali di dimensioni inferiori a 1 KB. Al

momento, questo compito è stato affrontato utilizzando algoritmi di segmentazione già sviluppati

per i dati di array ad alta densità (aCGH). In secondo luogo, anche se diversi strumenti di assembly

sono stati adattati o sviluppati per la ricostruzione dell’intero genotipo umano da reads, questo

compito rimane un problema estremamente impegnativo. Tuttavia, le tecnologie HTS basate su

sequenziamento a singola molecola (SMS) assicurano di aumentare la lunghezza delle reads a

migliaia di coppie di basi32

che consentono il miglioramento delle prestazioni degli algoritmi di

assembly. Infine, vi è la necessità di nuovi algoritmi che permettono ai dati provenienti da

piattaforme diverse di combinarli in maniera tale da avere un grande impatto sul successo

complessivo di assembly de-novo33

,34

. Alla luce della capacità di in modo sistematico e determinare

il numero di copie in assoluto per qualsiasi segmento genomico , si prevede che le tecnologie HTS

andranno a sostituire le piattaforme basate su aCGH per la scoperta di nuove varianti strutturali.

Poiché queste piattaforme di sequenziamento diventano di uso più comune, vi è un crescente

bisogno di specialista di dati per estrarre informazioni biologiche dalle enormi quantità di dati

prodotti .

La finalità di questo report è stato dunque quello di presentare una panoramica esaustiva sui

software bioinformatici a supporto della tecnologia NGS per raggiungere gli obiettivi dell’attività

3.1. La maggior parte dei software individuati in questo report sono in grado di soddisfare i requisiti

dell’obiettivo prefissato per l’attività 3.1. In particolare la possibilità di applicare filtri sulla qualità

31

Alberto Magi, Matteo Benelli, Alessia Gozzini, Francesca Girolami, Francesca Torricelli and Maria Luisa Brandi,

Bioinformatics for Next Generation Sequencing Data, Genes 2010, 1, 294-307; 32

Eid, J.; Fehr, A.; Gray, J.; Luong, K.; Lyle, J.; Otto, G.; Peluso, P.; Rank, D.; Baybayan, P.; Bettman, B.; et al. Real-

time DNA sequencing from single polymerase molecules. Science 2009, 5910, 133-138; 33

Aury, J.; Cruaud, C.; Barbe, V.; Rogier, O.; Mangenot, S.; Samson, G.; Poulain, J.; Anthouard, V.; Scarpelli, C.;

Artiguenave, F.; et al. High quality draft sequences for prokaryotic genomes using a mix of new sequencing

technologies. BMC Genomics 2008, 9, 603; 34

Reinhardt, J.A.; Baltrus, D.A.; Nishimura, M.T.; Jeck, W.R.; Jones, C.D.; Dangl, J.L. De novo assembly using low-

coverage short read sequence data from the rice pathogen Pseudomonas syringae pv. oryzae. Genome Res. 2009, 19,

294–305.

Page 75: ricognizione del software disponibile per analisi primaria di dati ngs

73

delle basi sequenziate e tempi di esecuzione accettabili con adeguate risorse di calcolo. Ovviamente

è difficile effettuare un’analisi qualitativa massiva su tutti i software trovati perché ogni software

selezionato in una delle quattro tabelle, anche se hanno la stessa finalità (es. tutti quelli della Tabella

2 effetuano assembly de-novo) presentano caratteristiche diverse di struttura (es. diverso numero di

input, diversi algoritmi di assembly, diversi linguaggi di programmazione utilizzati, diversi sistemi

operativi di esecuzione, possibilità o meno di parallelizzazione). Di conseguenza, uno dei parametri

più importanti che ha pesato sulla scelta dei software elencati nelle diverse tabelle, è stato la

frequenza di utilizzo e il numero di riferimenti bibliografici segnalati dalla comunità scientifica che

lavora in questo ambito di ricerca. E’ di fatti vivo in questi ultimi anni, un forte dibattito in ambito

bioinformatico e biostatistico circa la definizione di standard per l’analisi degli algoritmi alla base

dei software di assembly/mapping di dati provenienti da tecnologie NGS. Infatti in letteratura non

esistono ad oggi molte pubblicazioni inerenti la comparazione e l’analisi di software per NGS.

Obiettivo e sfida dei prossimi anni è quello di sviluppare un sistema WEB-based e un workflow

standardizzato in grado di incorporare diversi software per assembly, visualizzazione e analisi su

larga scala di dati NGS di diverse tecnologie.