Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione...

Il vostro progetto

Analisi di dati di sequenziamento del trascrittoma (RNA-Seq):

1.  Analisi di qualità 2.  Mappatura sul genoma 3.  Calcolo dell’espressione 4.  Test di espressione differenziale 5.  Visualizzazione e interpretazione 6.  Analisi funzionale

Ricostruzione del trascrittoma

Sequencing reads

Il genoma di riferimento non è disponibile

Il genoma di riferimento è disponibile

Le annotazioni sono disponibili

Le annotazioni non sono disponibili, oppure si vogliono cercare trascritti non noti

Assemblaggio de novo del

trascrittoma

Ricostruzione guidata del trascrittoma

Ricostruzione non guidata del trascrittoma

Creazione dell’indice Sequenza genomica (FASTA)

Sequencing reads (FASTQ)

Annotazioni (GTF)

Allineamento delle reads

Ricostruzione dei trascritti

Bowtie2-build

Bowtie2

TopHat

Dati Passaggi Software

Il vostro progetto

Il vostro progetto

Ricostruzione dei trascritti TopHat

Calcolo dell’espressione Cufflinks

Analisi del trascrittoma

6

Splicing alternativo

Date le isoforme codificate da un gene e le reads mappate su ogni esone:

Stimare i valori di x che massimizzino la

verosimiglianza delle osservazioni n

Splicing alternativo

Cufflinks

http://cufflinks.cbcb.umd.edu/

Cufflinks

Cufflinks

Il numero di reads mappate su un gene è proporzionale al numero di RNA trascritti da quel gene nel campione Ma, a parità di espressione, cioè di numero di molecole di RNA prodotte, un gene che produce trascritti più corti darà luogo a meno reads rispetto a uno che produce trascritti più lunghi. Vicercersa, due geni che producono un uguale numero di reads possono avere diversa espressione se la loro dimensione è diversa Quindi, una stima più accurata dell’espressione deve tenere conto della lunghezza dei trascritti

C = numero di reads mappate sugli esoni di un gene N = numero totale di reads prodotte dall’esperimento L = Lunghezza totale degli esoni del gene

FPKM =109 ! CNL

Unità di misura dell’espressione genica in esperimenti di sequenziamento: FPKM: Fragments Per Kilobase of exon model per Million mapped fragments

Cufflinks

Cufflinks è un pacchetto contenente diversi moduli:

Cufflinks: Calcolo dell’espressione Assemblaggio de novo dei trascritti

Cuffcompare: Confronto del trascrittoma (de novo/annotazione)

Cuffdiff: Test di espressione differenziale

Cuffmerge: Fusione di trascrittomi ottenuti da Cufflinks in diverse condizioni

Cufflinks

Genome Browser: E’ un applicazione grafica che permette la visualizzazione di sequenze genomiche e delle loro annotazioni Permette tra l’altro di: -  Scorrere lungo il genoma -  Cambiare il livello di zoom, dall’intero cromosoma alle

singole basi -  Visualizzare annotazioni come geni, sequenze regolative,

poliformismi, conservazione evolutiva, ed altro -  Visualizzare i risultati di esperimenti di sequenziamento,

fino alle singole reads mappate sulle sequenze genomiche, caricando un file in formato bam (ad es. l’output di TopHat ottenuto come visto la scorsa volta)

Genome Browsers

https://www.broadinstitute.org/igv/home

Il genome browser IGV

Caricare il file accepted_hits.bam

L’indice del file bam

Cufflinks

Come si lancia: Cufflinks [opzioni] <file.bam> Opzioni di cufflinks: -p numero di threads -o cartella dell’output -G file in formato GTF con le annotazioni -u correzione per le reads multiple

Cufflinks

Cufflinks

File genes.fpkm_tracking

Cufflinks


0 50000 100000 150000 200000 250000 300000 350000

0.00

0.05

0.10

0.15

0.20

FPKM

Density

Cufflinks


-10 -5 0 5 10 15 20

0.000

0.005

0.010

0.015

0.020

0.025

0.030

0.035

log2(FPKM)

Density

Cufflinks

File isoforms.fpkm_tracking

Cufflinks

File isoforms.fpkm_tracking

Nomenclatura di Ensembl: ENSG00000####### Codice identificativo del gene ENST00000####### Identificativo del trascritto ENSP00000###### Identificativo della proteina ENSE00000###### Identificativo dell’esone

0

100

200

300

400

500

600

700

800

ENST00000338370 ENST00000338338 ENST00000321751 ENST00000378853 ENST00000489799 ENST00000496905

Cufflinks

Gene AURKAIP1 (Aurora kinase A1)

6 isoforme di splicing alterna=vo

Lezione 4

Assemblaggio del genoma

Gli algoritmi OLC per assemblaggio di sequenze WGS non sono adatti per reads corte: - L'overlap graph (un nodo per read) diventa estremamente grosso e pesante da calcolare; non è più possibile trovare un percorso Hamiltoniano in tempi ragionevoli; - La piccola dimensione delle reads produce molte connessioni ambigue nel grafo; - Molti algoritmi richiedono un overlap minimo che è comparabile se non superiore alla lunghezza di molte reads ottenute per NGS; - Il grande numero di reads + overlap corti + alta frequenza di errori di sequenza fanno si che l'approccio tradizionale overlap - layout – consensus diventi inappropriato; - Si usa un approccio basato sulla ricerca di un percorso euleriano (cioè che visiti tutti gli archi una volta), che è molto più semplice da calcolare. Quindi le reads non sono più assegnate ai nodi, ma agli archi.

Assemblaggio de novo di genomi da NGS

Grafo di de Bruijn

L'approccio più comunemente usato per assemblatori de novo per NGS utilizza i grafi di de Bruijn, che sono normalmente utilizzati per rappresentazione di stringhe; - Il loro utilizzo è stato introdotto da Pevzner (2001) per l'assemblatore EULER;

Per costruire un grafo di de Bruijn: - tutte le reads sono divise in segmenti sovrapposti di lunghezza k (k-meri); - invece di assegnare un nodo ad ogni k-mero, ai k-meri sono assegnati archi creando un arco diretto fra due nodi a e b se a (tolta la prima base) è prefisso di b e b (tolta l'ultima base) è suffisso di a (ad es. a=acgtctgact e b=cgtctgactg.

Grafo di de Bruijn

[Schatz et al., 2010]

Grafo di de Bruijn

Nel grafo di de Bruijn graph si rappresentano tutti i prefissi e suffissi dei k-meri come nodi e si disegnano archi che rappresentano k-meri aventi particolari prefissi e suffissi. Ad esempio, l’arco (k-mero) ATG ha prefisso (nodo uscente) AT e suffisso (nodo entrante) TG.

K=4 GACC

Grafo di de Bruijn

[Compeau et al., 2011]

Grafo di de Bruijn

Un percorso in un grafo che passa per ogni arco esattamente una volta è detto percorso Euleriano. Il problema dei sette ponti di Königsberg è il primo problema di ricerca di un percorso euleriano in un grafo, risolto da Eulero nel 1735. Questa data segna la nascita della teoria dei grafi.


A

B

CD

Grafo di de Bruijn

Vantaggi: - Non c'è bisgno di allineare ogni coppia di reads; - I percorsi Euleriani sono più semplici da trovare rispetto ai percorsi Hamiltoniani (anche se ci possono essere diversi percorsi Euleriani in un grafo altrettanto buoni); - Errori di sequenziamento e sequenze ripetute causano la formazione di ramificazioni o cicli nel grafo, permettendone il riconoscimento; - La scelta del valore di k è cruciale:

k-meri corti → incrementa la connettività → aumenta le regioni ambigue

k-meri lunghi → incrementa la specificità → diminuisce la connettività

Grafo di de Bruijn


ATGCATGC -> ATG TGC GCA CAT ATG TGC

AT

TG GC

CA

ATGCAT

La presenza di k-meri che si ripetono nella sequenza può portare a percorsi Euleriani più corti che non ricostruiscono bene la stringa (cioè il genoma) di partenza

Grafo di de Bruijn

Spesso un percorso Euleriano non è possibile. Si cerca allora il percorso che visiti ogni arco almeno una volta (problema del postino cinese); archi attraversati più volte sono indizio di ripetizioni;


Grafo di de Bruijn


[Pop, 2009]

Grafo di de Bruijn

Reads

Scomponendo le reads in k-meri è possibile che il percorso scelto per la costruzione del contig non sia coerente con la sequenza completa di un sottoinsieme di reads.

Grafo di de Bruijn

[Zerbino, 2009]

Rimozione degli errori: Si possono rimuovere potenziali errori basandosi su caratteristiche topologiche del grafo:

Grafo di de Bruijn

[Zerbino, 2009]

1. rimozione delle punte (tips) l  Tip: catena di nodi disconnessa ad un'estremità l  Si usano due criteri:

l  lunghezza (si rimuove la tip se < 2k bp) l  ci sono altre catene più lunghe originanti dal nodo di partenza

della tip

Grafo di de Bruijn

[Zerbino, 2009]

2. rimozione delle bolle (bubbles) l  Bubble: due percorsi che iniziano e finiscono nello stesso nodo l  Sono causate da errori o SNPs l  Si rimuovono confrontando (allineando) le sequenze definite dai

due percorsi e unendole (se sufficientemente simili)

Grafo di de Bruijn

[Zerbino, 2009]

3. rimozione delle connessioni spurie l  connessioni a basso coverage sono rimosse l  sono causate da erorori di sequenziamento che non generano

bubbles o tips

1. Sequenziamento

4. Rimozione degli errori

[Flicek & Birney, 2009]

Grafo di de Bruijn

2. Construzione del grafo di de Bruijn

3. Semplificazione del grafo

Assemblaggio de novo di genomi da NGS

E' possibile generare sequenze complete di genomi utilizzando solo reads corte da NGS, anche per organismi complessi; Si possono creare contigs di buona qualità ad alto coverage, ma rimangono molti gaps (principalmente perchè è più difficile generare paired reads); Diverse piattaforme hanno diversi limiti; approcci ibridi (ad esempio 454 per read lunghe e paired reads a basso coverage, più Illumina per alto coverage) hanno avuto successo (ad esempio il genoma di tacchino); Oppure si può combinare il sequenziamento di Sanger con il NGS (ad esempio il geoma della vite).

•  Le tecnologie NGS sono invece molto adatte per risequenziare genomi gia noti;

•  Importante per identificare differenze fra individui, popolazioni, ceppi, tipi cellulari, tessuti in condizioni patologiche, etc.;

•  Si usa la sequenza nota del genoma come riferimento per mappare le reads;

Ri-sequenziamento

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

8 10 12 14 16 18 20

Length of K-mer Reads (bp)

% o

f Pai

red

K-m

ers

with

Uni

quel

y A

ssig

nabl

e Lo

catio

n

E.COLIHUMAN

Ri-sequenziamento

[Jay Shendure]

La scarsa lunghezza delle reads non influisce negativamente sul risequenziamento

Sequenziamento del genoma umano

2012: 5K$, a few days"2009: Illumina,

Helicos"40-50K$!

Year

Lo

g1

0(p

ric

e)

2010!2005!2000!

10!

8!

6!

4!

2!2013: 100$, <24 hrs?"

2008: ABI SOLiD"60K$, 2 weeks!

2001: Celera"100M$, 3 years!

2001: Human Genome Project"3G$, 11 years!

2007: 454"1M$, 3 months!

Banche dati genomiche

Ho sequenziato e assemblato un genoma. E ora? 1.  Depositare le

sequenze assemblate in GenBank




2.  Depositare le reads utilizzate in SRA (Short read archive)




2.  Depositare le reads utilizzate in SRA (Short Read Archive)

3.  Annotare il genoma (ad es. richiedendo le pipelines di Ensembl)

Entrez Genome

http://genomereference.org

The Genome Reference Consortium (GRC)

111 Fix PATCHES: Cambiamenti alla sequenza

71 Novel PATCHES: Sequenze aggiuntive

(>5 Mb di sequenze sostituite)

(>800K di nuova sequenza)


Gaps


GOLD (Genomes Online Database)

Ad oggi 26268 genomi sono inclusi in GOLD


20138 Incompleti 4327 Completi

2472 Finiti 1855 Draft Permanente

183 Eucarioti 3957 Batteri 187 Archea


JGI: Joint Genome Institute; JCVI: J. Craig Venter Institute; Broad: Broad Institute; Univ of Maryland–IGS: University of Maryland, Institute for Genome Sciences; WashU: Washington University; Sanger: the Wellcome Trust Sanger Institute; BCM-HGSC: Baylor College of Medicine, Human Genome Sequencing Center; WORLD, altri centri di sequenziamento genomico, laboratori indipendenti

Genomics Session

Annotazione del genoma

•  Ottenere la sequenza di un genoma è solo il primo passo verso la comprensione di una ampia gamma di processi biologici

•  Ad esempio ci si può chiedere:

–  Cosa è trascritto?

–  Quali proteine si legano al DNA genomico, e dove?

–  Come è regolato il genoma (ad es. cosa è metilato)?

•  In altre parole, il genoma è un oggetto molto

grande e complesso, come funziona?

•  L’annotazione del genoma consiste nell’assegnare ad ogni nucleotide del genoma un possibile ruolo. Principalmente (ma non solo) riguarda l'annotazione dei geni.


Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione...

Documents

Transcript of Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione4_2014.pdf · dell’espressione...