LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.

35
LID 2013 LID 2013 Bioinformatica Bioinformatica Giulio Pavesi Giulio Pavesi Dipartimento di BioScienze Dipartimento di BioScienze Università di Milano Università di Milano

Transcript of LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.

Page 1: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.

LID 2013LID 2013BioinformaticaBioinformatica

Giulio PavesiGiulio PavesiDipartimento di BioScienzeDipartimento di BioScienze

Università di MilanoUniversità di Milano

Page 2: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.

Programma (di massima)Programma (di massima)

Storia evolutiva: ortologhi e paraloghi, identificazione di domini conservati (parziale ripasso dall’anno precedente)

Struttura del gene: trascritti e splicing alternativi (parziale ripasso dall’anno precedente).

Espressione del gene: housekeeping o tessuto specifica, misurata attraverso metodi tradizionali (microarray) e RNA-Seq, con identificazione di isoforme tessuto, sviluppo e condizione-specifiche.

Preparazione di una validazione, se voglio validare la presenza di un particolare trascritto tramite PCR. Disegno di primer isoforma-specifici e loro test tramite e-PCR.

Page 3: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.

Programma (di massima)Programma (di massima)

Varianti: identificazione di SNPs e loro possible ruolo (in regione codificante:sinonime/non sinonime, introni/splicing alternativi, promotore)

Regolazione della trascrizione del gene: struttura della cromatina, modificazioni istoniche, legame di fattori di trascrizione in promotori ed enhancer.

Caratterizzazione di insiemi di geni, ovvero se prendo un gene e i suoi vicini di espressione (o altri sistemi di caratterizzazione, es. geni co-regolati con esso). Identificazione di categorie di gene ontology e pathways arricchiti.

Page 4: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.

StrumentiStrumenti

Page 5: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.

““Quaderno”Quaderno”

In ogni lezione vi verrà presentato come rispondere alle In ogni lezione vi verrà presentato come rispondere alle domande mostrate in precedenza utilizzando strumenti domande mostrate in precedenza utilizzando strumenti bioinformaticibioinformatici

Verranno utilizzati geni “di esempio”Verranno utilizzati geni “di esempio” Dovrete ripetere per conto vostro le procedure mostrate sul Dovrete ripetere per conto vostro le procedure mostrate sul

gene che vi è stato assegnato come compitogene che vi è stato assegnato come compito Dovrete descrivere sul “quaderno” le procedure utilizzate e i Dovrete descrivere sul “quaderno” le procedure utilizzate e i

risultati ottenuti (anche, possibilmente, discutendoli) - utile fare risultati ottenuti (anche, possibilmente, discutendoli) - utile fare “foto” (screen captures) dei diversi output ottenuti“foto” (screen captures) dei diversi output ottenuti

Esame: discutere il quaderno, le metodologie applicate e i Esame: discutere il quaderno, le metodologie applicate e i relativi risultati con il prof. (io)relativi risultati con il prof. (io)

Page 6: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.

Domanda 1Domanda 1

Struttura del gene: promotori, trascritti, e splicing alternativi (parziale ripasso dall’anno precedente).

Espressione del gene: housekeeping o tessuto specifica, misurata attraverso metodi tradizionali (microarray) e RNA-Seq, con identificazione di isoforme tessuto, sviluppo e condizione-specifiche.

Page 7: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.

Il “gene”Il “gene”

Le annotazioni “ufficiali” dei geni sono curate Le annotazioni “ufficiali” dei geni sono curate da appositi consorzi/enti/gruppi di ricerca, da appositi consorzi/enti/gruppi di ricerca, solitamente gli stessi che curano il solitamente gli stessi che curano il sequenziamento del genoma. Esempi:sequenziamento del genoma. Esempi: D.melanogaster: “Flybase”D.melanogaster: “Flybase” A.thaliana: “TAIR”A.thaliana: “TAIR” S.cerevisiae: “SGD“S.cerevisiae: “SGD“ Zebrafish: “ZGD”Zebrafish: “ZGD” Uomo e altri mammiferi: diverse annotazioniUomo e altri mammiferi: diverse annotazioni

Page 8: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.

Annotare i geniAnnotare i geni

Un gene viene annotato in una regione genomica che produce RNA - Un gene viene annotato in una regione genomica che produce RNA - non necessariamente codificantenon necessariamente codificante

L’annotazione viene compiuta “mappando” i trascritti sul genoma, e L’annotazione viene compiuta “mappando” i trascritti sul genoma, e identificando le regioni da cui i trascritti stessi provengonoidentificando le regioni da cui i trascritti stessi provengono

I trascritti utilizzati vengono “catalogati” ufficialmente dal consorzio I trascritti utilizzati vengono “catalogati” ufficialmente dal consorzio che effettua l’annotazione, con il gene corrispondente cui sono che effettua l’annotazione, con il gene corrispondente cui sono attribuitiattribuiti

Le annotazioni sono (per lo meno dichiarate essere) “curate Le annotazioni sono (per lo meno dichiarate essere) “curate manualmente”, ovvero vengono valutate, ad esempio:manualmente”, ovvero vengono valutate, ad esempio: L’”affidabilità” dei trascritti utilizzati (completezza, assenza di errori di L’”affidabilità” dei trascritti utilizzati (completezza, assenza di errori di

sequenziamento)sequenziamento) L’”affidabilità” della mappatura/attribuzione al geneL’”affidabilità” della mappatura/attribuzione al gene La presenza o meno di una regione codificante “affidabile” e la relativa La presenza o meno di una regione codificante “affidabile” e la relativa

proteina codificataproteina codificata

Page 9: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.

Annotare i geniAnnotare i geni

Per alcuni genomi (es. uomo) sono disponibili diverse Per alcuni genomi (es. uomo) sono disponibili diverse annotazioni che fondamentalmente differiscono per i annotazioni che fondamentalmente differiscono per i trascritti utilizzatitrascritti utilizzati

Annotazioni disponibili per l’uomo sul browser UCSC:Annotazioni disponibili per l’uomo sul browser UCSC: Geni “RefSeq” (curati da NCBI) - pochi trascritti, ma buoniGeni “RefSeq” (curati da NCBI) - pochi trascritti, ma buoni Geni “UCSC” - (curati da UCSC) più trascritti per gene, più splicing Geni “UCSC” - (curati da UCSC) più trascritti per gene, più splicing

alternativi - meno “buoni”alternativi - meno “buoni” Geni “ENSEMBL” (curati da EBI) - più trascritti ancora - meno buoni - Geni “ENSEMBL” (curati da EBI) - più trascritti ancora - meno buoni -

include trascritti parzialiinclude trascritti parziali Geni “Gencode” (curati da ENCODE) - simili a ENSEMBLGeni “Gencode” (curati da ENCODE) - simili a ENSEMBL

Alcune annotazioni includono solo geni “protein coding”, Alcune annotazioni includono solo geni “protein coding”, altre includono anche RNA non codificanti (es. microRNA, ma altre includono anche RNA non codificanti (es. microRNA, ma anche tRNA e rRNA)anche tRNA e rRNA)

Page 10: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.

Quale annotazione?Quale annotazione?

...tra le varie annotazioni disponibili (se più di una) ...tra le varie annotazioni disponibili (se più di una) quale usare?quale usare?

...questione di gusti, e dipende da quello che si deve ...questione di gusti, e dipende da quello che si deve farefare

Annotazioni con pochi trascritti ma buoni (es. RefSeq) Annotazioni con pochi trascritti ma buoni (es. RefSeq) vanno benissimo per studiare le “caratteristiche vanno benissimo per studiare le “caratteristiche generali” del gene (es. ipotesi sulla funzione della generali” del gene (es. ipotesi sulla funzione della proteina codificata - posso usare quella annotata sul proteina codificata - posso usare quella annotata sul trascritto RefSeq)trascritto RefSeq)

Annotazioni con più trascritti sono utili es. per studiare Annotazioni con più trascritti sono utili es. per studiare splicing alternativi e isoforme del genesplicing alternativi e isoforme del gene

Page 11: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.

Annotazione “next-generation”Annotazione “next-generation”

La “bontà” o meno di un’annotazione dipende dalla La “bontà” o meno di un’annotazione dipende dalla disponibilità di trascrittidisponibilità di trascritti

Fino a pochi anni fa, le annotazioni venivano compiute Fino a pochi anni fa, le annotazioni venivano compiute a partire dalle sequenze disponibili (es. database a partire dalle sequenze disponibili (es. database “GenBank - Nucleotide” NCBI) prodotte da laboratori di “GenBank - Nucleotide” NCBI) prodotte da laboratori di tutto il mondotutto il mondo

““Campionamento” del trascrittoma “biased”, ovvero Campionamento” del trascrittoma “biased”, ovvero per i geni più studiati (es. TP53, DMD in uomo) erano per i geni più studiati (es. TP53, DMD in uomo) erano disponibili molti più trascritti di geni poco studiati o disponibili molti più trascritti di geni poco studiati o poco caratterizzatipoco caratterizzati

Page 12: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.

Annotazione “next-generation”Annotazione “next-generation”

Con l’introduzione delle tecniche di sequenziamento Con l’introduzione delle tecniche di sequenziamento dette “next-generation sequencing” la possibilità di dette “next-generation sequencing” la possibilità di sequenziare - a costi relativamente contenuti - interi sequenziare - a costi relativamente contenuti - interi genomi o trascrittomi è diventata accessibile anche a genomi o trascrittomi è diventata accessibile anche a laboratori di dimensione/disponibilità economica laboratori di dimensione/disponibilità economica piccolo/mediapiccolo/media

Con “RNA-Seq” si intende l’applicazione di un metodo Con “RNA-Seq” si intende l’applicazione di un metodo di sequenziamento “next-generation” al di sequenziamento “next-generation” al sequenziamento di un campione di RNA estratto da un sequenziamento di un campione di RNA estratto da un particolare campione/linea cellulare/ecc. ecc.particolare campione/linea cellulare/ecc. ecc.

Page 13: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.
Page 14: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.
Page 15: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.
Page 16: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.

RNA (cDNA)

> 1000 bp

Sanger sequencing (700 bp)

Page 17: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.

RNA (cDNA)

> 1000 bp

50 bp 50 bp50 bp 50 bp

50 bp 50 bp 50 bp

50 bp 50 bp50 bp 50 bp

Page 18: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.
Page 19: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.

RNA-Seq per misurare RNA-Seq per misurare l’”espressione”l’”espressione” Il campione originale di RNA è stato Il campione originale di RNA è stato

frammentatoframmentato I frammenti (reads) effettivamente sequenziati I frammenti (reads) effettivamente sequenziati

vengono selezionati a caso dal sequenziatorevengono selezionati a caso dal sequenziatore La probabilità che un RNA abbia uno dei suoi La probabilità che un RNA abbia uno dei suoi

frammenti selezionati e sequenziati è frammenti selezionati e sequenziati è proporzionale all’abbondanza dell’RNA stesso proporzionale all’abbondanza dell’RNA stesso nel campione inizialenel campione iniziale

Il “livello di trascritto” di un gene è quindi Il “livello di trascritto” di un gene è quindi proporzionale al numero di frammenti (reads) proporzionale al numero di frammenti (reads) assegnati ai suoi trascritti assegnati ai suoi trascritti

Page 20: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.

RNA-Seq per misurare RNA-Seq per misurare l’”espressione”l’”espressione” Poiché i frammenti (read) possono essere Poiché i frammenti (read) possono essere

assegnati ai singoli esoni di un gene, è possibile assegnati ai singoli esoni di un gene, è possibile anche misurare il livello di trascritto a livello di anche misurare il livello di trascritto a livello di singolo esonesingolo esone

Ovvero, è possibile stimare il livello di Ovvero, è possibile stimare il livello di “espressione” per ogni trascritto “espressione” per ogni trascritto alternativo/isoforma del genealternativo/isoforma del gene

1 2 3

10 10 10

Il livello di trascritto dei 3 esoni è uniforme (10-10-10), quindipossiamo ipotizzare che il trascritto originale sia costituito dalla

giunzione di 1-2-3

Page 21: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.

RNA-Seq per misurare RNA-Seq per misurare l’”espressione”l’”espressione” Poiché i frammenti (read) possono essere Poiché i frammenti (read) possono essere

assegnati ai singoli esoni di un gene, è possibile assegnati ai singoli esoni di un gene, è possibile anche misurare il livello di trascritto a livello di anche misurare il livello di trascritto a livello di singolo esonesingolo esone

Ovvero, è possibile stimare il livello di Ovvero, è possibile stimare il livello di “espressione” per ogni trascritto “espressione” per ogni trascritto alternativo/isoforma del genealternativo/isoforma del gene

1 2 3

10 3 10

Il livello di trascritto dei 3 esoni NON è uniforme (10-3-10). Gli esoni 1-3 (costitutivi) hanno livello 10 L’esone 2 (cassetta) ha livello 3

Ipotesi: l’esone 2 è incluso nel 30% dei trascritti maturi, e quindi:

Page 22: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.

RNA-Seq per identificare RNA-Seq per identificare splicing alternativisplicing alternativi

Sappiamo che l’esone 2 è un potenziale esone cassetta. Sappiamo che l’esone 2 è un potenziale esone cassetta. Viene incluso o meno nei trascritti maturi nella condizione Viene incluso o meno nei trascritti maturi nella condizione che sto studiando?che sto studiando?

Potenzialmente sì (ci sono alcuni read che mappano Potenzialmente sì (ci sono alcuni read che mappano sull’esone due - come avevamo visto nell’esempio sull’esone due - come avevamo visto nell’esempio precedente)precedente)

Come ulteriore validazione è anche possibile:Come ulteriore validazione è anche possibile:

1 2 3

1 2 3

10 3 10

Page 23: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.

RNA-Seq per identificare RNA-Seq per identificare splicing alternativisplicing alternativi

Se l’esone 2 è incluso, allora deve essere “unito” all’esone 1 (al 5’) e Se l’esone 2 è incluso, allora deve essere “unito” all’esone 1 (al 5’) e all’esone 3 (al 3’)all’esone 3 (al 3’)

Quindi, lo splicing predetto viene “confermato” se troviamo read che Quindi, lo splicing predetto viene “confermato” se troviamo read che stanno “a cavallo” di due esoni. Quelli verdi confermano la “giunzione” stanno “a cavallo” di due esoni. Quelli verdi confermano la “giunzione” tra esone 1-2 e esone 2-3; quello rosso mostra anche la giunzione tra esone 1-2 e esone 2-3; quello rosso mostra anche la giunzione alternativa 1-3 che corrisponde all’excisione dell’esone 2alternativa 1-3 che corrisponde all’excisione dell’esone 2

1 2 3

1 2 3

Page 24: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.

RNA-Seq per misurare RNA-Seq per misurare l’”espressione”l’”espressione” Poiché i frammenti (read) possono essere Poiché i frammenti (read) possono essere

assegnati ai singoli esoni di un gene, è possibile assegnati ai singoli esoni di un gene, è possibile anche misurare il livello di trascritto a livello di anche misurare il livello di trascritto a livello di singolo esonesingolo esone

Ovvero, è possibile stimare il livello di Ovvero, è possibile stimare il livello di “espressione” per ogni trascritto “espressione” per ogni trascritto alternativo/isoforma del genealternativo/isoforma del gene

1 3

Il livello di trascritto dei 3 esoni NON è uniforme (10-3-10). Gli esoni 1-3 (costitutivi) hanno livello 10 L’esone 2 (cassetta) ha livello 3

Ipotesi: l’esone 2 è incluso nel 30% dei trascritti maturi.

Livello stimato: 3

1 2 3 Livello stimato: 7

Page 25: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.

““Read Mapping” in RNA-SeqRead Mapping” in RNA-Seq

mRNA

Reads

5’ 3’

5’ 3’

Page 26: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.

RNA-Seq vs. ArraysRNA-Seq vs. Arrays

5’ 3’

Affy probe

Cassette exon

A traditional “Chip”might have probes

designed on constitutive exonsImpossible to tell

whether the middle exon is spliced or not

“Tiling” arrays and “exon arrays” have been introduced to overcome this problem

Page 27: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.

RNA-SeqRNA-Seq

5’ 3’Cassette exon spliced out

5’ 3’

Cassette exon not spliced out

Page 28: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.

RNA-SeqRNA-Seq

5’ 3’Cassette exon non incluso

5’ 3’

Cassette exon incluso

Page 29: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.

RNA-Seq: detecting KNOWN RNA-Seq: detecting KNOWN splicingssplicings

5’ 3’

Build an “exon junction” library from existing transcript annotations (e.g. joining Build an “exon junction” library from existing transcript annotations (e.g. joining the sequence fragments in red), joining the 3’ with the 5’ of neighboring exonsthe sequence fragments in red), joining the 3’ with the 5’ of neighboring exons

Each “exon junction” should be unique and of the same length of the Each “exon junction” should be unique and of the same length of the sequenced readssequenced reads

Map reads that were “unmapped” (on the genome) on the junction libraryMap reads that were “unmapped” (on the genome) on the junction library

A B C D

A-BC-DA-D

Page 30: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.

RNA-Seq: trovare NUOVI splicingRNA-Seq: trovare NUOVI splicing

5’ 3’

What if:What if: We have reads mapping within an annotated intron?We have reads mapping within an annotated intron?

A

??

D

A-D

Page 31: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.

RNA-Seq: detecting NOVEL RNA-Seq: detecting NOVEL splicingssplicings

5’ 3’

Define possible exon boundaries looking for canonical Define possible exon boundaries looking for canonical splice sites and see whether you can join it to annotated splice sites and see whether you can join it to annotated exons by splitting unmapped sequence readsexons by splitting unmapped sequence reads

GT AG GT AG

Page 32: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.

RNA-Seq: using PAIRED-RNA-Seq: using PAIRED-END sequencesEND sequences

5’ 3’

5’ 3’

200 bp

Page 33: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.

RNA-Seq: using PAIRED-RNA-Seq: using PAIRED-END sequencesEND sequences

5’ 3’

????

Easier to detect novel exons andjoin them to existing annotations

Novel exon

Page 34: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.

RNA-Seq: using PAIRED-RNA-Seq: using PAIRED-END sequencesEND sequences

5’ 3’

????

Easier (computationally) to assign to their locationthe paired unmapped reads

Page 35: LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.