LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.
-
Upload
tino-aiello -
Category
Documents
-
view
226 -
download
0
Transcript of LID 2013 Bioinformatica Giulio Pavesi Dipartimento di BioScienze Università di Milano.
LID 2013LID 2013BioinformaticaBioinformatica
Giulio PavesiGiulio PavesiDipartimento di BioScienzeDipartimento di BioScienze
Università di MilanoUniversità di Milano
Programma (di massima)Programma (di massima)
Storia evolutiva: ortologhi e paraloghi, identificazione di domini conservati (parziale ripasso dall’anno precedente)
Struttura del gene: trascritti e splicing alternativi (parziale ripasso dall’anno precedente).
Espressione del gene: housekeeping o tessuto specifica, misurata attraverso metodi tradizionali (microarray) e RNA-Seq, con identificazione di isoforme tessuto, sviluppo e condizione-specifiche.
Preparazione di una validazione, se voglio validare la presenza di un particolare trascritto tramite PCR. Disegno di primer isoforma-specifici e loro test tramite e-PCR.
Programma (di massima)Programma (di massima)
Varianti: identificazione di SNPs e loro possible ruolo (in regione codificante:sinonime/non sinonime, introni/splicing alternativi, promotore)
Regolazione della trascrizione del gene: struttura della cromatina, modificazioni istoniche, legame di fattori di trascrizione in promotori ed enhancer.
Caratterizzazione di insiemi di geni, ovvero se prendo un gene e i suoi vicini di espressione (o altri sistemi di caratterizzazione, es. geni co-regolati con esso). Identificazione di categorie di gene ontology e pathways arricchiti.
StrumentiStrumenti
““Quaderno”Quaderno”
In ogni lezione vi verrà presentato come rispondere alle In ogni lezione vi verrà presentato come rispondere alle domande mostrate in precedenza utilizzando strumenti domande mostrate in precedenza utilizzando strumenti bioinformaticibioinformatici
Verranno utilizzati geni “di esempio”Verranno utilizzati geni “di esempio” Dovrete ripetere per conto vostro le procedure mostrate sul Dovrete ripetere per conto vostro le procedure mostrate sul
gene che vi è stato assegnato come compitogene che vi è stato assegnato come compito Dovrete descrivere sul “quaderno” le procedure utilizzate e i Dovrete descrivere sul “quaderno” le procedure utilizzate e i
risultati ottenuti (anche, possibilmente, discutendoli) - utile fare risultati ottenuti (anche, possibilmente, discutendoli) - utile fare “foto” (screen captures) dei diversi output ottenuti“foto” (screen captures) dei diversi output ottenuti
Esame: discutere il quaderno, le metodologie applicate e i Esame: discutere il quaderno, le metodologie applicate e i relativi risultati con il prof. (io)relativi risultati con il prof. (io)
Domanda 1Domanda 1
Struttura del gene: promotori, trascritti, e splicing alternativi (parziale ripasso dall’anno precedente).
Espressione del gene: housekeeping o tessuto specifica, misurata attraverso metodi tradizionali (microarray) e RNA-Seq, con identificazione di isoforme tessuto, sviluppo e condizione-specifiche.
Il “gene”Il “gene”
Le annotazioni “ufficiali” dei geni sono curate Le annotazioni “ufficiali” dei geni sono curate da appositi consorzi/enti/gruppi di ricerca, da appositi consorzi/enti/gruppi di ricerca, solitamente gli stessi che curano il solitamente gli stessi che curano il sequenziamento del genoma. Esempi:sequenziamento del genoma. Esempi: D.melanogaster: “Flybase”D.melanogaster: “Flybase” A.thaliana: “TAIR”A.thaliana: “TAIR” S.cerevisiae: “SGD“S.cerevisiae: “SGD“ Zebrafish: “ZGD”Zebrafish: “ZGD” Uomo e altri mammiferi: diverse annotazioniUomo e altri mammiferi: diverse annotazioni
Annotare i geniAnnotare i geni
Un gene viene annotato in una regione genomica che produce RNA - Un gene viene annotato in una regione genomica che produce RNA - non necessariamente codificantenon necessariamente codificante
L’annotazione viene compiuta “mappando” i trascritti sul genoma, e L’annotazione viene compiuta “mappando” i trascritti sul genoma, e identificando le regioni da cui i trascritti stessi provengonoidentificando le regioni da cui i trascritti stessi provengono
I trascritti utilizzati vengono “catalogati” ufficialmente dal consorzio I trascritti utilizzati vengono “catalogati” ufficialmente dal consorzio che effettua l’annotazione, con il gene corrispondente cui sono che effettua l’annotazione, con il gene corrispondente cui sono attribuitiattribuiti
Le annotazioni sono (per lo meno dichiarate essere) “curate Le annotazioni sono (per lo meno dichiarate essere) “curate manualmente”, ovvero vengono valutate, ad esempio:manualmente”, ovvero vengono valutate, ad esempio: L’”affidabilità” dei trascritti utilizzati (completezza, assenza di errori di L’”affidabilità” dei trascritti utilizzati (completezza, assenza di errori di
sequenziamento)sequenziamento) L’”affidabilità” della mappatura/attribuzione al geneL’”affidabilità” della mappatura/attribuzione al gene La presenza o meno di una regione codificante “affidabile” e la relativa La presenza o meno di una regione codificante “affidabile” e la relativa
proteina codificataproteina codificata
Annotare i geniAnnotare i geni
Per alcuni genomi (es. uomo) sono disponibili diverse Per alcuni genomi (es. uomo) sono disponibili diverse annotazioni che fondamentalmente differiscono per i annotazioni che fondamentalmente differiscono per i trascritti utilizzatitrascritti utilizzati
Annotazioni disponibili per l’uomo sul browser UCSC:Annotazioni disponibili per l’uomo sul browser UCSC: Geni “RefSeq” (curati da NCBI) - pochi trascritti, ma buoniGeni “RefSeq” (curati da NCBI) - pochi trascritti, ma buoni Geni “UCSC” - (curati da UCSC) più trascritti per gene, più splicing Geni “UCSC” - (curati da UCSC) più trascritti per gene, più splicing
alternativi - meno “buoni”alternativi - meno “buoni” Geni “ENSEMBL” (curati da EBI) - più trascritti ancora - meno buoni - Geni “ENSEMBL” (curati da EBI) - più trascritti ancora - meno buoni -
include trascritti parzialiinclude trascritti parziali Geni “Gencode” (curati da ENCODE) - simili a ENSEMBLGeni “Gencode” (curati da ENCODE) - simili a ENSEMBL
Alcune annotazioni includono solo geni “protein coding”, Alcune annotazioni includono solo geni “protein coding”, altre includono anche RNA non codificanti (es. microRNA, ma altre includono anche RNA non codificanti (es. microRNA, ma anche tRNA e rRNA)anche tRNA e rRNA)
Quale annotazione?Quale annotazione?
...tra le varie annotazioni disponibili (se più di una) ...tra le varie annotazioni disponibili (se più di una) quale usare?quale usare?
...questione di gusti, e dipende da quello che si deve ...questione di gusti, e dipende da quello che si deve farefare
Annotazioni con pochi trascritti ma buoni (es. RefSeq) Annotazioni con pochi trascritti ma buoni (es. RefSeq) vanno benissimo per studiare le “caratteristiche vanno benissimo per studiare le “caratteristiche generali” del gene (es. ipotesi sulla funzione della generali” del gene (es. ipotesi sulla funzione della proteina codificata - posso usare quella annotata sul proteina codificata - posso usare quella annotata sul trascritto RefSeq)trascritto RefSeq)
Annotazioni con più trascritti sono utili es. per studiare Annotazioni con più trascritti sono utili es. per studiare splicing alternativi e isoforme del genesplicing alternativi e isoforme del gene
Annotazione “next-generation”Annotazione “next-generation”
La “bontà” o meno di un’annotazione dipende dalla La “bontà” o meno di un’annotazione dipende dalla disponibilità di trascrittidisponibilità di trascritti
Fino a pochi anni fa, le annotazioni venivano compiute Fino a pochi anni fa, le annotazioni venivano compiute a partire dalle sequenze disponibili (es. database a partire dalle sequenze disponibili (es. database “GenBank - Nucleotide” NCBI) prodotte da laboratori di “GenBank - Nucleotide” NCBI) prodotte da laboratori di tutto il mondotutto il mondo
““Campionamento” del trascrittoma “biased”, ovvero Campionamento” del trascrittoma “biased”, ovvero per i geni più studiati (es. TP53, DMD in uomo) erano per i geni più studiati (es. TP53, DMD in uomo) erano disponibili molti più trascritti di geni poco studiati o disponibili molti più trascritti di geni poco studiati o poco caratterizzatipoco caratterizzati
Annotazione “next-generation”Annotazione “next-generation”
Con l’introduzione delle tecniche di sequenziamento Con l’introduzione delle tecniche di sequenziamento dette “next-generation sequencing” la possibilità di dette “next-generation sequencing” la possibilità di sequenziare - a costi relativamente contenuti - interi sequenziare - a costi relativamente contenuti - interi genomi o trascrittomi è diventata accessibile anche a genomi o trascrittomi è diventata accessibile anche a laboratori di dimensione/disponibilità economica laboratori di dimensione/disponibilità economica piccolo/mediapiccolo/media
Con “RNA-Seq” si intende l’applicazione di un metodo Con “RNA-Seq” si intende l’applicazione di un metodo di sequenziamento “next-generation” al di sequenziamento “next-generation” al sequenziamento di un campione di RNA estratto da un sequenziamento di un campione di RNA estratto da un particolare campione/linea cellulare/ecc. ecc.particolare campione/linea cellulare/ecc. ecc.
RNA (cDNA)
> 1000 bp
Sanger sequencing (700 bp)
RNA (cDNA)
> 1000 bp
50 bp 50 bp50 bp 50 bp
50 bp 50 bp 50 bp
50 bp 50 bp50 bp 50 bp
RNA-Seq per misurare RNA-Seq per misurare l’”espressione”l’”espressione” Il campione originale di RNA è stato Il campione originale di RNA è stato
frammentatoframmentato I frammenti (reads) effettivamente sequenziati I frammenti (reads) effettivamente sequenziati
vengono selezionati a caso dal sequenziatorevengono selezionati a caso dal sequenziatore La probabilità che un RNA abbia uno dei suoi La probabilità che un RNA abbia uno dei suoi
frammenti selezionati e sequenziati è frammenti selezionati e sequenziati è proporzionale all’abbondanza dell’RNA stesso proporzionale all’abbondanza dell’RNA stesso nel campione inizialenel campione iniziale
Il “livello di trascritto” di un gene è quindi Il “livello di trascritto” di un gene è quindi proporzionale al numero di frammenti (reads) proporzionale al numero di frammenti (reads) assegnati ai suoi trascritti assegnati ai suoi trascritti
RNA-Seq per misurare RNA-Seq per misurare l’”espressione”l’”espressione” Poiché i frammenti (read) possono essere Poiché i frammenti (read) possono essere
assegnati ai singoli esoni di un gene, è possibile assegnati ai singoli esoni di un gene, è possibile anche misurare il livello di trascritto a livello di anche misurare il livello di trascritto a livello di singolo esonesingolo esone
Ovvero, è possibile stimare il livello di Ovvero, è possibile stimare il livello di “espressione” per ogni trascritto “espressione” per ogni trascritto alternativo/isoforma del genealternativo/isoforma del gene
1 2 3
10 10 10
Il livello di trascritto dei 3 esoni è uniforme (10-10-10), quindipossiamo ipotizzare che il trascritto originale sia costituito dalla
giunzione di 1-2-3
RNA-Seq per misurare RNA-Seq per misurare l’”espressione”l’”espressione” Poiché i frammenti (read) possono essere Poiché i frammenti (read) possono essere
assegnati ai singoli esoni di un gene, è possibile assegnati ai singoli esoni di un gene, è possibile anche misurare il livello di trascritto a livello di anche misurare il livello di trascritto a livello di singolo esonesingolo esone
Ovvero, è possibile stimare il livello di Ovvero, è possibile stimare il livello di “espressione” per ogni trascritto “espressione” per ogni trascritto alternativo/isoforma del genealternativo/isoforma del gene
1 2 3
10 3 10
Il livello di trascritto dei 3 esoni NON è uniforme (10-3-10). Gli esoni 1-3 (costitutivi) hanno livello 10 L’esone 2 (cassetta) ha livello 3
Ipotesi: l’esone 2 è incluso nel 30% dei trascritti maturi, e quindi:
RNA-Seq per identificare RNA-Seq per identificare splicing alternativisplicing alternativi
Sappiamo che l’esone 2 è un potenziale esone cassetta. Sappiamo che l’esone 2 è un potenziale esone cassetta. Viene incluso o meno nei trascritti maturi nella condizione Viene incluso o meno nei trascritti maturi nella condizione che sto studiando?che sto studiando?
Potenzialmente sì (ci sono alcuni read che mappano Potenzialmente sì (ci sono alcuni read che mappano sull’esone due - come avevamo visto nell’esempio sull’esone due - come avevamo visto nell’esempio precedente)precedente)
Come ulteriore validazione è anche possibile:Come ulteriore validazione è anche possibile:
1 2 3
1 2 3
10 3 10
RNA-Seq per identificare RNA-Seq per identificare splicing alternativisplicing alternativi
Se l’esone 2 è incluso, allora deve essere “unito” all’esone 1 (al 5’) e Se l’esone 2 è incluso, allora deve essere “unito” all’esone 1 (al 5’) e all’esone 3 (al 3’)all’esone 3 (al 3’)
Quindi, lo splicing predetto viene “confermato” se troviamo read che Quindi, lo splicing predetto viene “confermato” se troviamo read che stanno “a cavallo” di due esoni. Quelli verdi confermano la “giunzione” stanno “a cavallo” di due esoni. Quelli verdi confermano la “giunzione” tra esone 1-2 e esone 2-3; quello rosso mostra anche la giunzione tra esone 1-2 e esone 2-3; quello rosso mostra anche la giunzione alternativa 1-3 che corrisponde all’excisione dell’esone 2alternativa 1-3 che corrisponde all’excisione dell’esone 2
1 2 3
1 2 3
RNA-Seq per misurare RNA-Seq per misurare l’”espressione”l’”espressione” Poiché i frammenti (read) possono essere Poiché i frammenti (read) possono essere
assegnati ai singoli esoni di un gene, è possibile assegnati ai singoli esoni di un gene, è possibile anche misurare il livello di trascritto a livello di anche misurare il livello di trascritto a livello di singolo esonesingolo esone
Ovvero, è possibile stimare il livello di Ovvero, è possibile stimare il livello di “espressione” per ogni trascritto “espressione” per ogni trascritto alternativo/isoforma del genealternativo/isoforma del gene
1 3
Il livello di trascritto dei 3 esoni NON è uniforme (10-3-10). Gli esoni 1-3 (costitutivi) hanno livello 10 L’esone 2 (cassetta) ha livello 3
Ipotesi: l’esone 2 è incluso nel 30% dei trascritti maturi.
Livello stimato: 3
1 2 3 Livello stimato: 7
““Read Mapping” in RNA-SeqRead Mapping” in RNA-Seq
mRNA
Reads
5’ 3’
5’ 3’
RNA-Seq vs. ArraysRNA-Seq vs. Arrays
5’ 3’
Affy probe
Cassette exon
A traditional “Chip”might have probes
designed on constitutive exonsImpossible to tell
whether the middle exon is spliced or not
“Tiling” arrays and “exon arrays” have been introduced to overcome this problem
RNA-SeqRNA-Seq
5’ 3’Cassette exon spliced out
5’ 3’
Cassette exon not spliced out
RNA-SeqRNA-Seq
5’ 3’Cassette exon non incluso
5’ 3’
Cassette exon incluso
RNA-Seq: detecting KNOWN RNA-Seq: detecting KNOWN splicingssplicings
5’ 3’
Build an “exon junction” library from existing transcript annotations (e.g. joining Build an “exon junction” library from existing transcript annotations (e.g. joining the sequence fragments in red), joining the 3’ with the 5’ of neighboring exonsthe sequence fragments in red), joining the 3’ with the 5’ of neighboring exons
Each “exon junction” should be unique and of the same length of the Each “exon junction” should be unique and of the same length of the sequenced readssequenced reads
Map reads that were “unmapped” (on the genome) on the junction libraryMap reads that were “unmapped” (on the genome) on the junction library
A B C D
A-BC-DA-D
RNA-Seq: trovare NUOVI splicingRNA-Seq: trovare NUOVI splicing
5’ 3’
What if:What if: We have reads mapping within an annotated intron?We have reads mapping within an annotated intron?
A
??
D
A-D
RNA-Seq: detecting NOVEL RNA-Seq: detecting NOVEL splicingssplicings
5’ 3’
Define possible exon boundaries looking for canonical Define possible exon boundaries looking for canonical splice sites and see whether you can join it to annotated splice sites and see whether you can join it to annotated exons by splitting unmapped sequence readsexons by splitting unmapped sequence reads
GT AG GT AG
RNA-Seq: using PAIRED-RNA-Seq: using PAIRED-END sequencesEND sequences
5’ 3’
5’ 3’
200 bp
RNA-Seq: using PAIRED-RNA-Seq: using PAIRED-END sequencesEND sequences
5’ 3’
????
Easier to detect novel exons andjoin them to existing annotations
Novel exon
RNA-Seq: using PAIRED-RNA-Seq: using PAIRED-END sequencesEND sequences
5’ 3’
????
Easier (computationally) to assign to their locationthe paired unmapped reads