La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università...

Post on 01-May-2015

220 views 2 download

Transcript of La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università...

La predizione della struttura genica e lo splicing alternativo

Raffaella Rizzi

DISCo – Università di Milano-Bicoccarizzi@disco.unimib.it

Introduzione biologica

DNADoppia catena polinucleotidica definita sull’alfabeto: A, C, G, T

GeneRegione di DNA che codificaproteine

Il sequenziamento

Cosa significa sequenziare?

determinare la struttura primaria delle molecole biologiche (DNA/RNA e proteine)

ordine degli amminoacidi per le proteine

Glu Ile Phe Thr Val His

sequenza dei nucleotidi {a,c,g,t|u} per DNA/RNA

g

c g

c

t

c t

c t

c

g

c g

c g

c

Il sequenziamento

Cosa si ottiene?

single-end read

DNA/RNA

acgttgtgcagtgacggtaa

Il sequenziamento

paired-end read (o mate-pair)

DNA/RNA

insertion size

A B

A = B

insertion size

agttgcgt aatgcctgA B

Cosa si ottiene dal sequenziamento di una molecola di DNA/RNA

Il sequenziamento

Perché è importante?

… per determinare il genoma di un organismo vivente (problema del Genome Assembly)

Genoma

Sanger Sequencing (1977)

Metodo di sequenziamento capillare

Basato su enzima

Piuttosto costoso

Processa pochissimi reads in un run (un centinaio)

Lunghezza frammenti fino a 1000 bp

Errore basso

Espressione di un gene

3’ 5’5’ 3’

DNA

TRANSCRIPTION

5’ 3’exon 1 exon 2 exon 3pre-mRNA

SPLICING by spliceosome

splicing productmRNA exon 1 exon 2 exon 3

CDS atg…………[stop] [stop]tagtaatga

Pattern di un introne

GT AG

Introni canonici: 99.24 %

Introni non canonici:

GC AG

0.05 %

0.69 %

0.02 %

AT AC

ALTRO

Burset et al., Nucleic Acids Res. 2000, 28:4363-4375

Espressione di un gene

Ma le cose funzionano davvero così?

Numero Geni corpo umano : 40000 circa

Numero Proteine : centinaia di migliaia

La corrispondenza 1 a 1 non è rispettata. Perché?

SPLICING ALTERNATIVO

Alternative Splicing (AS)

5’ 3’exon 2 exon 3Gene

mRNA1 exon 2 exon 3

exon 1

exon 1

Alternative Splicing (AS)

5’ 3’exon 2 exon 3Gene

mRNA1 exon 2 exon 3

exon 1

exon 1

mRNA2 exon 2 exon 3exon 1’ exon 1’’

Alternative Splicing (AS)

5’ 3’exon 2 exon 3Gene

mRNA1 exon 2 exon 3

exon 1

exon 1

mRNA2 exon 2 exon 3exon 1’ exon 1’’

mRNA3 exon 3exon 1

Alternative Splicing (AS)

5’ 3’exon 2 exon 3Gene

mRNA1 exon 2 exon 3

exon 1

exon 1

mRNA2 exon 2 exon 3exon 1’ exon 1’’

mRNA3 exon 3exon 1

mRNA4 exon 2 exon 3exon 1’’’

Alternative Splicing (AS)

5’ 3’exon 2 exon 3Gene

mRNA1 exon 2 exon 3

exon 1

exon 1

mRNA2 exon 2 exon 3exon 1’ exon 1’’

mRNA3 exon 3exon 1

mRNA4 exon 2 exon 3exon 1’’’

mRNA5 exon 2 exon 3’exon 1

Alternative Splicing (AS)

5’ 3’Gene

mRNA1

exon 1

mRNA2

exon 2 exon 3 exon 4

exon 1 exon 2 exon 4

exon 1 exon 3 exon 4

Perché AS è importante?

AS avviene nel 40-60% dei geni umani (Modrek and Lee, 2002)

AS genera numerosi trascritti a partire da un singolo gene

AS is specifico del tessuto in cui si trova la cellula (Graveley, 2001)

AS è correlato alle malattie

Problema di AS

predire le forme di splicing alternativo di un gene

analizzare il meccanismo di splicing tramite la rappresentazione delle possibili isoforme

AS è ancora un problema aperto

Si ha la necessità di software tools per

Trascritti e sequenze EST

Un trascritto è l’elenco delle basi (A,T,C,G) che compongono un mRNA maturo

Un EST è un frammento di cDNA (copia complementare di un mRNA, prodotta in vitro )

ATTGCGTTAACTGGACTGAmRNA

TAACGCAATTGACCTGACTcDNA AATTGACCTEST

Expressed Sequence Tag

Cos’è un single-end read da un mRNA (messenger RNA)?

EST (Expressed Sequence Tag)

GeneC DA B

esoni (codificanti)introni (non codificanti)

DA B

C DA

C DA B’

mRNA1

mRNA2

mRNA3

B’

EST

ESTs

Le sequenze EST sono dati importanti e disponibili pubblicamente per:

identificare geni lungo un genoma predire la struttura in esoni e introni di un

geni…e le sue isoforme alternative (alternative

splicing prediction) per studi di espressione genica

ReferenceThe Unigene Database: http://www.ncbi.nlm.nih.gov/unigene.

Il sequenziamento di EST

Perché è importante?

GeneC DA B

A B

A’ B C

D’A’ B

C’B

DA’ C

A’: suffisso di AC’: prefisso di CD’: prefisso di D

EST

… per determinare la struttura e l’espressione di un gene

Splice junctions de-novo

Gene

A’ B C

D’A’ B

C’B

DA’ C

EST

BA

Splice junctions de-novo

GeneC DA B

splice junction

B

A’ B C

D’A’ B

C’B

DA’ C

EST

A

Perché predire AS è difficile?

La predizione della struttura di un geneè un compito difficile a causa di

gli errori di sequenziamento nelle EST rendono difficoltosa la localizzazione delle splice junctions

le duplicazioni possono produrre più di un possibile allineamento EST-genomica

I dati in input sono enormi: efficienza in tempo e spazio

What is available?

Fast Blast-like programs to produce a single EST alignment to a genomic sequence (Blat, Sim4):

- Spidey (Wheelan et al., 2001)

- Squall (Ogasawara & Morishita, 2002)

- Ecgene (Kim et al., 2005)

- AceView (http://www.ncbi.nih.gov/IEB/Research/Acembly/)

- Splicing graphs (Heber et al., 2002)

What is available?

Fast Blast-like programs to produce a single EST alignment to a genomic sequence (Blat, Sim4): drawbacks

- Spidey => independent single EST alignment

- Squall => independent single EST alignment

- Ecgene => detects variants of more than 15bp

- AceView =>over-prediction

- Splicing graphs => over-prediction

ASPIC software

ASPIC (Alternative Splicing PredICtion) implements an optimization strategy that:

performs a multiple alignment of transcript data to the genomic sequence

detects the intron set that minimizes the number of splicing sites

generates the minimal set of transcript isoforms compatible with the detected splicing events

P. Bonizzoni, R. Rizzi, G. Pesole. ASPIC: a novel method topredict the exon-intron structure of a gene that is optimally compatible toa set of transcript sequences. BMC Bioinformatics (2005), 6(1):244.

T. Castrignanò, R. Rizzi, I.G. Talamo, P. D’Onorio De Meo, A. Anselmo, P. Bonizzoni, G. Pesole. ASPIC: a web resource for alternative splicing prediction and transcript isoforms characterization. Nucleic Acids Research (2006), 34(Web Server Issue):W440:3.

ASPIC web site

http://www.caspur.it/ASPIC/

A genomic sequence by pasting a sequence into a text box by uploading a sequence as a text file by specifying an ENSEMBL ID or a HUGO name (only for human) by specifying a chromosomal range

INPUT:

ASPIC web site

http://www.caspur.it/ASPIC/

A collection of transcripts by pasting them into a text box by uploading them as a text file by specifying a UNIGENE ID

The minimum dimension for exons on the genomic sequence

INPUT:

ASPicDB

ASPicDB

Ricostruzione isoforme

GeneC DA B

C DA B

C DA

DA B

Isoform#1

Isoform#2

Isoform#3

Problema di ricostruzione di isoforme full-length

Data la struttura in exoni-introni del gene, trovare tutte le possibili combinazioni di esoni (o parti di essi) che danno luogo ad un isoforma completa