Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e...

32
Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software

Transcript of Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e...

Page 1: Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software.

Argomenti trattati

Struttura di un gene e alternative splicing (AS)

Definizione del problema AS e algoritmo per risolverlo

ASPic software

Page 2: Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software.

Introduzione biologica

DNADoppia catena polinucleotidica definita sull’alfabeto: A, C, G, T

GeneRegione di DNA che codificaproteine

Page 3: Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software.

Numero geni e genomi in eucarioti

1

10

100

1000

10000

100000

human mouse chicken xenopus zebrafish fugu ciona fly worm yeast

Gene number Genome size (Mb)

Number of genes in prokaryotes (up to 8000)Genoma in procarioti (> 9 Mb)

Page 4: Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software.

Espressione di un gene

3’

5’

5’

3’

DNA

TRASCRIZIONE

5’

3’

exon 1 exon 2 exon 3pre-mRNA

SPLICING

exon 1 exon 2 exon 3 prodotto dello splicingmRNA

EST Expressed Sequence Tag(cDNA)

exon 2exon 1 exon 3

Page 5: Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software.

Trascritti e sequenze EST

Un trascritto è l’elenco delle basi (A, T, C, G) che compongono un mRNA maturo

Un EST è un frammento di cDNA (copia complementare di un mRNA, prodotta in vitro )

ATTGCGTTAACTGGACTGAmRNA

TAACGCAATTGACCTGACTcDNA

AATTGACCEST

Page 6: Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software.

Pattern di un introne

GT AG

Introni canonici: 99.24 %

Introni non canonici:

GC

AG

0.05 %0.69 %

0.02 %

AT AC

ALTRO

Burset et al., Nucleic Acids Res. 2000, 28:4363-4375

Page 7: Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software.

Espressione di un gene

Ma le cose funzionano davvero così?

Numero Geni corpo umano : 40000 circa

Numero Proteine : centinaia di migliaia

La corrispondenza 1 a 1 non è rispettata. Perché?

SPLICING ALTERNATIVO

Page 8: Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software.

Tipi di Alternative Splicing

A B C D

mRNA1

A I1 C DBGENOMICA

Splice/don’t splice

mRNA2

A I1 B C D

A I1 B

Competing 5’

A I1 BA’

A’ C DB

Competing 3’

A I1 B

C DB’A

B’

Exon skipping

A I1 B

C DA

Mutually exclusive exons

A I1 B

A B DB

C

B C

Page 9: Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software.
Page 10: Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software.

Perché AS è importante?

AS avviene nel 40-60% dei geni umani (Modrek and Lee, 2002)

AS genera numerosi trascritti a partire da un singolo gene

AS is specifico del tessuto in cui si trova la cellula (Graveley, 2001)

AS è correlato alle malattie

Page 11: Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software.

Problema di AS

predire le forme di splicing alternativo di un gene

analizzare il meccanismo di splicing tramite la rappresentazione delle possibili isoforme

AS è ancora un problema aperto

Si ha la necessità di software tools per

Page 12: Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software.

Cosa c’è a disposizione?

Programmi veloci che producono l’allineamento di una singola sequenza EST contro la genomica:

Spidey (Wheelan et al., 2001)Squall (Ogasawara & Morishita, 2002)

Ma la predizione della struttura in esoni e intronidi un gene è complicata da

errori di sequenziamento nell’EST (inserzioni, delezioni e mismatch) => criteri di ottimizzazione

sequenze duplicate sulla genomica => analisi combinata di un cluster di sequenze EST

Page 13: Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software.

Definizioni formali Def 1

Sequenza genomica, G = I1 f1 I2 f2 I3 f3 … In fn In+1, con Ii (i=1, 2, …, n+1) introni e fi (i=1, 2, …, n) esoni

Def 2 Fattorizzazione in esoni di G, GE = f1 f2 f3 … fn

Def 3 Fattorizzazione di un EST S compatibile con GE

S=s1 s2 … sk t.c. per 1 i1 < i2 < … < ik n si abbia:

st = fit per t=2, 3, …, k-1 s1 è un suffisso di fi1 e sk è un prefisso di fik

st = suff (fit) o st = pref (fit)variante di splicing

Def 1 Sequenza genomica, G = I1 f1 I2 f2 I3 f3 … In fn In+1,

con Ii (i=1, 2, …, n+1) introni e fi (i=1, 2, …, n) esoni

Def 2 Fattorizzazione in esoni di G, GE = f1 f2 f3 … fn

Def 3 Fattorizzazione di un EST S compatibile con GE

S=s1 s2 … sk t.c. per 1 i1 < i2 < … < ik n si abbia:

edit (st, fit) errore per t=2, 3, …, k-1 edit(s1, suff(fi1)) errore e edit(sk, pref(fik)) errore

Page 14: Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software.

Il problemaInput

- Una sequenza genomica G- Un cluster di sequenze EST S = {S1, S2, …, Sn}

Output

Una fattorizzazione GE di G (GE = f1, f2, …, fn) e unset di fattorizzazioni degli EST compatibili con GE

Obiettivo: minimizzare n

Page 15: Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software.

Esempio

Sequenza genomica G

EST set S = {S1, S2, S3}

S2 A1A2 B D1

S3 A2 D1D2 C1C2

A2 A1A2 B D1 C1 D1D2 C1C2

C1S1 A2 D1

A2 D1 C1A2 D1 C1A1A2 B D1A1A2 B D1A2 D1D2 C1C2A2 D1D2 C1C2

7 exons

B D1D2 C1C2

4 esoni

A1A2

Page 16: Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software.

Risultati

Il problema è MAX-SNP-hard (riduzione lineare da NODE-COVER)

Euristica: Processo iterativo per fattorizzare ogni EST

backtracking per ricomputare fattorizazzioni precedenti se si giunge ad una fattorizzazione non compatibile con GE

Page 17: Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software.

L’algoritmo

si1 si j-1 sijSi

e1 e2G

Passo j-esimo: Fattorizzazione parziale dell’EST Si (fattore sij)

em

if (Compatible(em, exon_list)) thenadd em to exon_list;

otherwise try to place sij elsewhere;

em

If not possible then backtrack;

si-1 1 si-1 j-1 si-1 j si-1 nSi-1

After placing all the factors sij for the set S,place the external factors;

Page 18: Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software.

L’algoritmo (dettagli)

G

si1 si j-1Sisi j

Calcolo del fattore sij

Sij can be divided into n components ck (k=1,2,…,n)At least one of these components for k from 1 to (n-1)is error-free and can be placed on G

sijc1 c2 c3 c4 c5

The algorithm searches a perfect match of c1 on G

c1

Suppose that c1 has no perfect match on G

Then the algorithm searches a perfect match of c2 on G

c2c1c1

Suppose that c2 has a perfect match on G

c2

Then the entire factor sij can be placed on GFind the canonical ag pattern on the left

ag

Find the rightmost gt pattern such that the edit distance between sijy and the genomic substring from ag to gt is bounded

gt

si jy

esone

Page 19: Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software.

ASPic software (Alternative Splicing PredICtion)

Input- La lunghezza minima prevista per un esone- La lunghezza della componente di matching perfetto- L’errore di riduzione degli introni- L’errore di sequenziamento di un EST- La sequenza genomica- Il cluster di EST

Output- Un file di testo per tutti gli allineamenti EST-genomica- Un file HTML degli allineamenti in prossimità dei siti displicing predetti

Page 20: Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software.

ASPic web site

ASPic è un web-based tool disponibile all’indirizzo http://aspic.algo.disco.unimib.it/aspic-devel che permette di predire i siti di splicing per un gene in input

Page 21: Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software.

ASPIC web site

Page 22: Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software.

ASPIC web site

Page 23: Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software.

ASPIC web site

http://www.caspur.it/ASPIC/

Information about the input A graphical view of the predicted gene structure

A table of the predicted introns A graphical view of the transcript-genome alignments

A graphical view of the predicted full-length isoforms

A table of the predicted full-length isoforms

OUTPUT:

Page 24: Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software.

ASPIC web site

Page 25: Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software.

ASPIC web site

Page 26: Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software.

ASPIC web site

Page 27: Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software.

ASPIC web site

Page 28: Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software.

ASPIC web site

Page 29: Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software.

ASPIC web site

Page 30: Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software.

ASPIC web site

Page 31: Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software.

Prediction of p53 protein isoforms

Isoform Entry L (aa) ASPIC ASAP2 ASD ACEVIEWp53 alpha NM_000546 393 + + + +p53 beta DQ186648 341 + - - -p53 gamma DQ186649 346 + - - -133 p53 alpha DQ186650 261 + + - -133 p53 beta DQ186651 209 + - + -133 p53 gamma DQ186652 214 + - + -40 p53 alpha nd 354 + - + -40 p53 beta nd 302 - - - -40 p53 gamma nd 307 - - - -

Page 32: Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software.

GRAZIE!