Andrea G. B. Tettamanzi, 2003 Genomica Andrea G. B. Tettamanzi.

16
Andrea G. B. Tettamanzi, 2003 Genomica Genomica Andrea G. B. Tettamanzi

Transcript of Andrea G. B. Tettamanzi, 2003 Genomica Andrea G. B. Tettamanzi.

Page 1: Andrea G. B. Tettamanzi, 2003 Genomica Andrea G. B. Tettamanzi.

Andrea G. B. Tettamanzi, 2003

GenomicaGenomica

Andrea G. B. Tettamanzi

Page 2: Andrea G. B. Tettamanzi, 2003 Genomica Andrea G. B. Tettamanzi.

Andrea G. B. Tettamanzi, 2003

Genomica e riconoscimento dei geni

Problema: come “leggere” il genoma?

nucleotidi lettere

geni paragrafi

codoni parole

cromosomi libri

genoma enciclopedia

Page 3: Andrea G. B. Tettamanzi, 2003 Genomica Andrea G. B. Tettamanzi.

Andrea G. B. Tettamanzi, 2003

Il genoma dei procarioti

• Risposta agli stimoli = alterazione livelli di espressione dei geni

• Funzioni dei geni nei procarioti:

– 32 geni o più: capacità di produrre e replicare il DNA

– 100 – 150 geni: fabbricazione delle proteine “strutturali”

– 30 geni o più: generazione e immagazzinamento dell’energia

• Insieme minimo: 256 – 300 geni.

Page 4: Andrea G. B. Tettamanzi, 2003 Genomica Andrea G. B. Tettamanzi.

Andrea G. B. Tettamanzi, 2003

Struttura di un gene nei procarioti

promotore

operatore

Open Readin Frame (ORF)

terminatore

Trascrizione (DNA -> mRNA)

Traduzione (mRNA -> Proteina)

1

Page 5: Andrea G. B. Tettamanzi, 2003 Genomica Andrea G. B. Tettamanzi.

Andrea G. B. Tettamanzi, 2003

Promotori e operatori (E. coli)

Fattore σ Tipo di gene Sequenza a –35 Sequenza a –10

σ70 Generale TTGACA TATAAT

σ32 (σH) Shock termico TCTCxCCCTTGAA CCCCATxTA

σ54 (σN) Stress azoto CTGGCAC TTGCA

σ28 (σF) Sintesi flagelli CTAAA CCGATAT

σ38 (σS) Fase stazionaria CGTCAA CTxxTATAAT

σ20 (σFecl) Trasp. Fe-dicitr. TGGAAA TGTAAT

σ24 (σE) Proteine extra-citoplasmiche

GAACTTC TCTGA

Page 6: Andrea G. B. Tettamanzi, 2003 Genomica Andrea G. B. Tettamanzi.

Andrea G. B. Tettamanzi, 2003

Open Reading Frame (ORF)

• Codone iniziale: AUG (codifica anche la metionina)• Tre codoni “terminatori”: UAA, UAG, UGA• Probabilità di occorrenza “casuale”: 3/64 = 4,69%• ORF = sequenza di codoni non interrotta da terminatori• Probabilità che una sequenza di N codoni non contenga

terminatori: (61/64)N

• N = 60 confidenza = 95% che sia un ORF• Sequenza di Shine-Delgarno: 5’-AGGAGGU-3’ poco a monte

del primo codone

Page 7: Andrea G. B. Tettamanzi, 2003 Genomica Andrea G. B. Tettamanzi.

Andrea G. B. Tettamanzi, 2003

Terminatori di trascrizione “intrinseci”

CA A U C

G

C C G A A A

UUUCGGGAUU

U

U

UUUUU

Regione ricca di CGnel gambo

Catena di U

Page 8: Andrea G. B. Tettamanzi, 2003 Genomica Andrea G. B. Tettamanzi.

Andrea G. B. Tettamanzi, 2003

Frequenza delle coppie G/C

• FG/C + FA/T = 1

• Nei procarioti, 25% < FG/C < 75%

• Ciascuna frequenza è caratteristica di una specie• Trasferimento orizzontale di geni• Distorsioni nell’utilizzo di codoni

Page 9: Andrea G. B. Tettamanzi, 2003 Genomica Andrea G. B. Tettamanzi.

Andrea G. B. Tettamanzi, 2003

Il genoma degli eucarioti

• Eccezionalmente più complesso

• Organismi multicellulari, differenziazione cellulare

• Enormi quantità di DNA “spazzatura”

Specie Dim. del genoma (Mb) Numero di geni

Lievito 13 6 241

Caenorhabditis el. 100 18 424

Arabidopsis 130 25 000

Moscerino della frutta 180 13 601

Pesce zebra 1 700 ?

Homo sapiens 3 000 45 000

Page 10: Andrea G. B. Tettamanzi, 2003 Genomica Andrea G. B. Tettamanzi.

Andrea G. B. Tettamanzi, 2003

Struttura dei geni negli eucarioti

• Trovare i geni è più difficile che trovare un ago in un pagliaio• Una delle grandi sfide della Bioinformatica• I migliori tentativi fino ad ora si basano su

– Reti neurali (GrailEXP, “http://compbio.ornl.gov/grailexp/”)

– Programmazione dinamica (GenScan, “http://genes.mit.edu/GENSCAN.html”)

– Tassi di predizione comunque inferiori al 50%!

Page 11: Andrea G. B. Tettamanzi, 2003 Genomica Andrea G. B. Tettamanzi.

Andrea G. B. Tettamanzi, 2003

Elementi promotori

• Esistono tre RNA polimerasi negli eucarioti: I, II e III• Ciascuna riconosce un insieme distinto di promotori:

– RNA polimerasi I trascrive RNA ribosomici e riconosce promotori semplici tra –45 e +20;

– RNA polimerasi II trascrive geni che codificano proteine e riconosce promotori molto complessi posti tra –25 e molto più a monte;

– RNA polimerasi III trascrive tRNA ed altri piccoli RNA e riconosce promotori semplici tra +50 e +100

• Ogni gene eucariotico ha un suo promotore unico e distinto• Promotori riconosciuti da RNA polimerasi II si compongono di

promotori basali + altri promotori a monte a cui si legano altre proteine. Stima di circa 5 promotori a monte

Page 12: Andrea G. B. Tettamanzi, 2003 Genomica Andrea G. B. Tettamanzi.

Andrea G. B. Tettamanzi, 2003

RNA polimerasi II

• Non riconosce direttamente i promotori• Fattori di trascrizione basali:

– Proteina TATA-legante (TBP)

– Almeno 12 fattori associati alla TBP (TAF)

– Questi catalizzano il legame con l’RNA polimerasi II

• Promotori contengono una “box” 5’-TATAWAW-3’ (W = A/T) alla posizione –25

• Sequenza iniziatrice alla posizione +1: 5’-YYCARR-3’(Y = C/T, R = G/A)

Page 13: Andrea G. B. Tettamanzi, 2003 Genomica Andrea G. B. Tettamanzi.

Andrea G. B. Tettamanzi, 2003

Open reading frame (ORF)

• DNA -> RNA eterogeneo (hnRNA) -> mRNA• Il passaggio hnRNA -> mRNA consiste in:

– Incappucciamento: alterazioni chimiche all’estremità 5’– Splicing (= giuntaggio?): rimozione degli “introni”– Poliadenilazione: sostituzione dell’estremità 3’ con un’estensione di

circa 250 basi A non presenti nella sequenza del gene

• Introni/Esoni• Esistono almeno 8 tipi diversi di introni• Quello associato in modo predominante ai geni che codificano

proteine segue la “regola GU-AG” (cioè: introne = GU*AG)• Esistono delle regole ben precise che determinano la rimozione

precisa degli introni• Splicing alternativo

Page 14: Andrea G. B. Tettamanzi, 2003 Genomica Andrea G. B. Tettamanzi.

Andrea G. B. Tettamanzi, 2003

Isole di CpG

• Abbondanza relativa del dinucleotide CG• Normalmente questa abbondanza è solo il 20% di quella

casuale• Picchi di abbondanza lunghi 1-2 kb all’estremità 5’ di molti geni• “Isole di CpG”, da –1500 a +500, con abbondanza casuale• Spiegazione: processo di metilazione• Metilazione fa sì che un dinucleotide CG abbia una grande

probabilità di mutarsi nel dinucleotide TG

Page 15: Andrea G. B. Tettamanzi, 2003 Genomica Andrea G. B. Tettamanzi.

Andrea G. B. Tettamanzi, 2003

Isocore

• Regioni in cui l’abbondanza relativa di G/C si mantiene costante• Il genoma è un mosaico di varie isocore• Il genoma umano ne contiene 5:

– H3: 54% di G/C

– H2: 49% di G/C

– H1: 46% di G/C

– L2: 42% di G/C

– L1: 39% di G/C

• Associate a differenze funzionali:– H3: 3 – 5% del genoma umano, 80% dei geni di housekeeping

– L1 + L2: 66% del genoma umano, 85% dei geni specifici dei tessuti

Page 16: Andrea G. B. Tettamanzi, 2003 Genomica Andrea G. B. Tettamanzi.

Andrea G. B. Tettamanzi, 2003

Analisi dell’espressione genica

• DNA Microarray Technology