Bioinformatica Giulio Pavesi Dip. Scienze Biomolecolari e Biotecnologie Università di Milano...

25
Bioinformatica Bioinformatica Giulio Pavesi Giulio Pavesi Dip. Scienze Biomolecolari e Dip. Scienze Biomolecolari e Biotecnologie Biotecnologie Università di Milano Università di Milano [email protected] [email protected]

Transcript of Bioinformatica Giulio Pavesi Dip. Scienze Biomolecolari e Biotecnologie Università di Milano...

Page 1: Bioinformatica Giulio Pavesi Dip. Scienze Biomolecolari e Biotecnologie Università di Milano giulio.pavesi@unimi.it.

BioinformaticaBioinformatica

Giulio PavesiGiulio PavesiDip. Scienze Biomolecolari e BiotecnologieDip. Scienze Biomolecolari e Biotecnologie

Università di MilanoUniversità di [email protected]@unimi.it

Page 2: Bioinformatica Giulio Pavesi Dip. Scienze Biomolecolari e Biotecnologie Università di Milano giulio.pavesi@unimi.it.

L’evoluzione al lavoroL’evoluzione al lavoro

Piccola scala: Piccola scala: mutazioni, inserzioni, delezioni di mutazioni, inserzioni, delezioni di singoli nucleotidisingoli nucleotidi

MAMA: : non tutte le sostituzioni sono “uguali”non tutte le sostituzioni sono “uguali” (come abbiamo visto..)(come abbiamo visto..)

MAMA: : inserire o cancellare singoli nucleotidi può inserire o cancellare singoli nucleotidi può avere effetti catastroficiavere effetti catastrofici - se in una regione - se in una regione codificante (causa “frameshift”)codificante (causa “frameshift”)

MAMA: è abbastanza difficile immaginare che – a : è abbastanza difficile immaginare che – a partire da semplici genomi antenati di poche partire da semplici genomi antenati di poche centinaia di migliaia di bp – siano “apparsi” centinaia di migliaia di bp – siano “apparsi” genomi di miliardi di bp come quelli animali o genomi di miliardi di bp come quelli animali o delle piantedelle piante

Page 3: Bioinformatica Giulio Pavesi Dip. Scienze Biomolecolari e Biotecnologie Università di Milano giulio.pavesi@unimi.it.

L’evoluzione al lavoroL’evoluzione al lavoro

Media scalaMedia scala Cambiamenti nella strutturaCambiamenti nella struttura di un gene: di un gene:

comparsa/scomparsa di introni (intron gain-comparsa/scomparsa di introni (intron gain-loss) o esoniloss) o esoni

““FusioniFusioni” di geni (e delle rispettive proteine ” di geni (e delle rispettive proteine codificate), o viceversa, divisione di geni in codificate), o viceversa, divisione di geni in geni più piccoli (esempio: insulina “INS” geni più piccoli (esempio: insulina “INS” dell’uomo)dell’uomo)

Larga scala (I)Larga scala (I) RiarrangiamentiRiarrangiamenti della sequenza genomica: della sequenza genomica:

una o più regioni cambiano di postouna o più regioni cambiano di posto

Page 4: Bioinformatica Giulio Pavesi Dip. Scienze Biomolecolari e Biotecnologie Università di Milano giulio.pavesi@unimi.it.

L’evoluzione al lavoroL’evoluzione al lavoro

Larga scala (II) Larga scala (II) duplicazioniduplicazioni:: Si possono Si possono duplicare INTERE regioni genomicheduplicare INTERE regioni genomiche: in : in

questo modo, dopo la duplicazione, i geni contenuti questo modo, dopo la duplicazione, i geni contenuti nella regione saranno in due copie all’interno della nella regione saranno in due copie all’interno della sequenza genomica (guardate la traccia “self-chain” sequenza genomica (guardate la traccia “self-chain” dell’UCSC)dell’UCSC)

MA: MA: se ho due copie, allora posso modificarne unase ho due copie, allora posso modificarne una, e , e anche se faccio “danni” una copia funzionante anche se faccio “danni” una copia funzionante rimane sempre!rimane sempre!

Questa è l’origine dei geni che si “assomigliano” Questa è l’origine dei geni che si “assomigliano” nella stessa specie - discendono da duplicazioni della nella stessa specie - discendono da duplicazioni della regione contenente il gene originaleregione contenente il gene originale

Permettono anche “specializzazioni” delle diverse Permettono anche “specializzazioni” delle diverse copie dei genicopie dei geni

Page 5: Bioinformatica Giulio Pavesi Dip. Scienze Biomolecolari e Biotecnologie Università di Milano giulio.pavesi@unimi.it.

L’evoluzione al lavoroL’evoluzione al lavoro

Eventi “epici”Eventi “epici” Duplicazioni di INTERI GENOMIDuplicazioni di INTERI GENOMI Questo fenomeno è posto da alcuni alla Questo fenomeno è posto da alcuni alla

base della comparsa degli eucarioti (lievito base della comparsa degli eucarioti (lievito =batterio x 2)=batterio x 2)

Tipico delle pianteTipico delle piante: ad esempio, il genoma : ad esempio, il genoma del riso porta tracce evidenti di 2 del riso porta tracce evidenti di 2 duplicazioni (quattro copie in tutto!) del duplicazioni (quattro copie in tutto!) del genoma di una pianta antenatagenoma di una pianta antenata

NOTA: le piante hanno più copie dei geni, e NOTA: le piante hanno più copie dei geni, e usano meno gli splicing alternativiusano meno gli splicing alternativi

Page 6: Bioinformatica Giulio Pavesi Dip. Scienze Biomolecolari e Biotecnologie Università di Milano giulio.pavesi@unimi.it.

L’evoluzione al lavoroL’evoluzione al lavoro

Eventi su larga scala: riarrangiamenti, duplicazioniinserzioni, cancellazioni di ampie regioni

Mutazioni (di singoli nucleotidi, spesso)

Inserzioni o cancellazioni di più nucleotidi

Eventi “epici”: duplicazioni di interi genomi

Page 7: Bioinformatica Giulio Pavesi Dip. Scienze Biomolecolari e Biotecnologie Università di Milano giulio.pavesi@unimi.it.

L’evoluzione al lavoroL’evoluzione al lavoro

Duplicazione

Duplicazione

Speciazione uomo/topo

SHH DHH uomoIHH

SHH DHH topoIHH

HH Drosophila

Ad ogni duplicazione compare un nuovo “HH”

HH

Oggimilionidi anni

fa

Page 8: Bioinformatica Giulio Pavesi Dip. Scienze Biomolecolari e Biotecnologie Università di Milano giulio.pavesi@unimi.it.

I geni omologhiI geni omologhi

A questo punto, si può ipotizzare che i vari geni A questo punto, si può ipotizzare che i vari geni ““similisimili” tra loro che troviamo nelle diverse ” tra loro che troviamo nelle diverse specie, lo siano specie, lo siano perché “parentiperché “parenti”, ovvero ”, ovvero discendenti dallo stesso/i gene/i in specie discendenti dallo stesso/i gene/i in specie antenate (antenate (speciazionespeciazione) o nella stessa specie ) o nella stessa specie ((duplicazioneduplicazione))

Due sequenzeDue sequenze (sia DNA, sia RNA, sia proteine) (sia DNA, sia RNA, sia proteine) per cui possiamo fare questa ipotesi – per cui possiamo fare questa ipotesi – basandoci sulla loro similarità – ovvero che basandoci sulla loro similarità – ovvero che discendono da una sequenza antenata comune discendono da una sequenza antenata comune sono dette sequenze sono dette sequenze omologheomologhe

Quindi l’SHH dell’uomo è Quindi l’SHH dell’uomo è omologoomologo dell’SHH di dell’SHH di topo e dell’HH della Drosophila (speciazione)topo e dell’HH della Drosophila (speciazione)

Ma anche l’IHH dell’uomo è Ma anche l’IHH dell’uomo è omologoomologo di SHH di SHH dell’uomo, in quanto duplicati dello stesso dell’uomo, in quanto duplicati dello stesso gene di partenza (duplicazione)gene di partenza (duplicazione)

Page 9: Bioinformatica Giulio Pavesi Dip. Scienze Biomolecolari e Biotecnologie Università di Milano giulio.pavesi@unimi.it.

Omologhi: ortologhi e paraloghiOmologhi: ortologhi e paraloghi

Per complicare un po’ la nomenclatura: due Per complicare un po’ la nomenclatura: due sequenze omologhe sono dettesequenze omologhe sono dette OrtologheOrtologhe, se sono in , se sono in specie diversespecie diverse ParalogheParaloghe, se sono nella , se sono nella stessa speciestessa specie

Esempio: Esempio: SHH topo è ortologo a SHH SHH topo è ortologo a SHH dell’uomodell’uomo; ; DHH uomo è ortologo a DHH del DHH uomo è ortologo a DHH del topotopo e e paralogo a IHH e SHH dell’uomo paralogo a IHH e SHH dell’uomo e così e così viavia

Sulla base della similarità riusciamo anche a Sulla base della similarità riusciamo anche a ipotizzare se si sia verificata prima una ipotizzare se si sia verificata prima una duplicazione o una speciazioneduplicazione o una speciazione

Attenzione: si annota per un gene un SOLO Attenzione: si annota per un gene un SOLO ortologo nelle altre specie, ortologo nelle altre specie, quello più similequello più simile a a livello di sequenzalivello di sequenza

Page 10: Bioinformatica Giulio Pavesi Dip. Scienze Biomolecolari e Biotecnologie Università di Milano giulio.pavesi@unimi.it.

Omologia, ortologia, paralogiaOmologia, ortologia, paralogia

Omologia, ortologia e paralogia Omologia, ortologia e paralogia non sono non sono quantificabiliquantificabili!!

NONNON si dice che due sequenze sono più (o si dice che due sequenze sono più (o meno) omologhe di altre: meno) omologhe di altre: O lo sono O NON lo O lo sono O NON lo sono (proprietà sì o no!)sono (proprietà sì o no!)

Si può dire, due sequenze possono essere più o Si può dire, due sequenze possono essere più o meno similimeno simili

Sulla base della similarità, ipotizzo legami Sulla base della similarità, ipotizzo legami evolutivievolutivi

Page 11: Bioinformatica Giulio Pavesi Dip. Scienze Biomolecolari e Biotecnologie Università di Milano giulio.pavesi@unimi.it.

I geni dell’uomo e di altre specieI geni dell’uomo e di altre specie Per la Per la quasi totalità dei geniquasi totalità dei geni dell’uomo si trova dell’uomo si trova

un ortologo un ortologo negli altri mammiferinegli altri mammiferi (inclusi quelli (inclusi quelli tessuto-specifici, che “caratterizzano” tessuto-specifici, che “caratterizzano” particolari tipi di cellula)particolari tipi di cellula)

Per la Per la quasi totalità dei geniquasi totalità dei geni dell’uomo si dell’uomo si trovano ortologhi trovano ortologhi in altri vertebratiin altri vertebrati (ci possono (ci possono essere più o meno duplicati nelle diverse essere più o meno duplicati nelle diverse specie)specie)

Per Per buona partebuona parte dei geni dell’uomo si trovano dei geni dell’uomo si trovano ortologhi in ortologhi in altre specie animalialtre specie animali (inclusi, ad (inclusi, ad esempio, gli invertebrati come gli insetti)esempio, gli invertebrati come gli insetti)

Per i Per i geni “di base”geni “di base” responsabili del responsabili del “funzionamento” delle diverse cellule si “funzionamento” delle diverse cellule si riescono a trovare ortologhi riescono a trovare ortologhi negli eucarioti più negli eucarioti più semplicisemplici (unicellulari come il lievito), o (unicellulari come il lievito), o addirittura nei procarioti come i batteriaddirittura nei procarioti come i batteri

Page 12: Bioinformatica Giulio Pavesi Dip. Scienze Biomolecolari e Biotecnologie Università di Milano giulio.pavesi@unimi.it.

SinteniaSintenia

Ma: se geni omologhi derivano da Ma: se geni omologhi derivano da speciazione o duplicazione, allora mi speciazione o duplicazione, allora mi aspetto che un aspetto che un “gruppo” di geni vicini in “gruppo” di geni vicini in una regione siano ortologhi di geni che una regione siano ortologhi di geni che stanno vicini in un’altra regione o in un stanno vicini in un’altra regione o in un altro genomaaltro genoma

In effetti, questa proprietà è facilmente In effetti, questa proprietà è facilmente osservabile, ed è detta “osservabile, ed è detta “sinteniasintenia””

Due regioni sono dette “sinteniche” se Due regioni sono dette “sinteniche” se contengono “gli stessi geni” - o meglio contengono “gli stessi geni” - o meglio “geni omologhi” disposti nello stesso “geni omologhi” disposti nello stesso ordine (inframmezzati da regioni non ordine (inframmezzati da regioni non conservate)conservate)

Page 13: Bioinformatica Giulio Pavesi Dip. Scienze Biomolecolari e Biotecnologie Università di Milano giulio.pavesi@unimi.it.

SinteniaSintenia

Page 14: Bioinformatica Giulio Pavesi Dip. Scienze Biomolecolari e Biotecnologie Università di Milano giulio.pavesi@unimi.it.

Sintenia (vs topo)Sintenia (vs topo)

Page 15: Bioinformatica Giulio Pavesi Dip. Scienze Biomolecolari e Biotecnologie Università di Milano giulio.pavesi@unimi.it.

Sintenia (vs pollo)Sintenia (vs pollo)

Page 16: Bioinformatica Giulio Pavesi Dip. Scienze Biomolecolari e Biotecnologie Università di Milano giulio.pavesi@unimi.it.

Sintenia (vs scimpanzé)Sintenia (vs scimpanzé)

Page 17: Bioinformatica Giulio Pavesi Dip. Scienze Biomolecolari e Biotecnologie Università di Milano giulio.pavesi@unimi.it.

... ma allora?... ma allora?

Se uomo e mammiferi hanno “gli stessi Se uomo e mammiferi hanno “gli stessi geni”, perché ogni mammifero è geni”, perché ogni mammifero è differente dagli altri?differente dagli altri?

.. la proteina codificata è “conservata” .. la proteina codificata è “conservata” dall’evoluzione, ma sono meno dall’evoluzione, ma sono meno conservate (vedi a sx):conservate (vedi a sx): La regolazione dell’espressione La regolazione dell’espressione

(trascrizione / traduzione)(trascrizione / traduzione) Gli splicing alternativiGli splicing alternativi

Morale: ciò che fa la differenza non è Morale: ciò che fa la differenza non è quanti sono i geni, quanto COME quanti sono i geni, quanto COME ciascuna specie (o, volendo, anche ciascuna specie (o, volendo, anche ciascun individuo) UTILIZZA i suoi geniciascun individuo) UTILIZZA i suoi geni

Page 18: Bioinformatica Giulio Pavesi Dip. Scienze Biomolecolari e Biotecnologie Università di Milano giulio.pavesi@unimi.it.

Usare i geni ortologhiUsare i geni ortologhi

Oltre che per studi evolutivi, l’ortologia di geni Oltre che per studi evolutivi, l’ortologia di geni in specie diverse può servire anche allo studio in specie diverse può servire anche allo studio di uno o più genidi uno o più geni

Se non conosco la funzioneSe non conosco la funzione di un gene umano, di un gene umano, posso cercarne l’ortologo in topo e studiarlo lì posso cercarne l’ortologo in topo e studiarlo lì (più “pratico” sperimentalmente)(più “pratico” sperimentalmente)

Annotazione: Annotazione: se ho un gene “mancante”se ho un gene “mancante” in una in una specie, posso cercare di localizzarlo basandomi specie, posso cercare di localizzarlo basandomi su geni di altre speciesu geni di altre specie

Ovvero, posso cercare di annotare un gene in Ovvero, posso cercare di annotare un gene in mancanza di “indizi” (trascritto e/o proteina) mancanza di “indizi” (trascritto e/o proteina) basandomi sulle sequenze di altre specie basandomi sulle sequenze di altre specie se se c’è una data proteina in topo mi posso c’è una data proteina in topo mi posso aspettare che – da qualche parte – nel genoma aspettare che – da qualche parte – nel genoma dell’uomo ci sia un gene che codifica per dell’uomo ci sia un gene che codifica per qualcosa di similequalcosa di simile

Page 19: Bioinformatica Giulio Pavesi Dip. Scienze Biomolecolari e Biotecnologie Università di Milano giulio.pavesi@unimi.it.

Usare i geni ortologhiUsare i geni ortologhi

Quando ci si è ritrovati davanti al Quando ci si è ritrovati davanti al gene SHH per la prima volta, quello gene SHH per la prima volta, quello che si è potuto osservare era che che si è potuto osservare era che era omologo (ortologo) del gene era omologo (ortologo) del gene HH di DrosophilaHH di Drosophila

In effetti, In effetti, SHH sta per “Sonic - SHH sta per “Sonic - Hedgehog - Homolog”Hedgehog - Homolog”

Anche DHH e IHH sono omologhi di Anche DHH e IHH sono omologhi di HH, uno è “desert” l’altro è HH, uno è “desert” l’altro è “indian”“indian”

Page 20: Bioinformatica Giulio Pavesi Dip. Scienze Biomolecolari e Biotecnologie Università di Milano giulio.pavesi@unimi.it.

Usare i geni ortologhiUsare i geni ortologhi

La Drosophila (poveraccia) è sempre La Drosophila (poveraccia) è sempre stata l’animale “modello” per gli studi di stata l’animale “modello” per gli studi di geneticagenetica

Tipico: se mutiamo/eliminiamo un gene, Tipico: se mutiamo/eliminiamo un gene, che cosa succede alla Drosophila?che cosa succede alla Drosophila?

I nomi di molti geni di Drosophila I nomi di molti geni di Drosophila (soprattutto, quelli coinvolti nello (soprattutto, quelli coinvolti nello sviluppo dell’embrione) derivano dagli sviluppo dell’embrione) derivano dagli effetti della loro scomparsa/mutazioneeffetti della loro scomparsa/mutazione

Page 21: Bioinformatica Giulio Pavesi Dip. Scienze Biomolecolari e Biotecnologie Università di Milano giulio.pavesi@unimi.it.

SinteniaSintenia

Ma: se geni omologhi derivano da Ma: se geni omologhi derivano da speciazione o duplicazione, allora mi speciazione o duplicazione, allora mi aspetto che un aspetto che un “gruppo” di geni vicini in “gruppo” di geni vicini in una regione siano ortologhi di geni che una regione siano ortologhi di geni che stanno vicini in un’altra regione o in un stanno vicini in un’altra regione o in un altro genomaaltro genoma

In effetti, questa proprietà è facilmente In effetti, questa proprietà è facilmente osservabile, ed è detta “osservabile, ed è detta “sinteniasintenia””

Due regioni sono dette “sinteniche” se Due regioni sono dette “sinteniche” se contengono “gli stessi geni” - o meglio contengono “gli stessi geni” - o meglio “geni omologhi” disposti nello stesso “geni omologhi” disposti nello stesso ordine (inframmezzati da regioni non ordine (inframmezzati da regioni non conservate)conservate)

Page 22: Bioinformatica Giulio Pavesi Dip. Scienze Biomolecolari e Biotecnologie Università di Milano giulio.pavesi@unimi.it.

SinteniaSintenia

Page 23: Bioinformatica Giulio Pavesi Dip. Scienze Biomolecolari e Biotecnologie Università di Milano giulio.pavesi@unimi.it.

Sintenia (vs topo)Sintenia (vs topo)

Page 24: Bioinformatica Giulio Pavesi Dip. Scienze Biomolecolari e Biotecnologie Università di Milano giulio.pavesi@unimi.it.

Sintenia (vs pollo)Sintenia (vs pollo)

Page 25: Bioinformatica Giulio Pavesi Dip. Scienze Biomolecolari e Biotecnologie Università di Milano giulio.pavesi@unimi.it.

Sintenia (vs scimpanzé)Sintenia (vs scimpanzé)