GGUCUG GCUGGCCCAUCACUUU4 COdiCe A CUAUCAG...

4
I _ I 14 aprile 2003 gli scienziati hanno annunciato al mondo di avere completato il sequenzia- mento del genoma umano, catalogando i tre miliardi di coppie di nucleotidi di DNA che de- scrivono come costruire un essere umano. Ancora non si è riusciti, invece, a scoprire tutti i geni effettivamente funzionanti in mezzo alle parti non codificanti della sequenza. E nem- meno abbiamo una conoscenza approfondita sui modi e i tempi secondo cui si attivano i ge- ni e su come le loro istruzioni condizionino il comportamento delle molecole proteiche da es- si descritte. Si capisce così perché la scorsa primavera Francis S. Collins, il leader del Proget- to Genoma Umano, abbia detto che l'obiettivo raggiunto non è altro che «la fine dell'inizio». LE SCIENZE 429 /maggio 2004 88 2 SEQUENZE DI TRE «LETTERE», o codoni, di DNA e RNA codificano i singoli amminoacidi che costruiscono e mantengono tutte le forme di vita sulla Terra. COdiCe dell'evoluzione La natura ha selezionato sofisticate regole di codifica genetica per proteggere gli organismi da fatali errori di programmazione di Stephen J. Freeland e Laurence D. Hurst AACGUGGAUGAAGUUGGUGGUGAGGCCCUGGGCAGGCUGCUGGUGGUCUACCCUU A CCCAGAGGUUCUUUGAGUCCUUUGGG GUCCACUCCUGAUGCUGUUAUGG4 A ACCCUAAGGUGAAGGCUCAUGGCAAG A ,CUCGGUGCCUUUAGUGAUGGCCI CUCACCUGGACAACCUCAAGGGCACC d• ACACUGAGUGAGCUGCACUGUCC A GAACUUCAGGCUCCUGGGCAACGUG i( IIGUGUGCUGGCCCAUCACUUUGGI A AGAAUUCACCCCACCAGUGCAGGCUG UAUCAGAAAGUGGUGGCUGGUGUGGC i A UAUGGUGCAUCUGACUCCUGAGGAGA UCUGCCGUUACUGCCCUGUGGGGCAM GAACGUGGAUGAAGUUGGUGGUGAGG CCUGGGCAGGCUGCUGGUGGUCUACCC GACCCAGAGGUUCUUUGAGUCCUUUGI GAUCUGUCCACUCCUGAUGCUGUUAU, CAACCCUAAGGUGAAGGCUCAUGGC À AGUGCUCGGUGCCUUUAGUGAUGGI GGCUCACCUGGACAACCUCAA UWKCAlleAGUGAGCUGCACUGUI GAGAACUUCAGGCUCCUGGG GGUCUG GCUGGCCCAUCACUUU4 AA AGAAUUCACCCCACCAGU A CUAUCAG GUGGUGGCUGGUGUG1 AAUAUGGUGCAUCUGACUCCÌJJGAb IAÌGUCUGCCGUUACUGCCCUGUGGGGC' GUGAACGUGGAUGAAGUUG UGG AGGCCCUGGGCAGGCUGCUGGUGGUCUAll UGGACCCAGAGGUUCUUUG GUCCUUUGGGGAUCUGUCCACUCCUGAUGCUGUUí GGCAACCCUAAGGUGAAG CAUGGCAAGAAAGUGCUCGGUGCCUUUAGUGAW CUGGCUCACCUGGACAACiCAAGGGCACCUUUGCCACACUGAGUGAGCUGCAM CUGAGAACUUCAGGCUCC GGGCAACGUGCUGGUCUGUG GCUGGCCCAUCACUI GCAAAGAAUUCACCCCPC AGUGCAGGCUGCCUAUCAGAA UGGUGGCUGGUG i CUAAUAUGGUGCAUCUGACUCCUGAGGAGAAGUCUGCe •ACUGCCCUGUGGG4 A AGGUGAACGUGGAUGIGUUGGUGGUGAGGCCCUGGGt ,GCUGCUGGUGGUC i CCUUGGACCCAGAGGUU UUUGAGUCCUUUGGGGAUCULiCCACUCCUGAUGCU4: AUGGGCAACCCUAAGG AAGGCUCAUGGCAAGAAAGUGCUCGGUGCCUUUAGUé GGCCUGGCUCACCUGGACAACCUCAAGGGCACCUUUGCCACACUGAGUGAGCUGC1 GUCCUGAGAACUUCA2CUCCUGGGCAACGUGCUGGUCUGUGUGCUGGCCCAUCI UGGCUAAUAUGGUGC UCUGACUCCUGAGGAGAAGUCUGCCGUUACUGCCCUGUi UUGGCAAAGAAUUCA CCACCAGUGCAGGCUGCCUAUCAGAAAGUGGUGGCUGe GCAAGGUGAACGUGGAUGAAGUUGGUGGUGAGGCCCUGGGCAGGCUGCUGGUGè UACCCUUGGACCCAGAGGUUCUUUGAGUCCUUUGGGGAUCUGUCCACUCCUGAUè lAUGGGCAACCCUAAGGUGAAGGCUCAUGGCAAGAAAGUGCUCGGUGCCUUU2 GAUSGCCUGGCUCACCUGGACAACCUCAAGGGCACCUUUGCCACACUGAGUGAGC[ CACUGUCCUGAGAACUUCAGGCUCCUGGGCAACGUGCUGGUCUGUGUGCUGGCCI CACUUUGGCAAAGAAUUCACCCCACCAGUGCAGGCUGCCUAUCAGAAAGUGGUGe GGUGUGGCUAAUAUGGUGCAUCUGACUCCUGAGGAGAAGUCUGCCGUUACUGCCo UGGGGCAAGGUGAACGUGGAUGAAGUUGGUGGUGAGGCCCUGGGCAGGCUGCUè GGUCUACCCUUGGACCCAGAGGUUCUUUGAGUCCUUUGGGGAUCUGUCCACUCCI AUGCUGUUAUGGGCAACCCUAAGGUGAAGGCUCAUGGCAAGAAAGUGCUCGGUGU UAGUGAUGGCCUGGCUCACCUGGACAACCUCAAGGGCACCUUUGCCACACUGAGUI AGCUGCACUGUCCUGAGAACUUCAGGCUCCUGGGCAACGUGCUGGUCUGUGUGCU! CCAUCACUUUGGCAAAGAAUUCACCCCACCAGUGCAGGCUGCCUAUCAGAAAGUG4 GCUGGUGUGGCUAAUAUGGUGCAUCUGACUCCUGAGGAGAAGUCUGCCGUUACUI CUGUGGGGCAAGGUGAACGUGGAUGAAGUUGGUGGUGAGGCCCUGGGCAGGCUg GGUGGUCUACCCUUGGACCCAGAGGUUCUUUGAGUCCUUUGGGGAUCUGUCCACI UGAUGCUGUUAUGGGCAACCCUAAGGUGAAGGCUCAUGGCAAGAAAGUGCUCGGI CUUUAGUGAUGGCCUGGCUCACCUGGACAACCUCAAGGGCACCUUUGCCACACUG! GAGCUGCACUGUCCUGAGAACUUCAGGCUCCUGGGCAACGUGCUGGUCUGUGUG! GCCCAUCACUUUGGCAAAGAAUUCACCCCACCAGUGCAGGCUGCCUAUCAGAAAG I UGGCUGGUGUGGCUAAUAUGGUGCAUCUGACUCCUGAGGAGAAGUCUGCCGUUAi CCCUGUGGGGCAAGGUGAACGUGGAUGAAGUUGGUGGUGAGGCCCUGGGCAGG l CUGGUGGUCUACCCUUGGACCCAGAGGUUCUUUGAGUCCUUUGGGGAUCUGUCC i CCUGAUGCUGUUAUGGGCAACCCUAAGGUGAAGGCUCAUGGCAAGAAAGUGCUC4 SCCUUUAGUGAUGGCCUGGCUCACCUGGACAACCUCAAGGGCACCUUUGCCACAC AGUGAGCUGCACUGUCCUGAGAACUUCAGGCUCCUGGGCAACGUGCUGGUCUGUGI UGGCCCAUCACUUUGGCAAAGAAUUCACCCCACCAGUGCAGGCUGCCUAUCAGAA2 GGUGGCUGGUGUGGCUAAUAUGGUGCAUCUGACUCCUGAGGAGAAGUCUGCCGU UGCCCUGUGGGGCAAGGUGAACGUGGAUGAAGUUGGUGGUGAGGCCCUGGGCA

Transcript of GGUCUG GCUGGCCCAUCACUUU4 COdiCe A CUAUCAG...

I_ I 14 aprile 2003 gli scienziati hanno annunciato al mondo di avere completato il sequenzia-

mento del genoma umano, catalogando i tre miliardi di coppie di nucleotidi di DNA che de-

scrivono come costruire un essere umano. Ancora non si è riusciti, invece, a scoprire tutti i

geni effettivamente funzionanti in mezzo alle parti non codificanti della sequenza. E nem-

meno abbiamo una conoscenza approfondita sui modi e i tempi secondo cui si attivano i ge-

ni e su come le loro istruzioni condizionino il comportamento delle molecole proteiche da es-

si descritte. Si capisce così perché la scorsa primavera Francis S. Collins, il leader del Proget-

to Genoma Umano, abbia detto che l'obiettivo raggiunto non è altro che «la fine dell'inizio».

LE SCIENZE 429 /maggio 200488

2

SEQUENZE DI TRE «LETTERE», o codoni, di DNA

e RNA codificano i singoli amminoacidi che costruiscono

e mantengono tutte le forme di vita sulla Terra.

COdiCedell'evoluzione

La natura ha selezionato

sofisticate regole di codifica genetica

per proteggere gli organismi

da fatali errori di programmazione

di Stephen J. Freeland e Laurence D. Hurst

AACGUGGAUGAAGUUGGUGGUGAGGCCCUGGGCAGGCUGCUGGUGGUCUACCCUUA CCCAGAGGUUCUUUGAGUCCUUUGGG GUCCACUCCUGAUGCUGUUAUGG4A ACCCUAAGGUGAAGGCUCAUGGCAAG A ,CUCGGUGCCUUUAGUGAUGGCCICUCACCUGGACAACCUCAAGGGCACC d• ACACUGAGUGAGCUGCACUGUCC

A GAACUUCAGGCUCCUGGGCAACGUG i( IIGUGUGCUGGCCCAUCACUUUGGIA AGAAUUCACCCCACCAGUGCAGGCUG UAUCAGAAAGUGGUGGCUGGUGUGGC iA UAUGGUGCAUCUGACUCCUGAGGAGA UCUGCCGUUACUGCCCUGUGGGGCAMGAACGUGGAUGAAGUUGGUGGUGAGG CCUGGGCAGGCUGCUGGUGGUCUACCCGACCCAGAGGUUCUUUGAGUCCUUUGI GAUCUGUCCACUCCUGAUGCUGUUAU,CAACCCUAAGGUGAAGGCUCAUGGC À AGUGCUCGGUGCCUUUAGUGAUGGIGGCUCACCUGGACAACCUCAA UWKCAlleAGUGAGCUGCACUGUIGAGAACUUCAGGCUCCUGGG GGUCUG GCUGGCCCAUCACUUU4AA AGAAUUCACCCCACCAGU A CUAUCAG GUGGUGGCUGGUGUG1AAUAUGGUGCAUCUGACUCCÌJJGAb IAÌGUCUGCCGUUACUGCCCUGUGGGGC'GUGAACGUGGAUGAAGUUG UGG AGGCCCUGGGCAGGCUGCUGGUGGUCUAllUGGACCCAGAGGUUCUUUG GUCCUUUGGGGAUCUGUCCACUCCUGAUGCUGUUíGGCAACCCUAAGGUGAAG CAUGGCAAGAAAGUGCUCGGUGCCUUUAGUGAWCUGGCUCACCUGGACAACiCAAGGGCACCUUUGCCACACUGAGUGAGCUGCAMCUGAGAACUUCAGGCUCC GGGCAACGUGCUGGUCUGUG GCUGGCCCAUCACUIGCAAAGAAUUCACCCCPC AGUGCAGGCUGCCUAUCAGAA UGGUGGCUGGUG iCUAAUAUGGUGCAUCUGACUCCUGAGGAGAAGUCUGCe •ACUGCCCUGUGGG4

A AGGUGAACGUGGAUGIGUUGGUGGUGAGGCCCUGGGt ,GCUGCUGGUGGUC iCCUUGGACCCAGAGGUU UUUGAGUCCUUUGGGGAUCULiCCACUCCUGAUGCU4:AUGGGCAACCCUAAGG AAGGCUCAUGGCAAGAAAGUGCUCGGUGCCUUUAGUéGGCCUGGCUCACCUGGACAACCUCAAGGGCACCUUUGCCACACUGAGUGAGCUGC1GUCCUGAGAACUUCA2CUCCUGGGCAACGUGCUGGUCUGUGUGCUGGCCCAUCI

UGGCUAAUAUGGUGC UCUGACUCCUGAGGAGAAGUCUGCCGUUACUGCCCUGUiUUGGCAAAGAAUUCA CCACCAGUGCAGGCUGCCUAUCAGAAAGUGGUGGCUGe

GCAAGGUGAACGUGGAUGAAGUUGGUGGUGAGGCCCUGGGCAGGCUGCUGGUGèUACCCUUGGACCCAGAGGUUCUUUGAGUCCUUUGGGGAUCUGUCCACUCCUGAUè

lAUGGGCAACCCUAAGGUGAAGGCUCAUGGCAAGAAAGUGCUCGGUGCCUUU2GAUSGCCUGGCUCACCUGGACAACCUCAAGGGCACCUUUGCCACACUGAGUGAGC[CACUGUCCUGAGAACUUCAGGCUCCUGGGCAACGUGCUGGUCUGUGUGCUGGCCICACUUUGGCAAAGAAUUCACCCCACCAGUGCAGGCUGCCUAUCAGAAAGUGGUGeGGUGUGGCUAAUAUGGUGCAUCUGACUCCUGAGGAGAAGUCUGCCGUUACUGCCoUGGGGCAAGGUGAACGUGGAUGAAGUUGGUGGUGAGGCCCUGGGCAGGCUGCUèGGUCUACCCUUGGACCCAGAGGUUCUUUGAGUCCUUUGGGGAUCUGUCCACUCCIAUGCUGUUAUGGGCAACCCUAAGGUGAAGGCUCAUGGCAAGAAAGUGCUCGGUGUUAGUGAUGGCCUGGCUCACCUGGACAACCUCAAGGGCACCUUUGCCACACUGAGUIAGCUGCACUGUCCUGAGAACUUCAGGCUCCUGGGCAACGUGCUGGUCUGUGUGCU!CCAUCACUUUGGCAAAGAAUUCACCCCACCAGUGCAGGCUGCCUAUCAGAAAGUG4GCUGGUGUGGCUAAUAUGGUGCAUCUGACUCCUGAGGAGAAGUCUGCCGUUACUICUGUGGGGCAAGGUGAACGUGGAUGAAGUUGGUGGUGAGGCCCUGGGCAGGCUgGGUGGUCUACCCUUGGACCCAGAGGUUCUUUGAGUCCUUUGGGGAUCUGUCCACIUGAUGCUGUUAUGGGCAACCCUAAGGUGAAGGCUCAUGGCAAGAAAGUGCUCGGICUUUAGUGAUGGCCUGGCUCACCUGGACAACCUCAAGGGCACCUUUGCCACACUG!GAGCUGCACUGUCCUGAGAACUUCAGGCUCCUGGGCAACGUGCUGGUCUGUGUG!GCCCAUCACUUUGGCAAAGAAUUCACCCCACCAGUGCAGGCUGCCUAUCAGAAAG IUGGCUGGUGUGGCUAAUAUGGUGCAUCUGACUCCUGAGGAGAAGUCUGCCGUUAiCCCUGUGGGGCAAGGUGAACGUGGAUGAAGUUGGUGGUGAGGCCCUGGGCAGG lCUGGUGGUCUACCCUUGGACCCAGAGGUUCUUUGAGUCCUUUGGGGAUCUGUCC

iCCUGAUGCUGUUAUGGGCAACCCUAAGGUGAAGGCUCAUGGCAAGAAAGUGCUC4SCCUUUAGUGAUGGCCUGGCUCACCUGGACAACCUCAAGGGCACCUUUGCCACACAGUGAGCUGCACUGUCCUGAGAACUUCAGGCUCCUGGGCAACGUGCUGGUCUGUGIUGGCCCAUCACUUUGGCAAAGAAUUCACCCCACCAGUGCAGGCUGCCUAUCAGAA2GGUGGCUGGUGUGGCUAAUAUGGUGCAUCUGACUCCUGAGGAGAAGUCUGCCGUUGCCCUGUGGGGCAAGGUGAACGUGGAUGAAGUUGGUGGUGAGGCCCUGGGCA

A

IL CODICE DELLA NATURA

S

e una sequenza genica è una «frase» che descrive una

proteina, allora le sue unità di base sono «parole» di tre

lettere, o «codoni», ciascuna delle quali si traduce in uno

dei 20 amminoacidi o in un segnale di «stop traduzione».

Il macchinario cellulare trascrive i geni a DNA in versioni a RNA,

i cui blocchi nucleotidici sono rappresentati dalle lettere A, C, G

e U, e quindi traduce i geni a RNA, codone per codone, in una

sequenza amminoacidica corrispondente. Le esatte

definizioni degli amminoacidi in natura (nella tabella] sono

state trovate all'inizio degli anni sessanta, ma il significato

delle combinazioni nel codice non sarebbe stato pienamente

compreso per diversi decenni.

Seconda posizione di nucleotideCASINONIMI E SOMIGLIANZE. Molti dei 64

possibili codoni a tre lettere specificanolo stesso amminoacido, offrendo vie

diverse perché i geni possano dar luogo

alla maggior parte delle proteine. Questi

codoni sinonimi tendono a differire

soltanto per un'unica lettera, di solito

l'ultima, formando una combinazione

di blocchi. I codoni per amminoacidi con

affinità simili per l'acqua tendono pure

a differire per la loro ultima lettera, e i codoni

che condividono la stessa prima lettera

spesso codificano per amminoacidi che

sono prodotti o precursori l'uno dell'altro.

Queste caratteristiche sono cruciali

per la sopravvivenza di tutti gli organismi

e potrebbero perfino contribuire ad

accelerarne l'evoluzione.

UUU Fenilalanina

UUC Fenilalanina

UCU Serina

UCC Serina

UCA Serina

UCG Serina

UAU Tirosina

UAC Tirosina

UGU Cisteina

UGC Cisteina

UUA Leucina

UUG Leucina UAG STO UGG Triptofano

CUU Leucina

CUC Leucina

CUA Leucina

CUG Leucina

CCU Prolina

CCC Prolina

CCA Prolina

CCG Prolina

CAU Istidina

CAC Istidina

CGU Arginina

CGC Arginina

CGA Arginina

CGG Arginina

CAA Glutammina

CAG Giutammina

AUU lsoleucina

AUC Isoleucina

AUA Isoleucina

ACU Treonina

ACC Treonina

ACA Treonina

ACG Treonina

AAU Asparagina

AAC Asparagina

AGU Serina

AGC Serina..—

AAA Lisina

AAG Lisina

AGA Arginina

AGG ArgininaAUG Metionina

GUU Valina

GUC Valina

GUA Valina

GUG Valina

GCU Alanina

GCC Alanina

GCA Alanina

GCG Alanina

GAU Aspartato

GACAspartato

GGU Glicina

GGC Glicina

GGA Glicina

GGG Glicina

GAA Glutamm ato

GAG Glutammato

Per la verità, Collins stava anche allu-dendo a un evento commemorato inquella stessa settimana, «l'inizio dell'ini-zio», e risalente a cinquant'anni prima,quando James D. Watson e Francis H.Crick rivelarono la struttura molecolaredel DNA. Anche quello era stato un mo-mento entusiasmante. Gli scienziati intui-vano che la molecola che essi finalmenteerano in grado di visualizzare contenevanientemeno che il segreto della vita, quel-lo che permetteva agli organismi di con-servare il progetto di se stessi e convertirequesta informazione memorizzata in me-tabolismo vivente. Negli anni successivi, itentativi di scoprire in che modo avesseluogo questa conversione sedussero ilmondo scientifico. Era noto che l'alfabetodel DNA consisteva di soli quattro tipi dinucleotidi. Di conseguenza, l'informazio-ne codificata nella doppia elica dovevaessere decodificata in base a certe regolein modo da comunicare alle cellule qualedei 20 amminoacidi legare in sequenzaper costruire le migliaia di proteine di cuisono costituite le innumerevoli forme divita evolutesi sulla Terra.

Tuttavia, all'epoca si sapeva così pocodel macchinario cellulare di traduzionedel messaggio di DNA che i tentativi didecifrare questo codice genetico si con-centrarono perlopiù sull'aspetto matema-tico del problema. Molte delle prime ipo-tesi si rivelarono sbagliate, alcune in mo-do clamoroso, anche se la loro ingegno-sità offre ancora oggi spunti di lettura af-fascinanti. Di fatto, quando il vero codicefu finalmente decifrato negli anni sessan-ta, rappresentò quasi una delusione. Laversione elaborata dalla natura sembravameno elegante di molte delle ipotesi for-mulate dai teorici.

È stato solo di recente che nuove sco-perte sul codice ne hanno messo in lucela sofisticata programmazione. E final-mente si è cominciato a capire perché lanatura abbia scelto queste regole fonda-mentali, e come mai si siano conservateper circa tre miliardi di anni di selezionenaturale. Oggi possiamo dimostrare che leregole del codice possono di fatto renderel'evoluzione più rapida e al tempo stessoevitare che l'organismo compia errori di-sastrosi nella sintesi delle proteine. Lostudio del codice sta anche fornendo in-dizi per risolvere alcune delle sfide su cuisi confrontano i laboratori dell'era post-genomica. Nel risalire all'«inizio» vero eproprio per comprendere le regole del co-dice sottostante alla vita, stiamo scopren-do strumenti che torneranno utili per laricerca futura.

Quando parliamo di «codice» e di «de-codifica», usiamo i termini in senso deltutto letterale. Le istruzioni genetiche so-no memorizzate in DNA e in RNA, en-

trambi costituiti da un tipo di molecolabiochimica l'acido nucleico. Ma gli orga-nismi sono perlopiù costituiti da un tipodi molecola molto diversa: la proteina. Diconseguenza, per quanto un gene sia tra-dizionalmente definito come una sequen-za di nucleotidi che descrive una singolaproteina, la «frase» genetica che contienela descrizione deve prima essere tradottada un sistema di simboli in un sistema digenere del tutto diverso: un po' come tra-durre dal codice Morse all'italiano.

Forzare il codice

Quando Watson e Crick descrissero lastruttura del DNA si vide che i geni sonoscritti in un alfabeto di sole quattro «lette-re»: le quattro basi adenina, citosina, gua-nina e timina (A, C, G e T) che distinguo-no ciascun nucleotide e formano i piolinell'ormai familiare «scala a chiocciola»del DNA. L'alfabeto delle proteine, invece,contiene 20 amminoacidi differenti: erapertanto ovvio che per specificare ciascunamminoacido è necessario ricorrere a una«parola». Combinazioni a due lettere dellequattro basi avrebbero prodotto solo 16possibili parole, o «codoni». Ma le combi-nazioni di triplette producono 64 codonipossibili, un numero più che sufficiente.

Ma questo era quasi tutto ciò che si sa-

peva, all'epoca, sul modo in cui i genipossono essere tradotti in proteine. Oggisappiamo che le sequenze geniche usanocodoni di tre lettere per specificare singoliamminoacidi e che sono necessari varipassaggi perché la sequenza genica di ba-si sia convertita in una sequenza di am-minoacidi. 11 DNA del gene viene primacopiato e modificato in un trascritto fattodi RNA, impiegando basi di acidi nucleicisimili, tranne per il fatto che la timina delDNA è sostituita da uracile. Questa versio-ne del gene a RNA messaggero (mRNA)viene quindi letta dal macchinario cellu-lare, tre lettere per volta, mentre minusco-li «maggiordomi» cellulari conosciuti co-me RNA di trasporto (tRNA) vanno a cer-care gli amminoacidi specificati e li di-spongono nella giusta sequenza.

All'inizio degli anni cinquanta, tutta-

via, questo processo era una sorta di sca-tola nera, di cui si poteva intuire soltantol'interessante puzzle matematico. E la pri-ma soluzione proposta non fu avanzatada un biologo, bensì dal fisico GeorgeGamow, più noto come uno dei padri del-la teoria del big bang. 11 suo «codice dia-mante», pubblicato nel 1954, combinavaelegantemente la matematica alla basedella costruzione di 20 amminoacidi apartire da un alfabeto di quattro nucleoti-di con la struttura fisica del DNA stesso.Gamow teorizzava che a ogni giro delladoppia elica ci fosse uno spazio vuoto aforma di diamante legato ai quattro an-goli da nucleotidi. Questi spazi avrebberoconsentito al DNA di far funzionare il si-stema: il DNA avrebbe agito da stamposul quale gli amminoacidi si sarebbero al-lineati, e l'allineamento sarebbe stato de-terminato dalle combinazioni di nucleoti-di presenti in ciascun giro della molecoladi DNA. 11 modello di Gamow eliminavaun angolo di ciascun diamante, quindidistribuiva i 64 codoni possibili formatida tre nucleotidi in gruppi chimicamenteimparentati. Gamow consentiva anche aicodoni significativi di sovrapporsi, a se-conda del «contesto di lettura» o di dovesi iniziasse a leggere la sequenza di letterelungo la molecola di DNA. Questo tipo dicompressione dei dati permetteva un'effi-

cienza molto apprezzata dai teorici. Sfor-tunatamente, però, presto si scoprironocatene di amminoacidi che non potevanoessere spiegate né dal codice di Gamowné da alcun altro codice analogo.

Al tempo stesso, alcuni elementi sug-gerivano che il DNA e gli amminoacidinon interagissero direttamente tra loro.Crick ipotizzò che vi fossero molecole chefungevano da intermediari (le chiamòadattatori) e nel 1957 propose una serie diregole attraverso le quali avrebbero potu-to operare. In poche parole, gli adattatoridi Crick riconoscevano solo 20 codoni si-gnificativi che designavano ciascuno dei20 amminoacidi e rendevano «privo disenso» (in inglese nonsense) il resto delle64 triplette possibili. Anziché essere in so-vrapposizione, il codice di Crick era quin-di «senza virgole», dal momento che i co-

doni privi di significato erano di fatto in-visibili agli adattatori, e pertanto la pun-teggiatura simbolica per indicare l'iniziodi un contesto di lettura non era necessa-ria. 11 concetto di assenza di virgole eracosì efficiente da conquistare immediata-mente il consenso universale, almeno finquando i dati non dimostrarono nuova-mente che una teoria poteva essere ele-gante, ma ugualmente sbagliata.

All'inizio degli anni sessanta, alcuniesperimenti provarono che anche i codo-ni privi di senso erano in grado provocaresintesi proteica, ed entro il 1965 era or-mai stato trovato il corrispondente ammi-noacidico di tutte le possibili 64 triplettedei codoni. Non c'era una chiara logica intutto questo: alcuni codoni erano sempli-cemente ridondanti, con singoli ammi-noacidi specificati da due, quattro o perfi-no sei codoni differenti. Dopo tutte le en-tusiastiche speculazioni, molti iniziaronoa pensare che il codice realmente esisten-te in natura fosse poco più di un inciden-te casuale della storia evolutiva.

Un incidente congelato?

In realtà, quando il codice fu decifrato,gli scienziati scoprirono che organismidiversi come gli esseri umani e i batteriimpiegano le stesse regole di codificazio-ne. A quanto pareva, nei miliardi di anni

trascorsi da quando i tre principali domi-ni della vita - archebatteri, eubatteri edeucarioti - avevano iniziato a divergereda un singolo antenato comune, non c'e-ra stata alcuna variazione. Di conseguen-za, il semplice e persuasivo argomentodell'incidente congelato», proposto dallostesso Crick nel 1968, ha dominato ilpensiero scientifico fino a poco tempo fa.«L'assegnazione di codoni ad amminoaci-di a questo punto era avvenuta in modototalmente casuale» scriveva Crick, mauna volta comparso il codice, a prescin-dere dalla sua forma, esso fu così fonda-mentale per la vita che qualunque ulte-riore cambiamento avrebbe avuto effetticatastrofici.

La selezione naturale darwiniana si ba-sa sulla premessa che talvolta una piccolavariazione in un singolo gene possa rive-larsi benefica perché consente all'organi-smo di avere maggiore successo nel pro-prio ambiente. Ma alterare le regole di de-codifica di un organismo sarebbe comeintrodurre simultaneamente un cambia-mento in innumerevoli siti del suo mate-riale genetico, producendo un metaboli-smo del tutto disfunzionale. È un po' ladifferenza che passa tra inserire un singo-lo refuso in un testo e riconfigurare tuttala tastiera di una macchina per scrivere.

Questo lineare ragionamento, tuttavia,si è poi rivelato semplicistico. Benché la

maggior parte dei sistemi viventi impie-ghi il codice genetico standard, ora cono-sciamo almeno 16 varianti, distribuite at-traverso un'ampia gamma di linee evolu-tive, che assegnano significati diversi adalcuni codoni.11 sistema sottostante rima-ne lo stesso: codoni formati da tre nu-cleotidi sono tradotti in amminoacidi. Mamentre la maggior parte degli organismileggerebbe il codone di RNA «CUG» comeleucina, molte specie del fungo Candidatraducono CUG come serina. I mitocon-dri, i minuscoli generatori di energia chesi trovano all'interno di tutti tipi di cellu-le, hanno genomi propri, e potrebberoanche avere sviluppato proprie assegna-zioni di codoni. Per esempio, nel genomamitocondriale del lievito di birra (Saccha-romyces cerevisiae) quattro dei sei codoniche normalmente codificano la leucinacodificano invece la treonina.

Nel corso degli anni novanta, con ilmoltiplicarsi delle scoperte di queste va-riazioni, è apparso evidente che il codicenon è per nulla «congelato». Esso può e-volversi, il che significa che probabilmen-te si è evoluto. Le assegnazioni standardcodone-amminoacido operate dalla natu-ra, raffinate e conservate dalla selezionenaturale per miliardi di anni, non sonoquindi affatto incidentali. Anzi, fanno unottimo lavoro nel minimizzare le conse-guenze degli incidenti.

• Le istruzioni genetiche per la fabbricazione delle proteine sono scritte in «parole»

di tre lettere, chiamate codoni, che specificano uno dei 20 amminoacidi o un segno di

«fine traduzione». La disposizione di questi codoni e degli amminoacidi che a essi

corrispondono è stata a lungo ritenuta casuale, ma nuove scoperte hanno chiarito che

la selezione naturale ha scelto e perpetuato quest'ordine.

• Le simulazioni al computer hanno rivelano i motivi di questa scelta. Rispetto ad

altre alternative, il codice standard è eccezionalmente efficiente nel minimizzare i

danni causati da errori nei geni stessi o nel processo di traduzione dei geni in proteine.

90 LE SCIENZE 429 /maggio 2004

www.lescienze.it

91

Le scoperte degli ultimi anni hanno fatto capireche il codice della natura non è un prodotto del caso

Danni sotto controllo

Tutti i sistemi di codifica devono tenerconto della possibilità di errori, ma nontutti gli errori provocano gli stessi guasti.In italiano, per esempio, le vocali e leconsonanti sono molto diverse, cosicchéla sostituzione di una «s» con una «a» ren-de queata fraae aaaai meno aemplice dacapire. Viceversa, le lettere «s» e «z» hannosuono simile, cozicché quezta fraze reztaabbaztanza comprenzibile. Per un sistemasuscettibile di errore, una buona strategiadi codifica sarebbe quella che minimizzail danno degli inevitabili errori.

In un organismo vivente, gli errori pos-sono assumere molte forme. Talvolta laversione originale a DNA di un gene cam-bia (si ha cioè una mutazione), talvoltal'adattatore sbagliato (tRNA) si lega altrascritto a mRNA di un gene, incorpo-rando in modo erroneo un amminoacidoin una proteina (si veda la finestra nellapagina a fronte). In realtà, anche quandosi riteneva che il codice fosse casuale, erastato notato che appariva disposto in mo-do corretto per garantire che i singoli er-rori avessero scarse conseguenze. Già nel1965 Carl R. Woese, allora all'Universitàdell'Illinois, osservava che i codoni simili(cioè che condividono due lettere su tre)specificano di norma amminoacidi simili,per cui un errore qui o là non influiscemolto sulla proteina risultante.

Definire il concetto di «simile» perquanto riguarda gli amminoacidi può es-sere complesso: i 20 amminoacidi differi-scono l'uno dall'altro per tutte le pro-prietà, dalla dimensione alla forma, finoalla carica elettrica. Ciò che Woese e altrinotarono è che i codoni che condividonodue basi su tre tendono a codificare am-minoacidi che sono molto simili nel mo-do in cui sono respinti o attratti dall'ac-qua. Questa proprietà è cruciale per ilfunzionamento della proteina. Una cate-na di amminoacidi appena formata si ri-piega in una forma peculiare a secondadel posizionamento degli amminoacidiidrofobi. Questi, infatti tendono ad aggre-garsi lontano dal citoplasma acquoso del-la cellula, lasciando gli idrofili a formarela superficie della proteina.

Ora sappiamo che il codice genetico èfatto in modo che quando si verifica unerrore in un singolo nucleotide, l'ammi-noacido che si ottiene è spesso simile, inquanto a idrofobicità, a quello che si sa-rebbe dovuto ottenere, ragion per cui l'al-terazione della proteina finale è relativa-mente innocua. Ma fino a che punto è ef-

ficiente il codice da questo punto vista? Èl'interrogativo a cui abbiamo cercato dirispondere, per sviluppare le osservazioniprecedenti di altri scienziati.

Provare il codice

Per prima cosa abbiamo effettuato unamisurazione quantitativa dell'idrofobicitàdei 20 amminoacidi. Successivamenteabbiamo usato quei valori per calcolare ilvalore di errore del codice genetico, defi-nito come il cambiamento medio dell'i-

drofobicità dell'amminoacido risultantecausato da tutti i possibili cambiamenti diuna singola lettera in tutti i 64 codoni delcodice. Questo valore esprime la vulnera-bilità del codice genetico agli errori, ma diper sé è di scarso significato. Avevamobisogno di sapere in che modo il sistemadi codifica elaborato dalla natura riesce aconfrontare le alternative possibili.

Per generare questi ipotetici codici al-ternativi, dovevamo partire da alcuni pre-supposti circa i limiti entro i quali potreb-be realisticamente operare un codice inun mondo fatto di DNA, RNA e ammi-noacidi. Un'osservazione è che gli errori

nella traduzione dell'mRNA in un ammi-noacido corrispondente sono più frequen-ti nella terza posizione del codone. È que-sto il punto in cui l'affinità di legame tral'mRNA e il tRNA è più debole, il chespiega perché Crick abbia definito il feno-meno «vacillamento». Ma i codoni sinoni-mi - cioè quelli che codificano per lostesso amminoacido - differiscono di so-lito solo per le ultime lettere, per cui que-gli errori di traduzione spesso non produ-cono un amminoacido diverso.

Per quanto questo raggruppamento di

codoni sinonimi riduca, in sé e per sé, ilvalore di errore del codice, il meccanismodi vacillamento fa sì che la disposizionesia più probabilmente un limite biochimi-co che un adattamento evolutivo. Quindi,per essere prudenti nel trarre le conse-guenze delle nostre misurazioni, dovrem-mo considerare solo codici alternativi checondividano questa caratteristica. Inoltre,è impossibile porre un valore di idrofo-bicità ai codoni assegnati al segnale di«stop», per cui abbiamo mantenuto ugualile loro assegnazioni di numero e codonein tutti i codici alternativi.

Partendo da questi presupposti tecnici,

iTT1

www.lescienze.it 93

I GENI DEL BATTERIO Esche richia coli favoriscono l'uso di codoni differenti da quelli umani

per esprimere alcuni amminoacidi; ciò può essere utile per applicazioni di ingegneria genetica.

GLI AUTORI

STEPHEN J. FREELAND e LAURENCE D. HURST utilizzano la bioinformatica per studiare labiologia evolutiva. Freeland è professore di bioinformatica presso l'Università del Mary-land e attualmente sta lavorando alla ricostruzione di proteine ancestrali. Hurst è pro-fessore di genetica evolutiva all'Università di Bath. Le sue ricerche si concentrano sul-la comprensione della struttura e dell'evoluzione di sistemi genetici.

Vali

EMOGLOBINA

DELL'ANEMIA

FALCIFORME

9

PROTEGGERE LE PRIIITINFIl codice della natura minimizza gli effetti degli errori genetici, sia che

risultino da mutazioni nei geni stessi o da errori nel processo di

traduzione. Una sequenza genica viene tradotta in una sequenza

amminoacidica corrispondente che impartisce la struttura

Codone

AUG GUG CAU CUG ACU

Catena di amminoacidi

lE)C&

Citoplasma

o

tRNA

1111311,..mRNA

Ribosoma

tridimensionale finale della proteina codificata. Anche quando un erroreinserisce l'amminoacido sbagliato, il sostituto è spesso chimicamentesimile a quello giusto e la proteina finale è relativamente inalterata.Un'eccezione è rappresentata dall'emoglobina dell'anemia falciforme.

mRNA

1 QUANDO UN GENE A DNAviene espresso, o attivato (estrema sinistra),esso viene prima trascritto in una versione a RNA che usa quasi Io

stesso alfabeto nucleotidico: adenina, citosina, guanina e uracile.Questo RNA messaggero (mRNA) trasporta le istruzioni genetiche al difuori del nucleo della cellula nel citoplasma che deve essere tradotto.

9 ORGANELLI CELLULARI, i ribosomi, «leggono» I'mRNAcodone per

L codone (a sinistra), mettendo in fila gli amminoacidi nella sequenzacorrispondente. Contemporaneamente, un'altra forma di RNA, l'RNA ditrasferimento (tRNA), intrappola gli amminoacidi che fluttuanoliberamente e li porta ai ribosomi perché siano aggiunti alla catenaproteica in accrescimento. Ciascun tRNA lega un codone di mRNA a trenucleotidi a un'estremità, e un singolo amminoacido all'altra.

C)

Cf)Amminoacido

0) I)

Glutammato

La catenadi amminoacidisi ripiegain una proteinatridimensionale

3 QUANDO UNA PROTEINA si forma, si ripiega in una forma tridimensionaleche è perlopiù determinata dall'affinità degli amminoacidi per l'acqua.

Gli amminoacidi idrofobi tendono a ripiegarsi all'interno di una proteina,lasciando le loro controparti idrofile, come il glutammato, a contattocon il citoplasma acquoso della cellula. Una molecola di emoglobina è fatta diquattro catene amminoacidiche: due alfa (in blu) e due beta (in giallo).

EMONO MALE

LTThflTLULU 11111AUG GUG CAU CUG ACU CCU GAG AAG UCU GCC GUU ACUGCC

ERRORI FATALI. L'emoglobina è una delle proteine meglio studiate. Del gene corrispondente si conoscono

varie mutazioni «silenti», owero che non causano malattia perché l'amminoacido che fa da sostituto è

simile a quello normale. Ma un errore che sostituisca un amminoacido idrofilo con uno idrofobo può alterare

la forma e la funzione della proteina risultante. Nel caso dell'anemia falciforme, la mutazione di un solo

nucleotide nel gene che codifica per la catena di emoglobina beta cambia il codone a mRNA GAG in GUG

sostituendo l'amminoacido idrofilo glutammato con la valina, che è idrofoba. I punti idrofobi risultanti si

attirano a vicenda, facendo agglutinare le molecole e producendo fibre rigide che deformano i globuli rossi,

che assumono una forma a falce.

TrurriTrirmrieurlurCCU GAG GAG AAG

UCU GCC GUU ACU GCC

A PROVA DI ERRORE

I l danno alle proteine che deriva da

mutazioni dei geni o errori di

traduzione è minimizzato quando gli

amminoacidi risultanti hanno

idrofobicità simile. Se definiamo un

valore di errore del codice come

cambiamento medio nell'idrofobicità

dell'amminoacido, un valore alto

indica che un codice è molto

vulnerabile agli errori, mentre uno

basso significa che è in grado di

minimizzare il danno. Abbiamo

generato un grande campione

casuale di codici possibili trovando

che solo 100 su un milione erano

migliori di quello naturale (in alto).

Se passiamo a considerare come

i geni mutano e sono erroneamente

tradotti nel mondo reale, il codice

presente in natura surclassa tutte le

alternative (in basso).

21.000-

E5 'E> 15.000-oo o

E 9.000 -E

2 42o 3.000-o

i i I i i4,0 6,4 8,8 11,2 13,6

Valore di errore del codice

Codice naturale2,63

Codice naturale5,19

25.000

20.000

15.000

10.000

5.000

O i2,0 4,4

I I i6,8 9,2 11,6

Valore di errore del codice

PER APPROFONDIRE

HAYES BRIAN, The Invention of the Genetic Code in «American Scientist», Vol. 86, n. 1, pp. 8-14, gennaio-febbraio 1998.FREELANDSTEPHEN J. e HURST LAURENCE D., The Genetic Code Is One in a Million, in «Jour-nal of Molecular Evolution»,Vol. 47, n. 3, pp. 238-248, settembre 1998.KNIGHT ROBIN D., FREELAND STEPHEN J. e LANDWEBER LAURA F., Selection, History andChemistry: The Three Faces of the Genetic Code, in «Trends in Biochemical Sciences», Vol.24,n. 6,pp. 209-252, giugno 1999.FREELAND STEPHEN J., KEULMANN NICK e WUTAO, The Case for un Error-Minimizing Gene-tic Code, in «Origins of Life and Evolution of the Biosphere»,Vol. 33,n. 4-5, pp. 457-477, ot-tobre 2003.Altre informazioni sull'evoluzione del codice genetico possono essere reperite sul sito webdel laboratorio di Stephen J. Freeland: www.evolvingcode.net

IL CODICE SI EVOLVE

A

'meno 16 organismi di un'ampia gamma di linee evolutive usano

assegnazioni codone-amminoacido che deviano dal codice standard

esistente in natura. Molte specie delle alghe verdi Acetabularia, per esempio,

traducono i codoni standard di «stop» UAG e UAA come amminoacido glicina.

In Candida, il codone a RNA CUG, che normalmente significa leucina, specifica

invece serina. L'esistenza di simili variazioni dimostra che il codice può

evolvere, e fornisce indizi importanti su come ciò sia accaduto finora.

In tutti e tre i domini della vita, un ventunesimo amminoacido non standard,

la selenocisteina, viene talvolta fabbricato in risposta al codone standard

di stop UGA. La selenocisteina viene creata per modifica chimica della serina,

mentre quell'amminoacido è ancora fissato al suo tRNA nel ribosoma. In due

domini (archeobatteri ed eubatteri), un ventiduesimo amminoacido,

la pirrolisina, viene prodotto allo stesso modo in risposta al codone standard

di stop UAG. Il codice usato dalleprime forme di vita probabilmente

non arrivava a specificare tutti e

venti gli 20 amminoacidi. In realtà,

gli amminoacidi più complessi

sono prodotti come derivatibiologicamente modificati

di amminoacidi più semplici.

In numerose specie batteriche,per esempio, l'amminoacido

glutammina viene prodotto dal suo

cugino biochimico, il glutammato,

mentre quest'ultimo è ancora

fissato al suo tRNA. Questo

fenomeno ci fa ritenere che

gli amminoacidi possano essersi

formati come modificazioni di un

insieme primordiale più piccolo,

e che gli ultimi arrivati avrebbero

«catturato» un sottoinsieme

dei tRNA e dei codoni assegnati

ai loro parenti più semplici, proprio

come certi codoni sembranoessere stati catturati da amminoacidi standard negli organismi noti

per impiegare codici varianti. Queste scoperte inducono a interrogarci

su quanti altri codici varianti possano esservi in natura e a chiederci anche

se il codice standard finirà con l'espandersi e dare origine a molti più

amminoacidi degli attuali.

abbiamo generato le alternative rando-mizzando i 20 significati tra i 20 blocchicodone. Ciò definiva ancora circa 2,5 per10" possibili configurazioni (una cifraequivalente al numero dei secondi tra-scorsi a partire dalla formazione dellaTerra). Di conseguenza, abbiamo presograndi campioni casuali di queste possi-bilità, calcolando la proporzione con unvalore di errore inferiore, e abbiamo tro-vato che in un campione di un milione dicodici alternativi, solo 100 circa avevanoun valore di errore inferiore a quello delcodice naturale.

Ancora più sorprendente è stato quelloche abbiamo scoperto quando abbiamoimmesso ulteriori restrizioni allo scopo dirispecchiare gli andamenti con cui il DNAtende a mutare e i modi in cui i geni ten-dono a essere trascritti erroneamente inRNA. In queste condizioni da «mondoreale», il valore di errore del codice sem-brava migliorare ancora di diversi ordinidi grandezza, sorpassando tutte le alter-native tranne una su un milione.

Una spiegazione immediata della con-siderevole elasticità del codice genetico èche essa è frutto della selezione naturale.

Forse vi furono, un tempo, molti altri co-dici, con differenti gradi di vulnerabilitàall'errore. Gli organismi i cui codici af-frontavano meglio l'errore avevano mag-giori probabilità di sopravvivere, e il co-dice genetico standard fu quello che ot-tenne la vittoria nella lotta per l'esistenza.Sappiamo che codici varianti sono possi-bili, perciò la spiegazione è ragionevole.

L'idea che la riduzione degli errori siala forza evolutiva che ha determinato ladisposizione del codice ha comunque isuoi critici. Sofisticate ricerche al compu-ter possono certamente migliorare la scel-ta fatta dalla natura, perfino quando siaccetti la premessa che un codice «buono»sia un codice che minimizza il cambia-mento dell'idrofobicità degli amminoaci-di causato dagli errori genetici. Ma i mo-delli informatici di un codice ottimale so-no limitati dai criteri immessi dal pro-grammatore, e la maggior parte dei «mi-gliori» codici sinora descritti si basa su as-sunti ipersemplificati in merito al tipo dierrori che un codice incontra nel mondoreale. Per esempio, viene ignorato il feno-meno del vacillamento, il che impedisceche gli algoritmi di modellizzazione per-cepiscano il vantaggio di codoni che dif-feriscano solo nella terza lettera.

Questo inconveniente evidenzia un se-

condo problema relativo alla modellizza-zione di codici al computer. La selezionenaturale è un «progettista cieco», poichépuò solo brancolare verso un ideale sce-gliendo la migliore alternativa entro unapopolazione di varianti a ogni generazio-ne. Se simuliamo la selezione naturale se-condo questa logica, troviamo che il gra-do di minimizzazione di errore ottenutodal codice genetico standard è ancorapiuttosto notevole: tipicamente, meno deltre per cento dei codici teorici casuali rie-sce a evolvere selettivamente raggiun-gendo altrettanta flessibilità.

In altre parole, anni fa i codici «dia-mante» e «senza virgole» sembravano su-periori allo stesso codice presente in na-tura, mentre i computer possono generarecodici ancora più ideali sotto il profilomatematico. Ma limitarsi a dimostrareche sono possibili codici migliori, senzatenere conto del processo evolutivo, è didubbia rilevanza per capire la forza dellascelta effettuata dalla selezione naturale.

Di fatto, il codice standard non è soloun prodotto dalla selezione naturale: puòagire come un algoritmo di ricerca peraccelerare l'evoluzione. Con i suoi blocchidi codoni sinonimi e di codoni che speci-ficano amminoacidi biochimicamente si-mili, ottiene qualcosa di più che il sempli-

ce controllo del danno Le mutazioni più«piccole», a differenza di quelle estreme,statisticamente hanno una probabilitàmaggiore di essere vantaggiose; quindi,minimizzando gli effetti di una mutazio-ne, il codice massimizza la possibilità chela mutazione di un gene conduca a unmiglioramento della proteina risultante.

Usare il codice

La comprensione delle forze che hannodato forma al codice, e del modo in cuiesso, a sua volta, ha dato forma all'evolu-zione, ci offre qualcosa di più dell'oppor-tunità di ammirare il talento progettualedella natura. Queste intuizioni possonoanche aiutarci a risolvere alcuni dei pro-blemi più difficili con cui si confrontanooggi i ricercatori.

Setacciare un'enorme quantità di se-quenze genomiche per trovare i geni d'in-teresse è una priorità in biologia moleco-lare, ma le attuali ricerche si limitano acercare la corrispondenza con le caratte-ristiche di geni noti. Tenere conto del mo-do in cui il codice genetico filtra le muta-zioni può migliorare le ricerche consen-tendoci di riconoscere geni molto diversi-ficati e forse di dedurre la funzione delleproteine per cui codificano. Potrebbe an-

che fornire indizi circa il ripiegamento diuna proteina dettato da una sequenzaamminoacidica osservando le proprietà diminimizzare gli errori da parte dei suoicodoni e come le sostituzioni possonoavere effetto sulle dimensioni, la carica ol'idrofobicità di un amminoacido.

Inoltre, è possibile sfruttare le cono-scenze sugli organismi che deviano dalcodice standard per «travestire» geni ascopo di ricerca. Poiché esiste un unicocodice quasi universale per tutte le formedi vita, è diventata pratica comune pren-dere un gene di interesse, per esempio ungene del cancro umano, e inserirlo in unbatterio, come Escherichia coli, che prov-vederà a produrre la proteina codificatada quel gene. Qualche volta capita però

che il batterio non e-sprima affatto il gene,o produca meno pro-teina del previsto, o neproduca una versioneleggermente diversa daquella che si trova nel-l'organismo umano.

Questo sembrerebbemandare all'aria la ri-cerca biologica, ma orasappiamo che in alcunicasi il fallimento si ve-rifica perché gli orga-nismi mostrano prefe-renze diverse tra codo-ni sinonimi. Per esem-

pio, il codice standard contiene sei codoniper l'amminoacido arginina, e i geni u-mani tendono a favorire l'uso dei codoniAGA e AGG. E. coli, invece, usa AGAmolto raramente e spesso lo traduce inmodo erroneo. Conoscendo queste varia-zioni e queste preferenze, possiamo pro-gettare versioni del gene umano che fun-zionino anche in diversi organismi.

Il laboratorio di uno di noi (Freeland)sta sviluppando dei software allo scopo diconvertire le osservazioni teoriche sul co-dice in strumenti pratici per l'ingegneriagenetica, l'individuazione di geni e la pre-dizione delle forme che assumeranno leproteine. E stiamo entrambi studiando inche modo sia nato il codice, in che modol'RNA abbia inizialmente interagito congli amminoacidi, in che modo la loro as-sociazione si sia sviluppata in un sistemadi codifica formale e in che modo l'alfa-beto ad amminoacidi si sia espanso du-rante le prime fasi dell'evoluzione.

Questo approccio potrebbe chiarire al-tre questioni irrisolte. Perché 20, e solo 20,amminoacidi standard? Perché ad alcuniamminoacidi sono assegnati sei codoni,mentre altri ne hanno solo uno o due?Tutto questo potrebbe avere a che fare conla minimizzazione degli errori? La decifra-zione del codice è solo agli inizi.

L'ALGA MARINA ACETABULARIA può raggiungere

i cinque centimetri di altezza, ma ciascun

« ramoscello», o tallo, è costituito da una sola

cellula. Oltre a questa particolarità comune ad

altre alghe verdi, molte specie di questo genere

traducono in maniera non standard i codoni che

normalmente hanno il significato di «stop».

Minimizzando gli effetti delle mutazioni, il codice geneticoaumenta le possibilità di produi e F teme migliori

LE SCIENZE 429 /maggio 2004

www.lescienze.it

95