Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione7_2014.pdf · necessari per le...

108
Il vostro progetto Analisi di da) di sequenziamento del trascri3oma (RNASeq): 1. Analisi di qualità 2. Mappatura sul genoma 3. Calcolo dell’espressione 4. Test di espressione differenziale 5. Visualizzazione e interpretazione 6. Analisi funzionale

Transcript of Il vostro progetto - CBMbioinformatica.uniroma2.it/GC2014/Lezione7_2014.pdf · necessari per le...

Il vostro progetto

Analisi  di  da)  di  sequenziamento  del  trascri3oma  (RNA-­‐Seq):  

 1.  Analisi  di  qualità  2.  Mappatura  sul  genoma  3.  Calcolo  dell’espressione  4.  Test  di  espressione  differenziale  5.  Visualizzazione  e  interpretazione  6.  Analisi  funzionale  

Cufflinks

0 2 4 6 8 10 12

-20

24

68

1012

P1T

P1N

Espressione differenziale

Un  test  di  espressione  differenziale  misura  la  probabilità  che  differenze  in  espressione  misurate  in  due  condizioni  siano  realmente  associate  a  una  differenza  biologica  e  non  a  flu3uazioni  casuali.    Flu3uazioni  possono  essere  dovute  a:  

 errori  di  misura    variazione  tecnica  dovuta  alla  preparazione  del  campione    variazione  biologica  non  associata  alle  due  condizioni    

 Viene  s)mata  la  varianza  a3esa,  calibrata  se  possibile  nelle  repliche  dell’esperimento,  e  confrontata  con  la  varianza  osservata  basata  su  un  modello  probabilis)co  di  mappatura  delle  reads.  La  significa)vità  dell’eventuale  differenza  viene  s)mata  con  un  test  sta)s)co,  con  ipotesi  nulla  che  non  ci  sia  differenza  fra  i  valori  di  espressione  nelle  du  condizioni.  

Cuffdiff

File  gene_exp.diff  

Cuffdiff

File  gene_exp.diff  

Test_id:        id  del  locus  Gene_id:      id  del  gene  Gene:        nome  comune  del  gene  Locus:        coordinate  genomiche  del  locus  Sample_1:      nome  del  primo  campione  Sample_2:      nome  della  seconda  condizione  Status:        OK,  NO  TEST,  LOW  DATA  Value_1:        espressione  nel  primo  campione  Value_2:        espressione  nel  secondo  campione  Log2(fold_change):  log  del  rapporto  espressione1/espressione2  Test_stat:      risultato  del  test  sta)s)co  P_value:        p-­‐value  Q_value:      p-­‐value  corre3o  per  tes)ng  mul)plo  Significant:      YES  [se  q-­‐value  <  0.01],  NO  

•  Un modo per ottenere un’interpretazione biologica dell’esperimento è di vedere se i geni differenzialmente espressi nelle due condizioni hanno caratteristiche funzionali che possono spiegare il fenotipo osservato

•  Ma le annotazioni funzionali sono eterogenee, e difficilmente razionalizzabili su larga scala

Interpretazione biologica

Cosa serve: •  Un modo standardizzato per rappresentare caratteristiche

funzionali dei prodotti dei geni

•  Una mappatura accurata delle funzioni sui prodotti genici

•  Un metodo statistico per valutare se differenze di espressione in due condizioni sono associate significativamente a una o più categorie funzionali

   

Interpretazione biologica

Gene Ontology

The Gene Ontology (GO) Consortium:  

•  Il Gene Ontology Consortium nasce come una collaborazione fra altri consorzi volti all’annotazione di organismi modello (FlyBase, SGD, MGD). Ora include altri centri e gruppi di interesse

•  Ontologia: Una rappresentazione formale di una serie di concetti e delle relazioni fra di essi

•  Scopo: ottenere un’annotazione consistente dei prodotti genici in un organismo e fra organismi diversi

Gene Ontology

The Gene Ontology (GO) Consortium:  

Gene Ontology

The Gene Ontology (GO) Consortium:  

•  Sono stati sviluppati tre vocabolari controllati (ontologie) di termini (detti termini GO) che descrivono i prodotti dei geni secondo i processi biologici in cui sono coinvolti, le loro funzioni molecolari e la loro localizzazion sub-cellulare o extra-cellulare

•  Questi termini sono associati fra loro in una forma gerarchica, andando da termini più generici fino a termini più dettagliati

Temine GO: una parola del vocabolario, appartenente a una delle tre ontologie principali, che ha un numero identificativo (ad es. GO:000001), una descrizione, dei sinonimi, e rapporti di parentela (termini genitori e figli) con altre parole

Le tre ontologie: •  Molecular Function (8360 termini): attività elementari, compito (attività catalitica, legame del calcio, etc.) •  Biological Process (14898 termini): scopo generale (trasduzione del segnale, risposta immunitaria, etc.) •  Cellular Component (2110 termini): localizzazione o complesso (nucleo, mitocondrio, ribosoma, etc.)

Gene Ontology

Gene Ontology

Gene Ontology

h3p://www.geneontology.org/  

Gene Ontology

Gene Ontology

Termini  figli  di  Biological  Process  

•  GO ID: GO:0007268

•  GO term: synaptic transmission

•  Ontologia: biological process

•  Definizione: The process of communication from a neuron to a target (neuron, muscle, or secretory cell) across a synapse

Gene Ontology

Gene Ontology

Gene Ontology

Gene Ontology

Gene Ontology

Una  volta  defini)  i  termini  e  le  loro  relazioni,  è  necessario  associare  ques)  termini  ai  geni  i  cui  prodoi  hanno  una  certa  funzione  molecolare,  fanno  parte  di  un  certo  processo  biologico,  o  si  trovano  in  una  certa  componente  cellulare.    Queste  associazioni  derivano  da  evidenze  sperimentali,  oppure  da  inferenza  computazionale  

Gene Ontology

• Experimental Evidence Codes – EXP: Inferred from Experiment – IDA: Inferred from Direct Assay – IPI: Inferred from Physical Interaction – IMP: Inferred from Mutant Phenotype – IGI: Inferred from Genetic Interaction – IEP: Inferred from Expression Pattern

• Computational Analysis Evidence Codes – ISS: Inferred from Sequence or Structural Similarity – ISO: Inferred from Sequence Orthology – ISA: Inferred from Sequence Alignment – ISM: Inferred from Sequence Model – IGC: Inferred from Genomic Context – RCA: inferred from Reviewed Computational Analysis

Ogni associazione deriva da una o più evidenza, identificate da un codice specifico:  

Immune responseMetabolismTranscriptionEnergy productionNeurotransmissionProtein transport

Categoria Funzionale Numero di geniImmune response 40Metabolism 20Transcription 20Energy production 10Neurotransmission 5Protein transport 5TOTALE 100

Arricchimento funzionale

I  termini  GO  associa)  ai  geni  differenzialmente  espressi  possono  essere  ricava)  da  Ensembl,  Uniprot  o  da  altre  banche  da)  di  annotazioni,  cercando  di  associare  la  variazione  di  espressione  alle  condizioni  biologiche  confrontate.      In  questo  caso,  emerge  che  un  buono  numero  (il  40%)  di  geni  sono  coinvol)  nel  sistema  immunitario  

Arricchimento funzionale

Osservare una certa frazione di geni differenzialmente espressi associati a un certo processo, funzione o altro non è sufficiente: bisogna stimarne la significatività statistica, cioè quanto questa frazione si discosta da quanti ce ne sarebbe attesi campionando geni a caso nel genoma. Si parla di test di arricchimento funzionale Si confronta l’insieme di geni di interesse con un dataset di background, ad es. l’intero proteoma umano, per verificare se una certa annotazione si trova più (o meno) nell’insieme di interesse rispetto ad un campionamento casuale del dataset di background Un test molto usato è quello della distribuzione ipergeometrica

•  Consideriamo il seguente caso: –  Un cassetto contiene N calzini. –  Esattamente B calzini sono blu, e i rimanenti N-B

sono rosa. –  Preleviamo n calzini (senza rimetterli dentro) dal

cassetto, e osserviamo che b sono blu

•  Il numero di calzini blu prelevati è significativamente maggiore o minore di quanto uno si aspetta dalla distribuzione dei calzini nel cassetto?

•  Se questo è vero, allora il metodo di estrazione dal cassetto favorisce (o sfavorisce) i calzini blu

Test della distribuzione ipergeometrica

•  La probabilità di trovare esattamente b calzini blu fra gli n pescati è data dalla funzione ipergeometrica:

 

•  La probabilità di trovare almeno b calzini blu è:

( , , , )

n N nb B b

HG N B n bNB

−⎛ ⎞⎛ ⎞⎜ ⎟⎜ ⎟−⎝ ⎠⎝ ⎠=

⎛ ⎞⎜ ⎟⎝ ⎠

min( , )

( , , , ) ( , , , )n B

i bHGT N B n b HG N B n i

=

= ∑

Test della distribuzione ipergeometrica

Test della distribuzione ipergeometrica

Nel cassetto ci sono 100 calzini, 90 rosa e 10 blu, e ne pesco 5 a caso

Numero b di calzini blu fra i 5 pescati

Pro

babi

lità

di p

esca

re b

cal

zini

blu

•  Nel nostro caso, la popolazione di N geni nel genoma di interesse può essere divisa in B geni che sono associati ad un certo termine GO, e N-B che non sono associati ad esso.

•  Immaginiamo che fra gli n geni differenzialmente espressi, b sono associati a quel termine GO, e n-b non lo sono

•  Se il numero b risulta significativamente maggiore o minore dell’atteso, allora il modo di estrazione dei geni (cioè il fatto che siano differenzialmente espressi) è significativamente associato al termine GO in esame

Test della distribuzione ipergeometrica

Confronto di 68 strumenti per test di arricchimento funzionale disponibili nel 2008:

Arricchimento funzionale

GOrilla – GO enrichment analysis tool

DAVID

h3p://david.abcc.ncifcrf.gov/  

DAVID

h3p://david.abcc.ncifcrf.gov/  

DAVID

DAVID

Si può copiare e incollare una lista di geni di interesse, oppure caricarla da un file

Cuffdiff

File  gene_exp.diff  

Selezionare i geni (il loro ID di Ensembl o il loro nome comune) con p-value o q-value di espressione differenziale minore di 0.05

DAVID

Incollare o caricare la lista dei geni, poi specificare il tipo di identificativo

DAVID

Specificare se la lista di geni è da usare come background, poi Submit

DAVID

Si può specificare l’organismo, rinominare la lista di geni, e partire con l’analisi funzionale

DAVID

DAVID

DAVID

DAVID

DAVID

DAVID

DAVID

KEGG - Kyoto Encyclopedia of Genes and Genomes

•  KEGG contiene pathways metabolici

•  Esempio: Glicolisi

•  Substrati e prodotti sono rappresentati da cerchi

•  Enzimi sono rappresentati da rettangoli

KEGG - Kyoto Encyclopedia of Genes and Genomes

KEGG - Kyoto Encyclopedia of Genes and Genomes

•  KEGG contiene anche pathway di regolazione e trasduzione del segnale

•  Esempio: MAPK signaling pathway

BioCarta

BioCarta

•  BioCarta è specializzata in pathway di trasduzione del segnale

•  Esempio: ATM signalling pathway

•  Ma contiene anche pathways metabolici

•  Es: Glicolisi

•  I composti sono mostrati come strutture e formule

•  Gli enzimi segnano il passaggio da substrati a prodotti

BioCarta

DAVID

Lezione 7

Geni per RNA non codificanti

RNA non codificante

l  Di tutto l'RNA trascritto negli eucarioti superiori, il 98% non è mai tradotto in proteine;

l  Di questo 98%, circa il 50-70% è costituito da introni; l  Il resto origina da geni non codificanti proteine, fra cui geni

per rRNA, tRNA e una vasta serie di altri geni per RNA non codificante (non-coding RNA, ncRNAs);

l  Anche alcuni introni sono stati visti contenere ncRNAs, ad

exsempio gli snoRNA; l  Il numero di ncRNA diversi nei genomi di mammifero è

sconosciuto (secondo stime recenti > 15000).

Funzioni dell’RNA: 1. Immagazzinamento/trasferimento dell'informazione genetica: ñ RNA genomico ñ Molti virus hanno genomi composti da RNA è  Singolo filamento (ssRNA) [ad es. HIV] è  Doppio filamento (dsRNA) [ad es. Rotavirus]

ñ RNA messaggero

2. Strutturale 3. Catalitico 4. Regolatorio

RNA non codificante

Gli ncRNA si possono genericamente classificare in due gruppi in base alla loro funzione:

l  NcRNA housekeeping, i quali sono espressi sempre e sono necessari per le funzioni normali e la sopravvivenza della cellula;

l  NcRNA regolatori o modulatori, i quali sono espressi per rispondere a particolari esigenze;

l  NcRNA regolatori possono influire sull'espressione di altri geni

modulando la loro trascrizione o traduzione

RNA non codificante

Esempi di ncRNA housekeeping: •  Apparato per la sintesi proteica:

l  Transfer RNA (tRNA); l  RNA Ribosomiale (rRNA); l  snRNA: RNA dello spliceosoma; l  snoRNA (small nucleolar RNA) : ruolo accessorio agli rRNA;

•  tmRNA (tRNA like mRNA): degradazione delle proteine; •  gRNA: editing dell'RNA; •  RNA della telomerasi: primer per la sintesi del DNA dei telomeri;

RNA non codificante

Esempi di ncRNA modulatori: •  Micro RNA (miRNA): regolatori della traduzione; •  Small interfering RNAs (siRNA): silenziamento di geni; •  Riboswitch RNA: controllo dell'espressione genica; •  ncRNA modulatori delle funzioni di proteine; •  ncRNA regolatori della localizzazione di RNA e proteine.

RNA non codificante

I ncRNA svolgono la loro funzione: "  In maniera sequenza-specifica (es. per appaiamento di basi con un target); "  In maniera struttura-specifica (es. per interazione con ligandi proteici); "  In maniera sia sequenza- che struttura-specifica.

RNA non codificante

•  SRP  RNA          1  •  RNase  P  RNA      1  •  Telomerase  RNA      1  •  RNase  MRP        1  •  Y  RNA            5  •  Vault          4  •  7SK  RNA          1  •  Xist            1  

•  H19            1  •  BIC            1    

•  RNA  An)senso    1000?      •  Altri          >10000?    

Geni per ncRNA nel genoma umano

•  miRNA        700  •  tRNA          600  •  18S  rRNA        200  •  5.8S  rRNA        200  •  28S  rRNA        200  •  5S  rRNA        200  •  snoRNA        300  •  U1              40  •  U2              30  •  U4              30  •  U5              30  •  U6              20  •  U4atac                5  •  U6atac                5  •  U11                  5  •  U12                  5  

I ncRNA hanno taglie molto eterogenee

RNA non codificante

Geni per ncRNA

I geni codificanti per ncRNA possono avere diverse caratteristiche: " Possono essere espressi come parte di un gene codificante per proteine; " Possono far parte di un unico trascritto precursore da cui sono estratti diversi ncRNA; " Possono essere molto corti, o molto lunghi; " Possono avere introni, e subire splicing; " Possono essere espressi da pseudogeni di geni codificanti proteine; " Possono essere trascritti dalla RNA polimerasi II o dalla III; " Possono essere poliadenilati.

I geni codificanti per ncRNA non sono generalmente identificabili con metodi per geni codificanti proteine

l  Segnali -  ATG -  TAA, TGA, TAG -  GT…..AG

l  Caratteristiche composizionali comuni -  Lunghezza degli esoni -  Lunghezza degli introni -  Codon bias -  Altre caratteristiche genomiche

l  Omologia (allineamento in cis)

?  

?  

Geni per ncRNA

?  

L’identificazione di geni per ncRNA si può basare su: "  Allineamenti cis/trans;

"  Modelli statistici specifici di particolari famiglie di ncRNA;

"  Ricerca ab initio in regioni genomiche.

Geni per ncRNA

L’identificazione di geni per ncRNA si può basare su: "  Allineamenti cis/trans; (i dati di sequenza sono molto inferiori rispetto a quelli per geni codificanti; le sequenze divergono velocemente) "  Modelli statistici specifici di particolari famiglie di ncRNA; (sono difficili da modellare) "  Ricerca ab initio in regioni genomiche. (si può fare solo in casi particolari) Tutti i metodi si avvantaggiano di alcune caratteristiche strutturali dell’RNA

Geni per ncRNA

" Non tutti gli RNA hanno una struttura con energia libera minima che è particolarmente più stabile delle altre possibili conformazioni. " Si possono quindi distinguere due classi di RNA: strutturati e non strutturati; " RNA non strutturati (ad es. i mRNA) hanno una serie anche ampia di conformazioni ad energia simile; la loro funzione non è struttura-specifica; " RNA strutturati (la maggior parte dei ncRNA) invece esisterà per la grande maggioranza del suo tempo in una particolare conformazione, che è importante per la funzione dell'RNA; " Caso particolare sono RNA di particelle ribonucleoproteiche, i quali hanno una struttura stabile e svolgono la funzione in maniera struttura-specifica, ma possono adottare questa conformazione solo formando il complesso con le proteine loro partner.

Energia della struttura secondaria dell'RNA

- Doppie eliche di RNA non sono stabili come quelle di DNA, a causa del gruppo aggiuntivo -OH in posizione 2';

- L'RNA esiste (quasi) sempre sotto forma di molecole a singolo filamento;

- Intermedi di RNA a doppia elica possono formarsi durante la replicazione di alcuni virus, e sono cercati e distrutti da meccanismi di difesa (allo stesso modo del DNA a singola elica);

- Non assume una struttura secondaria estesa come il DNA, ma puo' ripiegarsi formando legami idrogeno intra-catena;

Struttura dell'RNA

A U

G C

Appaiamento canonico Watson-Crick

Struttura dell'RNA

Appaiamento Wobble

Struttura dell'RNA

Sequenze palindrome (inverted repeats) nel DNA possono far formare strutture a forcina nel

corrispondente trascritto di RNA

inverted repeats in an antiparallel double helix

3’  

5’  

5’  

3’  

T G C G A T A C T C A T C G C A

A C G C T A T G A G T A G C G T

hairpin

C  A   C  

T  

3’  5’  

T  A  G  C  G  T  

A  T  C  G  C  A  

Struttura dell'RNA

Struttura dell'RNA

L'impilamento delle basi conferisce stabilità

Struttura dell'RNA

La struttura secondaria può essere descritta da grafi planari in cui sono rappresentate tutte le basi appaiate, le forcine e i loops. Questa rappresentazione ha poco a che vedere con la vera struttura tridimensionale, ma è utile per avere un'idea di quanti e quali elementi strutturali sono presenti.

Struttura dell'RNA

Rappresentazione della struttura secondaria

..(((.(((......))).((((((....)))).))....))) AGCUACGGAGCGAUCUCCGAGCUUUCGAGAAAGCCUCUAUUAGC

Struttura dell'RNA

Rappresentazione della struttura secondaria

Struttura dell'RNA

GGGCUAUUAGCUCAGUUGGUUAGAGCGCACCCCUGAUAAGGGUGAGGUCGCUGAUUCGAAUUCAGCAUAGCCCA (((((((..((((.........)))).(((((.......))))).....(((((.......)))))))))))).

Struttura secondaria

Struttura primaria

Struttura terziaria

Struttura dell'RNA

Motivi strutturali dell'RNA

Struttura dell'RNA

single strands

bulge

internal loop hairpin

A-form double helix

C  

A  

G  A  

CGU  

GCA  

A  

A  

GAUGG

CUACC

GGAAC U    

CCUUG A  

C  

T  

A  A  

Motivi strutturali dell'RNA

Struttura dell'RNA

In aggiunta alle interazioni strutturali secondarie, ci sono interazioni “terziarie” che possono essere a lunga distanza.

Spesso non sono rappresentabili da espressioni a parentesi bilanciate

Struttura dell'RNA

aac  guu   cccc  ucu   acc   ggg  gca  gc   ggu   cc  aga   ugc   acc  c  c  

Pseudoknots: pattern di forcine che si incrociano

Struttura dell'RNA

Rappresentazione circolare di uno pseudoknot

Struttura dell'RNA

Kissing hairpins

Struttura dell'RNA

l  La maggior parte degli appaiamenti di basi non sono incrociati: l  Date due coppie (i, j) e (i’,j’) è i < i’ < j’ < j oppure i’ < i < j < j’

l  Gli Pseudoknots sono spesso importanti per la funzione dei ncRNA; l  Non e' chiaro quanti pseudoknots siano presenti nei ncRNA, ma non sembrano molto frequenti; l  Aumentano la complessità di tutti i metodi per lo studio dei ncRNA; l  Sono quindi normalmente ignorati.

Struttura dell'RNA

RNA Proteine

tipi di catene laterali 4 20

rotazioni del backbone 7 2

struttura secondaria eliche α, β, …… # di stati stabili spesso > 1 di solito 1

forza trainante del folding impilamento forza idrofobica

stabilità della struttura secondaria

stabile senza struttura terziaria

instabile senza struttura terziaria

Struttura dell'RNA

•  - Minimizzazione dell’energia libera –  Basato su algoritmi di programmazione dinamica; –  Non richiede un allineamento multiplo ma si può alcolare

sulla singola sequenza; –  Necessita di parametri energetici stimati sperimentalmente

che contribuiscono alla formazione della struttura secondaria.

•  - Analisi comparativa –  Utilizza allineamenti multipli per identificare posizioni che

co-evolvono; –  Necessita di allineamenti accurati e popolati.

Predizione della struttura secondaria dell'RNA

l  Abbiamo bisogno: l  Di una funzione che calcoli un punteggio

(idealmente l'energia libera) data una struttura secondaria di RNA;

l  Un algoritmo che permetta di trovare la struttura a punteggio maggiore (o energia minore) fra tutte le possibili strutture.

l  Due algoritmi:

l  Algoritmo di Nussinov l  Algoritmo di Zuker

Come si trova la struttura ad energia libera minima?

Predizione della struttura secondaria dell'RNA

Come si trova la struttura ad energia libera minima?

Predizione della struttura secondaria dell'RNA

l  L'approccio più semplice consisterebbe nel calcolare l'energia libera di tutte le possibili strutture secondarie che un RNA può assumere;

l  Il numero di possibili strutture secondarie cresce esponenzialmente con la lunghezza della sequenza dell'RNA ed è ~ 1.8N (dove N è la lunghezza);

l  Assumendo che l'energia di 1000 strutture possa essere calcolata in un secondo, per una sequenza di RNA di 100 nucleotidi: - Numero di strutture secondarie: ~ 3 × 1025 - Tempo per valutarle tutte: ~ 1014 anni

l  Definiti per la prima volta da Richard Bellman nel 1953; l  Idea generale: per risolvere un problema, spesso si possono risolvere diverse parti del problema (sottoproblemi) per poi combinare le soluzioni; l  Si applicano a problemi in cui il punteggio è costruito progressivamente da soluzioni parziali;

l  Applicazioni: l  Allineamento di sequenze; l  Ricerca di percorsi ottimali; l  Hidden Markov models.

Soluzione: algoritmi di programmazione dinamica

Predizione della struttura secondaria dell'RNA

"  Un modello semplice assume che l'energia della molecola sia più bassa tante più basi sono appaiate. Massimizzando il numero di appaiamenti si ottiene la struttura secondaria più stabile [Waterman (1978), Nussinov et al (1978), Waterman and Smith (1978)]; "  Appaiamenti G – C, A – U, e G – U sono considerati, e generalmente trattati allo stesso modo; "  Altri contributi energetici (stabilizzanti o destabilizzanti) sono ignorati; "  Pseudoknots sono ignorati; "  L'energia di una data coppia di basi è indipendente dallo stato delle basi circostanti.

Massimizzazione del numero di basi appaiate

Predizione della struttura secondaria dell'RNA

l  L'algoritmo di Nussinov non considera altri contributi energetici (ne positivi ne negativi)

l  Nel laboratorio di Turner sono stati stimate le energie di numerose

substrutture di molecole di RNA, per denaturazione termica l  E' stato anche visto che nella maggior parte dei casi le energie sono

additive, e l'energia dipende da interazioni a corto raggio l  Si può pensare ad un algoritmo che estenda la funzione di scoring a

questi parametri energetici l  Gli algoritmi più popolari sono Mfold e RNAfold

Minimizzazione dell'energia

Energia della struttura secondaria dell'RNA

Energie di forcine calcolate come contributo dell'impilamento fra coppie di basi adiacenti

Energia libera (kcal/mole a 37oC )

Energia della struttura secondaria dell'RNA

Dimensione Internal Bulge Hairpin 1 NA 3.8 NA 2 NA 2.8 NA 3 NA 3.2 5.6 4 1.7 3.6 5.5 5 1.8 4.0 5.6 6 2.0 4.4 5.3 7 2.2 4.6 5.8 8 2.3 4.7 5.4 30 3.7 6.1 7.7

Energia destabilizzante dei loops

Energia della struttura secondaria dell'RNA

Energia della struttura secondaria dell'RNA

Energia della struttura secondaria dell'RNA

:eH(i,j)

:a+3*b+4*c

:eL(i,j,i’,j’)

i j

i

j J’

i’ i i+1

j j-1

:eS(i,j,i+1,j-1)

[Lyngsø (1999)]

Zuker-Sankoff minimum energy model

"  Le stacks costituiscono la forza stabilizzatrice maggiore; "  Basi non appaiate formano loops che destabilizzano la struttura; "  Diversi tipi di loops (hairpin loops, bulge/internal loops, multiloops).

Energia della struttura secondaria dell'RNA

Identificazione di geni per ncRNA

Geni per ncRNA possono essere predetti: 1.  Per omologia con ncRNA

2.  Per similarità con modelli di famiglie di ncRNA note 2. Ab initio

Evoluzione della sequenza dei ncRNA l  L'evoluzione di un RNA è vincolata dalla sua

struttura; l  Mutazioni che alterano la struttura sono

generalmente contro-selezionate, andando a influenzare negativamente anche la funzione;

l  E' però possibile che una mutazione che non-alteri la struttura sia mantenuta nel corso dell'evoluzione;

l  Di conseguenza, RNA con struttura simile possono essere anche molto diversi in sequenza.

Identificazione di geni per ncRNA

Identificazione di geni per ncRNA

RNA  con  sequenza  diversa  possono  avere  stru3ura  simile  e  svolgere  la  stessa  funzione  

•  Cambiamenti di sequenza anche drastici sono tollerati se la struttura non risulta modificata;

•  Molto comuni sono le mutazioni compensatorie: –  Un appaiamento di basi muta in un' altro appaiamento; –  La struttura rimane la stessa

tRNA1:

tRNA2:

Mutazione compensatoria

L'evoluzione dei ncRNA è vincolata dalla loro struttura secondaria

Identificazione di geni per ncRNA

Identificazione di geni per ncRNA

Identificazione di geni per ncRNA

Analisi  della  covarianza:  Mutazioni  compensatorie  possono  essere  cercate  calcolando  l’informazione  mutua  Mij  fra  coppie  di  colonne  i,j  di  un  allineamento  mul)plo:    Mij  =  Σi,j  fxixj  log2  (fxixj/fxi  fxj)    Dove:        fxixj  frequenza  della  coppia        fxi  frequenza  del  nucleo)de  xi  in  posizione  i        0  <=    Mij  <=2  Mij  =  0  se  le  posizioni  i,j  non  sono  correlate    

A

A

C

G

U

U

G

C

fAi  =  .5  fCi  =  .25  fGi  =  .25    fUj  =  .5  fCj  =  .25  fGj  =  .25  

fAU  =  .5  fCG  =  .25  fGC  =  .25  

Mij  =  Σxixj  fxixj  log2  (fxixj/fxi  fxj)  =  .5  log2  (.5/(.5*.5))+2*.25  log2  (.25/(.25*.25))=.5  *1  +.5*2  =  1.5  

A

A

A

A

U

U

U

UMij  =  1  log  1  =  0  

U

A

C

G

A

U

G

CMij  =  4*.25  log  4  =  2  

i   j  

Identificazione di geni per ncRNA

Date  due  colonne  dell’allineamento  i  e  j:  

Identificazione di geni per ncRNA

Geni per ncRNA possono essere predetti: 1.  Per omologia con ncRNA

2.  Per similarità con modelli di famiglie di ncRNA note 2. Ab initio

modello  

genoma  

Test  del  modello  

Finestra  che  scorre  

Allineamento  di  sequenze/stru3ure  di  RNA  

Costruzione  del  modello  (ad  es.  con  SCFG)  

Identificazione di geni per ncRNA

Se si ha a disposizione un buon allineamento di sequenze di ncRNA della stessa famiglia, la cui struttura è nota, lo si può usare per costruire un modello statistico della famiglia, da usare per ricerche in genomi di altri membri della famiglia; Strumenti per specifiche famiglie: " tRNAscan-SE (tRNA) " BRUCE (transfer-messenger RNA) " SNOSCAN (box c/D small nucleolar RNA) " SNOGPS (box H/ACA snoRNA) " FISHER (box H/ACA snoRNA) " ProMIR (miRNA umani) " MiR-scan (miRNA di vertebrati) " Harvester (miRNA di piante) " MiR-Abela (miRNA di mammiferi) Strumenti generici: covariance models (CM), basati su stochastic context free grammars (SCFG); oppure si usano varianti di HMM. " INFERNAL " CMFinder

Identificazione di geni per ncRNA

tRNAscan

I  tRNA  hanno  una  stru3ura  molto  conservata  sopratu3o  in  alcune  posizioni  chiave.      La  ricerca  di  geni  per  tRNA  consiste  nel  ricercare  nel  genoma  queste  posizioni  conservate  alla  distanza  giusta.      Si  u)lizza  un  albero  decisionale,  in  cui  le  cara3eris)che  da  cercare  sono  priori)zzate,  si  ha  una  predizione  posi)va  se  tu3e  le  condizioni  sono  rispe3ate.  

E' una banca dati gestita dal Wellcome Trust Sanger Institute di famiglie di ncRNA e di elementi strutturati di RNA degli RNA messaggeri; Gli allineamenti e le annotazioni sono curate manualmente da esperti; Simile in scopo e struttura alla banca dati Pfam per famiglie proteiche; Per ogni famiglia esiste un allineamento multiplo di sequenza (MSA) curato manualmente (l'allineamento seed); Dal seed viene costruito un covariance model, usato per identificare altri membri della famiglia usando INFERNAL, che sono poi incorporati in un altro MSA, generato automaticamente (l'allineamento full).

Rfam

Rfam

Rfam