Post on 16-Feb-2019
Il vostro progetto
Analisi di da) di sequenziamento del trascri3oma (RNA-‐Seq):
1. Analisi di qualità 2. Mappatura sul genoma 3. Calcolo dell’espressione 4. Test di espressione differenziale 5. Visualizzazione e interpretazione 6. Analisi funzionale
Espressione differenziale
Un test di espressione differenziale misura la probabilità che differenze in espressione misurate in due condizioni siano realmente associate a una differenza biologica e non a flu3uazioni casuali. Flu3uazioni possono essere dovute a:
errori di misura variazione tecnica dovuta alla preparazione del campione variazione biologica non associata alle due condizioni
Viene s)mata la varianza a3esa, calibrata se possibile nelle repliche dell’esperimento, e confrontata con la varianza osservata basata su un modello probabilis)co di mappatura delle reads. La significa)vità dell’eventuale differenza viene s)mata con un test sta)s)co, con ipotesi nulla che non ci sia differenza fra i valori di espressione nelle du condizioni.
Cuffdiff
File gene_exp.diff
Test_id: id del locus Gene_id: id del gene Gene: nome comune del gene Locus: coordinate genomiche del locus Sample_1: nome del primo campione Sample_2: nome della seconda condizione Status: OK, NO TEST, LOW DATA Value_1: espressione nel primo campione Value_2: espressione nel secondo campione Log2(fold_change): log del rapporto espressione1/espressione2 Test_stat: risultato del test sta)s)co P_value: p-‐value Q_value: p-‐value corre3o per tes)ng mul)plo Significant: YES [se q-‐value < 0.01], NO
• Un modo per ottenere un’interpretazione biologica dell’esperimento è di vedere se i geni differenzialmente espressi nelle due condizioni hanno caratteristiche funzionali che possono spiegare il fenotipo osservato
• Ma le annotazioni funzionali sono eterogenee, e difficilmente razionalizzabili su larga scala
Interpretazione biologica
Cosa serve: • Un modo standardizzato per rappresentare caratteristiche
funzionali dei prodotti dei geni
• Una mappatura accurata delle funzioni sui prodotti genici
• Un metodo statistico per valutare se differenze di espressione in due condizioni sono associate significativamente a una o più categorie funzionali
Interpretazione biologica
• Il Gene Ontology Consortium nasce come una collaborazione fra altri consorzi volti all’annotazione di organismi modello (FlyBase, SGD, MGD). Ora include altri centri e gruppi di interesse
• Ontologia: Una rappresentazione formale di una serie di concetti e delle relazioni fra di essi
• Scopo: ottenere un’annotazione consistente dei prodotti genici in un organismo e fra organismi diversi
Gene Ontology
The Gene Ontology (GO) Consortium:
Gene Ontology
The Gene Ontology (GO) Consortium:
• Sono stati sviluppati tre vocabolari controllati (ontologie) di termini (detti termini GO) che descrivono i prodotti dei geni secondo i processi biologici in cui sono coinvolti, le loro funzioni molecolari e la loro localizzazion sub-cellulare o extra-cellulare
• Questi termini sono associati fra loro in una forma gerarchica, andando da termini più generici fino a termini più dettagliati
Temine GO: una parola del vocabolario, appartenente a una delle tre ontologie principali, che ha un numero identificativo (ad es. GO:000001), una descrizione, dei sinonimi, e rapporti di parentela (termini genitori e figli) con altre parole
Le tre ontologie: • Molecular Function (8360 termini): attività elementari, compito (attività catalitica, legame del calcio, etc.) • Biological Process (14898 termini): scopo generale (trasduzione del segnale, risposta immunitaria, etc.) • Cellular Component (2110 termini): localizzazione o complesso (nucleo, mitocondrio, ribosoma, etc.)
Gene Ontology
• GO ID: GO:0007268
• GO term: synaptic transmission
• Ontologia: biological process
• Definizione: The process of communication from a neuron to a target (neuron, muscle, or secretory cell) across a synapse
Gene Ontology
Gene Ontology
Una volta defini) i termini e le loro relazioni, è necessario associare ques) termini ai geni i cui prodoi hanno una certa funzione molecolare, fanno parte di un certo processo biologico, o si trovano in una certa componente cellulare. Queste associazioni derivano da evidenze sperimentali, oppure da inferenza computazionale
Gene Ontology
• Experimental Evidence Codes – EXP: Inferred from Experiment – IDA: Inferred from Direct Assay – IPI: Inferred from Physical Interaction – IMP: Inferred from Mutant Phenotype – IGI: Inferred from Genetic Interaction – IEP: Inferred from Expression Pattern
• Computational Analysis Evidence Codes – ISS: Inferred from Sequence or Structural Similarity – ISO: Inferred from Sequence Orthology – ISA: Inferred from Sequence Alignment – ISM: Inferred from Sequence Model – IGC: Inferred from Genomic Context – RCA: inferred from Reviewed Computational Analysis
Ogni associazione deriva da una o più evidenza, identificate da un codice specifico:
Immune responseMetabolismTranscriptionEnergy productionNeurotransmissionProtein transport
Categoria Funzionale Numero di geniImmune response 40Metabolism 20Transcription 20Energy production 10Neurotransmission 5Protein transport 5TOTALE 100
Arricchimento funzionale
I termini GO associa) ai geni differenzialmente espressi possono essere ricava) da Ensembl, Uniprot o da altre banche da) di annotazioni, cercando di associare la variazione di espressione alle condizioni biologiche confrontate. In questo caso, emerge che un buono numero (il 40%) di geni sono coinvol) nel sistema immunitario
Arricchimento funzionale
Osservare una certa frazione di geni differenzialmente espressi associati a un certo processo, funzione o altro non è sufficiente: bisogna stimarne la significatività statistica, cioè quanto questa frazione si discosta da quanti ce ne sarebbe attesi campionando geni a caso nel genoma. Si parla di test di arricchimento funzionale Si confronta l’insieme di geni di interesse con un dataset di background, ad es. l’intero proteoma umano, per verificare se una certa annotazione si trova più (o meno) nell’insieme di interesse rispetto ad un campionamento casuale del dataset di background Un test molto usato è quello della distribuzione ipergeometrica
• Consideriamo il seguente caso: – Un cassetto contiene N calzini. – Esattamente B calzini sono blu, e i rimanenti N-B
sono rosa. – Preleviamo n calzini (senza rimetterli dentro) dal
cassetto, e osserviamo che b sono blu
• Il numero di calzini blu prelevati è significativamente maggiore o minore di quanto uno si aspetta dalla distribuzione dei calzini nel cassetto?
• Se questo è vero, allora il metodo di estrazione dal cassetto favorisce (o sfavorisce) i calzini blu
Test della distribuzione ipergeometrica
• La probabilità di trovare esattamente b calzini blu fra gli n pescati è data dalla funzione ipergeometrica:
• La probabilità di trovare almeno b calzini blu è:
( , , , )
n N nb B b
HG N B n bNB
−⎛ ⎞⎛ ⎞⎜ ⎟⎜ ⎟−⎝ ⎠⎝ ⎠=
⎛ ⎞⎜ ⎟⎝ ⎠
min( , )
( , , , ) ( , , , )n B
i bHGT N B n b HG N B n i
=
= ∑
Test della distribuzione ipergeometrica
Test della distribuzione ipergeometrica
Nel cassetto ci sono 100 calzini, 90 rosa e 10 blu, e ne pesco 5 a caso
Numero b di calzini blu fra i 5 pescati
Pro
babi
lità
di p
esca
re b
cal
zini
blu
• Nel nostro caso, la popolazione di N geni nel genoma di interesse può essere divisa in B geni che sono associati ad un certo termine GO, e N-B che non sono associati ad esso.
• Immaginiamo che fra gli n geni differenzialmente espressi, b sono associati a quel termine GO, e n-b non lo sono
• Se il numero b risulta significativamente maggiore o minore dell’atteso, allora il modo di estrazione dei geni (cioè il fatto che siano differenzialmente espressi) è significativamente associato al termine GO in esame
Test della distribuzione ipergeometrica
Confronto di 68 strumenti per test di arricchimento funzionale disponibili nel 2008:
Arricchimento funzionale
Cuffdiff
File gene_exp.diff
Selezionare i geni (il loro ID di Ensembl o il loro nome comune) con p-value o q-value di espressione differenziale minore di 0.05
DAVID
Si può specificare l’organismo, rinominare la lista di geni, e partire con l’analisi funzionale
• KEGG contiene pathways metabolici
• Esempio: Glicolisi
• Substrati e prodotti sono rappresentati da cerchi
• Enzimi sono rappresentati da rettangoli
KEGG - Kyoto Encyclopedia of Genes and Genomes
KEGG - Kyoto Encyclopedia of Genes and Genomes
• KEGG contiene anche pathway di regolazione e trasduzione del segnale
• Esempio: MAPK signaling pathway
BioCarta
• BioCarta è specializzata in pathway di trasduzione del segnale
• Esempio: ATM signalling pathway
• Ma contiene anche pathways metabolici
• Es: Glicolisi
• I composti sono mostrati come strutture e formule
• Gli enzimi segnano il passaggio da substrati a prodotti
BioCarta
RNA non codificante
l Di tutto l'RNA trascritto negli eucarioti superiori, il 98% non è mai tradotto in proteine;
l Di questo 98%, circa il 50-70% è costituito da introni; l Il resto origina da geni non codificanti proteine, fra cui geni
per rRNA, tRNA e una vasta serie di altri geni per RNA non codificante (non-coding RNA, ncRNAs);
l Anche alcuni introni sono stati visti contenere ncRNAs, ad
exsempio gli snoRNA; l Il numero di ncRNA diversi nei genomi di mammifero è
sconosciuto (secondo stime recenti > 15000).
Funzioni dell’RNA: 1. Immagazzinamento/trasferimento dell'informazione genetica: ñ RNA genomico ñ Molti virus hanno genomi composti da RNA è Singolo filamento (ssRNA) [ad es. HIV] è Doppio filamento (dsRNA) [ad es. Rotavirus]
ñ RNA messaggero
2. Strutturale 3. Catalitico 4. Regolatorio
RNA non codificante
Gli ncRNA si possono genericamente classificare in due gruppi in base alla loro funzione:
l NcRNA housekeeping, i quali sono espressi sempre e sono necessari per le funzioni normali e la sopravvivenza della cellula;
l NcRNA regolatori o modulatori, i quali sono espressi per rispondere a particolari esigenze;
l NcRNA regolatori possono influire sull'espressione di altri geni
modulando la loro trascrizione o traduzione
RNA non codificante
Esempi di ncRNA housekeeping: • Apparato per la sintesi proteica:
l Transfer RNA (tRNA); l RNA Ribosomiale (rRNA); l snRNA: RNA dello spliceosoma; l snoRNA (small nucleolar RNA) : ruolo accessorio agli rRNA;
• tmRNA (tRNA like mRNA): degradazione delle proteine; • gRNA: editing dell'RNA; • RNA della telomerasi: primer per la sintesi del DNA dei telomeri;
RNA non codificante
Esempi di ncRNA modulatori: • Micro RNA (miRNA): regolatori della traduzione; • Small interfering RNAs (siRNA): silenziamento di geni; • Riboswitch RNA: controllo dell'espressione genica; • ncRNA modulatori delle funzioni di proteine; • ncRNA regolatori della localizzazione di RNA e proteine.
RNA non codificante
I ncRNA svolgono la loro funzione: " In maniera sequenza-specifica (es. per appaiamento di basi con un target); " In maniera struttura-specifica (es. per interazione con ligandi proteici); " In maniera sia sequenza- che struttura-specifica.
RNA non codificante
• SRP RNA 1 • RNase P RNA 1 • Telomerase RNA 1 • RNase MRP 1 • Y RNA 5 • Vault 4 • 7SK RNA 1 • Xist 1
• H19 1 • BIC 1
• RNA An)senso 1000? • Altri >10000?
Geni per ncRNA nel genoma umano
• miRNA 700 • tRNA 600 • 18S rRNA 200 • 5.8S rRNA 200 • 28S rRNA 200 • 5S rRNA 200 • snoRNA 300 • U1 40 • U2 30 • U4 30 • U5 30 • U6 20 • U4atac 5 • U6atac 5 • U11 5 • U12 5
Geni per ncRNA
I geni codificanti per ncRNA possono avere diverse caratteristiche: " Possono essere espressi come parte di un gene codificante per proteine; " Possono far parte di un unico trascritto precursore da cui sono estratti diversi ncRNA; " Possono essere molto corti, o molto lunghi; " Possono avere introni, e subire splicing; " Possono essere espressi da pseudogeni di geni codificanti proteine; " Possono essere trascritti dalla RNA polimerasi II o dalla III; " Possono essere poliadenilati.
I geni codificanti per ncRNA non sono generalmente identificabili con metodi per geni codificanti proteine
l Segnali - ATG - TAA, TGA, TAG - GT…..AG
l Caratteristiche composizionali comuni - Lunghezza degli esoni - Lunghezza degli introni - Codon bias - Altre caratteristiche genomiche
l Omologia (allineamento in cis)
?
?
Geni per ncRNA
?
L’identificazione di geni per ncRNA si può basare su: " Allineamenti cis/trans;
" Modelli statistici specifici di particolari famiglie di ncRNA;
" Ricerca ab initio in regioni genomiche.
Geni per ncRNA
L’identificazione di geni per ncRNA si può basare su: " Allineamenti cis/trans; (i dati di sequenza sono molto inferiori rispetto a quelli per geni codificanti; le sequenze divergono velocemente) " Modelli statistici specifici di particolari famiglie di ncRNA; (sono difficili da modellare) " Ricerca ab initio in regioni genomiche. (si può fare solo in casi particolari) Tutti i metodi si avvantaggiano di alcune caratteristiche strutturali dell’RNA
Geni per ncRNA
" Non tutti gli RNA hanno una struttura con energia libera minima che è particolarmente più stabile delle altre possibili conformazioni. " Si possono quindi distinguere due classi di RNA: strutturati e non strutturati; " RNA non strutturati (ad es. i mRNA) hanno una serie anche ampia di conformazioni ad energia simile; la loro funzione non è struttura-specifica; " RNA strutturati (la maggior parte dei ncRNA) invece esisterà per la grande maggioranza del suo tempo in una particolare conformazione, che è importante per la funzione dell'RNA; " Caso particolare sono RNA di particelle ribonucleoproteiche, i quali hanno una struttura stabile e svolgono la funzione in maniera struttura-specifica, ma possono adottare questa conformazione solo formando il complesso con le proteine loro partner.
Energia della struttura secondaria dell'RNA
- Doppie eliche di RNA non sono stabili come quelle di DNA, a causa del gruppo aggiuntivo -OH in posizione 2';
- L'RNA esiste (quasi) sempre sotto forma di molecole a singolo filamento;
- Intermedi di RNA a doppia elica possono formarsi durante la replicazione di alcuni virus, e sono cercati e distrutti da meccanismi di difesa (allo stesso modo del DNA a singola elica);
- Non assume una struttura secondaria estesa come il DNA, ma puo' ripiegarsi formando legami idrogeno intra-catena;
Struttura dell'RNA
Sequenze palindrome (inverted repeats) nel DNA possono far formare strutture a forcina nel
corrispondente trascritto di RNA
inverted repeats in an antiparallel double helix
3’
5’
5’
3’
T G C G A T A C T C A T C G C A
A C G C T A T G A G T A G C G T
hairpin
C A C
T
3’ 5’
T A G C G T
A T C G C A
Struttura dell'RNA
La struttura secondaria può essere descritta da grafi planari in cui sono rappresentate tutte le basi appaiate, le forcine e i loops. Questa rappresentazione ha poco a che vedere con la vera struttura tridimensionale, ma è utile per avere un'idea di quanti e quali elementi strutturali sono presenti.
Struttura dell'RNA
Rappresentazione della struttura secondaria
..(((.(((......))).((((((....)))).))....))) AGCUACGGAGCGAUCUCCGAGCUUUCGAGAAAGCCUCUAUUAGC
Struttura dell'RNA
GGGCUAUUAGCUCAGUUGGUUAGAGCGCACCCCUGAUAAGGGUGAGGUCGCUGAUUCGAAUUCAGCAUAGCCCA (((((((..((((.........)))).(((((.......))))).....(((((.......)))))))))))).
Struttura secondaria
Struttura primaria
Struttura terziaria
Struttura dell'RNA
single strands
bulge
internal loop hairpin
A-form double helix
C
A
G A
CGU
GCA
A
A
GAUGG
CUACC
GGAAC U
CCUUG A
C
T
A A
Motivi strutturali dell'RNA
Struttura dell'RNA
In aggiunta alle interazioni strutturali secondarie, ci sono interazioni “terziarie” che possono essere a lunga distanza.
Spesso non sono rappresentabili da espressioni a parentesi bilanciate
Struttura dell'RNA
aac guu cccc ucu acc ggg gca gc ggu cc aga ugc acc c c
Pseudoknots: pattern di forcine che si incrociano
Struttura dell'RNA
Kissing hairpins
Struttura dell'RNA
l La maggior parte degli appaiamenti di basi non sono incrociati: l Date due coppie (i, j) e (i’,j’) è i < i’ < j’ < j oppure i’ < i < j < j’
l Gli Pseudoknots sono spesso importanti per la funzione dei ncRNA; l Non e' chiaro quanti pseudoknots siano presenti nei ncRNA, ma non sembrano molto frequenti; l Aumentano la complessità di tutti i metodi per lo studio dei ncRNA; l Sono quindi normalmente ignorati.
Struttura dell'RNA
RNA Proteine
tipi di catene laterali 4 20
rotazioni del backbone 7 2
struttura secondaria eliche α, β, …… # di stati stabili spesso > 1 di solito 1
forza trainante del folding impilamento forza idrofobica
stabilità della struttura secondaria
stabile senza struttura terziaria
instabile senza struttura terziaria
Struttura dell'RNA
• - Minimizzazione dell’energia libera – Basato su algoritmi di programmazione dinamica; – Non richiede un allineamento multiplo ma si può alcolare
sulla singola sequenza; – Necessita di parametri energetici stimati sperimentalmente
che contribuiscono alla formazione della struttura secondaria.
• - Analisi comparativa – Utilizza allineamenti multipli per identificare posizioni che
co-evolvono; – Necessita di allineamenti accurati e popolati.
Predizione della struttura secondaria dell'RNA
l Abbiamo bisogno: l Di una funzione che calcoli un punteggio
(idealmente l'energia libera) data una struttura secondaria di RNA;
l Un algoritmo che permetta di trovare la struttura a punteggio maggiore (o energia minore) fra tutte le possibili strutture.
l Due algoritmi:
l Algoritmo di Nussinov l Algoritmo di Zuker
Come si trova la struttura ad energia libera minima?
Predizione della struttura secondaria dell'RNA
Come si trova la struttura ad energia libera minima?
Predizione della struttura secondaria dell'RNA
l L'approccio più semplice consisterebbe nel calcolare l'energia libera di tutte le possibili strutture secondarie che un RNA può assumere;
l Il numero di possibili strutture secondarie cresce esponenzialmente con la lunghezza della sequenza dell'RNA ed è ~ 1.8N (dove N è la lunghezza);
l Assumendo che l'energia di 1000 strutture possa essere calcolata in un secondo, per una sequenza di RNA di 100 nucleotidi: - Numero di strutture secondarie: ~ 3 × 1025 - Tempo per valutarle tutte: ~ 1014 anni
l Definiti per la prima volta da Richard Bellman nel 1953; l Idea generale: per risolvere un problema, spesso si possono risolvere diverse parti del problema (sottoproblemi) per poi combinare le soluzioni; l Si applicano a problemi in cui il punteggio è costruito progressivamente da soluzioni parziali;
l Applicazioni: l Allineamento di sequenze; l Ricerca di percorsi ottimali; l Hidden Markov models.
Soluzione: algoritmi di programmazione dinamica
Predizione della struttura secondaria dell'RNA
" Un modello semplice assume che l'energia della molecola sia più bassa tante più basi sono appaiate. Massimizzando il numero di appaiamenti si ottiene la struttura secondaria più stabile [Waterman (1978), Nussinov et al (1978), Waterman and Smith (1978)]; " Appaiamenti G – C, A – U, e G – U sono considerati, e generalmente trattati allo stesso modo; " Altri contributi energetici (stabilizzanti o destabilizzanti) sono ignorati; " Pseudoknots sono ignorati; " L'energia di una data coppia di basi è indipendente dallo stato delle basi circostanti.
Massimizzazione del numero di basi appaiate
Predizione della struttura secondaria dell'RNA
l L'algoritmo di Nussinov non considera altri contributi energetici (ne positivi ne negativi)
l Nel laboratorio di Turner sono stati stimate le energie di numerose
substrutture di molecole di RNA, per denaturazione termica l E' stato anche visto che nella maggior parte dei casi le energie sono
additive, e l'energia dipende da interazioni a corto raggio l Si può pensare ad un algoritmo che estenda la funzione di scoring a
questi parametri energetici l Gli algoritmi più popolari sono Mfold e RNAfold
Minimizzazione dell'energia
Energia della struttura secondaria dell'RNA
Energie di forcine calcolate come contributo dell'impilamento fra coppie di basi adiacenti
Energia libera (kcal/mole a 37oC )
Energia della struttura secondaria dell'RNA
Dimensione Internal Bulge Hairpin 1 NA 3.8 NA 2 NA 2.8 NA 3 NA 3.2 5.6 4 1.7 3.6 5.5 5 1.8 4.0 5.6 6 2.0 4.4 5.3 7 2.2 4.6 5.8 8 2.3 4.7 5.4 30 3.7 6.1 7.7
Energia destabilizzante dei loops
Energia della struttura secondaria dell'RNA
:eH(i,j)
:a+3*b+4*c
:eL(i,j,i’,j’)
i j
i
j J’
i’ i i+1
j j-1
:eS(i,j,i+1,j-1)
[Lyngsø (1999)]
Zuker-Sankoff minimum energy model
" Le stacks costituiscono la forza stabilizzatrice maggiore; " Basi non appaiate formano loops che destabilizzano la struttura; " Diversi tipi di loops (hairpin loops, bulge/internal loops, multiloops).
Energia della struttura secondaria dell'RNA
Identificazione di geni per ncRNA
Geni per ncRNA possono essere predetti: 1. Per omologia con ncRNA
2. Per similarità con modelli di famiglie di ncRNA note 2. Ab initio
Evoluzione della sequenza dei ncRNA l L'evoluzione di un RNA è vincolata dalla sua
struttura; l Mutazioni che alterano la struttura sono
generalmente contro-selezionate, andando a influenzare negativamente anche la funzione;
l E' però possibile che una mutazione che non-alteri la struttura sia mantenuta nel corso dell'evoluzione;
l Di conseguenza, RNA con struttura simile possono essere anche molto diversi in sequenza.
Identificazione di geni per ncRNA
Identificazione di geni per ncRNA
RNA con sequenza diversa possono avere stru3ura simile e svolgere la stessa funzione
• Cambiamenti di sequenza anche drastici sono tollerati se la struttura non risulta modificata;
• Molto comuni sono le mutazioni compensatorie: – Un appaiamento di basi muta in un' altro appaiamento; – La struttura rimane la stessa
tRNA1:
tRNA2:
Mutazione compensatoria
L'evoluzione dei ncRNA è vincolata dalla loro struttura secondaria
Identificazione di geni per ncRNA
Identificazione di geni per ncRNA
Analisi della covarianza: Mutazioni compensatorie possono essere cercate calcolando l’informazione mutua Mij fra coppie di colonne i,j di un allineamento mul)plo: Mij = Σi,j fxixj log2 (fxixj/fxi fxj) Dove: fxixj frequenza della coppia fxi frequenza del nucleo)de xi in posizione i 0 <= Mij <=2 Mij = 0 se le posizioni i,j non sono correlate
A
A
C
G
U
U
G
C
fAi = .5 fCi = .25 fGi = .25 fUj = .5 fCj = .25 fGj = .25
fAU = .5 fCG = .25 fGC = .25
Mij = Σxixj fxixj log2 (fxixj/fxi fxj) = .5 log2 (.5/(.5*.5))+2*.25 log2 (.25/(.25*.25))=.5 *1 +.5*2 = 1.5
A
A
A
A
U
U
U
UMij = 1 log 1 = 0
U
A
C
G
A
U
G
CMij = 4*.25 log 4 = 2
i j
Identificazione di geni per ncRNA
Date due colonne dell’allineamento i e j:
Identificazione di geni per ncRNA
Geni per ncRNA possono essere predetti: 1. Per omologia con ncRNA
2. Per similarità con modelli di famiglie di ncRNA note 2. Ab initio
modello
genoma
Test del modello
Finestra che scorre
Allineamento di sequenze/stru3ure di RNA
Costruzione del modello (ad es. con SCFG)
Identificazione di geni per ncRNA
Se si ha a disposizione un buon allineamento di sequenze di ncRNA della stessa famiglia, la cui struttura è nota, lo si può usare per costruire un modello statistico della famiglia, da usare per ricerche in genomi di altri membri della famiglia; Strumenti per specifiche famiglie: " tRNAscan-SE (tRNA) " BRUCE (transfer-messenger RNA) " SNOSCAN (box c/D small nucleolar RNA) " SNOGPS (box H/ACA snoRNA) " FISHER (box H/ACA snoRNA) " ProMIR (miRNA umani) " MiR-scan (miRNA di vertebrati) " Harvester (miRNA di piante) " MiR-Abela (miRNA di mammiferi) Strumenti generici: covariance models (CM), basati su stochastic context free grammars (SCFG); oppure si usano varianti di HMM. " INFERNAL " CMFinder
Identificazione di geni per ncRNA
tRNAscan
I tRNA hanno una stru3ura molto conservata sopratu3o in alcune posizioni chiave. La ricerca di geni per tRNA consiste nel ricercare nel genoma queste posizioni conservate alla distanza giusta. Si u)lizza un albero decisionale, in cui le cara3eris)che da cercare sono priori)zzate, si ha una predizione posi)va se tu3e le condizioni sono rispe3ate.
E' una banca dati gestita dal Wellcome Trust Sanger Institute di famiglie di ncRNA e di elementi strutturati di RNA degli RNA messaggeri; Gli allineamenti e le annotazioni sono curate manualmente da esperti; Simile in scopo e struttura alla banca dati Pfam per famiglie proteiche; Per ogni famiglia esiste un allineamento multiplo di sequenza (MSA) curato manualmente (l'allineamento seed); Dal seed viene costruito un covariance model, usato per identificare altri membri della famiglia usando INFERNAL, che sono poi incorporati in un altro MSA, generato automaticamente (l'allineamento full).
Rfam