PATTERN, MOTIVI E PROFILI IN ACIDI NUCLEICI
description
Transcript of PATTERN, MOTIVI E PROFILI IN ACIDI NUCLEICI
PATTERN, MOTIVI E PROFILIIN ACIDI NUCLEICI
REGOLAZIONE DELL’ESPRESSIONE GENICA PATTERN DISCOVERY IN SEQUENZE PROMOTORIALI PER LA RICERCA DI NUOVI ELEMENTI FUNZIONALI
PATTERN, MOTIVI E PROFILIIN ACIDI NUCLEICI
REGOLAZIONE DELL’ESPRESSIONE GENICA PATTERN DISCOVERY IN SEQUENZE PROMOTORIALI PER LA RICERCA DI NUOVI ELEMENTI FUNZIONALI
REGOLAZIONE DELL’ESPRESSIONE GENICA
ESPRESSIONE DEL GENOMA UMANO NELLE CELLULE DIFFERENZIATE
1. Tutte le cellule di un organismo hanno lo stesso corredo genomico (~40000 geni)
2. L’espressione genica tessuto specifica determina il fenotipo morfo-funzionale dei tipi cellulari e tissutali
3. In ogni cellula differenziata ed in ogni particolare momento dello sviluppo e’ attivo solo un sottoinsieme di geni
Restrizione spaziale e temporale dell’espressione genica Geni housekeeping Geni con espressione ristretta nello spazio
• Espressione in piu’ organi/tessuti diversiStesso ruolo in piu’ tessutiIl gene codifica per diverse isoforme (promotori alternativi e/o
splicing alternativo tessuto specifico)
• Espressione specifica per tessuto, linea o tipo cellulare• Espressione solo in singole cellule• Distribuzione intracellulare o extracellulare
Geni con espressione ristretta nel tempo Stadio di sviluppo Stadio di differenziamento Momento del ciclo cellulare Espressione inducibile da parte di fattori ambientali o
extracellulari
REGOLAZIONE DELL’ESPRESSIONE GENICA
REGOLAZIONE DELL’ESPRESSIONE GENICADNA
Pre RNA
mRNA
PRIMARYTRANSLATION
ACTIVE PROTEIN
INIZIO DELLA TRASCRIZIONELa RNA polimerasi riconosce l’inizio del gene. Viene direttasul TSS (Transcription Start Site) sulla base della sua affinita’
perla specifica sequenza upstream al gene, ovvero il promotore.
Ladoppia elica viene aperta dove inizia la sintesi del
messaggero.2 steps1. I TF legano la sequenza promotrice (e gli enhancers)
formando un complesso multiproteico2. Il complesso recluta la pol II complessata ad alcuni GTF e
questa si lega al promotore core
REGOLAZIONE DELL’ESPRESSIONE GENICAPuo’ agire su ciascuno dei livelli che caratterizzano il passare dell’informazione genica dal DNA alle proteine
Negli Eucarioti superiori si svolge pricipalmente come controllo della trascrizione
REGOLAZIONE DELL’ESPRESSIONE GENICAPOL II PROMOTER ELEMENTS
TSS (vicino alla regione Initiator) + sito di legame per un GTF (spesso TBP)
CORE PROMOTER ELEMENTS• TATA box• Initiator• Downstream promoter elementTRANSCRIPTION FACTORS (TF) BINDING SITES• CAAT box• GC box• Sp-1 sites• GAGA boxesENHANCER(S) SITES
REGOLAZIONE DELL’ESPRESSIONE GENICA
Assemblaggio del complesso attivatore della trascrizione sul promotore prossimale e sulla regione core
Struttura schematica di un promotore per la Pol II
PROMOTORE CORE regione sufficiente a deteminare il TSS esattoPROM. PROSSIMALE 200-300 bp upstream al TSS, responsabile, almeno in parte, della modulazione
dell’espressionePROMOTORE DISTALE 100 bp – 2 Mb
4 possibili assetti di promotori core funzionali
A C
B D
CORE PROMOTER MODULE
GENERAL
caaaacggttgacaacatga agtaaacacggtacgatgtaccacat aaagagtattgacttaaagt ctaacctataggatacttacagccat tggcggtgttgacataaata ccactggcggtgatactgagcacatc cgtgcgtgttgactatttta cctctggcggtgataatggttgcatg tgccgaagttgagtattttt gctgtatttgtcataatgactcctgt tctttttgatgcaattcgct ttgcttctgactataatagacagggt cattaacgtttacaatttaa atatttgcttatacaatcatcctgtt cgtcaggattgacaccctcc caattgtatgttttcatgcctccaaa aattgttgttgttaacttgt ttattgcagcttataatggttacaaa atgagctgttgacaattaat catcgaactagttaactagtacgcaa tgttgacaattt t t t tg tataatg c t
• Due regioni in cui la sequenza e’ conservata: -10 - 35 dallo start site (motivi TTGACA e TATAAT)
• IL TFIID e’ un complesso della TATA box binding protein (TBP) e di altre proteine chiamate TATA binding protein associated factors, o TAFs.
• L’inizio della transcrizione puo’ essere studiato in vitro (DNA + proteine purificate). L’inizio della trascrizione da promotori TATA-containing non richiede necessariamente TAFs.
• TAFs stimulate initiation from TATA-containing promoters that also have Inr's. • TAFs are required for initiation from TATA-less promoters.
Sequenze nucleotidiche al 5’ del sito d’inizio della trascrizione di geni di E.coli trascritti attraverso il fattore housekeeping sigma70 della RNA
polimerasi
• I motivi TTGACA and TATAAT sono i segnali che vengono riconosciuti dalla subunita’ sigma70 della polimerasi.
• La “forza” relativa di un promotore e’ proporzionale alla sua similarita’ ad una specifica sequenza consenso.
• Mutazioni nelle regioni -10 and –35 alterano la “forza” del promotore.
• Esperimenti tipo footprinting o methylation interference confermano la loro attivita’.
CONSENSUS SEQUENCE APPROACH TO THE IDENTIFICATION OF GENETIC SIGNALS
GENETIC SIGNALS
dobefmolecdaiularsqueihgensvweticskiprovsvillmmdescheplemolasusyretpb
• Gli ELEMENTI SEGNALE generalmente agiscono solo sulle molecole di DNA di cui fanno parte ("cis-acting elements“)
• Questi elementi segnale vengono “accesi” o “spenti” attraverso l’interazione con fattori di trascrizione
• I fattori di trascrizione sono PROTEINE. In generale, sono proteine in grado di diffondere nelle cellule e in grado di interagire con elementi bersaglio che possono trovarsi in una qualsiasi molecola di DNA (“trans-acting factors”)
dobefmolecdaiularsqueihgensvweticskiprovsvillmmdescheplemolasusyretpb molec ular gen etics pro vi des ple asu re
MEF-2 (myocyte enhancer factor-2)PROTEINA DI 507 AAMGRKKIQITRIMDERNRQVTFTKRKFGLMKKAYELSVLCDCEIALIIFNSSNKLFQYASTMDKVLLKYTEYNEPHESRTNSDIVEALNKKEHRGCDSPDPDTSYVLTPHTEEKYKKINEFDNMMRNHKIAPGLPPQNFSMSVTVPVTSPNALSYTNPGSSLVSPSLAASSTLTDSSMLPPQTTLHRNVSPGAPQRPPSTGNAGGMLSTTDLTVPNGAGSSPVGNGFVNSRASPNLIGTGANSLGKVMPTKSPPPPGGGNLGMNSRKPDLRVVIPPSSKGMMPPLSEEEELELNTQRSSSQATQPLATPVVSVTTPSLPPQGLVYSAMPTAYNTDYSLTSADLSALQGFNSPGMLSGQVSAWQQHHLGQAALSSLVAGGQLSQGSNLSINTNQNISIKSEPISPPRDRMTPSGFQQQQQQQQQQPPPPPQPQPQPPQPQPRQEMGRSPVDSLSSSSSSYDGSDREDPRGDFHSPVLGRPPNTEDRESPSVKRMRMDAWVT
ESEMPIO DI FATTORE DI TRASCRIZIONE
muscle-type creatine kinase (-1091 –1062)... ggaggagaagctcgctCTAAAAATAAccct ...alpha-myosin heavy chain (-340 -313)... cagaTTAAAAATAActaa ...myogenin (-131 –15)... gcagccggacaagttttgatgcgaggcagcagcttagggtgggctaggtttcctttaggttttctatatttatctctgtgatttaatgccagcgccggggtttaaatggcaccgag ......Evidenze: DNase I footprinting, direct gel shift, supershift
(antibody binding) e methylation protection
DATI NOTI: SEQUENZE REGOLATIVE IN GRADO DI LEGARE MEF-2 UPSTREAM AD ALCUNI GENI REGOLATI DA MEF-2
POS. A C G T01 5 28 25 42 N02 16 32 31 21 N03 18 36 27 19 N04 19 25 33 23 N05 22 12 43 23 N06 33 9 21 37 N07 20 4 43 33 K (G o T, Keto)08 3 85 3 9 C09 3 8 0 89 T10 85 0 0 15 A11 57 0 0 41 W (A O T, Weak)12 91 0 1 8 A13 96 0 0 4 A14 93 0 1 6 A15 0 0 0 100 T16 100 0 0 0 A17 9 0 90 1 G18 34 46 11 9 M (A o C, Amino)19 36 28 8 28 N20 20 37 15 28 N21 30 34 13 23 N22 23 23 22 32 N
SEQUENZA CONSENSO LEGANTE MEF-2: NNNNNNKCTAWAAATAGMNNNN
MATRICE DI MEF-2
SEQUENZE UPSTREAM
ALLINEAMENTO LOCALE
ANALISI DELL’ALLINEAMENTO
PATTERN DISCOVERY
MOTIVO
METODO
TRANSFAChttp://transfac.gbf.de/TRANSFAC/index.html
TRANSFAC
MODELLO DI ORGANIZZAZIONE DI UN PROMOTORE COMPLESSO
RANTES/CCL5 - chemokine – inflammationPromoter characterized
PATTERN, MOTIVI E PROFILIIN ACIDI NUCLEICI
REGOLAZIONE DELL’ESPRESSIONE GENICA PATTERN DISCOVERY IN SEQUENZE PROMOTORIALI PER LA RICERCA DI NUOVI ELEMENTI FUNZIONALI
• Sono disponibili le sequenze di molti genomi interi
• Per diversi organismi procariotici ed eucariotici virtualmente tutti i geni sono noti o predetti
• Informazioni funzionali ancora parziali: regolazione espressione genica funzione proteine
• L’analisi di singoli promotori con i metodi tradizionali e’ molto lenta e dispendiosa, non “scaled up” alla quantita’ di dati disponibili
• Applicazione di metodi di “PATTERN DISCOVERY” allo studio di sequenze regolative
PATTERN DISCOVERY IN SEQUENZE PROMOTORIALI PER LA RICERCA DI NUOVI ELEMENTI FUNZIONALI
Perche’ si possono applicare metodi di “PATTERN DISCOVERY” allo studio di sequenze regolative di geni ?E’ verosimile che:
gruppi di geni espressi in modo simile (nel tempo, nello spazio) co-regolati ovvero che siano controllati da sottogruppi simili di fattori di trascrizionesottogruppi simili di fattori di trascrizione
condividano almeno parte degli elementi regolativi cis-acting, cioe’ i segnali nelle sequenze promotoriali
Pattern discovery scoprire sottostringhe comuni tra piu’ stringhe (es. Sequenze di DNA)Problemi:
I “segnali genetici” non sono pattern esatti ma approssimati
Possono esserci o non esserci nelle sequenze analizzate
PATTERN DISCOVERY IN SEQUENZE PROMOTORIALI PER LA RICERCA DI NUOVI ELEMENTI FUNZIONALI
PATTERN DISCOVERY IN SEQUENZE PROMOTORIALI PER LA RICERCA DI NUOVI ELEMENTI FUNZIONALI
PATTERN MATCHING/RECOGNITIONvs
PATTERN DISCOVERY• PATTERN MATCHING trovare TUTTE le volte in cui
uno specifico PATTERN esatto si presenta (occurences) in una stringa o in un insieme di stringhe (sequenze di DNA o aminoacidi)
Es.: trovare il PATTERN “HHKHKK” inAMVOIBGJFDHHKHKKUUUPFIRJRNTMDHHKHKKHJHKKSAAW
• PATTERN RECOGNITION riconoscere le occurences approssimate di uno specifico PATTERN in una una stringa o in un insieme di stringhe
Es.: trovare il PATTERN “HH*HKK” inAMVOIBGJFDHHKHKKUUUPFIRJRNTMDHHAHKKHJHKKSAAW
PATTERN MATCHING/RECOGNITIONvs
PATTERN DISCOVERY
• PATTERN DISCOVERY identificare PATTERN SIGNIFICATIVI in una stringa o in un insieme di stringhe senza conoscerli a priori
Es.: trovare i PATTERN SIGNIFICATIVI inATTCAGTCTTGTGCTTTTAGTCTCTTAGCTAGTCTCTAATTTAGACAGTCTA
Uno puo’ essere: AGTCT, infatti:ATTCAGTCTTGTGCTTTTAGTCTCTTAGCTAGTCTCTAATTTAGACAGTCTA
PATTERN DISCOVERY IN SEQUENZE PROMOTORIALI PER LA RICERCA DI NUOVI ELEMENTI FUNZIONALI
Approaches to pattern recognitionQuali siti potenzialmente leganti fattori di trascrizione si trovano sulla mia sequenza e dove sono localizzati ?Query: 250 bp upstream al gene per un canale Na+/Ca++
espresso nel muscolo e nel tessuto nervoso
Approaches to pattern recognitionQuali siti potenzialmente leganti fattori di trascrizione si trovano sulla mia sequenza e dove sono localizzati ?
Tabella dei risultati
Sp1
http://www.cbil.upenn.edu/cgi-bin/tess
Pattern driven: Enumerazione di tutti (o alcuni) dei
possibili patterns fino a una certa lunghezza, per ciascun pattern si calcola un punteggio basato sulla frequenza e si scelgono i punteggi piu’ alti Non fattibile per pattern anche di dimensione modesta
Sequence driven: Ricerca dei pattern basata
sull’allineamento delle sequenze
Approaches to pattern discovery
• I metodi "pattern driven" cercano in una sequenza specifiche classi di pattern e valutano la loro frequenza di apparizione.
• Il numero di pattern possibili aumenta esponenzialmente con la lunghezza dell'input. Per pattern esatti, ad esempio, e' quadratico.
• L'utilizzo di una struttura di dati ad albero dei suffissi migliora l'efficienza del metodo e permette di trovare tutte le sequenze piu' (o meno) rappresentate dell'atteso in tempo lineare con la dimensione dell'input
Algoritmi pattern driven
Algoritmi pattern driven Il problema e’ trovare pattern significativi, tra tutti i possibili pattern.
I pattern sono sottostringhe. Considero tutti i possibili pattern lunghi 10 nucleotidi nella seguente sottostringa:
AGTCTTGTGCTTTTAGTCTTGTGCCTAGTCTCTAATTTAGACAGTCT AGTCTTGTGC GTCTTGTGCT TCTTGTGCTT CTTGTGCTTTT TTGTGCTTTTA TGTGCTTTTAG GTGCTTTTAGT TGCTTTTAGTC GCTTTTAGTCT CTTTTAGTCTT TTTTAGTCTTG TTTAGTCTTGT TTAGTCTTGTG TAGTCTTGTGC AGTCTTGTGCC GTCTTGTGCCT ... Sono rappresentati tutti 1 volta, mentre la sottostringa
AGTCTTGTGCC e’ rappresentata 2 volte. Voglio sapere se trovare una sottostringa lunga 10 rappresentata 2
volte e’ SORPRENDENTE.
Per calcolare quanto un fenomeno sia sorprendente ci si riferisce a quello che ci si aspetta, sotto un’ipotesi probabilistica. La frequenza attesa di una sottostringa dipende dalla composizione della stringa. se %G=%C=%A=%T=25%posso immaginare una sorgente casuale che crea delle stringhe in modo che la probabilita’ di osservare un certo nucleotide in una certa posizione e’ indipendente dalla sequenza precedentemente generata (Modello di Bernoulli) AATGCTGT T sempre 25%
G C Approccio enumerativo: enumerare tutti i possibili pattern di una certa lunghezza contenuti in una stringa
calcolare la significativita’ statistica di ciascuno prendere in considerazione i pattern piu’ significativiPero’ esistono 410 (1,048,574) possibili pattern lunghi 10 in un alfabeto di 4 nucleotidi
Algoritmi pattern driven
Algoritmi pattern drivenPoiche’ il problema e’ computazionalmente complesso, sono stati introdotti approcci euristici per limitare il “search space”: si cerca solo un sottogruppo di pattern and esempio imponendo restrizioni sulla posizione dei “mismatches” si usano particolari strutture-dati che facilitano la ricercaUn Suffix Tree e’ una struttura-dati che permette di risolvere “agevolmente”molti problemi con le stringhe tree substrings tree-->|---mississippi m .. mississippi | |---i-->|---ssi-->|---ssippi i .. ississippi | | | | | |---ppi issip,issipp,issippi | | | |---ppi ip, ipp, ippi | |---s-->|---si-->|---ssippi s .. ssissippi | | | | | |---ppi ssip, ssipp, ssippi | | | |---i-->|---ssippi si .. sissippi | | | |---ppi sip, sipp, sippi | |---p-->|---pi p, pp, ppi | |---i p, pi
Given the string `mississippi',`miss' is a prefix, `ippi' is a suffix, & `issi' is a substring. Note that a substring is a prefix of a suffix.
Algoritmi pattern driven
ANALYSIS OF MULTIPLE SEQUENCES: trova le parole sopra- o sotto-rappresentate in un gruppo di sequenze
ANALYSIS OF MULTIPLE SEQUENCES: Enumera tutti i possibili pattern che ricorrono in almeno q sequenze, con em mutazioni, se m e’ la lunghezza del pattern
Si basano su:1. Raggruppamento di sequenze simili o “funzionalmente
equivalenti”2. Per ogni gruppo, ricerca di pattern comuni tra le sequenze3. Raggruppamento di pattern simili e ripetizione dello step
precedente fino a che rimane un solo gruppo
I metodi "sequence driven" lavorano combinando i risultati della comparazione a coppie di sequenze, con il fine di evidenziare le regioni simili. Il problema di enumerare tutti i possibili pattern con occorrenze non esatte e' piuttosto impegnativo, percio' molti programmi cercano soluzioni "quasi ottimali" attraverso algoritmi euristici.
Algoritmi sequence driven
LAVORO “SPERIMENTALE”ANALISI BIOINFORMATICA E COMPUTAZIONALE DELLE SEQUENZE DI DNA A MONTE DI GENI DIFFERENZIALMENTE ESPRESSI NELLA RETINA
SCOPOIDENTIFICARE SEQUENZE REGOLATIVE ANCORA SCONOSCIUTE E DI SVILUPPARE NUOVI MODELLI DI REGIONI REGOLATIVE TESSUTO-SPECIFICHE
METODIPREDIZIONE DI PROMOTORI RICERCA E SCOPERTA DI NUOVI PATTERNS
<
LAVORO “SPERIMENTALE”ANALISI BIOINFORMATICA E COMPUTAZIONALE DELLE SEQUENZE DI DNA A MONTE DI GENI DIFFERENZIALMENTE ESPRESSI NELLA RETINA
DATI: SEQUENZE DI DNA A MONTE DI GENI RETINA-SPECIFICI>NM_000539.2 rhodopsin (opsin 2, rod pigment)(RHO)chr3:147548167-147549166 exons in upper case
CCTTCAGACTGGAGTCCCCTGAAGGGTTCTGCCCCTCCCCTGCTCTGGTAGCCCCCTCCATCCTCCCTCCCTCCACTCCATCTTTGGGGGCATTTGAGTCACCTTTCTACACCAGTGATCTGCCCAAGCCACTGCTCACTTTCCTCTGGATAAAGCCAGGTTCCCCGGCCTAGCGTTCAAGACCCATTACAACTGCCCCCAGCCCAGATCTTCCCCACCTAGCCACCTGGCAAACTGCTCCTTCTCTCAAAGGCCCAAACATGGCCTCCCAGACTGCAACCCCCAGGCAGTCAGGCCCTGTCTCCACAACCTCACAGCCACCCTGGACGGAATCTGCTTCTTCCCACATTTGAGTCCTCCTCAGCCCCTGAGCTCCTCTGGGCAGGGCTGTTTCTTTCCATCTTTGTATTCCCAGGGGCCTGCAAATAAATGTTTAATGAACGAACAAGAGAGTGAATTCCAATTCCATGCAACAAGGATTGGGCTCCTGGGCCCTAGGCTATGTGTCTGGCACCAGAAACGGAAGCTGCAGGTTGCAGCCCCTGCCCTCATGGAGCTCCTCCTGTCAGAGGAGTGTGGGGACTGGATGACTCCAGAGGTAACTTGTGGGGGAACGAACAGGTAAGGGGCTGTGTGACGAGATGAGAGACTGGGAGAATAAACCAGAAAGTCTCTAGCTGTCCAGAGGACATAGCACAGAGGCCCATGGTCCCTATTTCAAACCCAGGCCACCAGACTGAGCTGGGACCTTGGGACAGACAAGTCATGCAGAAGTTAGGGGACCTTCTCCTCCCTTTTCCTGGATCCTGAGTACCTCTCCTCCCTGACCTCAGGCTTCCTCCTAGTGTCACCTTGGCCCCTCTTAGAAGCCAATTAGGCCCTCAGTTTCTGCAGCGGGGATTAATATGATTATGAACACCCCCAATCTCCCAGATGCTGATTCAGCCAGGAGCTTAGGAGGGGGAGGTCACTTTATAAGGGTCTGGGGGGGTCAGAACCC
>NM_000172.1 guanine nucleotide binding protein (G protein), alpha transducing activity polypeptide 1 (GNAT1)chr3:55664892-55665891
AAAAAAAAAAAAAAAAAAGGCCAGGCACGGTGGCTCATGCCTGTAATCCCAGCACTTTGGGAGGCCGAGGCGGGCAGATCACGAGGTCAGGAGACTGAGACCATCCTGGCTAACACGGTGAAACCCTGTCTTTACTAAAATACAAAAAAAGTAGCCCGACGTAGTGGCGGGCACCTGTTGTCCCAGCTACTCAGGAGGCTGAGGCAGGAGAATGGCGTGAACCTGGGAGGTGGAGCTTGCAGTGAGCTGAGATTGCGCCACTGCACTCCAGCCTGAGCAACAGAGCGAGACTCCATCTCAGAAAAAAAAAAAAAAAAGACACATACACCGAGGCACACAGAGCAGATATGCATGCCCACCACAGTCCGCTGGAAGCAGAGGACCTCCTTGGGGCAGCTCCAGCCTGTGATATGGGATGAATGCAATGCCCACTGTTTCCCTCTCTCTGGATTCCCTGCAGGTCATAAAATCCCAGTCCAGAGTCACCAGCCCTTCTTAACCACTTCCTACTGTGTGACCCTTTCAGCCTTTACTTCCTCATCAGTAAAATGAGGCTGATGATATGGGCATCCATACTCCAGGGCCAGTGTGAGCTTACAACAAGATAAGGAGTGGTGCTGAGCCTGGTGCCGGGCAGGCAGCAGGCATGTTTCTCCCAATTATGCCCTCTCACTGCCAGCCCCACCTCCATTGTCCTCACCCCCAGGGCTCAAGGTTCTGCCTTCCCCTTTCTCAGCCCTGACCCTACTGAACATGTCTCCCCACTCCCAGGCAGTGCCAGGGCCTCTCCTGGAGGGTTGCGGGGACAGAAGGACAGCCGGAGTGCAGAGTCAGCGGTTGAGGGATTGGGGCTATGCCAGCCCGATTAGAAGGGTTGGGGGGGCTGAGCTGGATTCACCTGTCCTTGTCTCTGATTGGCTCTTGGACACCCCTAGCCCCCAAATCCCACTAAGCAGCCCCACCAGGGATTGCACAGGTCCGTAGAGAGCCAGTTGATTGC
>NM_021200.1 PH domain containing protein in retina 1 (PHRET1) chr11:78311616-78312615
CACAAAGAAATGTAAAAGTTACTTGTTGGCTTATTAGTCTCAATAAGTTTTAGTTGATTGAACAAACAAAGTCTCTCACAGCCAGGACTGCTGCGGCTGGAATTCCTGACATACTGTCATACCTCTCACTCGTCAATCTACACTCTCCTCCCATCTACACAGCTCTGGAAATTAAAAACAATCCAACCATGACTATCATGGCTTCAGAGGTCTATGAACTCCCAGGAATTATACGCAGATTTTTTCCTGAGGACAGTCTACACTTCCTTATTGGCTTCTCAAAGAGGGTCACTGACCAGCTTTTAGAGACATGGGCCAAGTCCGGCTACGTTTAGATTCGGTAGTAGTGTCTGTGGTTTTAGTTTGCCACGTCCTTTCCTCTTTTTTTCGTCATAGTGCCCGCTCTTTGGGAGGTAGGGGAGAGTCTTCCCCTGAAGTCTCCACTGCTGCTGGAGAACCTTCCTTTTTCATCTGGTTGCTAAATCCAGAGAATGAAATCTAGGAGATGATTGCACCGTCCCCGCCCCTCAACATGAAGGATGCCCCACTGCCCATCGGGGAGGGGAGCAGGGAGAGCTGGAGAGAGGCTGGGTCGGGGCAGGACCCAGGCGCAGATCCTCCGAGGCCAGCTGCAGCCCTACCTACCTGCCTTCCCCTCTTTCCCCTCCCTTCTTTTCTCCTTCTGTCTTTCCTTCCTTCCATATCTCTTTCCTTGCCTCTTTCCCCCTCCCACTGCTTCCTTTCTTCCTTCCACTGTGGAGGTGGAAAATTTAGCTAGGAGAAGCTGGGACTGGGACGTTCCAGGAACCAGACAGAGAGTGAGTTAAAGGCACAGAGATGAAAACGCGGTTTGGGAGAGCTGGTTCTTGAGTCGGCTAAGAGGGGATGAACTCAATGGTTAATAGGATTGGCCATGGCGAATCCCTCAGCAGGGCACGCACCGCACAAAGGGCCGAAGCGCGAGGGTAGCTCGAGGTCAGGATTACAGAGACTCAGGAGC
Cerca "parole" non-degenerate, sovrarappresentate in un gruppo di sequenze (positive set) rispetto ad un gruppo di controllo (negative set)
LIMITI DEI PROGRAMMI ESISTENTI:
• DISPONIBILITA’ DEL SOFTWARE
• POSSIBILITA’ DI REGOLARE I PARAMETRI DI RICERCA
• LENTEZZA
• NON FUNZIONAMENTO PER LA RICERCA DI PATTERN MEDIO LUNGHI E CON ALCUNE WILDCARDS
• INCAPACITA’ DI TROVARE SEGNALI RAPPRESENTATI IN UNA FRAZIONE NON MAGGIORITARIA DELLE SEQUENZE INPUT
• ESPLOSIONE DELL’OUTPUT
• OUTPUT “ILLEGGIBILE”
IL “CHALLENGE PROBLEM”
Trovare un segnale lungo 15 nucleotidi con 4 wildcards (15-4) in 20 sequenze tutte contenenti un’istanza del segnale stesso.
Performances dei diversi programmi:
Lungh. sequenza 100 300 600 900
Consensus 0.92 0.53 0.07 0.01
Gibbs Sampler 0.93 0.52 0.12 0.00
MEME 0.91 0.59 0.10 0.00
IL “CHALLENGE PROBLEM”
Trovare un segnale lungo 15 nucleotidi con 4 wildcards (15-4) in 20 sequenze tutte contenenti un’istanza del segnale stesso.
Performances dei diversi programmi:
Sostanzialmente una frazione molto piccola dei segnali viene ritrovata e questa frazione tende a zero non appena la lunghezza delle sequenze in analisi supera il centinaio di basi.
COMPLESSITA’ REALE DEL PROBLEMA:
• La lunghezza delle sequenze promotoriali varia da 300 a 2000 paia di basi a seconda del gene e del fatto che si consideri il promotore core, quello prossimale o anche quello distale.
• I segnali non sono pattern esatti.
• Non tutti i promotori di geni presumibilmente coregolati contengono il medesimo segnale.
• ANALISI SU LARGA SCALA DELLE MATRICI DI TRANSFAC
• UTILIZZO DI SIMULAZIONI
• MASCHERAMENTO DELLE SEQUENZE ???
E’ NECESSARIO FARE RICORSO ALLE CONOSCENZE BIOLOGICHE PER FILTRARE L’INPUT E L’OUTPUT DI
PROGRAMMI DI PATTERN DISCOVERY: