riassunti bioinfo
-
Upload
ale-biotech -
Category
Documents
-
view
25 -
download
0
description
Transcript of riassunti bioinfo
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 1/44
ANALISI DI SEQUENZA
L'analisi di sequenza è un modo di organizzare le sequenze primarie di DNA, RNA,
proteine per identificare regioni di similarità, conseguenti a relazioni funzionali, strutturali o
evoluzionistiche tra di esse. Le sequenze allineate sono rappresentate come righe in una
matrice. Sono inseriti dei gap tra i residui, così da ottenere il più alto numero possibile dinucleotidi/amminoacidi identici o simili allineati in colonne successive.
ADC-NY-RQCLCR-PM
AYC--YNR-CKCRDP
AYCYN--R-CKCRDP
Dot plot
Il metodo più semplice per allineare 2 sequenze di lunghezzan edm, è quello di costruire
una matrice di grandezzan perm, e di segnare con un simbolo tutte le posizioni della
matrice in cui c'è identità tra i nucleotidi. In questo modo è possibile, ad occhio, notare il
livello di similarietà tra le sequenze, e in particolare i tratti completamente identici appaiono
come linee oblique di 45°, spezzate in corrispondenza dei gaps.
Tuttavia, questo metodo chiamato dot plot, non è un vero e proprio algoritmo capace di
darci un risultato, in quanto si limita soltanto a costruire, appunto, una matrice di punti, e
poi sta all'operatore identificare queste "linee", cosa che può diventare molto complicata a
causa del grande rumore di fondo che può crearsi in alcuni casi.
Needleman WunschQuesto algoritmo è costruito come un dot plot, ma invece di segnare un simbolo in caso di
identità assegna un punteggio positivo +1, e in caso di mismatch 0. Il punteggio della
casella X dipende dalla riga e dalla colonna che convergono nella casella in basso a
destra rispetto ad X.
X
0120300
1
0
0
In questo caso la cella a punteggio più alto è quella con il 3. Se in X c'è un match si
sommerà 1 + 3 e scriveremo 4, se invece c'è un mismatch sarà 0 + 3 e quindi ancora 3.
Se il punteggio non proviene dalla casella direttamente in basso a destra rispetto ad X, e
quindi direttamente dalla diagonale, vuol dire che è stato introdotto un gap. Poiché
consideriamo l'intera riga e l'intera colonna, vuol dire che possiamo introdurre un gap di
qualsiasi dimensione, senza differenze.
Questo tipo di allineamento è valido per quelli di tipo globale.
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 2/44
PROBLEMA
L'algoritmo Needleman Wunsch considera in ogni punto la possibilità di inserire un gap e
di estenderlo. L'introduzione di un gap però non sfavorita dal sistema di punteggio. Questo
significa che si possono inserire tutti i gap possibili al fine di ottenere il punteggio più alto
possibile. Questo non è biologicamente sensato, perché data la bassa frequenza dimutazioni, e la necessità di mantenere una certa sequenza per conservare la funzionalità
della proteina, l'allineamento migliore dovrebbe essere quello con il più basso numero di
gap, e in generale la presenza di un gap dovrebbe essere sfavorita.
Smith Watermann
Il punteggio della casella X dipende da quelle adiacenti ad essa, e cioè da quelle a
sinistra, sopra e in alto a sinistra. Nel modello più semplice all'identità viene assegnato il
punteggio +1, al mismatch, invece, +0.
10 0 0 01
0 X 1X 0 X
Questi sono i 3 casi principali che possono capitare. Nel primo caso il punteggio più alto
proviene dalla cella in alto a sinistra per cui nel caso in cui nella cella X sarà presente
un'altra identità il suo punteggio sarà 1+1 e cioè 2. Inoltre le 2 celle sono allineate in
diagonale e ciò significa che in quel tratto di 2 nucleotidi, questi sono presenti nello stessoordine su entrambe le sequenze, cioè la diagonale ha lo stesso significato che nel dot plot.
Nel secondo caso il punteggio più alto proviene da sinistra, e ciò significa che nella
sequenza di sinistra è presente un gap, e cioè come nel caso in cui la diagonale si
spezzasse orizzontalmente. I gap sono penalizzati e perciò si sottrae 1 al punteggio di X.
Nel terzo caso il gap, per lo stesso motivo, è presente nella sequenza annotata sopra.
Man mano che si completa la matrice, le celle acquisiscono un punteggio via via più alto
se l'identità viene mantenuta, mentre invece il punteggio scende con i gap e man mano
che questi vengono estesi. Alla fine si procede a ritroso, e cioè partendo dalla casella a
punteggio più alto (sempre in basso a sinistra della matrice) si ripercorre al contrario la
matrice fino al punteggio più basso: dalla casella X ci si sposta a quella a adiacente a
punteggio = X o = X - 1. A mano a mano che si procede, si riscrivono le 2 sequenze
allineate: lo spostamento in diagonale significa che le sequenze sono già allineate, con lo
spostamento verso sinistra si deve aggiungere un gap nella sequenza a sinistra, e nello
spostamento verso l'alto un gap nella sequenza in alto.
Questo tipo di algoritmo è adatto ad un allineamento di tipo locale.
PROBLEMA
L'algoritmo Smith-Watermann risolve il problema dei gap assegnando ad essi una
penalità. In questo modo, però, se immaginiamo un tratto di similarietà successivo ad una
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 3/44
zona di mismatch o a un gap molto esteso, questo sarà penalizzato, in quanto la zona
precedente avrà così abbassato il punteggio, che i punti riacquistati non saranno sufficienti
a farla notare. Quindi un primo miglioramento introdotto in questo algoritmo è stato quello
di impedire al punteggio di ottenere valori negativi, così che non scenda mai al di sotto
dello zero, anche se la dissimilarietà continua. In questo modo le zone simili emergonocome tratti a punteggio positivo.
Questo tipo di algoritmo che individua, appunto, piccole zone di similarietà è adatto ad
allineamenti di tipo locale.
PROBLEMA
Gli algoritmi descritti sono capaci di individuare le identità e di valutare i gaps. In realtà
bisogna tener conto che non tutti i mismatch sono deleteri. Per prima cosa se si stanno
confrontando 2 sequenze nucleotidiche codificanti non è detto che una sostituzione cambi
l'amminoacido codificato, inoltre le transizioni (sostituzioni purina-purina o pirimidina-
pirimidina) sono più frequenti rispetto alle trasversioni (purina-pirimidina e viceversa). Se
invece si considerano sequenze di amminoacidi, bisogna tener conto del fatto che essi
hanno un certo grado di similarietà tra loro polare o sterica. Ad esempio sostituire un acido
glutammico con un acido aspartico non è la stessa cosa di sostituirlo con un triptofano, in
quanto nel primo caso l'Aa sostitutivo ha comunque carica negativa netta, mentre il
triptofano è altamente idrofobico e a grande ingombro sterico, quindi funzionalmente ha un
ruolo totalmente diverso.
Matrici di comparazione
Le matrici di comparazione permettono di valutare meglio i match nella matrice, e di
sorpassare il concetto di identità/diversità, tenendo conto del fatto che gli amminoacidi tra
loro hanno una certa somiglianza e quindi possono essere intercambiati con una certa
probabilità senza stravolgere la funzione della proteina.
Le più utilizzate sono le matrici PAM e le Blosum.
Le matrici PAM (percent accepted mutation) sono basate sulla frequenza con cui un
amminoacido viene sostituito con un qualsiasi altro in gruppi di proteine
evoluzionisticamente conservate. I punteggi più alti sono ottenuti per gli amminoacidi
conservati, più di tutti la cisteina, che è coinvolta l'unico amminoacido che può formare
ponti disolfuro, importantissimi per la struttura proteica. Da una matrice PAM se ne
possono estrapolare altre moltiplicando ogni valore per sé stesso.
Le Blosum funzionano in modo simile, ma utilizzano gruppi di proteine più "lontani", o
meglio che superano una certa percentuale di similarietà.
PROBLEMA
I metodi precedenti mantengono il numero di confronti più basso possibile e cioèn perm.
Con questo sistema si consideravano tutti i confronti possibili, ma 1 sola volta e quidi non
si perdevano dati. Questo è ottimo quando si confrontano tra loro numeri di sequenze
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 4/44
bassi o sequenze corte. Quando, invece, si ha a che fare con ricerche in database,
bisogna ottimizzare i tempi in cui si ottengono i risultati, perché anche se si restringe al
minimo il numero di confronti (n x m) dato che si confronta la stessa sequenza con diverse
migliaia, anche un tempo molto breve e accettabile per pochi allineamenti diventa
estremamente lungo per database.
Algoritmi euristici
L'algoritmo di tipo euristico è un algoritmo la cui soluzione non è quella ottima per un dato
problema, ma viene scelto come strada per affrontare problemi molto difficili, perché riesce
a ricavare una soluzione approssimativamente molto vicina a quella ottima. Il vantaggio
spesso sta nel fatto che offre una soluzione disponibile in tempi ragionevoli, mentre il
"metodo ottimo" impiegherebbe troppo tempo.
Tipicamente riguardo l'allineamento di sequenze, gli algoritmi euristici si basano sulla
word-size. Settare la word-size significa preindicizzare la sequenza, solitamente
settandola a 2 Aa o 6 paia di basi. In questo modo la sequenza amminoacidica non viene
confronta amminoacido per amminoacido, ma a gruppi di 2, dimezzando la lunghezza
delle sequenze e praticamente riducendo a 1/4 il numero di confronti (n/2 * m/2 = nm/4).
Gli algoritmi euristici più utilizzati sono FASTA e BLAST.
FASTA individua zone di similarietà, le "recinta", cioè individua i limiti della zona e su
questa applica un algoritmo di allineamento tradizionale. Questo sistema è adatto per
allineamenti locali.
BLAST ricerca high-score segments, cioè segmenti con allineamenti molto buoni, epartendo da questi prova ad estenderne le estremità per allargare la zona di similarietà.
Questo approccio è valido per allineamenti locali.
PROBLEMA
I precedenti metodi sono capaci di allineare 2 sequenze, mentre talvolta potrebbe essere
utile confrontare tra loro gruppi di queste.
Clustal
E' il programma di allineamento multiplo più semplice. Questo allinea le sequenze a 2 a 2,
risolvendo tutti gli allineamenti doppi possibili, poi procede a una clusterizzazione, e cioè
raggruppa, sempre a coppie, le sequenze tra loro più vicine e questi cluster tra loro, fino a
costruire un albero.
PROBLEMA
Le matrici di comparazione non tengono conto della posizione di un dato amminoacido
all'interno di una sequenza. L'esempio più facile è quello dell'istidina legante l'02 nella
emoglobina. Se uno considera le matrici pam, l'istidina ha alcuni punteggi, relativamente
"flessibili", ma è ovvio che nell'emoglobina, conservare l'istidina legante l'ossigeno è di
importanza fondamentale altrimenti la molecola perde la sua funzione. Quindi sostituire
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 5/44
l'istidina in quel punto dovrebbe comportare una penalità di gran lunga più grande che
sostituire una cisteina, che è in genere l'Aa più conservato, nella stessa proteina.
Matrici di pesi - Weight Matrix
Sono costruite analizzando tot casi di varianti allineate di una stessa proteina. Per ogniposizione nella catena di analizza la frequenza con cui è presente lì un certo
amminoacido, la somma delle frequenze percentuali di tutti gli amminoacidi in quella
posizione da' sempre 100.
sequenza proteica
|-----------------------
20|
Aa|
| weight | matrix | |
Le frequenze relative sono sostituite in modo logaritmico. Questo sistema è ottimo non
solo per siti conservati in proteine ma anche per i siti di splicing e in genere tutte le
strutture non definite.
Psi-blast utilizza un sistema simile cioè le position-specific scoring matrix: a partire da una
query psi-blast, tramite blast, recupera da un database un set di risultati, servendosi
inizialmente di una matrice blosum. Sulla base di questi risultati costruisce le PSSM, e le
utilizza come matrici di comparazione per rifinire il set ottenuto, ripetendo l'operazionen volte, fino a raggiungere un punto oltre il quale ottengo sempre lo stesso pool di risultati.
PROBLEMA
Anche questo tipo di matrici non è sufficiente, perché tiene conto di gruppi ristretti di
proteine che sappiamo essere relazionati tra loro, mentre, in genere, in tutte le proteine
anche non correlazionate per funzione possiamo riconoscere dei PATTERN, dei motivi,
che sono comuni a tutte, come, ad esempio, le alfa eliche e i foglietti beta, oppure
combinazioni di questi, e domini. Oppure, semplicemente, possiamo non conoscere
proteine simili alla nostra e quindi essere sprovvisti del pool sul quale costruire le nostre
matrici di pesi.
Pscan
Pscan confronta la sequenza della propria proteina query alla ricerca di motifs, domini,
elementi, pattern presenti nel database PRINTS.
La proteina viene, quindi, descritta come una sequenza di motifs ed elementi, che nel loro
insieme costituiscono il loro finger print, la signature caratteristica.
Se i "match", cioè i motif individuati, sono presenti tutti e nell'ordine corretto, allora la
proteina della query è molto probabilmente ortologa o la stessa di quelle ritrovate nel set di
risultati.
Se i motifs sono presenti ma alcuni di questi sono nella posizione scorretta, possiamo
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 6/44
pensare che le 2 proteine siano originate per aggregazione di blocchi differenti.
Se il risultato è misto, cioè con solo alcuni motifs in comune, possiamo pensare che dato
che condividono strutture simili queste strutture avranno una funzione simile, ma, ad
esempio, è difficile supporre l'appartenenza di queste proteine alla stessa famiglia.
PROBLEMAPscan confronta la sequenza con una serie di motivi, appartenenti a proteine. Il sistema
potrebbe essere migliorato se le informazioni di proteine appartenenti a una stessa
famiglia fossero unificate in un database, così che una ricerca del genere ci possa dire a
quale di queste famiglie la nostra proteine assomiglia di più.
Pfam (Protein families database of alignments and HMMs)
Pfam è un database che nel suo servizio di ricerca permette di confrontare la nostra
sequenza non con altre singole proteine, ma con intere famiglie, così le informazioni
ottenute sono molto più snelle e si può sapere subito se la proteina analizzata mostra
caratteristiche affini a gruppi già definiti, inoltre, ovviamente riconosce le strutture
secondarie, domini, domini nidificati, regioni transmembrana, coiled coil, peptidi segnale.
Inoltre questo database fa utilizzo di schemi HMM per descrivere le proteine e
confrontarle.
PROBLEMA
Nelle matrici di pesi non si teneva conto della posizione degli amminoacidi in una certa
posizione, ma non quelli prima o dopo quella posizione, e nemmeno si considerava
l’importanza di gap all’interno della sequenza.Schema HMM
Lo schema HMM (hidden markov model) descrive la proteina come una successione di
eventi, le catene di markov, infatti, servono a dire con che probabilità si passa da uno stato
precedente a quello successivo. La proprietà di markov prevede che dato lo stato
presente, tutti gli stati futuri sono indipendenti dagli stati passati. Questo significa che lo
stato presente contiene tutte le variabili necessarie a influenzare l’evoluzione del processo.
In questo modo si descrive la proteina rispetto ad un’altra come una successione di eventi,
o stadi, che sono del tipo “amminoacido”, “inserzione”, e “delezione”.
L’evento amminoacido si verifica quando le 2 sequenze in quella posizione coincidono.
L’inserzione c’è quando la nostra sequenza presenta un Aa aggiuntivo che non è presente
in quella di confronto, e tale evento può essere ovviamente iterato nel caso l’inserzione sia
più lunga. La delezione c’è quando in quella posizione dovrebbe esserci un Aa che nella
nostra sequenza invece non c’è, l’evento in sé non può essere ovviamente iterato (non si
può deletare 2 volte lo stesso amminoacido), ma la delezione può essere allargata.
Un evento come la sostituzione amminoacidica è descritta, ad esempio, così: si parte
dall’evento Aa1, poi segue una inserzione (evento I1), e poi la delezione dell’amminoacido
successivo (D2), per poi ritornare di nuovo all’identità di sequenza Aa3.
MODELLING
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 7/44
Base del Modelling
Il modelling di proteine consiste nel ricostruire la presunta struttura terziaria di queste, sulla
base delle loro struttura primaria.
Una di queste tecniche è l’homology modelling, che si basa sull’omologia tra proteine: 2
proteine sono omologhe quando sono evoluzionisticamente correlate e quindi condividonoun antenato, e solitamente ciò è dimostrato dal fatto che hanno un alto grado di similarità
nella loro sequenza primaria. Poiché si presume che la struttura terziaria di una proteina, e
quindi il suo organizzarsi nello spazio, dipende direttamente da quella primaria, si può
pensare che proteine dalla sequenza amminoacidica simile abbiano una conformazione 3d
simile.
Struttura Struttura
primaria = primaria
proteina 1 proteina 2
| |
V V
Struttura Struttura
terziaria = terziaria
proteina 1 proteina 2
Quindi, per esempio, se volessimo creare un modello approssimativamente buono per la
struttura terziaria della proteina 2 di cui conosciamo la sequenza, l’homolgy modelling cipermette fare questo nel momento in cui conosciamo la sequenza della proteina 1, simile
alla 2, e la sua struttura terziaria tramite cristallografia a raggi X.
PDB Protein data bank
PDB è una banca dati di strutture 3D di proteine ed acidi nucleici, soprattutto RNA. Anche
gli acidi nucleici assumono una conformazione tridimensionale, si pensi, a proposito, alla
struttura dei tRNA o la struttura che assume il cromosoma ai telomeri.
I file di PDB sono del tutto analoghi a quelli di una banca dati di sequenze di acidi nucleici,
quindi sono dei testi con un tag iniziale che contraddistingue il tipo di informazione data,
un rigo, un altro tag e il n° di riga.
Le informazioni reperibili a parte generalità come gli autori, specie e commenti sono la
sequenza, e su questa informazioni sulla struttura secondaria come tratti ad alfa-elica,
beta-sheet, turn (struttura a 4Aa che fa cambiare di 180° direzione alla catena) e poi il vero
e proprio punto centrale del database e cioè l’annotazione della posizione spaziale di tutti
gli atomi della proteina, con specificazione dell’elemento atomico, Aa di appartenenza, e
ovviamente coordinate. Sono descritti anche eventuali eteroatomi, cioè atomi che non
fanno parte della proteina in sé ma si legano ad essa, come ad esempio il gruppo eme o
ioni; e molecole di H2O che sono essenziali nel mantenimento della struttura del cristallo.
Esistono poi del tools capaci di utilizzare questi dati per generare la struttura 3D come iMol
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 8/44
e Spdv. Questi forniscono vari modi di visualizzarla, tra cui il wireframe che evidenzia solo i
legami tra gli atomi, o il backbone che mostra solo lo scheletro dei legami peptidici.
Homology modelling e allineamento di sequenze
L’homology modelling è basato sul fatto che data la similarità di 2 strutture primarie, siotterrà similarità anche a livello delle strutture terziarie. Quindi per ottenere qualcosa di
significativo è necessario che le 2 strutture primarie siano effettivamente simili, e ciò è
stabilito tramite l’allineamento di sequenza. Quindi l’accuratezza del modelling dipende
direttamente dall’ottimizzazione dell’allineamento della proteina target con le altre
omologhe.
Alla fine le 2 proteine avranno un backbone in larga parte sovrapponibile.
Superposition vs alignment
L’homology modelling non è comunque un metodo infallibile. Possono esserci casi rari per
cui sequenze anche se molto diverse ripiegano nello spazio allo stesso modo. Ciò significa
che poi l’allineamento ottimale ottenuto dai software descritti precedentemente non è poi
quello rispecchiato nel vero. Questo può accadere per proteine omologhe ma molto
distanti evoluzionisticamente, per cui l’allineamento di sequenza dà un risultato scadente.
Casi come questo sembrano inficiare il presupposto per cui le strutture primarie siano
predittive di quelle terziarie.
Sono comunque casi rari, ma probabili. Dal punto di vista evolutivo, quell’allineamento,
anche se scadente, è fatto bene, nel senso che rispecchia effettivamente le mutazioniaccadute, ma dal punto di vista dell’attività proteica, non è importante tanto la sequenza
ma piuttosto il folding generale, poiché è da quello che scaturisce la funzione.
Quindi poiché il mantenimento della funzione è di importanza primaria, non importa che un
determinato amminoacido abbia la stessa funzione in tutti gli step evolutivi, e quindi se per
esempio in una certa proteina antenato fa parte di un alfa-elica, non è detto che in una sua
discendente debba comunque farne parte, l’importante è che quell’alfa-elica sia
conservata: la conservazione della struttura è più importante della conservazione della
sequenza. In casi come questo è opportuno ricorrere al metodo di sovrapposizione delle
strutture. In questo tipo di strategia si fanno coincidere spazialmente 2 amminoacidi di 2
proteine e si verifica il grado di overlap dei modelli 3d.
Position specific gap penalties
Sequence alignment – Mostra ciò che è accaduto evoluzionisticamente
Gktlit-----nfsqehip
Gktlisflyeqnfsqehip
Structure alignment – Mostra com’è che è accomodato strutturalmente
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 9/44
G|ktlitnf|sq-----ehip
G|ktlisfl|yeqnfsqehip
|α-helix|
Questo tipo di esempio permette di approfondire il concetto di prima che è molto
importante. Come si può notare le 2 sequenze differiscono per un’inserzione (flyeq), e ciò
è ben evidente dall’allineamento di sequenza. Ora noi ci aspetteremmo che
quell’inserzione venga trattata come un “loop”, ossia come un tratto di catena “addizionale”
senza un preciso ripiegamento in mezzo a 2 tratti che invece conservano in entrambe le
sequenze la stessa struttura, ma non è così: se si va a verificare a livello di struttura come
quell’inserzione è stata accomodata, si può notare che alcuni degli Aa della precedente
alfa-elica non ne fanno parte più, e il loro posto è stato sostituito da quelli dell’inserzione.
Quindi a livello di struttura è stato preferibile conservare la presenza di un’alfa elica di una
determinata lunghezza indipendentemente dagli amminoacidi che la componevano.
Questo è possibile perché è come se esistesse un “pool” di Aa compatibili con la
formazione di un’alfa elica e quindi, poiché è più importante la struttura, non importa quali
Aa siano scelti per comporla, purché siano tra quelli facenti parte del pool.
Un discorso simile è possibile farlo per i loops, che, dato che non hanno un ripiegamento
rigido da rispettare, possono accettare inserzioni e delezioni di vari amminoacidi senza
che poi il folding ne risenta particolarmente.
Ne consegue quindi che considerare una penalità generica per i gap non ha sensobiologico, ma si deve tener conto di informazioni sulla struttura, poiché da questo punto di
vista inserzioni o delezioni (indels) nei loop hanno molto meno peso che nelle strutture
secondarie.
Diventa perciò necessario introdurre penalità posizione-specifica per i gap, questo, qualora
si conoscesse i tratti con ripiegamenti particolari, può essere fatto con la semplice
implementazione di mask di strutture secondarie in clustal, o spostando manualmente i
gap fuori da questi tratti. Laddove invece non si conoscano a priori queste informazioni, ci
sono programmi capaci automaticamente di stimare la probabilità di sequenze di ripiegarsi
in strutture secondarie in base alla loro composizione.
Ma comunque nella totalità dei casi, ormai, tutti gli ultimi software di allineamento multiplo
supportano queste cose.
Homology modelling process
L’homology modelling passa per alcuni step, che sono molto simili tra software diversi:
Si parte ovviamente dalla sequenza target, che viene confrontata con quelle di una
genebank non ridondante con strutture annotate, questa procedura disearchviene
effettuata da un programma come per esempio psi-blast. Dal search otteniamo 2 tipi di
dati: le sequenze omologhe e le sequenze omologhe di cui conosciamo la struttura. A
questo punto si procede all’allineamento multiplo di queste per esempio tramite clustal, t-
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 10/44
coffee e il file ricavato viene elaborato dal modulo dimodelling vero e proprio basandosi
anche su database di strutture. Essenzialmente il backbone della nostra proteina target
sarà molto simile a quello delle sue omologhe, per cui il programma può basarsi, magari,
sulla media di questi backbone e ottimizzare via via questa struttura di base. Questo
modello vienecompletatotramite l’aggiunta di ligandi, substrati e aggiustando le zonedissimili con le proteine omologhe variando leggermente la struttura in maniera da ottenere
la maggiore sovrapposizione possibile. Tale operazione è fatta trattando le strutture
secondarie come elementi stabili concatenati da loop flessibili, quindi spostando gli
amminoacidi alle estremità (“tip”) di alfa-eliche, ecc si può variare il folding generale entro
certi limiti. In questo modo si cercano di evitare angoli di legame troppo stretti, defidendo al
meglio proprio i loop, che sono le strutture meno definite. In genere si cerca di fare
un’operazione di smoothing del backbone, e cioè di accomodare al meglio la struttura,
evitando tutte le situazioni di costrizione della struttura.
Il modello completo viene sottoposto a una fase dianalisi per valutarne l’attendibilità. La
valutazione della qualità del modello si basa ovviamente sulle sorgenti di errore e di
inaccuratezza più frequenti e queste sono la correttezza dell’allineamento multiplo, che è
lo step limitante per eccellenza dell’homology mod; il numero di strutture temprato già
conosciute disponibili, e i loop non-conservati.
Tra i software specifici per l’homology mod ci sono swiss model, modeller ma anche molti
altri sia free che commerciali, tutti ugualmente validi nello svolgere questo lavoro.
Un programma come questi è organizzato a moduli ognuno con un compito diverso, per
esempio Swiss model affida la procedura di search a blastp2, l’alignment a sim, poi crea ifile per protmod e protmodll genera le strutture 3d, infine gromos96 fa un lavoro di
minimizzazione energetica della struttura, per cui modifica il folding in modo da ottenere la
conformazione energeticamente più favorita.
Applicabilità
Il modello ricavato tramite homology modelling non equivale a quello ricavato per
cristallografia, quindi nulla ci assicura che esso sia il vero ripiegamento che la proteina
assume in vivo, ma piuttosto può essere più o meno vicino ad esso, e ci sono alcuni casi
in cui è veramente molto affidabile. Ovviamente è come se fosse un metodo euristico e
cioè non ottimale ma ragionevolmente buono per ottenere con poche risorse e poco tempo
una soluzione al problema della determinazione delle strutture 3d.
Dato che non possiamo essere sicuri dell’equivalenza del modello ricavato per hom mod
con quello vero, ne consegue che dobbiamo stare attenti a non abusare del sistema per
ricavare informazioni che non si possono ottenere da esso.
L’homology modelling serve a mappare informazioni da una sequenza allineata nello
spazio, ma non può essere utilizzato per “predire la struttura” di una proteina. In questo
senso possiamo ottenere 3 tipi principali di modello:
▪ Modelli basati su allineamenti incorretti ma i cui errori non sono localizzati in aree di
interesse primario.
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 11/44
▪ Modeli basati su allineamenti corretti ma con accuratezza bassa o media a causa di
templati scarsi o sequenze a basso livello di omologia tra loro.
▪ Modelli con più del 70% di identità, dimostratisi utili in applicazioni sperimentali come
design di farmaci.
Il fatto che si siano dimostrati più o meno utili non vuol assolutamente escludere che sitratti di strutture sbagliate, inoltre si può facilmente notare, ancora una volta che
l’allineamento di sequenze riveste un ruolo fondamentale nel processo.
Le strutture ricavate per hom mod non possono essere utilizzate per:
▪ Modellare proprietà non verificabili
▪ Analisi di geometria di modelli
▪ Interpretare loop vicini tra loro o gli indels
▪ Infierire l’arrangiamento di domini
▪ Infierire strutture di complessi proteici
Tutto ciò non si può fare sempre per lo stesso motivo e cioè che l’hom mod non è capace
di fornire un risultato accurato, né predice con precisione sperimentale la struttura. Tali
studi possono essere fatti solo su modelli ricavati da cristallografia.
FMODELS
E’ un database che archivia anche strutture prodotte da homology modelling e non solo
quelle derivate da cristallografia. Questo vuol dire che la tecnica è ritenuta abbastanza
affidabile da archiviarla e da utilizzare come modello di partenza sempre e comunque
consapevoli che si tratta di una probabile struttura e non di veri e propri modelli comequelli di PDB che sono “supersperimentali”.
THREADING
In caso non sia disponibile nessuna proteina omologa, mancano i dati necessari per
sfruttare l’homology modelling, bisogna, quindi, utilizzare qualche altra strategia e una di
queste è il threading o fold recognition.
Confrontando la nostra sequenza con altre non omologhe a fold conosciuto, calcola,
assegnando uno score, la probabilità con cui il nostro target può ripiegarsi allo stesso
modo. Ovviamente tale sistema è funzionale solo per parti piccole della proteina.
SECONDARY STRUCTURE PREDITION
Potrebbe capitare che anche il threading fallisca nel suo compito e che quindi non si
ottengano score decenti riguardo la nostra sequenza. In questi casi si può ricorrere al
riconoscimento di pattern riguardo le strutture secondarie, basandosi su tutte le nozioni di
chimica organica e biochimica.
Il punto di partenza è il backbone, che è costituito dalla sequenze dei legami peptidici della
catena. Questi sono organizzati come 2 piani planari successivi orientati rispetto a 2 angoli
(phi e psi), in una proteina non possono assumere tutte le combinazioni possibili a causa
anche della presenza delle catene laterali caratteristiche dell’amminoacido. Se infatti
analizziamo la frequenza di distribuzione degli angoli di legame nella proteina notiamo che
questi clusterizzano in 2 zone tipiche che corrispondono a quelli tipici delle strutture ad alfa
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 12/44
elica e beta sheet. Ovviamente il numero di alfa-eliche possibili è limitato e quindi è limitato
anche il numero di angoli compatibili con essa, quindi in generale il numero di strutture è
grande ma finito e ogni struttura ha una sua frequenza. Grazie a ciò è possibile ottenere
una predizione di strutture secondarie (alfa-eliche, beta-sheet, turns, random coils, ecc.).
Altri parametri tenuti in conto nella SSP sono la frequenza di certi amminoacidi all’internodi determinati fold, l’idropatia e cioè la preferenza di certi amminoacidi di trovarsi sulla
superficie o all’interno della struttura per la loro polarità e affinità con l’acqua, la carica,
tratti transmembrana.
AB INITIO PREDICTION
Le tecniche qui descritte cercano di predire la conformazione della proteina a priori, cioè
basandosi puramente su principi e dinamiche chimico-fisiche generali e conosciute, senza
ricorrere al confronto della sequenza con altre ad essa simili. Quindi è come se le variabili
necessarie al folding della proteina siano già contenute nella sua sequenza, e in effetti è
proprio così, ma queste sono molteplici e interagiscono così complessamente tra loro che i
nostri tentativi di riprodurre tali meccanismi possono riuscire solo parzialmente. Pertanto
sono sicuramente meno efficaci di una strategia come l’homology modelling. In genere
quello che tentano di ottenere questi programmi è ricercare, a mano a mano che si
procede con il calcolare il fold, la struttura a più basso livello energetico. Quindi il
programma procede per step e a ogni “bivio” possibile si crea una ramificazione delle
possibilità di ripiegamento, costruendo man mano una struttura ad albero. Può sembrare
dispersivo ma non è così, perché progressivamente con la definizione della struttura, ogniscelta di fold ne impedisce alcune e apre la strada solo ad certe altre.
Tale metodo, è, come già detto, meno affidabile rispetto all’homology modelling ma può
essere utilizzato molto validamente proprio per rifinire quelle strutture semi-definite che si
ottenevano da questo.
GENE MINING
SEQUENZIAMENTO
In genetica sequenziare significa ottenere la struttura primaria di un frammento di DNA.
Conoscere la sequenza in sé non serve a nulla, però costituisce un ottimo punto di
partenza, perché questa costituisce la struttura di base su cui si trovano i geni, regioni di
regolazione, ecc. Tutte le informazioni sono codificate lì, quindi partendo dalla sequenza si
può poi cercare di trovarle.
Quindi il sequenziamento non ha senso se non è affiancato dall'annotazione, ossia dallo
svelare sulla sequenza, di per sé, codificata, tutte le informazioni che contiene come
posizione e struttura di promotri, enhancers, introni, esoni, ecc.
Le migliorie tecnologiche introdotte negli ultimi decenni ci hanno permesso di sequenziare
in maniera sempre più rapida ed efficiente, per cui ora non si dispone più di singoli
frammenti di DNA, ma si conosce la struttura primaria di interi genomi, di numerosissimi
organismi modello.
Le informazioni annotate sulla sequenza poi costituiscono un'importantissima risorsa
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 13/44
ancora più preziosa perché sono il necessario supporto alla progettazione di esperimenti.
TECNICHE DI SEQUENZIAMENTO
La tecnica di sequenziamento è essenzialmente 1, ossia il metodo Sanger e le sue
evoluzioni. Ad oggi si stanno progettando numerosi altri metodi capaci di velocizzare edeconomizzare il sequenziamento in maniera da rendere disponibile questa tecnica ai
singoli individui, ma in sostanza il metodo utilizzato a scopo di ricerca è ancora quello della
terminazione di catena.
La versione classica prevede l'uso di single-strand DNA templato (solo quello codificante o
solo quello stampo), 1 solo DNA primer (si sequenzia in UNA SOLA direzione), nucleotidi
di cui 1 marcato radioattivamente, ovviamente DNA polimerasi, buffer, ecc ma soprattutto
dideossinucleotidi (deossinucleotidi senza il 3'-OH).
Nella mix di reazione sono presenti sia nucleotidi normali che 1 solo tipo di
dideossinucleotide, la probabilità che la DNA polimerasi incorpori l'uno o l'altro tipo è la
stessa, per cui ad un qualsiasi ciclo ed a un qualsiasi punto della catena potrà essere
incorporato un dideossint. Questo fa terminare la reazione di polimerizzazione perché
manca del 3'-OH a cui legare il nt successivo.
Data l'equiprobabilità di incorporare i 2 tipi di nucleotidi avremo che nella mix saranno
presenti tante copie parziali dello stampo, ognuna più lunga dell'altra di 1 nucleotide, tutte
terminanti con quello dideossi.
Se si allestiscono 4 tipi di reazione, ognuna con un solo tipo di dideossinucleotide (una per
base), e facciamo poi correre il DNA su gel di acrilammide, così da distinguere ancheframmenti che differiscono per 1 solo nucleotide, e poi visualizziamo il DNA per
autoradiografia, avremo una specie di tabella a 4 colonne, e tante righe quanto i nucleotidi
del frammento amplificato. Per ogni riga sarà annerita una sola casella che corrisponde a
quella del dideossinucleotide che ha interrotto la reazione. Questo vorrà dire che in quella
casella tutti i frammenti sono stati interrotti con lo stesso dideossint, e che logicamente
rappresenterà la base di quella posizione nella sequenza.
Il metodo è stato migliorato in seguito all'introduzione di fluorocromi specifici per ogni
dideossinucleotide, in maniera da allestire 1 sola reazione e di visualizzare la sequenza
invece che per autoradiografia, tramite laser fluorescenza ed elettroforesi capillare. Man
mano che i frammenti corrono nel capillare un laser ne rileva l'emissione di fluorescenza
che essendo specifica per ogni dideossint, sarà rappresentativo della base azotata in
quella posizione. I risultati vengono mostrati su un elettroferogramma che sulle ascisse
enumera le posizioni della sequenza e sulle ordine mostra il picco di fluorescenza che avrà
un colore diverso a seconda del dideossint che avrà interrotto la reazione.
SEQUENZIAMENTO SU LARGA SCALA
I metodi di sequenziamento abbiamo visto che si basano essenzialmente sulla PCR. In
una singola corsa possono essere determinate da 300 fino a 1000bp ed è proprio questo
che determina tutte le difficoltà nel sequenziamento di genomi che sono molto più grandi di
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 14/44
1kbp. Bisogna quindi sequenziare il genoma in più round.
Il DNA viene estratto dalle cellule, frammentato per sonicazione in maniera da avere pezzi
della stessa dimensione e quindi viene isolato attraverso una corsa elettroforetica. Il DNA
viene poi clonato all'interno di un plasmide e ognuno di questi viene poi sequenziato.
Clonare il frammento, di cui non si conosce la sequenza, in un vettore significa avere ilpericolo di contaminare la sequenza con pezzi estranei provenienti dal vettore o DNA
estraneo. Questa contaminazione si avrà necessariamente perché come abbiamo visto nel
sequenziamento è comunque necessario un primer, ma poiché noi non conosciamo la
nostra sequenza, questo sarà un primer universale, presente sul plasmide, che verrà
INTERAMENTE sequenziato. Quindi un passo fondamentale è filtrare le sequenze
ottenute per eliminare quei pezzi provenienti dal plasmide (di cui conosciamo la sequenza)
o altri contaminanti.
Una volta ottenuti i frammenti della sequenza, bisogna ricostruila. Questo sarà possibile
perché il DNA iniziale proveniva da PIU' cellule ognuna con il proprio corredo genetico.
Quindi, poiché la sonicazione avrà prodotto frammenti in maniera random, una stessa
sequenza proveniente da più cellule sarà stata tagliata in tanti modi diversi e i frammenti
sequenziati tutti.
__________________________________________ Struttura del cromosoma originario
_____ ___ _ ______ _____
_______ ____ ____ _ _ ____ _ Frammenti sonicati
___ __ ____ ____ _____
___________________ ____________________ Contigs
Perciò confrontandoli tra loro ci saranno tante regioni di sovrapposizione, che significherà
che quei frammenti fanno parte dello stesso punto, e grazie alle quali potremo risalire alla
sequenza su larga scala ossia la “consensus”, assemblandoli insieme in tanti frammenti
contigui, chiamati, appunto, “contigs”. Questo lavoro di ricostruzione è fatto tramite
software, in silico, con programmi come PHRED, PHRAP e CONSED, per cui non si deve
pensare a essi come a una molecola identificabile, ma a una sequenza più grande
ricostruita per interpolazione delle sequenze dei singoli frammenti clonati.
CHIUDERE I GAPS
Statisticamente è difficile ottenere un unico contig che copra l'intera molecola da
sequenziare per cui molto probabilmente si otterranno tanti Contigs non sovrapponibili tra
loro, si crea quindi il problema di chiudere questi gaps.
Avere un contig significa conoscerne esattamente la sequenza per cui si possono costruire
sonde che ibridino con le estremità di ciascun contig. Andando poi a screenare la nostra
libreria con queste sonde sarà possibile individuare i cloni che portano il frammento della
sequenza capace di unire 2 conting tra loro. Per esempio:
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 15/44
contig 4 contig 1
probe 7 _______ _______ probe 4
probe 7 _______ _______ probe 4
frammento 43
Abbiamo 2 contig, il numero 4 e il numero 1 separati da un gap, costruiamo quindi delle
sonde per le loro estremità e screeniamo la nostra libreria di frammenti.
Vediamo che l'estremità 3' del contig 4 viene ibridata dal probe 7 e l'estremità 5' del contig
1 dal probe 4. Abbiamo poi un frammento, il numero 43, che ha l'estremità 5' che ibridizza
il probe7 e la 3' il probe 4. Questo significa che l'estremità 3' del contig 4 e quella 5' del
frammento 43 sono lo stesso pezzo di DNA, e un discorso simile si può fare con l'altra
estremità. In conclusione il frammento 43 è quello capace di unire i conting 1 e 4, e
abbiamo così riempito un gap.
Questo metodo è efficace per piccoli genomi, come quelli di batteri, virus, ecc, ma con
grossi genomi questo approccio è praticamente impossibile.
CHROMOSOME WALKING
Il genoma umano è grande circa 3 miliardi di nt, quindi per ottenere un numero sufficiente
di sovrapposizioni bisogna sequenziare qualcosa come 10̂7 frammenti da 1000 bp, per
raggiungere una ridondanza sufficiente di sequenze. Ne consegue che il metodo
precedente così com'è non va bene, rende l'impresa quasi impossibile, ecco perché si
sono ideati altri metodi e uno di questi è il Chromosome Walking.
Questo metodo è concettualmente molto semplice: il DNA viene frammentato in pezzi
abbastanza grossi come 200 kbp, e clonato in YAC. Si parte poi da un primer plasmidico
vicino al sito di inserzione del frammento e si sequenzianole prime 1000 bp, conoscendo
la sequenza di queste, si costruisce un primer sull'estremità di questo frammento e si
sequenziano le successive 1000, e così via, camminando lungo il cromosoma. Dei probe
al 3' di ogni frammento vengono utilizzati per identificare la successione dei frammenti per
overlap di ibridazione. Il sequenziamento procede da un lato all'altro del sito di inserzione
che sarà identificabile grazie a un marker.
Questo metodo è molto affidabile, ma ha grossi limiti legati al fatto che non si può
procedere lungo il cromosoma senza conoscere prima la sequenza del frammento
precedente, pertanto è un sistema molto lento.
Il chromosome walking, tuttavia, è stato il sistema sfruttato per il progetto genoma umano.
SHOTGUN SEQUENCING
La metodica shotgun può essere applicata in 2 modi diversi: un modo conservativo e uno
alternativo o whole genome shotgun. Entrambi si basano comunque sulla estrema
frammentazione del DNA e sul sequenziamento “contemporaneo” di tutti i frammenti per
poi assemblarli attraverso un'accurata e laborioso ricostruzione dei contig. Poiché il
genoma viene direttamente frammentato, si perdono tutti i riferimenti al suo interno, per cui
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 16/44
è necessario avere una struttura preesistente sulla quale posizionare i contig, uno scaffold,
costituito solitamente da una mappa genetica o fisica del genoma.
Il modo conservativo parte da una mappa genetica, per cui noi conosciamo marcatori,
riferimenti all'interno del genoma come STS, RFLP che servono per orientarci nel genoma.Questo viene quindi frammentato e clonato in YAC. Tali frammenti posseggono a priori dei
marker che li assegnano a determinate posizioni sulla mappa genetica. Sono poi
ulteriormente scissi in pezzi più piccoli, che vengono sequenziati tutti. Infine sono ricostruiti
i contig e si risale alla consensus del pezzo grosso.
Il whole genome shotgun bypassa la frammentazione del genoma in pezzi medio-grossi,
ma si ottengono direttamente piccoli frammenti subito sequenziati. In questo modo si
perde qualunque riferimento alla mappa genetica, per cui i markers andranno ricercati solo
dopo la ricostruzione dei contig.
Questo sistema è molto più veloce del chromosome walking perché il sequenziamento di
tutti i pezzi avviene contemporaneamente, e non bisogna aspettare quello dei frammenti
precedenti, però ha bisogno di una solita mappa genetica, in genere non riesce mai a
coprire l'intero genoma, e presenta inoltre alcuni problemi con le sequenze ripetitive.
SEQUENZE RIPETUTE E SHOTGUN SEQUENCING
La presenza di sequenze ripetute in un genoma è un grosso problema nella metodica
shotgun e più in generale nella ricostruzione dei contigs. Oltre tutto tali sequenze sono
particolarmente frequenti in alcuni genomi, e anche quello umano ne presenta molte.Pensiamo ad esempio ad una tandem repeat, abbastanza lunga da non poter essere
coperta da 1 solo frammento. Avremo quindi molteplici frammenti che rappresentano vari
punti distanti nella repeat, ma essendo tutti uguali per sequenza sarà per noi impossibile
capirlo, perché si sovrapporranno tutti tra loro. Quindi si corrono grandissimi rischi di
sovrastimare o sottostimare la lunghezza della regione ripetuta.
Se poi pensiamo che le stesse repeat possono essere presenti in punti diversi del
genoma, su cromosomi diversi, ecc è facile immaginare che si possono collegare tra loro i
contig sbagliati. Oppure regioni comprese tra 2 uguali larghe repeat possono essere
“escisse” perché le 2 repeat essendo uguali overlappano.
IMPORTANZA DEI MARKERS
Abbiamo detto che lo shotgun approach ha bisogno di una mappa genetica su cui basarsi,
per “ancorare” i markers che sono sui contig che crea.
Le mappe genetiche sono annotazioni della posizione di markers sull'intero genoma. Un
marker è qualsiasi cosa capace di rappresentare in maniera univoca una specifica
posizione lungo il genoma. Un marker può essere quindi un gene, una sequenza specifica,
una mutazione puntiforme. In genere una sequenza ripetuta non può essere un marker, in
quanto proprio perché presente più volte perde di univocità.
Un gene-marker può essere identificato per il fenotipo visibile ad occhio, per un fenotipo
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 17/44
biochimico come la capacità di crescere o meno in determinate condizioni, o altre
caratteristiche.
MAPPATURA DEL GENOMA
La mappa può essere fisica o genetica.La mappa fisica misura la distanza tra i markers in paia di basi.
La mappa genetica misura la distanza tra i markers in termini di frequenza di
ricombinazione (centiMorgan).
Mediamente 1cM corrisponde a 0.8 Mbp.
Le 2 mappe fanno utilizzo di markers diversi: il mapping genetico utilizza come markers i
geni stessi, RFLP, SSLP (polimorfismi di lunghezza di sequenze semplici), SNP, il mapping
fisico invece enzimi di restrizione, FISH e STS (quest’ultima ha la maggior risoluzione).
La mappa fisica è ottenuta dalle librerie genomiche di cui abbiamo parlato prima. Non è
necessario sequenziarle, ma basta ad esempio digerirle con enzimi di restrizione e
analizzarne il pattern, ottenendo così il fingerprint di quel frammento. Frammenti con un
pattern sovrapponibile potranno essere assemblate in contigs. Alla fine otterremo
l'annotazione sull'intero genoma delle posizioni dei nostri markers e la loro reciproca
distanza in paia di basi.
Altri metodi per ricostruire mappe fisiche sono basati sulla FISH che mostra visivamente la
posizione di un gene su un cromosoma e operando su cromosomi in profase può
scendere a risoluzioni anche di 0.1 Mb; oppure su radiation hybrid cell lines, in cui
vengono introdotte in cellule murine alcuni cromosomi umani e poi screenate via pcr per lapresenza del gene in quella linea.
La mappa genetica si ottiene analizzando la frequenza di ricombinazione dei markers, si
basa quindi sull'analisi di linkage tra 2 loci che tanto più segregheranno
indipendentemente, tanto più saranno lontani. 1centiMorgan corrisponde a una frequenza
di ricombinazione dell'1%. Se l'indice di ricombinazione genica è 50% allora i 2 geni sono
presenti su cromosomi distinti o sullo stesso cromosoma ma molto distanti.
La frequenza di ricombinazione però non è la stessa su tutto il cromosoma, ma esistono
delle zone particolari che costituiscono degli hotspot i ricombinazione, ossia dei punti in cui
è molto più facile che avvenga un crossing-over. Pertanto i geni che si trovano a monte e a
valle di un hot-spot appariranno molto più distanti di quanto non lo siano in realtà
fisicamente, e questo è il motivo per cui la mappa genetica e la mappa fisica sono simili
ma non completamente sovrapponibili.
PROGETTO GENOMA UMANO
Il progetto genoma umano è un progetto di ricerca scientifica internazionale il cui scopo
principale è quello di determinare la struttura primaria del genoma umano e identificare i
circa 25000 geni contenuti sia fisicamente che funzionalmente.
Il progetto è iniziato nel 1990, anche se nel 1987 era già disponibile una mappa fisica dei
RFLP umani (risoluzione di circa 10 Mb). Nel '94 si è ottenuta la mappa delle SSLP (1,7
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 18/44
Mb) e nel 95 quella delle STS (1 Mb). Dopo aver ottenuto delle solide mappe fisiche del
genoma si è potuto poi affrontare il sequenziamento vero e proprio e nel 1998 si è ottenuta
la sequenza del primo cromosoma umano, il più piccolo: il 22. Nel 99 è arrivata quella del
cromsoma 21, poi nel 2001 si è ottenuta la prima sequenza bozza dell'intero genoma che
comprendeva quasi il 90%. Nel 2003 si è avuta ufficialmente la sequenza “completa”.Parallelamente al progetto genoma umano la Celera Genomics capitanata da Craig Venter
propose nel 1998 un approccio shotgun al sequenziamento del genoma umano, e
utilizzando come basi le mappe fisiche del progetto genoma umano, in soli 2 anni
contemporaneamente al PGU riuscì a pubblicare nel 2001 la sequenza draft e nel 2003
quella completa.
Tuttavia l'approccio shotgun ha numerosi difetti infatti la sequenza non era veramente
completa, erano presenti numerosi gap e il sequenziamento non era accurato.
L'inaccuratezza e la necessità di una mappatura precedente sono comunque difetti
intriseci a questa metodica così come il grande numero di sequenze richieste e l'intesa
attività di assemblaggio computazionale dei contigs.
ANNOTAZIONE
Annotare vuol dire identificare su una sequenza gli elementi di interesse scientfico,
decodificarla, svelare quello che nasconde e cioè i suoi elementi funzionali:
l elementi trascritti – tRNA mRNA rRNA snRNA, ecc
l elementi strutturali – esoni introni 3' e 5'-UTR ORF mutazioni promotori enhancers
splicing poliadenilazione siti di legame a proteinel regioni di similarità
l altre cose come elementi trasponibili
l markers tipo STR RFLP ecc
L'annotazione può essere manuale o computazionale.
L'annotazione manuale è ovviamente più accurata, basata su evidenze sperimentali, ma è
molto lenta: un gruppo di ricerca può occuparsi al massimo di un gene, e proprio perché
affidata all'uomo è soggetta ad errori, e inoltre non è detto che sia posta la stessa cura ed
attenzione in tutti gli aspetti dell'annotazione: ad esempio qualche gene sarà più
approfondito dal punto di vista della struttura del promotore, ma più carente sulle
informazioni riguardo le modificazioni post-traduzionali, ecc.
L'annotazione computazionale è più obiettiva, perché affidata alla macchina, veloce, ma
non è altrettanto accurata perché la struttura di un gene eucariotico non è affatto definita
come quella di un gene procarioti, non esistono leggi di codifica rigide, ma anzi c'è ben
poco di deterministico. Ad esempio la tata box è una generica sequenza ricca in adenine e
timine, che ha un ruolo importante nel promotore, ma di più non sappiamo: non ne
conosciamo la sequenza precisa, ma proprio perché non ce l'ha, e una ripetizione simile
può essere presente in qualsiasi altra parte del genoma, ma non per questo è una tata
box.
Quello che in genere si fa è iniziare con un'annotazione automatica e poi rifinire i dati con
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 19/44
un'annotazione manuale.
CERCARE GENI
I geni procariotici sono piuttosto facili da cercare perché hanno una struttura semplice e
inoltre hanno gli elementi funzionali abbastanza definiti, come per esempio il promotore.Essenzialmente la ricerca si riduce nel trovare ORF abbasanza lunghe sulla sequenza,
ORF che iniziano con un codone ATG e finiscono con un codone di stop in frame.
Un'altra cosa da tener conto è che i microorganismi a causa della diversa disposizione dei
tRNA hanno una certa predilezione per i codoni sinomini, per cui nel codificare un certo
amminoacido utilizzano sempre lo stesso codone anche se virtualmente può essere
codificato da altri. E tale discorso vale anche per gli organismi eucarioti.
La probabilità di trovare in un procariota una ORF di N codoni è pari a: (1/64) x (61/64)̂N x
(3/64)
1/64 è la probabilità di trovare un codone d'inizio, che è unico ed è ATG
61/64 è la probabilità di trovare uno qualsiasi dei codoni che sono 64 ma bisogna
escludere i 3 di stop
3/64 è la probabilità di trovare uno qualsiasi dei 3 codoni di stop
(In realtà il calcolo è sbagliato perché se N è il numero di codoni codificanti quando si
calcola (61/64)̂N si fa un errore perché si tiene conto un'altra volta del primo codone che
abbiamo già contato che comunque codifica per una metionina; per cui sarebbe opportuno
elevare a N-1. Se poi si vuole contare anche il codone di stop bisogna elevare a N-2.)
Tale calcolo delle probabilità non è comunque applicabile agli eucarioti a causadell'esistenza di esoni ed introni.
E proprio per le caratteristiche di un gene eucariotico la ricerca delle ORF è
completamente inutile, se non per individuare la localizzazione del primo esone. Bisogna
quindi cercare metodi alternativi e più adatti.
Il metodo migliore consiste nel ricercare similarità con altri geni noti (BLAST, FASTA),
credo che sia chiaro a questo punto, dato che ci hanno abbuffato la capa di allineamenti.
Dico solo che se si va ad allineare sequenze derivate da proteine si perdono le
informazioni riguardanti gli introni e gli UTR, cosa che si risolve andando a confrontare
cDNA derivati da mRNA non maturati che conservano ancora gli introni e tutto.Esistono poi metodi basati sulla genomica comparativa (PIPMAKER, VISTA)che mettono
in evidenza le regioni maggiormente conservate tra organismi diversi, basandosi sull'idea
che sono conservate perché importanti. Si possono confrontare sia organismi vicini come
uomo e topo, ma anche lontani tipo uomo e takifugu (un pesce che stranamente non ha
introni nel suo genoma), noteremo che in ogni caso gli esoni sono l'elemento più
conservato.
Esistono infine metodi statistici, supervisionati e non (li vedremo tra poco), che cercano di
modellizzare tutto quello che conosciamo riguardo i geni eucariotici e ricercano nella
sequenza non annotata quei segnali.
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 20/44
GENE MINING
Con gene mining si intende quell’insieme di procedure per “scoprire” geni eventualmente
presenti su sequenze sconosciute. Anche in questo caso si parla di probabilità di
presenza, quindi queste tecniche non sono totalmente affidabili, ma spesso i loro risultati
sono ampiamente confermati.Il modo più semplice per ricercare geni è per similarità con proteine conosciute, cDNA,
RNA ed EST (le EST sono sequenze parziali di mRNA ottenute per retrotrascrizione di
questi sfruttando come primer le sequenze di polyA).
La ricerca di un gene solitamente si risolve nella ricerca di un ORF e quindi una
potenzialità di coding, la probabilità e non la certezza della presenza. Ci sono varie
caratteristiche tipiche delle ORF, e sono queste che si ricercano, tra esse troviamo la
periodicità delle basi, l’uso di codoni, la frequenza di esameri, si possono utilizzare poi
sistemi basati su reti neurali (grail) e catene di markov (glimmer).
I risultati sono poi integrati con analisi compiute da altri programmi come Genie (markov,
ricerca promotori, siti di splicing, codon usage) o GeneScan (markov, vari segnali, esoni
subottimali), che migliorano l’affidabilità dei nostri risultati.
Tutte queste strategie di ricerca non sono sufficienti di per sé, ma devono tutte collaborare
tra loro, far combaciare i loro risultati fino ad ottenere il risultato più vicino possibile al vero.
Nonostante questo enorme sforzo analitico, però, bisogna sempre tener presente che
come per il modelling si ottengono sempre probabilità, molto alte, ma non tanto alte quanto
quelle ottenute da evidenze sperimentali.
PERIODICITA’ DELLE BASI
Molte delle tecniche di gene mining si basano sul concetto di periodicità delle basi, e cioè
sul fatto che si nota una certa ripetizione nell’utilizzo di certe basi in blocchi di 3 negli esoni
o di 2 negli introni. Il numero 3 negli esoni è perfettamente giustificato dal fatto che il
codone è composto di 3 basi, e queste tecniche ricercano proprio questa caratteristica a
triplette o esameri per individuarli.
Ad esempio misurando in una sequenza la distanza reciproca di una certa base come
l’adenina da tutte le altre basi a lei identiche, ci accorgiamo che la frequenza di
distribuzione delle distanze presenta dei picchi in tutti i multipli di 3 negli esoni e in tutti i
multipli di 2 negli introni. Quindi si può dire che tendenzialmente una base tende ad
assumere posizioni omologhe in tutte le triplette, per cui se troviamo un’adenina in
seconda posizione, questa si troverà molto frequentemente in seconda posizione in tutte le
triplette successive.
CODON USAGE
Il codice genetico è universale, pertanto in linea di massima le tecniche che si basano
sulla sua analisi sono applicabili a tutti gli organismi. Il codice genetico è anche
degenerato, questo significa che un Aa può essere codificato da più codoni. Ogni
organismo ha dei codoni di preferenza che costituiscono una sorta di signature, il
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 21/44
fingerprint della specie, questa scelta dipende dalla frequenza di tRNA. Infatti data la
presenza di più tRNA leganti lo stesso Aa a causa della degenerazione del codice, e
poiché questi sono disponibili a concentrazioni diverse, la traduzione di un gene sarà più o
meno efficiente e più o meno veloce a seconda se sono utilizzati codoni che si appaiano
con tRNA ad alta o bassa disponibilità. Ovviamente le sequenze codificanti subiscono unapressione evolutiva da questo punto di vista e mutano in modo da sfruttare i tRNA a
disponibilità più alta per essere trascritti, in questo modo tutti i geni dello stesso organismo
tenderanno ad usare gli stessi codoni per gli stessi amminoacidi.
Per lo stesso motivo le sequenze non codificanti, inclusi gli introni, non mostreranno
questa conservazione del
codon usage perché non essendo trascritte non interagiscono con i tRNA.
In sintesi si può affermare che il codon usage è diverso fra esoni ed introni, e
precisamente è molto più rispettato nei primi che nei secondi, anche se, andando a vedere
fa rigidità con cui è rispettato in entrambi, si può notare che esiste una zona di
sovrapposizione, in cui non possiamo essere sicuri se quel tratto di sequenza appartiene
ad un esone o ad un introne.
Resta comunque una caratteristica ben sfruttabile grazie alla quale sono state costruite
tabelle di frequenza dell’utilizzo dei codoni, così da poter già in un primo momento
individuare il frame di lettura della sequenza, che molto probabilmente sarà quello in cui il
codon usage è più rispettato e la localizzazione generica di esoni ed introni.
SCANNINGLo scanning è una tecnica che analizza progressivamente sulla sequenza un tratto definito
di X basi e ne registra una caratteristica, come per esempio il codon usage. In quest’ultimo
caso a mano a mano che la finestra di scan procede lungo la catena nucleotidica si ottiene
un grafico della variazione del codon usage, possiamo poi stabilire un cut off per cui tutti i
tratti al di sopra di questo sono considerati possibili esoni perché rispettano il codon
usage, e tutti quelli al di sotto possibili introni.
La stessa operazione si può fare con la periodicità, che allo stesso modo inquadra in
maniera abbastanza generica la posizione di esoni ed introni in base alla frequenza di
ripetizione di una base in una certa posizione della tripletta.
SITI DI SPLICING
Le tecniche precedenti ci davano solo un’idea della localizzazione di esoni ed introni, anzi
la questione era molto più vaga in quanto forniscono solo dei candidati più che la presenza
probabile.
Però si sa che su ogni giunzione esone/introne deve essere presente un sito di splicing,
che sebbene mostra una certa variabilità nella sua costituzione, è possibile comunque
riconosce un pattern consensus, che indica allo spliceosoma come orientarsi.
A tale proposito si sono adattate tecniche già descritte in precedenza come le matrici di
peso e in particolare le weight matrix for splice donor/acceptor. Queste matrici analizzano
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 22/44
la frequenza di presenza di una certa base in una determinata posizione del sito di splice,
per cui sull’asse delle ordinate troviamo le 4 basi azotate, sulle ascisse le posizioni relative
al sito di splice e ovviamente nella matrice annotate le frequenze.
splice ... -3 -2 -1 | +1 +2 +3
A T freq delle basi intorno C al sito di splicing G
In questo modo si ottiene una sorta di descrizione della sequenza consensus del sito di
splicing tramite le matrici di peso, quando poi si allinea la propria sequenza con questa
matrice, si ottiene la probabilità della presenza di un sito di splicing.
ESONI CANDIDATO
Effettuando uno scanning del gene con tutte le tecniche precedenti, e integrando i dati
ottenuti si ottengono i potenziali esoni candidato. Infatti se queste tecniche, utilizzando
ognuna un approccio diverso, sono tutte discretamente valide per individuare la
localizzazione di esoni ed introni, i loro risultati combaceranno in certi tratti, che saranno di
conseguenza quelli a più alta probabilità di essere veramente esoni od introni.
RETI NEURALI (Grail II)
Le reti neurali cercano di riprodurre il funzionamento in piccolo di un sistema nervoso.
Quindi è strutturato come varie unità organizzate in una rete di interconnessioni; ognielemento di calcolo riceve molteplici input ed emette un solo output verso un altro nodo
della rete. Ognuno dei collegamenti ha un certo “peso” sul risultato, non definito
dall’operatore. Questo set up è, infatti, lasciato al sistema, che trova i pesi giusti in base ai
risultati che ottiene, o costruendoli su un training set.
Il sistema è quindi capace di configurare in maniera autonoma le proprie connessioni in
modo da far assegnare lo score più alto agli esoni.
La rete neurale sulla base della presenza del training set è distinta in supervisionata o non
supervisionata. Quelle supervisionate hanno un training set, e cioè un certo numero di
esempi, e nella fattispecie di sequenze certamente introniche e certamente esoniche, sulla
base delle quali si autoconfigura. E poi man mano aggiunge i propri risultati al set. Nelle
reti non supervisionate il training set è assente e il sistema impara solo sulla base dei
propri risultati.
Si possono riconoscere nella rete neurale più livelli: un input layer, dal quale noi
introduciamo i dati iniziali, l’output layer che ci fornisce il risultato e un certo numero di altri
livelli interposti che elaborano i dati. Questo livello di mezzo è chiamato hidden layer, e
cioè livello nascosto, poiché non si interagisce con esso; non è né visibile né
comprensibile. Infatti poiché il sistema si autoconfigura, non si può trovare una
corrispondenza tra quei determinati pesi delle connessioni e una qualsiasi regola biologica
che spieghi perché si debbano assegnare in quel modo.
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 23/44
Quindi paradossalmente la rete neurale funziona anche molto bene, ma non potremo mai
sapere come e perché ottiene questi risultati.
GENIE / GENESCAN
Sono programmi capaci di integrare tutti i singoli dati ottenuti precedentemente fino adottenere predizioni di geni. I risultati ottenuti da questo programma hanno comunque meno
affidabilità delle evidenze sperimentali, ma questi si rivelano il più delle volte molto vicini al
vero al punto che i database genetici archiviano anche i geni predetti da questi software, in
attesa che i risultati siano confermati poi sperimentalmente.
STUDIO DI GENOMI
GENOMICA FUNZIONALE
Esistono vari aspetti della gnomica, fin’ora si è parlato di gnomica strutturale, che si
occupa di determinare la sequenza del genoma e del mappaggio fisico dei geni.
Esiste poi una genomica funzionale si occupa dell’analisi del ruolo dei singoli geni o di
gruppi di questi, studiandone anche la loro reciproca interazione e come lavorano
all’interno di un organismo.
Infine la genomica comparativa esegue il confronto tra genomi di diversi organismi, sia
nella sua organizzazione che nella sequenza per determinarne la funzione (non della
proteina, ma del perché il genoma in sé ha quell’organizzazione).
La genomica funzionale è l’argomento che si affronterà in questa parte. Essenzialmentecerca di rispondere a 3 quesiti fondamentali, e nello specifico si interroga su quale sia il
ruolo del gene, ossia in quale processo cellulare è coinvolto (o meglio è coinvolta la
proteina che codifica), a quale tipo di regolazione e in che rete di regolazione è sottoposto,
e in che modo i suoi livelli di espressione variano in differenti tipi cellulari e in differenti
condizioni fisiologiche, di sviluppo, patologiche o in risposta ai farmaci.
Si può facilmente notare che questi target passano tutti per lo studio dei livelli di
espressione genica.
STUDIO DELL’ESPRESSIONE GENICA
Sono disponibili numerose tecniche per lo studio di espressione genica, si possono
classificare molto semplicemente tra tecniche che analizzano 1 solo gene per volta, e
tecniche capaci di analizzare gruppi anche molto estesi di geni. Nella prima categoria
troviamo:
▪ ISH
▪ Northern blot
▪ RNase protecion
▪ Dot-plot
▪ Immunoistochimica (proteine)
▪ Western blot (proteine)
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 24/44
Del secondo tipo sono:
▪ SAGE
▪ cDNA microarray
▪ Oligont microarray
▪ GeneChips
MICROARRAY
E’ la tecnica che prenderemo più in considerazione. In questa metodica l’RNA viene
estratto dal campione in esame e da uno di controllo, e marcato con diversi fluorocromi per
generare i target. Questi vengono poi ibridati su sonde legate ad un supporto in vetro.
Queste sonde sono rappresentative di specifici geni, le varie tecniche di microarray
differiscono per queste, infatti il cDNA microarray utilizza come sonde cDNA o EST, quindi
sequenze lunghe 100-200 bp, l’oligont microarray fa uso di sonde di 40-80bp sintetizzate
artificialmente sulla base di informazioni ottenute da banche dati, genechips è una
particolare tecnologia sviluppata da Affimetrix in cui le sonde sono sintetizzate
direttamente sul supporto.
Ovviamente l’ibridazione tra target e sonda fornisce una misura quantitativa
dell’abbondanza di una particolare sequenza nella popolazione dei target rispetto al
controllo. Queste informazioni vengono catturate digitalmente e poi sottoposte a vari tipi di
analisi per l’estrapolazione di dati biologici.
E proprio in questo ultimo passaggio in cui interviene la bioinformatica funzionale, ed è
quindi l’argomento che si affronterà.E’ facile immaginare l’enorme campo applicativo di questo tipo di tecnologia che è capace
di analizzare la variazione dei messaggeri totali nella cellula dato che sui chips è possibile
mettere sonde per l’intero genoma.
Si possono identificare geni sulla base dei processi in cui sono potenzialmente coinvolti.
Si possono studiare i meccanismi di regolazione genica su larga scala, basandosi
sull’assunto che geni regolati in parallelo e che subiscono variazioni significative nello
stesso arco di tempo sono probabilmente sottoposti allo stesso meccanismo di controllo.
Si può fare diagnosi identificando i pattern di espressione genica conosciuti, caratteristici
degli stati patologici.
Si possono identificare nuove molecole drugable sulla base degli effetti causati e quindi
ottenere farmaci candidato.
La tecnica non è assolutamente perfetta, è molto costosa e soprattutto bisogna tenere
presente di numerosissime variabili che possono ostacolare il risultato. Un esempio fra tutti
e costituito dall’interazione tra target e sonda, in cui bisogna tenere conto che le sonde,
così vicine tra loro, possono ostacolare stericamente l’ibridazione a vicenda, quindi si
devono utilizzare escamotage tipo molecole linker in maniera da dare spazio a ogni sonda;
anche sui target bisogna porre attenzione in quanto molecole troppo grandi possono
ripiegarsi e dare ibridazione aspecifica.
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 25/44
ACQUISIZIONE DEI DATI
I dati sono acquisiti mediante microscopia confocale, che misura l’intensità di segnate
generata dai target sottoforma di scala di grigi, poi per rendere i risultati più user-friendly, di
immediata comprensione, subiscono una pseudo-colorazione per cui il software ci fa
apparire rossi gli spot in cui vi è sovrabbondanza di target, verdi quelli in cui si è ibridatosoprattutto il controllo e con gradazioni intermedie e quindi gialli tutti quelli con livelli di
espressione intermedi.
In realtà questo tipo di visualizzazione è solo un modo carino per far capire cosa accade
sul chip, ma in realtà visivamente con quei colori non possiamo capire veramente quale
sia il livello di espressione del gene. Quindi è molto più sensato organizzarli in una tabella
in cui ad ogni riga ci sono i dati di espressione di ogni singolo gene analizzato.
Osservando una tabella del genere emergono subito i 2 problemi fondamentali del
microarray ossia il rumore di fondo e l’elevato numero di geni.
Il rumore di fondo consiste in un certo livello di fluorescenza aspecifico che si genera
intrinsecamente alle fasi di processazione e analisi del campione, fa parte di quella
variabilità che non è possibile eliminare in modo assoluto, per cui eseguendo lo stesso
esperimento più volte si ottengono risultati sovrapponibili ma non identici.
L’elevato numero di geni può sembrare un vantaggio, ma analizzando tutti questi
contemporaneamente, diventa difficile distinguere quali sono i geni che veramente hanno
subito un processo regolativo e quali invece hanno variato la propria espressione in modo
non significativo.
ANALISI DEI DATI
L’analisi dei dati di un esperimento di microarray si articola in 3 step fondamentali: Image
processing – ossia l’acquisizione dei dati con tutti i problemi che abbiamo già descritto
Data preprocessing and normalization – ha lo scopo di evidenziare le differenze
significative in un esperimento e dare la possibilità di confrontarlo con esperimenti diversi
Data mining – le misure ottenute sono confrontante al fine di individuare relazioni al loro
interno come geni differentemente espressi nel campione.
I primi 2 step fanno uso di analisi di “basso livello”, il cui scopo è quello di eliminare le
variazioni sistematiche esistenti tra i diversi microarray, e cioè il rumore di fondo e gli
artefatti, in modo da permetterne la comparazione. Quindi consiste in analisi dell’immagine
con la digitalizzazione dei segnali luminosi, eliminazione del rumore di fondo, filtraggio e
normalizzazione dei dati.
L’ultimo step fa uso di analisi ad “alto livello”, che consiste proprio nel data minino e come
si è detto nell’individuare pattern e relazioni tra geni che possono suggerire regole
biologiche.
ANALISI A BASSO LIVELLO
Eliminazione del Background
Detto a parole è molto semplice: consiste nel sottrarre l’intensità di background da quella
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 26/44
rilevata, proprio perché la luminosità di uno spot dovrebbe risultare dalla somma
dell’intensità del segnale più il rumore. Il problema sta nel determinare quale sia il livello di
rumore di fondo: questo viene ottenuto rilevando la fluorescenza in spot vuoti o in cui la
sonda e il target sono esogeni, ossia provenienti da organismi diversi. Ovviamente la
luminosità proveniente da questi 2 tipi non può essere quella dovuta ai nostri target ed èquindi rappresentativa di ibridazioni aspecifiche, che sono poi quelle che determinano il
rumore.
Normalizzazione
La normalizzazione in matematica consiste nel dividere tutti i termini di un’espressione per
uno stesso fattore. Questo significa che elaboriamo ogni singola intensità luminosa rilevata
attraverso una stessa funzione, in modo da ottenere dei dati “più normali”, o meglio più
regolari, in modo che siano più vicini a quelle che si riscontrano mediamente. In questo
modo diventa possibile confrontare le intensità fra loro all’interno di uno stesso chip e fra
esperimenti diversi.
Cruciale diventa l’identificazione di questo fattore, sulla base del quale normalizziamo i
dati.
La necessità di normalizzazione scaturisce dal fatto che esiste una grande variabilità tra gli
esperimenti, le cui sorgenti sono:
▪ Diversa efficienza dei markers
▪ Differenti protocolli sperimentali
▪ Diversi parametri usati in fase di scansione
▪
Differenze nei substrati appartenenti a lotti di produzione diversiPer ovviare a questo problema dobbiamo usare come riferimento un gruppo di geni che
non variano tra gli esperimenti e che quindi si comportano allo stesso modo.
E’ possibile utilizzare “tutti i geni”, assumendo che quelli che subiscono una variazione
sono una parte molto piccola rispetto alla totalità, ma questo assunto non è valido in caso
di campioni molto eterogenei come quelli provenienti da tessuti diversi; un gruppo di geni
housekeeping, la cui espressione si considera costante, ma solitamente hanno livelli di
espressioni molto alti, quindi non sono adatti alla normalizzazione di geni ad espressione
bassa; target speciali di cui si conosce a priori la quantità totale, per cui possiamo
regolarla in base al tipo di geni che vogliamo normalizzare, ma dato che sono aggiunti
dopo la preparazione del campione, non è possibile compensare le differenze generate in
questa fase, che è la causa più comune di errore.
Una volta scelto il pool di geni su cui costruire lo schema di normalizzazione, si devono
effettivamente normalizzare i dati. Gli algoritmi più utilizzati sono la Global Normalization e
il LOcally WEighted Scatter plot Smooth (LOWESS).
Global Normalization
La global normalization è il tipo più semplice e riprende esattamente il concetto di
normalizzazione, infatti prevede che tutti i dati vengano moltiplicati per una costante. Tale
costante K è ottenuta dal rapporto tra i libelli medi di espressione nei 2 campioni, dei geni
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 27/44
su cui si basa lo schema di normalizzazione.
Tale sistema può essere usato solo se la differenza tra i campioni è costante a prescindere
dal livello di espressione. In pratica se io baso la mia costante su un pool di geni molto
espressi le cui differenze significative sono tipo 11 - 6 (circa 2 volte), mi perdo dati
riguardo geni poco espressi ma che presentano differenze significative più ampie tipo 0.01e 0.3 (circa 30 volte).
Lowess
Questo metodo cerca di ovviare ai limiti della Global Normalization, basandosi
sull’assunzione che le differenze tra i due campioni non sono costanti ma dipendono dai
livelli di espressione. Quindi la costante K è di volta in volta diversa e adatta al livello di
espressione che stiamo confrontando.
Il metodo prevede la costruzione di un grafico cartesiano in cui sulle ascisse troviamo
l’intensità media di ciascun gene nei 2 campioni indicata con A = log(E1*E2) / 2, e
sull’asse delle ordinate il logaritmo del rapporto delle intensità di ciascun gene nei 2
campioni M = log(E1/E2).
M dovrebbe essere restare costante tra i campioni, in quanto i geni su cui si basa la
normalizzazione sono costanti, ma in realtà all’aumentare dei livelli medi di espressione
(A), il livello di artefatti cambia (e quindi varia anche M).
Si ottiene quindi un grafico in cui i geni analizzati sono distribuiti su una curva.
Tramite regressione lineare si trova la funzione matematica che descrive la curva, e per
ogni punto di essa, e quindi per ogni livello medio di espressione (A) diventa possibileindividuare la costante K adatta per normalizzare i dati.
ANALISI AD ALTO LIVELLO
L’analisi ad alto livello consiste in una serie di approcci statistici che servono per
evidenziare le differenze significative tra i livelli di espressione, in maniera da ottenere
informazioni biologiche da una quantità di dati inizialmente molto grande e variabile.
Fold change
Il modo più intuitivo per distinguere una differenza significativa è quello di vedere di quante
volte un gene è più espresso di un altro. Il Fold change fa proprio questo: si stabilisce una
soglia arbitraria oltre la quale la differenza è considerata significativa, ad esempio se si
sceglie 2, saranno significativi tutti i geni che raddoppiano o dimezzano la propria
espressione.
Il vantaggio di questo metodo è che è facile e veloce, ma il fatto di imporre una soglia
arbitraria espone facilmente a falsi negativi in caso sia troppo alta, o falsi positivi se troppo
bassa.
Inoltre la presenza di molti geni a bassissima espressione comporta molto rumore in
questo tipo di analisi perché mostreranno sempre e comunque un enorme fold change.
Soprattutto il metodo non tiene conto della varianza dei dati del microarray, che si è
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 28/44
dimostrata essere solitamente elevata per basse intensità e ridotta per alte intensità.
Unusual ratio
Questo sistema individua la soglia in modo statistico, rendendola pari alla media dei
rapporti dei livelli di espressione tra esperimento e controllo. Vengono considerati sovra-espressi o sotto espressi i geni che hanno un rapporto di intensità che va oltre le 2
deviazioni standard rispetto alla media dei rapporti.
Questo sistema risolve il problema della soglia arbitraria ma come il fold change ignora il
problema riguardante la varianza dei valori di intensità.
Univariate statistics
Il metodo presuppone che i logaritmi dei rapporti dei livelli di espressione seguano una
distribuzione normale, e tramite il test “t” di Student assegna la probabilità che un gene
venga riportato erroneamente come differentemente espresso. Il test t si basa sull’”ipotesi
zero” secondo la quale le differenze dei livelli di espressione sono dovute al caso. I nostri
dati dovrebbero assumere rispetto a questa ipotesi una distribuzione normale ossia a
campana, con la maggior parte dei dati che variano rispetto al caso e una piccola parte
alle estremità della campana che sono quelle non dovute al caso ossia quelle significative.
Il test calcola quindi la probabilità che la differenza calcolata sia dovuta al caso, se questa
è molto quei 2 geni oggetto del confronto hanno un livello di espressione
significativamente diverso.
Analysis of variance ANOVA
Il metodo si basa sull’analisi della varianza (ANOVA), è una estensione del test-t e può
essere utilizzata quando si confrontano le medie di più di 2 gruppi (il test-t confrontava solo
2 esperimenti tra loro) sotto la stessa ipotesi nulla e con lo stesso livello di significatività.
In questo caso l’ipotesi zero è consiste nell’assunzione che la variabilità all’interno di un
gruppo è più elevata rispetto alla variabilità tra i gruppi, e di conseguenza la variabilità tra
questi è probabilmente frutto solo della variabilità interna.
DATA MINING
Con data minino si intende l’estrazione di informazioni significative dai dati attraverso
l’individuazione di associazioni pattern, sequenze ripetute che si trovano “nascoste” tra i
dati, a causa della loro variabilità e mole.
Proprio a causa di questi 2 motivi l’analisi tradizionale dei dati come il data retrieval è
inadatta. Quest’ultimo infatti cerca all’interno dei dati quelli che soddisfano le condizioni
poste nella query. Quindi presuppone l’esistenza di domande precise e quindi la
conoscenza a priori delle relazioni tra i dati.
Il data mining ha il grande vantaggio di far emergere dai dati associazioni esistenti senza
la formulazione di ipotesi a priori e quindi senza query.
Le tecniche più utilizzate sono:
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 29/44
▪ Clustering
▪ Reti neurali
▪ Alberi di decisione
▪ Individuazione di associazioni
Il clustering e le reti neurali non supervisionate sono tecniche capaci di segmentare i dati,cioè di invididuare gruppi omogenei di dati presentanti le stesse caratteristiche.
Gli alberi di decisione e le reti neurali supervisionate fanno utilizzo di un training set per
classificare nuovi oggetti.
L’analisi di associazioni invece individuano regole nelle occorrenze concomitanti di più
eventi.
Clustering
Clustering significa classificare e cioè separare ciò che appare diverso e unire in gruppi
omogenei ciò che è simile.
Gli algoritmi di clustering separano i dati in sotto-insiemi costituenti, rivelando gruppi
naturali (preesistenti). Quindi si presuppone che i dati analizzati posseggano già una
propria distinzione in classi a noi sconosciuta, che le tecniche di clustering mettono in
evidenza.
Il clustering differisce dalla classificazione, perché in questa la struttura dei dati è nota, per
cui si conosce già il criterio in base al quale classificare.
La cluster analysis può essere utilizzata per dedurre la funzione di geni ignoti basandosi
sulla funzione di geni noti con pattern di espressione simile (i geni coinvolti nello stessoprocesso vengono attivati nello stesso momento); per identificazione di profili di
espressione associati a condizioni patologiche; per decifrare meccanismi di espressione
genica (i geni co-espressi sono anche co-regolati).
Gli algoritmi di clustering possono essere
Gerarchici agglomerativi / divisivi
Non-gerarchici a cluster sovrapposti / non sovrapposti
Clustering gerarchico
Il clustering gerarchico produce delle strutture ad albero, in cui i cluster dei livelli più alti
sono aggregazioni di altri cluster, di livello più basso. Quelli che procedono dai livelli più alti
a quelli più bassi eseguono un processo divisivo, viceversa si segue un processo
agglomerativo.
Tra i programmi che facevano uso di questo tipo di procedimento c’era l’algoritmo UPGMA,
che creava strutture ad albero, dendrogrammi, utilizzando un clustering gerarchico
agglomerativo.
Il dendrogramma è quindi la signature di questo metodo, perché rappresenta sia
operativamente che visivamente gli eventi di scissione o unione effettuati a ogni iterazione.
In particolare si notano le diverse lunghezze dei rami dell’albero, tali lunghezze riflettono le
distanze tra gli elementi del cluster e cioè il loro livello di similarità/diversità.
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 30/44
E’ necessario quindi costruire matrici di distanza, aggiornate ad ogni unione iterativa di
elementi simili a 2 alla volta.
Esempio
%Aa diversi
Sqz1 sqz2 sqz3 sqz4Sqz1 0 5 11 4 In questo caso le sequenze 1 e 2 sono quelle più
Sqz2 0 9 10 simili (5% di diversità) e perciò verranno
Sqz3 0 7 aggregate in un unico cluster e la matrice verrà
Sqz4 0 aggiornata.
Cl1,2 sqz3 sqz4
Cl1,2 0 10 12 A questa seconda iterazione saranno aggregate
Sqz3 0 7 le sequenze 3 e 4 nel cluster Cl3,4. Ovviamente
Sqz4 0 risulta facile immaginare che i 2 cluster
Rimanenti saranno aggregati in uno unico.
1----- Le distanze vengono calcolate così:
|--------- la distanza (Cl1,2 Sqz3) =[distanza(1,3) + distanza(2,3)]/2
2----- | il dendrogramma costruito in modo che la lunghezza di ogni ramo
| sia pari a metà della distanza tra i 2 elementi del cluster
3---------- | |----
4----------
I vantaggi di questo metodo sono il fatto che non è necessario conoscere a priori il numero
di cluster e non c’e bisogno di altri parametri se non il metodo di misura delle distanze.
Inoltre il dendrogramma fornisce una buona visualizzazione dei dati. Gli svantaggi
consistono nel fatto che il metodo non è facilmente scalabile, cioè all’aumentare dei dati
diventa difficile la gestione infatti per grossi moli di informazioni diventa difficile
comprendere i dendrogrammi.
Clustering non gerarchico
Il clustering non-gerarchico è definito anche metodo partitivo perché divide l’insieme di dati
iniziale in partizioni, cioè non ci sono gruppi che contengono sottogruppi, non esistono
cioè cluster annidati, bensì più raggruppamenti senza suddivisioni interne; al massimo tali
partizioni possono presentare zone sovrapposte.
Il clustering non-gerarchico può essere a cluster sovrapposti o non sovrapposti (fuzzy
cluster). Nel primo caso ogni elemento appartiene ad 1 ed 1 solo cluster, nel secondo
invece ogni elemento appartiene ad 1 o più cluster con un certo grado di appartenenza,
per esempio in percentuale da 1 a 100.
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 31/44
Il metodo di clustering non-gerarchico utilizza procedure iterative, in particolare c’è una
fase di inizializzazione in cui viene definita, in modo generale e provvisorio, una struttura
iniziale costituita da un certo numero di cluster, a cui gli elementi sono associati in maniera
random. Tale struttura viene successivamente aggiornata ciclo dopo ciclo fin quando non
può essere più migliorata e quindi si assume di essere arrivati alla struttura definitiva,stabile.
Ne consegue che l’impostazione della fase di inizializzazione è cruciale sia per la qualità
della struttura finale sia per il tempo di elaborazione dei dati. Inoltre si può notare che
bisogna definire a priori il numero di cluster massimi.
A differenza del clustering gerarchico che fa uso di matrici di distanze, gli algoritmi di
clustering non gerarchico misurano la distanza degli elementi da classificare dai centroidi,
cioè dal “centro” di agglomerazione, di gravità, del cluster, e ad ogni ciclo si riassegnano
gli elementi al centroide più vicino ridefinendo i confini del cluster.
Uno degli algoritmi che fa uso del clustering è K-means e ne possiamo descrivere il
funzionamento con un esempio.
Si immagini un sistema di dati basato su 2 variabili, e quindi rappresentabile su un sistema
cartesiano a 2 assi. Gli elementi sono quindi distribuiti su un piano, come chicchi di caffè
fatti cadere su una tavola. Per pochi elementi definiti e quindi pochi chicchi di caffè, sarà
molto facile individuare ad occhio i cluster: questi saranno costituiti dai mucchietti di chicchi
più vicini, probabilmente fatti cadere nella stessa zona e poi rotolati intorno, e per
trasposizione dai dati con caratteristiche vicine.
In A si possono vedere i nostri dati nel grafico o i chicchi di caffè sul tavolo. Ad “occhio”intuitivamente ci viene normale clusterizzare nel modo in cui è fatto in B, con 2 centri di
agglomerazione o mucchietti di chicchi ben visibili, con quelli centrali di dubbia
appartenenza e che quindi fanno parte della zona di sovrapposizione tra i clusters.
I centroidi dei nostri cluster saranno presumibilmente i centri dei mucchietti di caffè.
K-means adotta un meccanismo simile. Come possiamo vedere in C, per prima cosa
dobbiamo scegliere il numero di cluster massimi, nel nostro caso 2, per cui avremo 2
centroidi, messi in maniera random nel grafico (le 2 X rosse). Gli elementi, o i chicchi,
verranno assegnati in maniera random a uno qualsiasi dei centroidi. Alla fine avremo 2
forme libere che raggruppano un determinato numero di elementi intorno al centroide,
come si vede in C. Questa descritta è la fase di inizializzazione.
A questo punto le distanze degli elementi dai centroidi viene ricalcolata e ogni elemento
viene riassegnato al centroide più vicino, migliorando la forma intorno al centroide, e quindi
il cluster. Il miglioramento della struttura viene definito in maniera matematica da una
“funzione costo”, se questa diminuisce la struttura avrà evoluto verso uno stadio più
stabile, mentre se non diminuisce più vuol dire che si è arrivati a quella finale. Il loop
iterativo consiste quindi in questo processo di progressivo calcolo delle distanze e
riassegnazione degli elementi ai centroidi per diminuire la funzione costo. Si otterrà una
struttura stabile come quella in D, dove sono presenti 2 cluster ben definiti. Come si vede
essi non presentano sovrapposizione, infatti K-means è un algoritmo che definisce cluster
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 32/44
non sovrapposti, in quanto ogni elemento viene assegnato ad un solo centroide, per cui i
chicchi, o elementi, dubbi che si trovavano nella precedente zona di sovrapposizione
vengono assegnati in maniera distinta ad un cluster preciso.
Il vantaggio di questo algoritmo è che è efficiente e facile da implementare, ma bisogna
stabilire a priori il numero di cluster che non possiamo conoscere, la qualità dei risultatidipende molto dalla scelta della posizione iniziale dei centroidi, inoltre i geni devono per
forza appartenere ad un solo cluster.
Il concetto di centroide. - il centroide è il punto di accumulazione intorno al quale si
costruisce il cluster. In un’analisi a 2 dimensioni i cluster possono essere rappresentati
come forme libere, poligoni irregolari, il cui centroide è costituito dal centro di gravità della
figura. Per individuare il centro di gravità di una forma libera, in modo pratico, è molto
semplice: si immagini un pezzo di carta tagliato in modo irregolare (la nostra forma libera),
e di appenderla per un punto qualsiasi, il vincolo. La carta “penderà” in virtù della forza di
gravità, si può disegnare quindi una linea che passa per il vincolo (il punto per cui è
appesa) con la stessa direzione e orientamento della forza di gravità, e quindi una linea
dritta verso il basso. Se si ripete la stessa operazione per un qualsiasi altro punto del
foglietto, e si tira un’altra linea, le 2 linee tracciate si incontreranno in un punto. Quel punto
è il centro di gravità della figura e per qualsiasi altro punto appenderemo la figura tutte le
linee passeranno sempre per quel punto.
Lo stesso vale per una figura dal peso non omogeneo in tutti i suoi punti, si può
immaginare ad esempio che ogni punto del cluster abbia un peso e quindi se più elementi
sono accumulati nella stessa zona, quella avrà più peso di un'altra zona del cluster con
meno elementi. Questo non cambia il modo di individuare il centroide, perché il foglietto di
carta, nel momento in cui è appeso, si orienterà nel modo giusto grazie alla forza di
gravità.
Altri metodi
Altri metodi di clustering possono essere distinti in supervisionati e non supervisionati.
Come le reti neurali, quelli supervisionati fanno uso di un training set, ossia un pool di
esempi guida, campioni, in base ai quali costruire i cluster, i metodi di associazione esuccessivamente assegnare i nuovi elementi. Quelli non supervisionati non fanno uso del
training set.
Metodi non supervisionati
SOM (self organizing map) – l’operatore stabilisce i centroidi, o meglio i valori di
riferimento, rispetto ai quali i geni vengono assegnati sulla base della loro somiglianza a
tali valori.
PCA (principal component analysis) – estrae dai dati i “temi ricorrenti” e non c’è necessità
di definire il numero iniziale di clusters.
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 33/44
Metodi supervisionati
LDA (linear discriminant analysis) – usa markov chains e training set costituiti da una serie
di classi di geni di interesse. A partire da queste crea un modello per assegnare nuovi geni
alla classe appropriata.
Banche dati di profili di espressione
I risultati di esperimenti di microarrays sono archiviati in banche dati. Le più importanti
sono GEO (ncbi), Array Express e KEGG Expression, come al solito americana, europea e
giapponese. Ogni dato è suddiviso in 2 componenti principali, l’array e cioè le informazioni
riguardo il design e la costruzione dell’array in sé, e i vari esperimenti che hanno fatto
utilizzo di quell’array, con i relativi dati ottenuti. Poi in aggiunta a questi c’è una terza
componente il protocollo che dà informazioni su come eseguire l’esperimento.
DATABASE
Il database è una collezione strutturata di dati o records, per esempio un'agenda telefonica
o un libro di ricette.
Il computer-database si basa su un software per organizzare l'immagazzinamento dei dati.
Il modo in cui il software organizza la struttura del database è chiamato “data model”.
Un data model quindi descrive in modo astratto come si accede ai dati e come si
rappresentano, uno dei tanti modi disponibili è il Flat file.
GERGO DEI DATABASE
Tipo di dato = è un nome che indica l'insieme dei valori che una variabile può assumere.
(int = numero intero; char = carattere) Riga/Record/Row/Tuple = è un oggeto di undatabase che contiene campi o elementi ciascuno dei quali con un nome e un tipo proprio.
Tuple indica infatti una sequenza di valori, chiamati componenti del tuple.
Colonna/attributo/coloumn/Attribute = è un oggetto di un database e indica il tipo di dato,
quindi è una collezione di elementi di uno stesso tipo (numeri di telefono, nomi di persona,
ecc)
Campo/Field = è l'elemento che compone il record, e può contenere un dato classificato
con un determinato attributo.
Query = significa chiedere al software di recuperare dei dati dal database. La query è
infatti la “domanda”, che ha come risposta ciò che abbiamo chiesto di cercare nel
database.
FLAT FILE
Il flat file è un file contenente i records, ognuno di questi è descritto in una riga, per cui è
rappresentato da una tabella. L'attributo “flat” significa “piatto”, come un foglio di carta, ad
esempio di un'agenda telefonica, in cui i dati sono semplicemente elencati. Infatti il tipo di
flat file più semplice è rappresentato da tabella in cui i dati sono organizzati in righe e
colonne.
A livello informatico, quindi, il flat file non è altro che un insieme di dati e separatori. Il dato
è costituito da ciò che c'è scritto, dal campo, il separatore è una sequenza di uno o più
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 34/44
caratteri che viene usata per specificare il confine tra i campi del record e tra i record
diversi. Un database flat è un tipo di database il cui data model è codificato in un flat file,
quindi l'intera collezione di dati è archiviata in un solo file e non ci sono relazioni strutturali
tra i dati.
(vedi tsabella)Questo è un esempio di database flat. Bisogna tenere conto che questa però ne è la
rappresentazione, e non il modo in cui sono “scritti” nel file. Un esempio di come possono
essere codificati è usando come separatore di campo la virgola, e come separatore di
record l'indicatore di fine-linea (andare a capo), questo modo è chiamato “formato CSV”.
Mario,Rossi,12345678,Via Roma 21,Disneyland
Antonio,Verdi,54872532,Via Torino 37,Disneyland
Anna,Bianchi,123456789, eccetera
Il software interpreta questo formato così: Il separatore virgola è interpretato dal software
come una distinzione tra i campi, per cui i dati separati da questa vengono rappresentati in
colonne successive. Il separatore end-of-line viene interpretato come fine di un record e
inizio di un altro, per cui si passa alla riga successiva. Logicamente alla fine il database
sarà rappresentato dalla tabella precedente.
DATABASE RELAZIONALE
Un database relazionale utilizza un data model di tipo relazionale, è formato da una parte
di dati e da schemi, che indicano la struttura del database, ossia le relazioni attraverso le
quali esso è organizzato.
Quindi è una collezione di relazioni, chiamate “tabelle” (tabella e relazione sono sinonimi).Ogni tabella è come un flat file, organizzata in righe e colonne. Le righe costituiscono i
records, e ognuno di essi ha la stessa struttura; le colonne forniscono gli attributi in base ai
quali sono organizzati i records.
Il concetto è molto più semplice ed intuitivo di quanto sembri, prendiamo, ad esempio, la
tabella precendente:
Le righe sono i records, hanno tutti la stessa struttura, ossia hanno 5 campi.
Le colonne sono gli attributi in base ai quali i records sono organizzati: l'attributo della
prima colonna è “nome”, quello della seconda è “cognome”, la terza “numero di telefono” e
poi “indirizzo” e “città”.
DBMS
Il database management system DBMS è un software creato per gestire i database sulla
base di vari data models. Il relational database management system RDBMS si riferisce a
uno software capace di gestire solo database relazionali, e non va confuso erroneamente
con un database relazionale stesso.
Solitamente questi programmi si basano su linguaggi creati apposta per la gestione e il
recupero di dati dai database, il più famoso di questi è SQL (structured query language),
utilizzato da molti management system, che infatti portano la sigla SQL nel nome: MySQL,
PostgreSQL, Oracle, FileMaker, Microsoft Access, Microsoft SQL Server.
KEYS – CHIAVI
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 35/44
Le chiavi sono un elemento fondamentale di un database relazionale.
La chiave unica, primaria identifica in maniera univoca tutte le righe in una tabella. Poiché
la relazione è univoca, questo tipo di chiave non presenta ripetizioni del valore che
assume.
Una chiave secondaria, foreign (estranea), costituisce il riferimento alla chiave primaria diun'altra tabella. Questo significa che si può trovare in un campo di un record il riferimento
(chiave secondaria) a una chiave (primaria) di un'altra tabella.
Questa è la versione relazionale del database iniziale.
I numeri costituiscono le keys, infatti un numero crescente è il modo più semplice per far
assumere alla chiave un valore unico che non si ripete mai.
Prendiamo ad esempio la tabella “Indirizzi”, questa ha la chiave primaria nella prima
colonna: ogni numero identifica in maniera univoca un indirizzo, infatti assume valori
sempre diversi, unici. Poi nell'ultima colonna è presente una chiave secondaria, infatti
assume valori ripetuti. Questa, si è detto, è una reference, quindi punta a un'altra chiave: la
chiave primaria della tabella città.
Allo stesso modo i numeri nell'ultima colonna della tabella “Persone” rappresentano una
chiave secondaria che punta alla chiave primaria della tabella indirizzi.
SCHEMA DEL DATABASE
Le frecce nell'esempio precedente mostravano dove la chiave “puntava”, sottintendono,
quindi la relazione tra le tabelle:
Qui è indicato lo schema del data base in cui sono elencati i nomi dei campi delle tabelle,e la freccia indica la relazione tra esse. La colonna Ref_Città della tabella Indirizzi punta
alle chiavi primarie della colonna Pkey_Città della tabella Città.
In rosso sono indicati i tipi di file relativi ad ogni campo. Il tipo di file fa parte degli attributi,
alle chiavi primarie è assegnato in fatti un numero non-nullo. Al campo nome è associata
una stringa ossia un insieme di caratteri e numeri, ed vi è associato anche un limite
massimo di 20 caratteri, perché è difficile trovare un nome più lungo di 20 lettere.
Nel campo Ref_Città vediamo è presente un numero, questo numero dallo schema di
prima sappiamo che punta a una chiave primaria, una Pkey, e vediamo, infatti, che come
attrivuto hanno “numero-non-nullo”.
VANTAGGI DEL DATABASE RELAZIONALE
Per prima cosa il database relazionale grazie all'utilizzo delle relazioni snellisce molto la
gestione dei dati perché elimina le ridondanze e le possibilità di errore in quanto elementi
che si ripetono più volte si segnano 1 sola volta devono essere immessi effettivamente 1
sola volta, poi grazie al sistema delle chiavi vengono associati a tutti i record che
posseggono quel dato.
Inoltre anche la ricerca dei dati viene molto velocizzata, perché grazie all'utilizzo delle
chiavi il software può fare un retrieval molto semplice, basandosi direttamente sulle chiavi,
a differenza del database flat in cui per recuperare qualsiasi dato bisogna confrontare riga
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 36/44
per riga con la query.
Per esempio, se in un database flat volessimo trovare tutte le persone che abitano in Via
Roma 21, significa che il software dovrebbe cercare nel campo indirizzi tutti quelli che
presentano la stringa “Via Roma 21”, per un computer significa confrontare carattere per
carattere tutta la stringa con la query.In un database relazionale invece di cercare la stringa, si cercano tutti i record che
presentano la Ref_key che punta a quell'indirizzo. Nella fattispecie Via Roma 21 ha come
chiave primaria 1, per cui dobbiamo trovare tutti i record che nella tabella Nomi hanno nel
campo Ref_Indirizzi il numero 1 (che infatti punta al record Via Roma 21 nella tabella
Indirizzi). Questo tipo di confronto è molto più semplice per il software, perché deve
confrontare un unico numero. Il risultato di questa ricerca sarà: Mario Rossi, Anna Bianchi,
Luigi Rossi.
DATABASE BIOLOGICI
Inizialmente a causa della complessità dei database, e per il fatto che la sequenza di un
gene o di una proteina era praticamente l'unica informazione veramente rilevante, i
database biologici erano organizzati in flat files.
Oggi i dati sono archiviati e gestiti in RDBMS, ma sono tutt'ora scambiati e distribuiti come
flat files, sebbene con una struttura complessa.
EMBL record
Un record di EMBL è praticamente un file di testo, organizzato in righe.Ogni riga ha un identificativo, chiamato tag, composto da 2 lettere che descrive il
contenuto della stessa.
Per esempio ID sta per identification number, AC access number, DE description, OS
organism source, OC organism classification, DT data, XX riga vuota, // fine del file.
KW contiene le keyword ossia le parole chiave da supporto al motore di ricerca delle
sequenze.
Esistono blocchi di tag come quelli di reference in cui si trovano sempre nello stesso rigido
ordine i seguenti tag: RN, RP, RA, RT e RL. RN indica il reference number, RP la data di
pubblicazione, poi RA con gli autori, RT il nome della pubblicazione e RL il giornale in cui
è stata pubblicata.
Solo alla fine compare il tag SQ che contiene la sequenza nucleotidica vera e propria, che
quindi costituisce solo una piccola parte di tutte le informazioni contenute nell'entry.
Questo tipo di record nasce, essenzialmente, da un adattamento dei vecchi database flat,
infatti presenta numerosi difetti.
Per prima cosa l'attributo è dichiarato all'interno stesso di ogni file, invece di essere parte
del “data model”.
L'ordine dei tag è ben definito, rigido, questo perché ad esempio esistono record
multilinea, o gruppi di tag che vanno intesi come facenti parte di un blocco o come
“sottorecords”, come succede per le reference.
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 37/44
Alcune parti sono gerarchiche, ossia esistono tag che devono essere posti
necessariamente prima di altri per avere senso, questo succede nelle feature table: la
feature table è nient'altro che una tabella, o meglio, la descrizione di questa in modo da
adattarla dentro la struttura del file flat dell'embl record.
Per fare ciò, ovviamente, bisogna utilizzare un “linguaggio” standard, nella fattispecie inEMBL esiste un tag iniziale chiamato FH che sta per feature table header, in cui vengono
dichiarate le colonne della tabella, per esempio key e location/qualifier, e poi una
sequenza di tag FT, che descrivono ognuno un rigo della tabella e che fa uso di segnali
particolari per esempio con /codon start=1 si indica che il primo nucleotide della sequenza
successiva è proprio quello codificante la metionina di inzio della ORF, oppure
/organism='Homo sapiens', indica che la sequenza è stata isolata dal genoma umano. Altri
esempi sono /translation='...' con la traduzione della ORF, /cell_type, /tissue_type...
Questo ovviamente è un metodo abbastanza macchinoso, proprio per la sua struttura
intrinsecamente complessa e la necessità di utilizzare un linguaggio standard.
Infine questo tipo di record presenta anche una certa quantità di ridondanza, infatti tutte le
sequenze di un determinato organismo avranno sempre ripetuti i blocchi di reference
relativi a fonte di provenienza e tassonomia, o tutte le sequenze inviate da uno stesso
gruppo presenteranno il medesimo blocco di reference.
Logicamente noi non visualizziamo il record tal quale come descritto, ma un programma
elabora il file e ce lo presenta in maniera più user-friendly e quindi più comprensibile.
EMBL DBAd oggi il database EMBL contiene quasi 205 miliardi di nucleotidi in circa 128 milioni di
entries. Se osserviamo com'è evoluta la quantità di dati archiviati, possiamo notare che
questa è cresciuta in maniera esponenziale dal 94, e la curva è molto rapida e non
accenna ad arrestarsi. Inoltre oggi la maggior parte delle sequenze non è di provenienza
umana, ma homo sapiens è solo uno dei molti organismi di cui si è completato e si sta
completando il progetto genoma.
Si guardano sempre entries e nucleotidi per un fatto molto semplice. Se guardiamo, ad
esempio, alle classi di dati archiviati, vediamo per esempio che la quantità di nucleotidi
provenienti da Whole Genome Shotgun sono quasi il doppio rispetto alle entries, questo
perché i frammenti sequenziati per WGS sono pochi, ma molto lunghi; se invece
osserviamo il rapporto entries/nucleotides per le sequenze EST vediamo che è
completamente l'opposto, e cioè il numero di entries è un quarto rispetto al numero di
nucleotidi, infatti le EST che essendo sequenze parziali di mRNA sono molto corte, ma
possono essere ottenute molto facilmente.
Questo costituisce un problema critico dal punto di vista informatico perché si chiede di
archiviare una quantità crescente di dati, relazionarli tra loro, e soprattutto velocizzare i
processi di ricerca all'interno del database, che come sappiamo si basano sul confronto
della nostra query con TUTTI i record del DB, il ché è un problema ancora più grande
essendo i DB biologici tutt'ora basati su file flat.
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 38/44
ALTRI DATABASE
Per prima cosa definiamo la differenza tra banche dati primarie e secondarie. Le banche
dati primarie sono quelle che contengono direttamente la sequenza nucleotidica o
amminoacidica, come EMBL, DDBJ, Genebank per gli acidi nucleici e SwissProt, TrEMBL
per le proteine; le banche dati secondarie sono quelle che basano le loro informazionirecuperandole da quelle primarie come PFAM, Ensembl. La differenza non è così netta,
esistono infatti DB non facilmente classificabili come PDB che archivia strutture
tridimensionali di proteine o anche acidi nucleici: l'informazione di struttura non è
direttamente evincibile dalla sequenza, per cui, se vogliamo, questa banca dati fornisce
un'informazione primaria, ma non si tratta di una sequenza, quindi dovrebbe essere
secondaria. Altri esempi sono Rebase che è un DB degli enzimi di restrizione, LocusLink
un DB di loci genici.
Tra il 1965 e il 1978 nasce il primo database storico “Atlas of Protein Sequences and
Structures” che nell'81 è diventato PIR, nel 1982 nasce Genebank. Esistono oggi circa
1000 databases. La rivista NAR nucleic acid research si è specializzata nei database
biologici e nel 2008 ha rilevato 1078 DB funzionanti. Ha creato la Molecular Biology
Database Collection che è praticamente una banca dati di banche dati.
SWISSPROT RECORD
E' organizzato in modo molto simile a un record di EMBL, cioè un file di testo, organizzato
in righe con un tag iniziale di 2 lettere. Anche questo contiene record multilinea come OC,
organism classification, e sottorecord o gruppi di record come il blocco reference, contieneinoltre reference incrociate e link con altri DB.
Ovviamente contiene informazioni sulla proteina, oltre la sequenza, domini
transmembrana, folding conosciuti, mutazioni conosciute; anche qui sono organizzati nella
feature table. Esiste anche un tag CC, commenti, che contiene invece informazioni
abbastanza generiche, ma, se vogliamo, utili come la funzione, localizzazione cellulare,
tessuto specificità e anche informazioni sul copyright.
TrEMBL RECORD
I record di TrEMBL derivano tutti direttamente da record EMBL. TrEMBL significa, infatti,
translated EMBL (ossia EMBL tradotto): i file invece di tenere sequenze di nucleotidi
contengono sequenze ipotetiche di amminoacidi. Queste sono in un certo senso primarie
perché sono costruite “de novo”, ma si tratta di un DB secondario perché queste sono
attinte da EMBL.
Se la sequenza ipotetica è confermata, il recordo viene trasferito, tal quale, in SwissProt.
In un certo senso a ogni ondata di genomi sequenziati il database di TrEMBL si
ingrandisce, poi man mano che le proteine vengono studiate e ne viene confermata la
sequenza TrEMBL si accorcia.
PDB RECORD
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 39/44
E' stato già descritto quando si è parlato dell'homology modelling, comuque vale la pena
ricordare che anche questo tipo di record è strutturato similmente a quelli già descritti, solo
che qui i tag sono a più caratteri.
La parte essenziale del record è l'annotazione spaziale di tutti gli atomi della proteina.
CONSORZI
Le varie banche dati incominciano ad associarsi per mettere insieme le conosce, i dati e
fornire un DB unico e comprensivo di tutto. Un esempio di questi è UniProt, costituito
dall'unione di SwissProt, TrEMBL e Pir. Da questa unione è nato un DB con più
componenti tra cui UniProt Knowledgebase che è il central access point, per cercare
informazioni su funzione, classificazione e cross-reference, poi ci sono UniProt Non-
redundant Reference (UniRef) che accelera le ricerche combinando sequenze
strettamente correlate in un singolo record, e infine UniProt Archive (UniParc) che
raccoglie la storia di tutte le sequenze proteiche.
ALTRI DB DI INTERESSE
REF SEQ DB di sequenze ma non ridondante
LOCUSLINK DB di loci genici
OMIM DB di malattie genetiche a trasmissione mendeliana
SNPs DB di polimorfismi
PUBMED DB di reference bibliografiche
TAXONOMY DB di tassonomia degli organismiREBASE DB di sequenze riconosciute da enzimi di restrizione
GENEONTOLOGY E' un DB di definizioni di biologia ed è uno dei pochissimi esempi
di DB relazionale
RELAZIONI TRA I DATABASE
Il problema principale dei flat database è la ridondanza di informazioni, e quindi la mole di
queste che deve essere archiviata. Questo è un problema che tutt'ora affligge molti DB,
come per esempio PIR che è diviso in 2 sezioni “Domini” e “Superfamily map” che in larga
parte condividono i dati forniti come la sequenza, e spesso capita che le sequenze
annotate nelle 2 non coincidano.
Se poi ci mettiamo nei panni del ricercatore che vuole sfruttare questi DB la situazione è
sconfortante. Abbiamo visto che le banche dati esistenti sono moltissime, e ognuna ha il
suo formato, quindi per prima cosa bisognerebbe prendere confidenza con ognuno di
questi.
Poi ogni database ha un suo strumento di query, che è adattato sul suo formato, sul suo
data model. Questo significherebbe che se uno volesse sfuttare tot DB dovrebbe imparare
tot query tools.
Si è cercato di ovviare a questi problemi integrando tra loro i dati delle differenti DB tramite
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 40/44
un unico tool.
Si sono tentati 3 approcci:
l View integration (K2)
l Data warehouse (Entrez)
l Link integration (SRS)
VIEW INTEGRATION (K2)
La View integration lascia le informazioni nei DB sorgente, cioè non copia le informazioni,
ma costruisce attorno ad essi un ambiente che fa sembrare all'utente come facenti parte di
un unico sistema, quello che in realtà è l'integrazione di molteplici formati. EMBL e
GeneBank giustamente hanno formati diversi, mostrano informazioni leggermente diverse,
nell'ordine diverso, nonché con un formato diverso, ma attraverso la View integration le
informazioni diverse vengono integrate tra loro e mostrate in un'unica interfaccia, che
risulta all'utente molto più comprensibile.
Il sistema si basa su un language processor che analizza la query, sceglie i database
necessari a soddisfare la richiesta di search, e genera tante subqueries che sono adattate
ad estrarre informazioni dai database scelti.
Recuperate le informazioni, queste vengono integrate e mostrate all'utente come un tutto
unico.
Un esempio di questo sistema è K2 che era un linguaggio che permetteva di fare questo
lavoro di connettersi alle sorgenti, recuperare dati e mostrarli. La query si faceva in un sito
internet.Non ha avuto successo per diversi motivi: per prima cosa per il fatto che non copiando i
dati dai database, ma accendendo a loro ad ogni query, nel momento in cui la rete è down
(cioè non funziona), non era possibile recuperare informazioni. Inoltre era un sistema
intrisencamente lento, per il modo in cui funzionava.
DATA WAREHOUSE (ENTREZ)
Questo sistema recupera tutti i dati dai DB, quindi copia la roba (ware) e la conserva in
loco (house). Questi dati sono poi accomodati in un proprio data model. Alla base ci sono
una serie di software che prendono i dati dalle banche sorgente, trasforma questi dati
adattandoli nel proprio data model e poi li caricano nella warehouse.
Questo tipo di sistema è adottato da Entrez: questo integra dati di letteratura, database di
sequenze di DNA e proteine, strutture 3D, dati sui domini, studi di popolazione, studi di
espressione, informazioni tassonomiche e numerosi crosslink. Entrez scarica intere
banche dati e ne riorganizza i dati in nodi di una rete, per esempio DB come Pir,
SWISSPROT e PDB andrebbero a far parte del nodo Protein, EMBL e GenBank di quello
Nucleotide.
In quanto facenti parte di una rete, i nodi sono ovviamente interconnessi tra loro, e dato
l'alto numero di DB sorgente e di nodi, il sistema diventa talmente complesso che Entrez
non viene distribuito, non si può downloadare interamente.
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 41/44
LINK INTEGRATION (SRS)
In questo sistema non si crea un nuovo data-model, non si trasformano i dati, ma si
sfruttano semplicemente i crosslink già segnati nei data model di ogni banca.
Ogni DB ha più o meno provveduto a relazionarsi alle altre tramite i cross-link, ossia icollegamenti ad altre banche, ognuna ha link solo verso certe altre, però presi in toto è
possibile raggiungerle tutte.
Un sistema di questo genere è SRS (Sequence Retrieval System).
SRS è un tool che permette l'accesso rapido ad un grande numero di database biologici,
che possono essere querati per stringhe o numeri. Il sistema lavora su flat-file database,
ma oggi anche su DB relazionali.
SRS si basa su un sistema di indicizzazione per cui tutti i flat-file vengono letti e le
informazioni utili vengono “filtrate”, queste poi vengono indicizzate, ossia viene annotata la
posizione di una certa parola, informazione, all'interno del file. SRS poi ad ogni query
consulta gli indici per recuperare i dati che la soddisfano.
Il sistema degli indici permette di eliminare l'eterogeneità dei file dei singoli DB consultabili,
perché ognuno di questi indici è consultabile dallo strumento di search allo stesso modo, e
quindi li si possono interrogare sempre attraverso la stessa query form.
Lo strumento che si occupa dell'indicizzazione è il “parser”, questo, in un certo senso,
individua la “struttura grammaticale” del flat-file e lo suddivide in elementi singoli chiamati
“token”, che sono dei blocchetti di testo. Di questi token, ossia queste parole rilevanti, ne è
archiviata la posizione in un indice, che ha sempre la stessa struttura e si gestisce sempreallo stesso modo.
Il parsing permette per prima cosa di uniformare il formato degli indici per tutti i DB, e
permette di presentare i dati in maniera leggibile. Facciamo un esempio pratico: nei record
delle sequenze è segnata la data, ora ogni DB ha scelto un suo modo di scriverla, alcuni
esempi possono essere “09-oct-1975” “09/10/75” “10/09/1975” “19751009” e così via.
Ovviamente il programmatore sa come sono scritte le date nei singoli data-model e ha
creato il parser in modo da saperle interpretare e riscriverle tutte allo stesso modo, così da
presentarle all'utente scritte sempre in un solo e unico modo, senza che debba impararsi
anche lui tutti i modi di scrivere una data.
Quindi partendo da una query (cerca la sequenza del gene p53), che sostanzialmente
chiede di cercare una parola o una serie di parole (sequenza, gene, p53), si compie una
ricerca di questa all'interno degli indici. Se la parola è trovata, l'indice punterà a una certa
posizione, ossia a un certo record che conterrà molto probabilmente l'oggetto della nostra
ricerca.
Il funzionamento sembra analogo a quello di un engine di ricerca sul web come Google,
ma in realtà non è così, perché la query è presa alla lettera quindi si recuperano risultati
identici e non simili ad essa, inoltre i risultati non sono “ranked” ossia non hanno attribuiti
uno score di similarietà, mentre invece Google non solo cerca tutto ciò che assomiglia
vagamente a quello che stai cercando, ma te lo ordina anche per grado di similarità.
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 42/44
Questo significa che i risultati dipendono molto dalla qualità dei database, ma soprattutto
dalla qualità degli indici e della query, perché sapere cosa viene indicizzato dei DB e cosa
no, ti permette di fare una query intelligente chiedendo cose che sai di poter trovare negli
indici.
SUBENTRIES
Uno dei problemi che ha dovuto affrontare SRS sono le SubEntries, ossia quello che
succedeva in EMBL con i blocchi di reference. All'interno dei DB originali questo problema
non esiste, perché ognuno conosceva il proprio data-model e organizzava il blocco
“reference” con l'ordine prefissato.
I blocchi di reference hanno tag ripetuti tutti uguali, ma contengono informazioni
sostanzialmente diverse, per esempio se nel primo blocco reference c'è l'autrice Rose che
ha scritto su Nature, e nel secondo l'autore Peppe che ha scritto su PNAS, queste sono
informazioni diverse, ma se noi facciamo una ricerca “Rose&PNAS”, il search ci ritorna
quelle 2 pubblicazioni perché Rose e PNAS fanno parte dello stesso record, ma il risultato
è sbagliato perché in realtà a noi interessava una certa Rose che ha scritto su PNAS, che
non è presente nel risultato del search.
Lo stesso problema si crea nelle feature table, in cui con uno stesso Tag (FT) è
immagazzinata una quantità molto varia di informazioni, come domini, tessuti di
espressione, ecc.
Il parser risolve questo problema perché conosce la struttura di questi blocchi, li “legge”
nel modo opportuno, li isola uno dall'altro e lo associa ad un ID artificiale, così ogniblocchetto di reference ha un proprio ID e ogni pubblicazione viene considerata a sé.
LINK IN SRS
I links in SRS possono essere di 2 tipi:
l Hypertext links
l Indexed links (index-links & read links)
L'hypertext link è il tipo collegamento internet, un link di connessione anonimo che non
lascia traccia, non si conosce né da dove viene, né dove va. Gli indexed links invece
tengono traccia di origine e destinazione, il sottotipo indexed è indicizzato sia in origine
che in destinazione, il read-link è indicizzato solo da una parte.
Nel lato sinistro di questa figura si può notare un elenco di record A e B. Alcuni record A
sono relazionati con B, per esempio A1 è relazionato con B3.
Inizialmente in alto a sinistra vediamo che l'ID è collegato ad A1, e il DR a B3. Dopo che le
relazioni vengono indicizzate e il risultato è che l'ID è B3, e DR è A1 e A2, infatti si vede
che A1 inziale è relazionato con B3, mentre B3 è relazionato con A1 e A2.
Quando facciamo una ricerca e vogliamo sapere tutti i record di B che sono relazionati ad
A (A>B o B
Se invece vogliamo sapere tutti i link di A relazionati con B (AA), otteniamo A1, A2, A3 e
A4, che sono i record da cui partono le frecce verso B.
L'indexed link è creato confrontando 2 indici per esempio vengono linkati EMBL e
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 43/44
GenBank perché utilizzano entrambi un access number.
Il read link è creato estraendo i token da un DB e confrontandoli con l'indice di altri DB. Per
esempio si estrae dai cross link di SwissProt l'access number della rispettiva entry di
EMBL e la si va a cercare nell'indice degli access number di EMBL. Il risultato sarà un link
SwissProt↔ EMBL. Gli indexed link sono bidirezionali, difiniti una sola volta,indipendentemente dai link HTML e possono essere definiti all'interno di un DB.
Proprio a causa dell'esistenza di questa rete di crosslink, si vengono a creare alcuni
problemi, uno di questi sta nella scelta del path, del percorso da seguire per raggiungere
database non connessi direttamente, ossia i nodi, i DB, da attraversare per collegare 2
database senza un link diretto.
Per esempio se io volessi conoscere a partire dalla sequenza nucleotidica la struttura 3D
di una proteina codificata dal mio gene. Questo significa procedere da EMBL (sequenza) a
PDB (struttura 3D). Ovviamente una sequenza nucleotidica ha ben poco a che fare con
una struttura 3D di una catena amminoacidica, per cui è facile immaginare che EMBL e
PDB sono siano direttamente connessi tra loro. Per andare da un database all'altro
bisogna in teoria passare attraverso una banca dati di sequenze proteiche, ma queste
sono molte, per esempio c'è SwissProt, ma anche SwissNew. In linea di massima i 2 path
sono equivalenti, ma come si fa a scegliere tra loro? SRS attribuisce ai collegamenti un
certo peso, per cui andare da EMBL a SwissProt pesa 5, poi andare da SwissProt a PDB
pesa altri 5, il peso totale di questo path è 5 + 5, cioè 10. Passare per SwissNew invece
pesa 15 + 15, cioè 30. SRS sceglie il path con il peso totale minore, quindi in questo caso
passerà per SwissProt invece che per SwissNew.
ENSEMBL
Fin'ora si è parlato di annotazioni di singoli geni o proteine, ma oggigiorno si sequenziano
interi genomi, per cui si pone il problema dell'annotazione genomica, ossia di quali modi,
segnali, utilizzare per descrivere un genoma.
Una delle banche dati che ha affrontato questo problema è Ensembl, che è un progetto
congiunto tra EMBL – EBI (European Bioinformatics Institute) e WTSI (Wellcome Trust
Sanger Institute), che ha sviluppato un software che produce e mantiene un'annotazione
accurata e automatica di alcuni genomi eucariotici.
L'annotazione di base del genoma comprende:
Geni
l Locazione genomica
l Struttura del gene (esoni, introni, UTR)
l Trascritti (pseudogeni e RNA non-codificante)
l Proteine
l Link per altre sorgenti di informazione
L'annotazione avanzata include però:
l bande citogenetiche
7/21/2019 riassunti bioinfo
http://slidepdf.com/reader/full/riassunti-bioinfo 44/44
l markers polimorfici (STS sequence tagged sites)
l variazione genica (SNPs, DIPs, STRs)
l sequenze ripetute
l expressed sequence tags (ESTs)
l cDNA e mRNA da specie correlatel regioni di omologia di sequenza
Il sistema ENSEMBL parte dalle sequenze genomiche, che vengono elaborate da CPU nel
database di analisi, quando poi la sequenza è pronta viene caricata nel database finale,
affiancato da altri DB di supporto. Sono questi che poi l'utente consulta attraverso
l'interfaccia web chiamata MartView.
L'analisi della sequenza genomica è molto accurata e richiede molto tempo, infatti per
vedere una propria sequenza inclusa nel DB di ENSEMBL sono necessari 3-6 mesi.
ENSEMBL è basato su un server-database che fa uso di mySQL, e il l'ensembl database-
server è direttamente disponibile on-line.
L'interfaccia web è abbastanza intuitiva si parte dalla scelta dell'organismo, poi se ne
visualizzano i cromosomi, se ne sceglie uno, e via via si può scendere man mano a livelli
di “zoom” sempre più alti fino a raggiungere la sequenza genetica interessata.
BIOMART (www.biomart.org/martview)
BioMart è un search engine specializzato nel data mining. E' capace di gestire ricerche
con moltissimi parametri e porre i risultati in una tabella. Non sono richieste competenze diprogrammazione e l'interfaccia è abbastanza user-friendly.
Si possono scegliere il database o il gruppo di DB in cui effettuare la ricerca per esempio
ENSEMBL, chiamato data set e poi impostare numerosissimi attributi, per esempio in quali
organismi ricercare, se la sequenza è conosciuta o meno, in quali cromosomi, ma ad
esempio interagisce anche con GeneOntology, per cui è possibile ricercare tutti i geni
associati a una certa definizione di GeneOntology, per esempio tutti gli oncogeni, tutti i
geni coinvolti nel metabolismo di una sostanza, tutti i geni espressi in un certo tipo di
tessuto o in una certa patologia.
Si possono infine applicare filtri sul geneset ricercato.
Quindi è un potentissimo strumento di ricerca che permette di decidere:
l specie di interesse (Dataset)
l cosa conoscere di un gene, tipo sequenza, ID, descrizione (Attributes)
l decidere su un geneset più piccolo (Filters)
Il risultato finale, abbiamo detto, è una tabella, in cui si possono settare gli attributi da
mostrare, tipo il nome del gene, la regione genica, ecc oltre ovviamente all'ID del gene o
del trascritto di ENSEMBL, che è un vero e proprio hypertext-link così si può raggiungere il
d l