riassunti bioinfo

44
AN A LISI D I SE Q U EN ZA L 'analisi di se qu en za è un m o do d i o r ga ni zza re l e seq uenze prim a rie di D N A, RN A , p r o t e i n e p er i d e n ti c are re g io n i di s i m il a ri t à , c o n s eg u e n t i a rel a z i o ni f u n zi o n a li, s t ru t tur a li o e vo l u zio n isti ch e tr a d i e sse . L e se q uenze a l l i n e a te so no r a p p r e se n tate co m e ri g h e in u na m a t ri c e. S o n o i n s e ri t i d ei g a p t ra i r e si d u i, c o d a o t t e n e re i l p i ù a l to n u m e ro p ossi b i l e d i n u cl e oti d i / a m m ino a ci d i i d e n t i c i o si m i l i a l l ine a ti in co l o n n e s u c ce s si ve . A D C - N Y - R Q C L C R - P M A Y C -- Y N R - CKCRDP A Y C Y N -- R - CKCRDP  D ot p lot Il m et o d o p se m p lice p er a lli n e are 2 se q ue n ze d i l u n g h e zza n  ed m , è q uello d i c o struire una m atrice di gr a nd e zza n  p e r m , e d i se g n a r e co n un si m b olo t u t t e le p o si zio n i d e ll a m a t ri c e in cui c' è i d e n t i t à tra i n u c l e oti d i. I n q uesto m o d o è p o ssi b i l e , a d o c ch i o , n o t a r e i l l i ve l l o d i s i m i l ariet à t ra l e s e q u e n z e, e in p a rtic o l are i tr a t ti co m p l e t a me n te i d e n t i c i a p p a io n o come l in e e o b l i q u e d i 4 5 °, sp e zza te in corri sp o n d e n za d ei g a p s. Tu ttavi a , q u e sto m e t o d o ch i a m a t o d o t p lot, n on è u n vero e p ro p rio al g o ri t m o ca p acedi d a rci u n ri su l t a t o , in q u a n t o si limi t a so ltan t o a c ostr u ire, a p p u n t o , u n a m a t ri ce d i p u n ti, e p oi st a all'o p e r a t o re i d e n t i c are q u e ste "li n e e", cosa ch e può d i ve n t a re molto compli ca t a a ca u sa d el g r a n d e rum o re di f o n d o ch e p cr e a rsi in al cu ni casi.  Needl em an Wuns c h Q u e sto a l gor i t m o è co stru i t o co m e un d o t p l ot, m a i n vece d i se g n a r e u n si m b o l o i n ca so d i i d e n t i t à a ss e g na u n p u n t e g g io p o si t i vo + 1, e in caso d i m i sm a t ch 0. I l p u n t e g g io d e l l a ca se l l a X d i p e n d e d a l l a ri g a e d a l l a co l o n n a ch e co n ve r g o n o ne l l a ca se l l a in b assoa d estr a ri sp et t o a d X .  X  0120 3 00  1  0  0  In q uest o ca sola ce ll a a p u n t e g g io p iù al t o è q u e lla co n il 3 . S e in Xc' è u n m a t chsi som merà 1+3 escriver em o 4 , se invecec'è un m ismat ch sa rà 0+ 3 e qu i nd i ancora 3. S e il p u n t e g gio n on pr o vi e n e d a lla ca se ll a d iret t a m e n t e in b a sso a d e stra ri sp e t to a d X, e q u in d i d ir e tt a m e n t e d a lla d iago n a l e , vu o l dire ch e è st a t o intr o d o tto u n g a p . P o i ch é co n sideri a m o l'in t er a riga e l'in t er a co lo n na, vu o l d ire ch e p o ss i a m o in t ro d urr e u n g a p d i q u a l siasi d i m e n si o n e , se n za d i e r e n ze . Q u e sto t i p o d i a l l i n e a m e n t o è va l i d o p er q u e l l i d i t i p o g l o b a l e .  

description

bioinformatica

Transcript of riassunti bioinfo

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 1/44

ANALISI DI SEQUENZA

L'analisi di sequenza è un modo di organizzare le sequenze primarie di DNA, RNA,

proteine per identificare regioni di similarità, conseguenti a relazioni funzionali, strutturali o

evoluzionistiche tra di esse. Le sequenze allineate sono rappresentate come righe in una

matrice. Sono inseriti dei gap tra i residui, così da ottenere il più alto numero possibile dinucleotidi/amminoacidi identici o simili allineati in colonne successive.

ADC-NY-RQCLCR-PM

AYC--YNR-CKCRDP

AYCYN--R-CKCRDP

 

Dot plot

Il metodo più semplice per allineare 2 sequenze di lunghezzan edm, è quello di costruire

una matrice di grandezzan perm, e di segnare con un simbolo tutte le posizioni della

matrice in cui c'è identità tra i nucleotidi. In questo modo è possibile, ad occhio, notare il

livello di similarietà tra le sequenze, e in particolare i tratti completamente identici appaiono

come linee oblique di 45°, spezzate in corrispondenza dei gaps.

Tuttavia, questo metodo chiamato dot plot, non è un vero e proprio algoritmo capace di

darci un risultato, in quanto si limita soltanto a costruire, appunto, una matrice di punti, e

poi sta all'operatore identificare queste "linee", cosa che può diventare molto complicata a

causa del grande rumore di fondo che può crearsi in alcuni casi.

 

Needleman WunschQuesto algoritmo è costruito come un dot plot, ma invece di segnare un simbolo in caso di

identità assegna un punteggio positivo +1, e in caso di mismatch 0. Il punteggio della

casella X dipende dalla riga e dalla colonna che convergono nella casella in basso a

destra rispetto ad X.

 

X

  0120300

  1

  0

  0

 

In questo caso la cella a punteggio più alto è quella con il 3. Se in X c'è un match si

sommerà 1 + 3 e scriveremo 4, se invece c'è un mismatch sarà 0 + 3 e quindi ancora 3.

Se il punteggio non proviene dalla casella direttamente in basso a destra rispetto ad X, e

quindi direttamente dalla diagonale, vuol dire che è stato introdotto un gap. Poiché

consideriamo l'intera riga e l'intera colonna, vuol dire che possiamo introdurre un gap di

qualsiasi dimensione, senza differenze.

Questo tipo di allineamento è valido per quelli di tipo globale.

 

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 2/44

PROBLEMA

L'algoritmo Needleman Wunsch considera in ogni punto la possibilità di inserire un gap e

di estenderlo. L'introduzione di un gap però non sfavorita dal sistema di punteggio. Questo

significa che si possono inserire tutti i gap possibili al fine di ottenere il punteggio più alto

possibile. Questo non è biologicamente sensato, perché data la bassa frequenza dimutazioni, e la necessità di mantenere una certa sequenza per conservare la funzionalità

della proteina, l'allineamento migliore dovrebbe essere quello con il più basso numero di

gap, e in generale la presenza di un gap dovrebbe essere sfavorita.

 

Smith Watermann

Il punteggio della casella X dipende da quelle adiacenti ad essa, e cioè da quelle a

sinistra, sopra e in alto a sinistra. Nel modello più semplice all'identità viene assegnato il

punteggio +1, al mismatch, invece, +0.

 

10 0 0 01

 

0 X 1X 0 X

 

Questi sono i 3 casi principali che possono capitare. Nel primo caso il punteggio più alto

proviene dalla cella in alto a sinistra per cui nel caso in cui nella cella X sarà presente

un'altra identità il suo punteggio sarà 1+1 e cioè 2. Inoltre le 2 celle sono allineate in

diagonale e ciò significa che in quel tratto di 2 nucleotidi, questi sono presenti nello stessoordine su entrambe le sequenze, cioè la diagonale ha lo stesso significato che nel dot plot.

Nel secondo caso il punteggio più alto proviene da sinistra, e ciò significa che nella

sequenza di sinistra è presente un gap, e cioè come nel caso in cui la diagonale si

spezzasse orizzontalmente. I gap sono penalizzati e perciò si sottrae 1 al punteggio di X.

Nel terzo caso il gap, per lo stesso motivo, è presente nella sequenza annotata sopra.

Man mano che si completa la matrice, le celle acquisiscono un punteggio via via più alto

se l'identità viene mantenuta, mentre invece il punteggio scende con i gap e man mano

che questi vengono estesi. Alla fine si procede a ritroso, e cioè partendo dalla casella a

punteggio più alto (sempre in basso a sinistra della matrice) si ripercorre al contrario la

matrice fino al punteggio più basso: dalla casella X ci si sposta a quella a adiacente a

punteggio = X o = X - 1. A mano a mano che si procede, si riscrivono le 2 sequenze

allineate: lo spostamento in diagonale significa che le sequenze sono già allineate, con lo

spostamento verso sinistra si deve aggiungere un gap nella sequenza a sinistra, e nello

spostamento verso l'alto un gap nella sequenza in alto.

Questo tipo di algoritmo è adatto ad un allineamento di tipo locale.

 

PROBLEMA

L'algoritmo Smith-Watermann risolve il problema dei gap assegnando ad essi una

penalità. In questo modo, però, se immaginiamo un tratto di similarietà successivo ad una

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 3/44

zona di mismatch o a un gap molto esteso, questo sarà penalizzato, in quanto la zona

precedente avrà così abbassato il punteggio, che i punti riacquistati non saranno sufficienti

a farla notare. Quindi un primo miglioramento introdotto in questo algoritmo è stato quello

di impedire al punteggio di ottenere valori negativi, così che non scenda mai al di sotto

dello zero, anche se la dissimilarietà continua. In questo modo le zone simili emergonocome tratti a punteggio positivo.

Questo tipo di algoritmo che individua, appunto, piccole zone di similarietà è adatto ad

allineamenti di tipo locale.

 

PROBLEMA

Gli algoritmi descritti sono capaci di individuare le identità e di valutare i gaps. In realtà

bisogna tener conto che non tutti i mismatch sono deleteri. Per prima cosa se si stanno

confrontando 2 sequenze nucleotidiche codificanti non è detto che una sostituzione cambi

l'amminoacido codificato, inoltre le transizioni (sostituzioni purina-purina o pirimidina-

pirimidina) sono più frequenti rispetto alle trasversioni (purina-pirimidina e viceversa). Se

invece si considerano sequenze di amminoacidi, bisogna tener conto del fatto che essi

hanno un certo grado di similarietà tra loro polare o sterica. Ad esempio sostituire un acido

glutammico con un acido aspartico non è la stessa cosa di sostituirlo con un triptofano, in

quanto nel primo caso l'Aa sostitutivo ha comunque carica negativa netta, mentre il

triptofano è altamente idrofobico e a grande ingombro sterico, quindi funzionalmente ha un

ruolo totalmente diverso.

 Matrici di comparazione

Le matrici di comparazione permettono di valutare meglio i match nella matrice, e di

sorpassare il concetto di identità/diversità, tenendo conto del fatto che gli amminoacidi tra

loro hanno una certa somiglianza e quindi possono essere intercambiati con una certa

probabilità senza stravolgere la funzione della proteina.

Le più utilizzate sono le matrici PAM e le Blosum.

Le matrici PAM (percent accepted mutation) sono basate sulla frequenza con cui un

amminoacido viene sostituito con un qualsiasi altro in gruppi di proteine

evoluzionisticamente conservate. I punteggi più alti sono ottenuti per gli amminoacidi

conservati, più di tutti la cisteina, che è coinvolta l'unico amminoacido che può formare

ponti disolfuro, importantissimi per la struttura proteica. Da una matrice PAM se ne

possono estrapolare altre moltiplicando ogni valore per sé stesso.

Le Blosum funzionano in modo simile, ma utilizzano gruppi di proteine più "lontani", o

meglio che superano una certa percentuale di similarietà.

 

PROBLEMA

I metodi precedenti mantengono il numero di confronti più basso possibile e cioèn perm.

Con questo sistema si consideravano tutti i confronti possibili, ma 1 sola volta e quidi non

si perdevano dati. Questo è ottimo quando si confrontano tra loro numeri di sequenze

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 4/44

bassi o sequenze corte. Quando, invece, si ha a che fare con ricerche in database,

bisogna ottimizzare i tempi in cui si ottengono i risultati, perché anche se si restringe al

minimo il numero di confronti (n x m) dato che si confronta la stessa sequenza con diverse

migliaia, anche un tempo molto breve e accettabile per pochi allineamenti diventa

estremamente lungo per database. 

Algoritmi euristici

L'algoritmo di tipo euristico è un algoritmo la cui soluzione non è quella ottima per un dato

problema, ma viene scelto come strada per affrontare problemi molto difficili, perché riesce

a ricavare una soluzione approssimativamente molto vicina a quella ottima. Il vantaggio

spesso sta nel fatto che offre una soluzione disponibile in tempi ragionevoli, mentre il

"metodo ottimo" impiegherebbe troppo tempo.

Tipicamente riguardo l'allineamento di sequenze, gli algoritmi euristici si basano sulla

word-size. Settare la word-size significa preindicizzare la sequenza, solitamente

settandola a 2 Aa o 6 paia di basi. In questo modo la sequenza amminoacidica non viene

confronta amminoacido per amminoacido, ma a gruppi di 2, dimezzando la lunghezza

delle sequenze e praticamente riducendo a 1/4 il numero di confronti (n/2 * m/2 = nm/4).

Gli algoritmi euristici più utilizzati sono FASTA e BLAST.

FASTA individua zone di similarietà, le "recinta", cioè individua i limiti della zona e su

questa applica un algoritmo di allineamento tradizionale. Questo sistema è adatto per

allineamenti locali.

BLAST ricerca high-score segments, cioè segmenti con allineamenti molto buoni, epartendo da questi prova ad estenderne le estremità per allargare la zona di similarietà.

Questo approccio è valido per allineamenti locali.

 

PROBLEMA

I precedenti metodi sono capaci di allineare 2 sequenze, mentre talvolta potrebbe essere

utile confrontare tra loro gruppi di queste.

 

Clustal

E' il programma di allineamento multiplo più semplice. Questo allinea le sequenze a 2 a 2,

risolvendo tutti gli allineamenti doppi possibili, poi procede a una clusterizzazione, e cioè

raggruppa, sempre a coppie, le sequenze tra loro più vicine e questi cluster tra loro, fino a

costruire un albero.

PROBLEMA

Le matrici di comparazione non tengono conto della posizione di un dato amminoacido

all'interno di una sequenza. L'esempio più facile è quello dell'istidina legante l'02 nella

emoglobina. Se uno considera le matrici pam, l'istidina ha alcuni punteggi, relativamente

"flessibili", ma è ovvio che nell'emoglobina, conservare l'istidina legante l'ossigeno è di

importanza fondamentale altrimenti la molecola perde la sua funzione. Quindi sostituire

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 5/44

l'istidina in quel punto dovrebbe comportare una penalità di gran lunga più grande che

sostituire una cisteina, che è in genere l'Aa più conservato, nella stessa proteina.

 

Matrici di pesi - Weight Matrix

Sono costruite analizzando tot casi di varianti allineate di una stessa proteina. Per ogniposizione nella catena di analizza la frequenza con cui è presente lì un certo

amminoacido, la somma delle frequenze percentuali di tutti gli amminoacidi in quella

posizione da' sempre 100.

 

sequenza proteica

 |-----------------------

20|

Aa|

 | weight | matrix | |

 

Le frequenze relative sono sostituite in modo logaritmico. Questo sistema è ottimo non

solo per siti conservati in proteine ma anche per i siti di splicing e in genere tutte le

strutture non definite.

Psi-blast utilizza un sistema simile cioè le position-specific scoring matrix: a partire da una

query psi-blast, tramite blast, recupera da un database un set di risultati, servendosi

inizialmente di una matrice blosum. Sulla base di questi risultati costruisce le PSSM, e le

utilizza come matrici di comparazione per rifinire il set ottenuto, ripetendo l'operazionen volte, fino a raggiungere un punto oltre il quale ottengo sempre lo stesso pool di risultati.

PROBLEMA

Anche questo tipo di matrici non è sufficiente, perché tiene conto di gruppi ristretti di

proteine che sappiamo essere relazionati tra loro, mentre, in genere, in tutte le proteine

anche non correlazionate per funzione possiamo riconoscere dei PATTERN, dei motivi,

che sono comuni a tutte, come, ad esempio, le alfa eliche e i foglietti beta, oppure

combinazioni di questi, e domini. Oppure, semplicemente, possiamo non conoscere

proteine simili alla nostra e quindi essere sprovvisti del pool sul quale costruire le nostre

matrici di pesi.

 

Pscan

Pscan confronta la sequenza della propria proteina query alla ricerca di motifs, domini,

elementi, pattern presenti nel database PRINTS.

La proteina viene, quindi, descritta come una sequenza di motifs ed elementi, che nel loro

insieme costituiscono il loro finger print, la signature caratteristica.

Se i "match", cioè i motif individuati, sono presenti tutti e nell'ordine corretto, allora la

proteina della query è molto probabilmente ortologa o la stessa di quelle ritrovate nel set di

risultati.

Se i motifs sono presenti ma alcuni di questi sono nella posizione scorretta, possiamo

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 6/44

pensare che le 2 proteine siano originate per aggregazione di blocchi differenti.

Se il risultato è misto, cioè con solo alcuni motifs in comune, possiamo pensare che dato

che condividono strutture simili queste strutture avranno una funzione simile, ma, ad

esempio, è difficile supporre l'appartenenza di queste proteine alla stessa famiglia.

PROBLEMAPscan confronta la sequenza con una serie di motivi, appartenenti a proteine. Il sistema

potrebbe essere migliorato se le informazioni di proteine appartenenti a una stessa

famiglia fossero unificate in un database, così che una ricerca del genere ci possa dire a

quale di queste famiglie la nostra proteine assomiglia di più.

 

Pfam (Protein families database of alignments and HMMs)

Pfam è un database che nel suo servizio di ricerca permette di confrontare la nostra

sequenza non con altre singole proteine, ma con intere famiglie, così le informazioni

ottenute sono molto più snelle e si può sapere subito se la proteina analizzata mostra

caratteristiche affini a gruppi già definiti, inoltre, ovviamente riconosce le strutture

secondarie, domini, domini nidificati, regioni transmembrana, coiled coil, peptidi segnale.

Inoltre questo database fa utilizzo di schemi HMM per descrivere le proteine e

confrontarle.

PROBLEMA

Nelle matrici di pesi non si teneva conto della posizione degli amminoacidi in una certa

posizione, ma non quelli prima o dopo quella posizione, e nemmeno si considerava

l’importanza di gap all’interno della sequenza.Schema HMM

Lo schema HMM (hidden markov model) descrive la proteina come una successione di

eventi, le catene di markov, infatti, servono a dire con che probabilità si passa da uno stato

precedente a quello successivo. La proprietà di markov prevede che dato lo stato

presente, tutti gli stati futuri sono indipendenti dagli stati passati. Questo significa che lo

stato presente contiene tutte le variabili necessarie a influenzare l’evoluzione del processo.

In questo modo si descrive la proteina rispetto ad un’altra come una successione di eventi,

o stadi, che sono del tipo “amminoacido”, “inserzione”, e “delezione”.

L’evento amminoacido si verifica quando le 2 sequenze in quella posizione coincidono.

L’inserzione c’è quando la nostra sequenza presenta un Aa aggiuntivo che non è presente

in quella di confronto, e tale evento può essere ovviamente iterato nel caso l’inserzione sia

più lunga. La delezione c’è quando in quella posizione dovrebbe esserci un Aa che nella

nostra sequenza invece non c’è, l’evento in sé non può essere ovviamente iterato (non si

può deletare 2 volte lo stesso amminoacido), ma la delezione può essere allargata.

Un evento come la sostituzione amminoacidica è descritta, ad esempio, così: si parte

dall’evento Aa1, poi segue una inserzione (evento I1), e poi la delezione dell’amminoacido

successivo (D2), per poi ritornare di nuovo all’identità di sequenza Aa3.

MODELLING

 

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 7/44

Base del Modelling

Il modelling di proteine consiste nel ricostruire la presunta struttura terziaria di queste, sulla

base delle loro struttura primaria.

Una di queste tecniche è l’homology modelling, che si basa sull’omologia tra proteine: 2

proteine sono omologhe quando sono evoluzionisticamente correlate e quindi condividonoun antenato, e solitamente ciò è dimostrato dal fatto che hanno un alto grado di similarità

nella loro sequenza primaria. Poiché si presume che la struttura terziaria di una proteina, e

quindi il suo organizzarsi nello spazio, dipende direttamente da quella primaria, si può

pensare che proteine dalla sequenza amminoacidica simile abbiano una conformazione 3d

simile.

 

Struttura Struttura

  primaria = primaria

  proteina 1 proteina 2

  | |

  V V

  Struttura Struttura

  terziaria = terziaria

  proteina 1  proteina 2

 

Quindi, per esempio, se volessimo creare un modello approssimativamente buono per la

struttura terziaria della proteina 2 di cui conosciamo la sequenza, l’homolgy modelling cipermette fare questo nel momento in cui conosciamo la sequenza della proteina 1, simile

alla 2, e la sua struttura terziaria tramite cristallografia a raggi X.

 

PDB Protein data bank

PDB è una banca dati di strutture 3D di proteine ed acidi nucleici, soprattutto RNA. Anche

gli acidi nucleici assumono una conformazione tridimensionale, si pensi, a proposito, alla

struttura dei tRNA o la struttura che assume il cromosoma ai telomeri.

I file di PDB sono del tutto analoghi a quelli di una banca dati di sequenze di acidi nucleici,

quindi sono dei testi con un tag iniziale che contraddistingue il tipo di informazione data,

un rigo, un altro tag e il n° di riga.

Le informazioni reperibili a parte generalità come gli autori, specie e commenti sono la

sequenza, e su questa informazioni sulla struttura secondaria come tratti ad alfa-elica,

beta-sheet, turn (struttura a 4Aa che fa cambiare di 180° direzione alla catena) e poi il vero

e proprio punto centrale del database e cioè l’annotazione della posizione spaziale di tutti

gli atomi della proteina, con specificazione dell’elemento atomico, Aa di appartenenza, e

ovviamente coordinate. Sono descritti anche eventuali eteroatomi, cioè atomi che non

fanno parte della proteina in sé ma si legano ad essa, come ad esempio il gruppo eme o

ioni; e molecole di H2O che sono essenziali nel mantenimento della struttura del cristallo.

Esistono poi del tools capaci di utilizzare questi dati per generare la struttura 3D come iMol

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 8/44

e Spdv. Questi forniscono vari modi di visualizzarla, tra cui il wireframe che evidenzia solo i

legami tra gli atomi, o il backbone che mostra solo lo scheletro dei legami peptidici.

 

Homology modelling e allineamento di sequenze

L’homology modelling è basato sul fatto che data la similarità di 2 strutture primarie, siotterrà similarità anche a livello delle strutture terziarie. Quindi per ottenere qualcosa di

significativo è necessario che le 2 strutture primarie siano effettivamente simili, e ciò è

stabilito tramite l’allineamento di sequenza. Quindi l’accuratezza del modelling dipende

direttamente dall’ottimizzazione dell’allineamento della proteina target con le altre

omologhe.

Alla fine le 2 proteine avranno un backbone in larga parte sovrapponibile.

 

Superposition vs alignment

L’homology modelling non è comunque un metodo infallibile. Possono esserci casi rari per

cui sequenze anche se molto diverse ripiegano nello spazio allo stesso modo. Ciò significa

che poi l’allineamento ottimale ottenuto dai software descritti precedentemente non è poi

quello rispecchiato nel vero. Questo può accadere per proteine omologhe ma molto

distanti evoluzionisticamente, per cui l’allineamento di sequenza dà un risultato scadente.

Casi come questo sembrano inficiare il presupposto per cui le strutture primarie siano

predittive di quelle terziarie.

Sono comunque casi rari, ma probabili. Dal punto di vista evolutivo, quell’allineamento,

anche se scadente, è fatto bene, nel senso che rispecchia effettivamente le mutazioniaccadute, ma dal punto di vista dell’attività proteica, non è importante tanto la sequenza

ma piuttosto il folding generale, poiché è da quello che scaturisce la funzione.

Quindi poiché il mantenimento della funzione è di importanza primaria, non importa che un

determinato amminoacido abbia la stessa funzione in tutti gli step evolutivi, e quindi se per

esempio in una certa proteina antenato fa parte di un alfa-elica, non è detto che in una sua

discendente debba comunque farne parte, l’importante è che quell’alfa-elica sia

conservata: la conservazione della struttura è più importante della conservazione della

sequenza. In casi come questo è opportuno ricorrere al metodo di sovrapposizione delle

strutture. In questo tipo di strategia si fanno coincidere spazialmente 2 amminoacidi di 2

proteine e si verifica il grado di overlap dei modelli 3d.

 

Position specific gap penalties

 

Sequence alignment – Mostra ciò che è accaduto evoluzionisticamente

 

Gktlit-----nfsqehip

Gktlisflyeqnfsqehip

 

Structure alignment – Mostra com’è che è accomodato strutturalmente

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 9/44

 

G|ktlitnf|sq-----ehip

G|ktlisfl|yeqnfsqehip

 |α-helix|

 Questo tipo di esempio permette di approfondire il concetto di prima che è molto

importante. Come si può notare le 2 sequenze differiscono per un’inserzione (flyeq), e ciò

è ben evidente dall’allineamento di sequenza. Ora noi ci aspetteremmo che

quell’inserzione venga trattata come un “loop”, ossia come un tratto di catena “addizionale”

senza un preciso ripiegamento in mezzo a 2 tratti che invece conservano in entrambe le

sequenze la stessa struttura, ma non è così: se si va a verificare a livello di struttura come

quell’inserzione è stata accomodata, si può notare che alcuni degli Aa della precedente

alfa-elica non ne fanno parte più, e il loro posto è stato sostituito da quelli dell’inserzione.

Quindi a livello di struttura è stato preferibile conservare la presenza di un’alfa elica di una

determinata lunghezza indipendentemente dagli amminoacidi che la componevano.

Questo è possibile perché è come se esistesse un “pool” di Aa compatibili con la

formazione di un’alfa elica e quindi, poiché è più importante la struttura, non importa quali

Aa siano scelti per comporla, purché siano tra quelli facenti parte del pool.

Un discorso simile è possibile farlo per i loops, che, dato che non hanno un ripiegamento

rigido da rispettare, possono accettare inserzioni e delezioni di vari amminoacidi senza

che poi il folding ne risenta particolarmente.

Ne consegue quindi che considerare una penalità generica per i gap non ha sensobiologico, ma si deve tener conto di informazioni sulla struttura, poiché da questo punto di

vista inserzioni o delezioni (indels) nei loop hanno molto meno peso che nelle strutture

secondarie.

Diventa perciò necessario introdurre penalità posizione-specifica per i gap, questo, qualora

si conoscesse i tratti con ripiegamenti particolari, può essere fatto con la semplice

implementazione di mask di strutture secondarie in clustal, o spostando manualmente i

gap fuori da questi tratti. Laddove invece non si conoscano a priori queste informazioni, ci

sono programmi capaci automaticamente di stimare la probabilità di sequenze di ripiegarsi

in strutture secondarie in base alla loro composizione.

Ma comunque nella totalità dei casi, ormai, tutti gli ultimi software di allineamento multiplo

supportano queste cose.

 

Homology modelling process

L’homology modelling passa per alcuni step, che sono molto simili tra software diversi:

Si parte ovviamente dalla sequenza target, che viene confrontata con quelle di una

genebank non ridondante con strutture annotate, questa procedura disearchviene

effettuata da un programma come per esempio psi-blast. Dal search otteniamo 2 tipi di

dati: le sequenze omologhe e le sequenze omologhe di cui conosciamo la struttura. A

questo punto si procede all’allineamento multiplo di queste per esempio tramite clustal, t-

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 10/44

coffee e il file ricavato viene elaborato dal modulo dimodelling vero e proprio basandosi

anche su database di strutture. Essenzialmente il backbone della nostra proteina target

sarà molto simile a quello delle sue omologhe, per cui il programma può basarsi, magari,

sulla media di questi backbone e ottimizzare via via questa struttura di base. Questo

modello vienecompletatotramite l’aggiunta di ligandi, substrati e aggiustando le zonedissimili con le proteine omologhe variando leggermente la struttura in maniera da ottenere

la maggiore sovrapposizione possibile. Tale operazione è fatta trattando le strutture

secondarie come elementi stabili concatenati da loop flessibili, quindi spostando gli

amminoacidi alle estremità (“tip”) di alfa-eliche, ecc si può variare il folding generale entro

certi limiti. In questo modo si cercano di evitare angoli di legame troppo stretti, defidendo al

meglio proprio i loop, che sono le strutture meno definite. In genere si cerca di fare

un’operazione di smoothing del backbone, e cioè di accomodare al meglio la struttura,

evitando tutte le situazioni di costrizione della struttura.

Il modello completo viene sottoposto a una fase dianalisi per valutarne l’attendibilità. La

valutazione della qualità del modello si basa ovviamente sulle sorgenti di errore e di

inaccuratezza più frequenti e queste sono la correttezza dell’allineamento multiplo, che è

lo step limitante per eccellenza dell’homology mod; il numero di strutture temprato già

conosciute disponibili, e i loop non-conservati.

Tra i software specifici per l’homology mod ci sono swiss model, modeller ma anche molti

altri sia free che commerciali, tutti ugualmente validi nello svolgere questo lavoro.

Un programma come questi è organizzato a moduli ognuno con un compito diverso, per

esempio Swiss model affida la procedura di search a blastp2, l’alignment a sim, poi crea ifile per protmod e protmodll genera le strutture 3d, infine gromos96 fa un lavoro di

minimizzazione energetica della struttura, per cui modifica il folding in modo da ottenere la

conformazione energeticamente più favorita.

 

Applicabilità

Il modello ricavato tramite homology modelling non equivale a quello ricavato per

cristallografia, quindi nulla ci assicura che esso sia il vero ripiegamento che la proteina

assume in vivo, ma piuttosto può essere più o meno vicino ad esso, e ci sono alcuni casi

in cui è veramente molto affidabile. Ovviamente è come se fosse un metodo euristico e

cioè non ottimale ma ragionevolmente buono per ottenere con poche risorse e poco tempo

una soluzione al problema della determinazione delle strutture 3d.

Dato che non possiamo essere sicuri dell’equivalenza del modello ricavato per hom mod

con quello vero, ne consegue che dobbiamo stare attenti a non abusare del sistema per

ricavare informazioni che non si possono ottenere da esso.

L’homology modelling serve a mappare informazioni da una sequenza allineata nello

spazio, ma non può essere utilizzato per “predire la struttura” di una proteina. In questo

senso possiamo ottenere 3 tipi principali di modello:

▪ Modelli basati su allineamenti incorretti ma i cui errori non sono localizzati in aree di

interesse primario.

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 11/44

▪ Modeli basati su allineamenti corretti ma con accuratezza bassa o media a causa di

templati scarsi o sequenze a basso livello di omologia tra loro.

▪ Modelli con più del 70% di identità, dimostratisi utili in applicazioni sperimentali come

design di farmaci.

Il fatto che si siano dimostrati più o meno utili non vuol assolutamente escludere che sitratti di strutture sbagliate, inoltre si può facilmente notare, ancora una volta che

l’allineamento di sequenze riveste un ruolo fondamentale nel processo.

Le strutture ricavate per hom mod non possono essere utilizzate per:

▪ Modellare proprietà non verificabili

▪ Analisi di geometria di modelli

▪ Interpretare loop vicini tra loro o gli indels

▪ Infierire l’arrangiamento di domini

▪ Infierire strutture di complessi proteici

Tutto ciò non si può fare sempre per lo stesso motivo e cioè che l’hom mod non è capace

di fornire un risultato accurato, né predice con precisione sperimentale la struttura. Tali

studi possono essere fatti solo su modelli ricavati da cristallografia.

 

FMODELS

E’ un database che archivia anche strutture prodotte da homology modelling e non solo

quelle derivate da cristallografia. Questo vuol dire che la tecnica è ritenuta abbastanza

affidabile da archiviarla e da utilizzare come modello di partenza sempre e comunque

consapevoli che si tratta di una probabile struttura e non di veri e propri modelli comequelli di PDB che sono “supersperimentali”.

THREADING

In caso non sia disponibile nessuna proteina omologa, mancano i dati necessari per

sfruttare l’homology modelling, bisogna, quindi, utilizzare qualche altra strategia e una di

queste è il threading o fold recognition.

Confrontando la nostra sequenza con altre non omologhe a fold conosciuto, calcola,

assegnando uno score, la probabilità con cui il nostro target può ripiegarsi allo stesso

modo. Ovviamente tale sistema è funzionale solo per parti piccole della proteina.

SECONDARY STRUCTURE PREDITION

Potrebbe capitare che anche il threading fallisca nel suo compito e che quindi non si

ottengano score decenti riguardo la nostra sequenza. In questi casi si può ricorrere al

riconoscimento di pattern riguardo le strutture secondarie, basandosi su tutte le nozioni di

chimica organica e biochimica.

Il punto di partenza è il backbone, che è costituito dalla sequenze dei legami peptidici della

catena. Questi sono organizzati come 2 piani planari successivi orientati rispetto a 2 angoli

(phi e psi), in una proteina non possono assumere tutte le combinazioni possibili a causa

anche della presenza delle catene laterali caratteristiche dell’amminoacido. Se infatti

analizziamo la frequenza di distribuzione degli angoli di legame nella proteina notiamo che

questi clusterizzano in 2 zone tipiche che corrispondono a quelli tipici delle strutture ad alfa

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 12/44

elica e beta sheet. Ovviamente il numero di alfa-eliche possibili è limitato e quindi è limitato

anche il numero di angoli compatibili con essa, quindi in generale il numero di strutture è

grande ma finito e ogni struttura ha una sua frequenza. Grazie a ciò è possibile ottenere

una predizione di strutture secondarie (alfa-eliche, beta-sheet, turns, random coils, ecc.).

Altri parametri tenuti in conto nella SSP sono la frequenza di certi amminoacidi all’internodi determinati fold, l’idropatia e cioè la preferenza di certi amminoacidi di trovarsi sulla

superficie o all’interno della struttura per la loro polarità e affinità con l’acqua, la carica,

tratti transmembrana.

 

AB INITIO PREDICTION

Le tecniche qui descritte cercano di predire la conformazione della proteina a priori, cioè

basandosi puramente su principi e dinamiche chimico-fisiche generali e conosciute, senza

ricorrere al confronto della sequenza con altre ad essa simili. Quindi è come se le variabili

necessarie al folding della proteina siano già contenute nella sua sequenza, e in effetti è

proprio così, ma queste sono molteplici e interagiscono così complessamente tra loro che i

nostri tentativi di riprodurre tali meccanismi possono riuscire solo parzialmente. Pertanto

sono sicuramente meno efficaci di una strategia come l’homology modelling. In genere

quello che tentano di ottenere questi programmi è ricercare, a mano a mano che si

procede con il calcolare il fold, la struttura a più basso livello energetico. Quindi il

programma procede per step e a ogni “bivio” possibile si crea una ramificazione delle

possibilità di ripiegamento, costruendo man mano una struttura ad albero. Può sembrare

dispersivo ma non è così, perché progressivamente con la definizione della struttura, ogniscelta di fold ne impedisce alcune e apre la strada solo ad certe altre.

Tale metodo, è, come già detto, meno affidabile rispetto all’homology modelling ma può

essere utilizzato molto validamente proprio per rifinire quelle strutture semi-definite che si

ottenevano da questo.

GENE MINING

SEQUENZIAMENTO

In genetica sequenziare significa ottenere la struttura primaria di un frammento di DNA.

Conoscere la sequenza in sé non serve a nulla, però costituisce un ottimo punto di

partenza, perché questa costituisce la struttura di base su cui si trovano i geni, regioni di

regolazione, ecc. Tutte le informazioni sono codificate lì, quindi partendo dalla sequenza si

può poi cercare di trovarle.

Quindi il sequenziamento non ha senso se non è affiancato dall'annotazione, ossia dallo

svelare sulla sequenza, di per sé, codificata, tutte le informazioni che contiene come

posizione e struttura di promotri, enhancers, introni, esoni, ecc.

Le migliorie tecnologiche introdotte negli ultimi decenni ci hanno permesso di sequenziare

in maniera sempre più rapida ed efficiente, per cui ora non si dispone più di singoli

frammenti di DNA, ma si conosce la struttura primaria di interi genomi, di numerosissimi

organismi modello.

Le informazioni annotate sulla sequenza poi costituiscono un'importantissima risorsa

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 13/44

ancora più preziosa perché sono il necessario supporto alla progettazione di esperimenti.

 

TECNICHE DI SEQUENZIAMENTO

La tecnica di sequenziamento è essenzialmente 1, ossia il metodo Sanger e le sue

evoluzioni. Ad oggi si stanno progettando numerosi altri metodi capaci di velocizzare edeconomizzare il sequenziamento in maniera da rendere disponibile questa tecnica ai

singoli individui, ma in sostanza il metodo utilizzato a scopo di ricerca è ancora quello della

terminazione di catena.

La versione classica prevede l'uso di single-strand DNA templato (solo quello codificante o

solo quello stampo), 1 solo DNA primer (si sequenzia in UNA SOLA direzione), nucleotidi

di cui 1 marcato radioattivamente, ovviamente DNA polimerasi, buffer, ecc ma soprattutto

dideossinucleotidi (deossinucleotidi senza il 3'-OH).

Nella mix di reazione sono presenti sia nucleotidi normali che 1 solo tipo di

dideossinucleotide, la probabilità che la DNA polimerasi incorpori l'uno o l'altro tipo è la

stessa, per cui ad un qualsiasi ciclo ed a un qualsiasi punto della catena potrà essere

incorporato un dideossint. Questo fa terminare la reazione di polimerizzazione perché

manca del 3'-OH a cui legare il nt successivo.

Data l'equiprobabilità di incorporare i 2 tipi di nucleotidi avremo che nella mix saranno

presenti tante copie parziali dello stampo, ognuna più lunga dell'altra di 1 nucleotide, tutte

terminanti con quello dideossi.

Se si allestiscono 4 tipi di reazione, ognuna con un solo tipo di dideossinucleotide (una per

base), e facciamo poi correre il DNA su gel di acrilammide, così da distinguere ancheframmenti che differiscono per 1 solo nucleotide, e poi visualizziamo il DNA per

autoradiografia, avremo una specie di tabella a 4 colonne, e tante righe quanto i nucleotidi

del frammento amplificato. Per ogni riga sarà annerita una sola casella che corrisponde a

quella del dideossinucleotide che ha interrotto la reazione. Questo vorrà dire che in quella

casella tutti i frammenti sono stati interrotti con lo stesso dideossint, e che logicamente

rappresenterà la base di quella posizione nella sequenza.

Il metodo è stato migliorato in seguito all'introduzione di fluorocromi specifici per ogni

dideossinucleotide, in maniera da allestire 1 sola reazione e di visualizzare la sequenza

invece che per autoradiografia, tramite laser fluorescenza ed elettroforesi capillare. Man

mano che i frammenti corrono nel capillare un laser ne rileva l'emissione di fluorescenza

che essendo specifica per ogni dideossint, sarà rappresentativo della base azotata in

quella posizione. I risultati vengono mostrati su un elettroferogramma che sulle ascisse

enumera le posizioni della sequenza e sulle ordine mostra il picco di fluorescenza che avrà

un colore diverso a seconda del dideossint che avrà interrotto la reazione.

 

SEQUENZIAMENTO SU LARGA SCALA

I metodi di sequenziamento abbiamo visto che si basano essenzialmente sulla PCR. In

una singola corsa possono essere determinate da 300 fino a 1000bp ed è proprio questo

che determina tutte le difficoltà nel sequenziamento di genomi che sono molto più grandi di

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 14/44

1kbp. Bisogna quindi sequenziare il genoma in più round.

Il DNA viene estratto dalle cellule, frammentato per sonicazione in maniera da avere pezzi

della stessa dimensione e quindi viene isolato attraverso una corsa elettroforetica. Il DNA

viene poi clonato all'interno di un plasmide e ognuno di questi viene poi sequenziato.

Clonare il frammento, di cui non si conosce la sequenza, in un vettore significa avere ilpericolo di contaminare la sequenza con pezzi estranei provenienti dal vettore o DNA

estraneo. Questa contaminazione si avrà necessariamente perché come abbiamo visto nel

sequenziamento è comunque necessario un primer, ma poiché noi non conosciamo la

nostra sequenza, questo sarà un primer universale, presente sul plasmide, che verrà

INTERAMENTE sequenziato. Quindi un passo fondamentale è filtrare le sequenze

ottenute per eliminare quei pezzi provenienti dal plasmide (di cui conosciamo la sequenza)

o altri contaminanti.

Una volta ottenuti i frammenti della sequenza, bisogna ricostruila. Questo sarà possibile

perché il DNA iniziale proveniva da PIU' cellule ognuna con il proprio corredo genetico.

Quindi, poiché la sonicazione avrà prodotto frammenti in maniera random, una stessa

sequenza proveniente da più cellule sarà stata tagliata in tanti modi diversi e i frammenti

sequenziati tutti.

 __________________________________________ Struttura del cromosoma originario

 

 _____ ___ _ ______ _____

  _______ ____ ____ _ _ ____ _ Frammenti sonicati

 ___ __ ____ ____ _____ 

 ___________________ ____________________ Contigs

 

Perciò confrontandoli tra loro ci saranno tante regioni di sovrapposizione, che significherà

che quei frammenti fanno parte dello stesso punto, e grazie alle quali potremo risalire alla

sequenza su larga scala ossia la “consensus”, assemblandoli insieme in tanti frammenti

contigui, chiamati, appunto, “contigs”. Questo lavoro di ricostruzione è fatto tramite

software, in silico, con programmi come PHRED, PHRAP e CONSED, per cui non si deve

pensare a essi come a una molecola identificabile, ma a una sequenza più grande

ricostruita per interpolazione delle sequenze dei singoli frammenti clonati.

CHIUDERE I GAPS

Statisticamente è difficile ottenere un unico contig che copra l'intera molecola da

sequenziare per cui molto probabilmente si otterranno tanti Contigs non sovrapponibili tra

loro, si crea quindi il problema di chiudere questi gaps.

Avere un contig significa conoscerne esattamente la sequenza per cui si possono costruire

sonde che ibridino con le estremità di ciascun contig. Andando poi a screenare la nostra

libreria con queste sonde sarà possibile individuare i cloni che portano il frammento della

sequenza capace di unire 2 conting tra loro. Per esempio:

 

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 15/44

  contig 4 contig 1

probe 7 _______ _______ probe 4

  probe 7 _______ _______ probe 4

  frammento 43

Abbiamo 2 contig, il numero 4 e il numero 1 separati da un gap, costruiamo quindi delle

sonde per le loro estremità e screeniamo la nostra libreria di frammenti.

Vediamo che l'estremità 3' del contig 4 viene ibridata dal probe 7 e l'estremità 5' del contig

1 dal probe 4. Abbiamo poi un frammento, il numero 43, che ha l'estremità 5' che ibridizza

il probe7 e la 3' il probe 4. Questo significa che l'estremità 3' del contig 4 e quella 5' del

frammento 43 sono lo stesso pezzo di DNA, e un discorso simile si può fare con l'altra

estremità. In conclusione il frammento 43 è quello capace di unire i conting 1 e 4, e

abbiamo così riempito un gap.

Questo metodo è efficace per piccoli genomi, come quelli di batteri, virus, ecc, ma con

grossi genomi questo approccio è praticamente impossibile.

 

CHROMOSOME WALKING

Il genoma umano è grande circa 3 miliardi di nt, quindi per ottenere un numero sufficiente

di sovrapposizioni bisogna sequenziare qualcosa come 10̂7 frammenti da 1000 bp, per

raggiungere una ridondanza sufficiente di sequenze. Ne consegue che il metodo

precedente così com'è non va bene, rende l'impresa quasi impossibile, ecco perché si

sono ideati altri metodi e uno di questi è il Chromosome Walking. 

Questo metodo è concettualmente molto semplice: il DNA viene frammentato in pezzi

abbastanza grossi come 200 kbp, e clonato in YAC. Si parte poi da un primer plasmidico

vicino al sito di inserzione del frammento e si sequenzianole prime 1000 bp, conoscendo

la sequenza di queste, si costruisce un primer sull'estremità di questo frammento e si

sequenziano le successive 1000, e così via, camminando lungo il cromosoma. Dei probe

al 3' di ogni frammento vengono utilizzati per identificare la successione dei frammenti per

overlap di ibridazione. Il sequenziamento procede da un lato all'altro del sito di inserzione

che sarà identificabile grazie a un marker.

Questo metodo è molto affidabile, ma ha grossi limiti legati al fatto che non si può

procedere lungo il cromosoma senza conoscere prima la sequenza del frammento

precedente, pertanto è un sistema molto lento.

Il chromosome walking, tuttavia, è stato il sistema sfruttato per il progetto genoma umano.

SHOTGUN SEQUENCING

La metodica shotgun può essere applicata in 2 modi diversi: un modo conservativo e uno

alternativo o whole genome shotgun. Entrambi si basano comunque sulla estrema

frammentazione del DNA e sul sequenziamento “contemporaneo” di tutti i frammenti per

poi assemblarli attraverso un'accurata e laborioso ricostruzione dei contig. Poiché il

genoma viene direttamente frammentato, si perdono tutti i riferimenti al suo interno, per cui

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 16/44

è necessario avere una struttura preesistente sulla quale posizionare i contig, uno scaffold,

costituito solitamente da una mappa genetica o fisica del genoma.

 

Il modo conservativo parte da una mappa genetica, per cui noi conosciamo marcatori,

riferimenti all'interno del genoma come STS, RFLP che servono per orientarci nel genoma.Questo viene quindi frammentato e clonato in YAC. Tali frammenti posseggono a priori dei

marker che li assegnano a determinate posizioni sulla mappa genetica. Sono poi

ulteriormente scissi in pezzi più piccoli, che vengono sequenziati tutti. Infine sono ricostruiti

i contig e si risale alla consensus del pezzo grosso.

Il whole genome shotgun bypassa la frammentazione del genoma in pezzi medio-grossi,

ma si ottengono direttamente piccoli frammenti subito sequenziati. In questo modo si

perde qualunque riferimento alla mappa genetica, per cui i markers andranno ricercati solo

dopo la ricostruzione dei contig.

Questo sistema è molto più veloce del chromosome walking perché il sequenziamento di

tutti i pezzi avviene contemporaneamente, e non bisogna aspettare quello dei frammenti

precedenti, però ha bisogno di una solita mappa genetica, in genere non riesce mai a

coprire l'intero genoma, e presenta inoltre alcuni problemi con le sequenze ripetitive.

 

SEQUENZE RIPETUTE E SHOTGUN SEQUENCING

La presenza di sequenze ripetute in un genoma è un grosso problema nella metodica

shotgun e più in generale nella ricostruzione dei contigs. Oltre tutto tali sequenze sono

particolarmente frequenti in alcuni genomi, e anche quello umano ne presenta molte.Pensiamo ad esempio ad una tandem repeat, abbastanza lunga da non poter essere

coperta da 1 solo frammento. Avremo quindi molteplici frammenti che rappresentano vari

punti distanti nella repeat, ma essendo tutti uguali per sequenza sarà per noi impossibile

capirlo, perché si sovrapporranno tutti tra loro. Quindi si corrono grandissimi rischi di

sovrastimare o sottostimare la lunghezza della regione ripetuta.

Se poi pensiamo che le stesse repeat possono essere presenti in punti diversi del

genoma, su cromosomi diversi, ecc è facile immaginare che si possono collegare tra loro i

contig sbagliati. Oppure regioni comprese tra 2 uguali larghe repeat possono essere

“escisse” perché le 2 repeat essendo uguali overlappano.

 

IMPORTANZA DEI MARKERS

Abbiamo detto che lo shotgun approach ha bisogno di una mappa genetica su cui basarsi,

per “ancorare” i markers che sono sui contig che crea.

Le mappe genetiche sono annotazioni della posizione di markers sull'intero genoma. Un

marker è qualsiasi cosa capace di rappresentare in maniera univoca una specifica

posizione lungo il genoma. Un marker può essere quindi un gene, una sequenza specifica,

una mutazione puntiforme. In genere una sequenza ripetuta non può essere un marker, in

quanto proprio perché presente più volte perde di univocità.

Un gene-marker può essere identificato per il fenotipo visibile ad occhio, per un fenotipo

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 17/44

biochimico come la capacità di crescere o meno in determinate condizioni, o altre

caratteristiche.

 

MAPPATURA DEL GENOMA

La mappa può essere fisica o genetica.La mappa fisica misura la distanza tra i markers in paia di basi.

La mappa genetica misura la distanza tra i markers in termini di frequenza di

ricombinazione (centiMorgan).

Mediamente 1cM corrisponde a 0.8 Mbp.

Le 2 mappe fanno utilizzo di markers diversi: il mapping genetico utilizza come markers i

geni stessi, RFLP, SSLP (polimorfismi di lunghezza di sequenze semplici), SNP, il mapping

fisico invece enzimi di restrizione, FISH e STS (quest’ultima ha la maggior risoluzione).

La mappa fisica è ottenuta dalle librerie genomiche di cui abbiamo parlato prima. Non è

necessario sequenziarle, ma basta ad esempio digerirle con enzimi di restrizione e

analizzarne il pattern, ottenendo così il fingerprint di quel frammento. Frammenti con un

pattern sovrapponibile potranno essere assemblate in contigs. Alla fine otterremo

l'annotazione sull'intero genoma delle posizioni dei nostri markers e la loro reciproca

distanza in paia di basi.

Altri metodi per ricostruire mappe fisiche sono basati sulla FISH che mostra visivamente la

posizione di un gene su un cromosoma e operando su cromosomi in profase può

scendere a risoluzioni anche di 0.1 Mb; oppure su radiation hybrid cell lines, in cui

vengono introdotte in cellule murine alcuni cromosomi umani e poi screenate via pcr per lapresenza del gene in quella linea.

La mappa genetica si ottiene analizzando la frequenza di ricombinazione dei markers, si

basa quindi sull'analisi di linkage tra 2 loci che tanto più segregheranno

indipendentemente, tanto più saranno lontani. 1centiMorgan corrisponde a una frequenza

di ricombinazione dell'1%. Se l'indice di ricombinazione genica è 50% allora i 2 geni sono

presenti su cromosomi distinti o sullo stesso cromosoma ma molto distanti.

La frequenza di ricombinazione però non è la stessa su tutto il cromosoma, ma esistono

delle zone particolari che costituiscono degli hotspot i ricombinazione, ossia dei punti in cui

è molto più facile che avvenga un crossing-over. Pertanto i geni che si trovano a monte e a

valle di un hot-spot appariranno molto più distanti di quanto non lo siano in realtà

fisicamente, e questo è il motivo per cui la mappa genetica e la mappa fisica sono simili

ma non completamente sovrapponibili.

 

PROGETTO GENOMA UMANO

Il progetto genoma umano è un progetto di ricerca scientifica internazionale il cui scopo

principale è quello di determinare la struttura primaria del genoma umano e identificare i

circa 25000 geni contenuti sia fisicamente che funzionalmente.

Il progetto è iniziato nel 1990, anche se nel 1987 era già disponibile una mappa fisica dei

RFLP umani (risoluzione di circa 10 Mb). Nel '94 si è ottenuta la mappa delle SSLP (1,7

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 18/44

Mb) e nel 95 quella delle STS (1 Mb). Dopo aver ottenuto delle solide mappe fisiche del

genoma si è potuto poi affrontare il sequenziamento vero e proprio e nel 1998 si è ottenuta

la sequenza del primo cromosoma umano, il più piccolo: il 22. Nel 99 è arrivata quella del

cromsoma 21, poi nel 2001 si è ottenuta la prima sequenza bozza dell'intero genoma che

comprendeva quasi il 90%. Nel 2003 si è avuta ufficialmente la sequenza “completa”.Parallelamente al progetto genoma umano la Celera Genomics capitanata da Craig Venter

propose nel 1998 un approccio shotgun al sequenziamento del genoma umano, e

utilizzando come basi le mappe fisiche del progetto genoma umano, in soli 2 anni

contemporaneamente al PGU riuscì a pubblicare nel 2001 la sequenza draft e nel 2003

quella completa.

Tuttavia l'approccio shotgun ha numerosi difetti infatti la sequenza non era veramente

completa, erano presenti numerosi gap e il sequenziamento non era accurato.

L'inaccuratezza e la necessità di una mappatura precedente sono comunque difetti

intriseci a questa metodica così come il grande numero di sequenze richieste e l'intesa

attività di assemblaggio computazionale dei contigs.

 

ANNOTAZIONE

Annotare vuol dire identificare su una sequenza gli elementi di interesse scientfico,

decodificarla, svelare quello che nasconde e cioè i suoi elementi funzionali:

l elementi trascritti – tRNA mRNA rRNA snRNA, ecc

l elementi strutturali – esoni introni 3' e 5'-UTR ORF mutazioni promotori enhancers

splicing poliadenilazione siti di legame a proteinel regioni di similarità

l altre cose come elementi trasponibili

l markers tipo STR RFLP ecc

L'annotazione può essere manuale o computazionale.

L'annotazione manuale è ovviamente più accurata, basata su evidenze sperimentali, ma è

molto lenta: un gruppo di ricerca può occuparsi al massimo di un gene, e proprio perché

affidata all'uomo è soggetta ad errori, e inoltre non è detto che sia posta la stessa cura ed

attenzione in tutti gli aspetti dell'annotazione: ad esempio qualche gene sarà più

approfondito dal punto di vista della struttura del promotore, ma più carente sulle

informazioni riguardo le modificazioni post-traduzionali, ecc.

L'annotazione computazionale è più obiettiva, perché affidata alla macchina, veloce, ma

non è altrettanto accurata perché la struttura di un gene eucariotico non è affatto definita

come quella di un gene procarioti, non esistono leggi di codifica rigide, ma anzi c'è ben

poco di deterministico. Ad esempio la tata box è una generica sequenza ricca in adenine e

timine, che ha un ruolo importante nel promotore, ma di più non sappiamo: non ne

conosciamo la sequenza precisa, ma proprio perché non ce l'ha, e una ripetizione simile

può essere presente in qualsiasi altra parte del genoma, ma non per questo è una tata

box.

Quello che in genere si fa è iniziare con un'annotazione automatica e poi rifinire i dati con

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 19/44

un'annotazione manuale.

 

CERCARE GENI

I geni procariotici sono piuttosto facili da cercare perché hanno una struttura semplice e

inoltre hanno gli elementi funzionali abbastanza definiti, come per esempio il promotore.Essenzialmente la ricerca si riduce nel trovare ORF abbasanza lunghe sulla sequenza,

ORF che iniziano con un codone ATG e finiscono con un codone di stop in frame.

Un'altra cosa da tener conto è che i microorganismi a causa della diversa disposizione dei

tRNA hanno una certa predilezione per i codoni sinomini, per cui nel codificare un certo

amminoacido utilizzano sempre lo stesso codone anche se virtualmente può essere

codificato da altri. E tale discorso vale anche per gli organismi eucarioti.

La probabilità di trovare in un procariota una ORF di N codoni è pari a: (1/64) x (61/64)̂N x

(3/64)

1/64 è la probabilità di trovare un codone d'inizio, che è unico ed è ATG

61/64 è la probabilità di trovare uno qualsiasi dei codoni che sono 64 ma bisogna

escludere i 3 di stop

3/64 è la probabilità di trovare uno qualsiasi dei 3 codoni di stop

(In realtà il calcolo è sbagliato perché se N è il numero di codoni codificanti quando si

calcola (61/64)̂N si fa un errore perché si tiene conto un'altra volta del primo codone che

abbiamo già contato che comunque codifica per una metionina; per cui sarebbe opportuno

elevare a N-1. Se poi si vuole contare anche il codone di stop bisogna elevare a N-2.)

Tale calcolo delle probabilità non è comunque applicabile agli eucarioti a causadell'esistenza di esoni ed introni.

E proprio per le caratteristiche di un gene eucariotico la ricerca delle ORF è

completamente inutile, se non per individuare la localizzazione del primo esone. Bisogna

quindi cercare metodi alternativi e più adatti.

Il metodo migliore consiste nel ricercare similarità con altri geni noti (BLAST, FASTA),

credo che sia chiaro a questo punto, dato che ci hanno abbuffato la capa di allineamenti.

Dico solo che se si va ad allineare sequenze derivate da proteine si perdono le

informazioni riguardanti gli introni e gli UTR, cosa che si risolve andando a confrontare

cDNA derivati da mRNA non maturati che conservano ancora gli introni e tutto.Esistono poi metodi basati sulla genomica comparativa (PIPMAKER, VISTA)che mettono

in evidenza le regioni maggiormente conservate tra organismi diversi, basandosi sull'idea

che sono conservate perché importanti. Si possono confrontare sia organismi vicini come

uomo e topo, ma anche lontani tipo uomo e takifugu (un pesce che stranamente non ha

introni nel suo genoma), noteremo che in ogni caso gli esoni sono l'elemento più

conservato.

Esistono infine metodi statistici, supervisionati e non (li vedremo tra poco), che cercano di

modellizzare tutto quello che conosciamo riguardo i geni eucariotici e ricercano nella

sequenza non annotata quei segnali.

 

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 20/44

GENE MINING

Con gene mining si intende quell’insieme di procedure per “scoprire” geni eventualmente

presenti su sequenze sconosciute. Anche in questo caso si parla di probabilità di

presenza, quindi queste tecniche non sono totalmente affidabili, ma spesso i loro risultati

sono ampiamente confermati.Il modo più semplice per ricercare geni è per similarità con proteine conosciute, cDNA,

RNA ed EST (le EST sono sequenze parziali di mRNA ottenute per retrotrascrizione di

questi sfruttando come primer le sequenze di polyA).

La ricerca di un gene solitamente si risolve nella ricerca di un ORF e quindi una

potenzialità di coding, la probabilità e non la certezza della presenza. Ci sono varie

caratteristiche tipiche delle ORF, e sono queste che si ricercano, tra esse troviamo la

periodicità delle basi, l’uso di codoni, la frequenza di esameri, si possono utilizzare poi

sistemi basati su reti neurali (grail) e catene di markov (glimmer).

I risultati sono poi integrati con analisi compiute da altri programmi come Genie (markov,

ricerca promotori, siti di splicing, codon usage) o GeneScan (markov, vari segnali, esoni

subottimali), che migliorano l’affidabilità dei nostri risultati.

Tutte queste strategie di ricerca non sono sufficienti di per sé, ma devono tutte collaborare

tra loro, far combaciare i loro risultati fino ad ottenere il risultato più vicino possibile al vero.

Nonostante questo enorme sforzo analitico, però, bisogna sempre tener presente che

come per il modelling si ottengono sempre probabilità, molto alte, ma non tanto alte quanto

quelle ottenute da evidenze sperimentali.

 PERIODICITA’ DELLE BASI

Molte delle tecniche di gene mining si basano sul concetto di periodicità delle basi, e cioè

sul fatto che si nota una certa ripetizione nell’utilizzo di certe basi in blocchi di 3 negli esoni

o di 2 negli introni. Il numero 3 negli esoni è perfettamente giustificato dal fatto che il

codone è composto di 3 basi, e queste tecniche ricercano proprio questa caratteristica a

triplette o esameri per individuarli.

Ad esempio misurando in una sequenza la distanza reciproca di una certa base come

l’adenina da tutte le altre basi a lei identiche, ci accorgiamo che la frequenza di

distribuzione delle distanze presenta dei picchi in tutti i multipli di 3 negli esoni e in tutti i

multipli di 2 negli introni. Quindi si può dire che tendenzialmente una base tende ad

assumere posizioni omologhe in tutte le triplette, per cui se troviamo un’adenina in

seconda posizione, questa si troverà molto frequentemente in seconda posizione in tutte le

triplette successive.

 

CODON USAGE

Il codice genetico è universale, pertanto in linea di massima le tecniche che si basano

sulla sua analisi sono applicabili a tutti gli organismi. Il codice genetico è anche

degenerato, questo significa che un Aa può essere codificato da più codoni. Ogni

organismo ha dei codoni di preferenza che costituiscono una sorta di signature, il

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 21/44

fingerprint della specie, questa scelta dipende dalla frequenza di tRNA. Infatti data la

presenza di più tRNA leganti lo stesso Aa a causa della degenerazione del codice, e

poiché questi sono disponibili a concentrazioni diverse, la traduzione di un gene sarà più o

meno efficiente e più o meno veloce a seconda se sono utilizzati codoni che si appaiano

con tRNA ad alta o bassa disponibilità. Ovviamente le sequenze codificanti subiscono unapressione evolutiva da questo punto di vista e mutano in modo da sfruttare i tRNA a

disponibilità più alta per essere trascritti, in questo modo tutti i geni dello stesso organismo

tenderanno ad usare gli stessi codoni per gli stessi amminoacidi.

Per lo stesso motivo le sequenze non codificanti, inclusi gli introni, non mostreranno

questa conservazione del

codon usage perché non essendo trascritte non interagiscono con i tRNA.

In sintesi si può affermare che il codon usage è diverso fra esoni ed introni, e

precisamente è molto più rispettato nei primi che nei secondi, anche se, andando a vedere

fa rigidità con cui è rispettato in entrambi, si può notare che esiste una zona di

sovrapposizione, in cui non possiamo essere sicuri se quel tratto di sequenza appartiene

ad un esone o ad un introne.

Resta comunque una caratteristica ben sfruttabile grazie alla quale sono state costruite

tabelle di frequenza dell’utilizzo dei codoni, così da poter già in un primo momento

individuare il frame di lettura della sequenza, che molto probabilmente sarà quello in cui il

codon usage è più rispettato e la localizzazione generica di esoni ed introni.

 

SCANNINGLo scanning è una tecnica che analizza progressivamente sulla sequenza un tratto definito

di X basi e ne registra una caratteristica, come per esempio il codon usage. In quest’ultimo

caso a mano a mano che la finestra di scan procede lungo la catena nucleotidica si ottiene

un grafico della variazione del codon usage, possiamo poi stabilire un cut off per cui tutti i

tratti al di sopra di questo sono considerati possibili esoni perché rispettano il codon

usage, e tutti quelli al di sotto possibili introni.

La stessa operazione si può fare con la periodicità, che allo stesso modo inquadra in

maniera abbastanza generica la posizione di esoni ed introni in base alla frequenza di

ripetizione di una base in una certa posizione della tripletta.

 

SITI DI SPLICING

Le tecniche precedenti ci davano solo un’idea della localizzazione di esoni ed introni, anzi

la questione era molto più vaga in quanto forniscono solo dei candidati più che la presenza

probabile.

Però si sa che su ogni giunzione esone/introne deve essere presente un sito di splicing,

che sebbene mostra una certa variabilità nella sua costituzione, è possibile comunque

riconosce un pattern consensus, che indica allo spliceosoma come orientarsi.

A tale proposito si sono adattate tecniche già descritte in precedenza come le matrici di

peso e in particolare le weight matrix for splice donor/acceptor. Queste matrici analizzano

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 22/44

la frequenza di presenza di una certa base in una determinata posizione del sito di splice,

per cui sull’asse delle ordinate troviamo le 4 basi azotate, sulle ascisse le posizioni relative

al sito di splice e ovviamente nella matrice annotate le frequenze.

 

splice  ... -3 -2 -1 | +1 +2 +3

A T freq delle basi intorno C al sito di splicing G

 

In questo modo si ottiene una sorta di descrizione della sequenza consensus del sito di

splicing tramite le matrici di peso, quando poi si allinea la propria sequenza con questa

matrice, si ottiene la probabilità della presenza di un sito di splicing.

 

ESONI CANDIDATO

Effettuando uno scanning del gene con tutte le tecniche precedenti, e integrando i dati

ottenuti si ottengono i potenziali esoni candidato. Infatti se queste tecniche, utilizzando

ognuna un approccio diverso, sono tutte discretamente valide per individuare la

localizzazione di esoni ed introni, i loro risultati combaceranno in certi tratti, che saranno di

conseguenza quelli a più alta probabilità di essere veramente esoni od introni.

 

RETI NEURALI (Grail II)

Le reti neurali cercano di riprodurre il funzionamento in piccolo di un sistema nervoso.

Quindi è strutturato come varie unità organizzate in una rete di interconnessioni; ognielemento di calcolo riceve molteplici input ed emette un solo output verso un altro nodo

della rete. Ognuno dei collegamenti ha un certo “peso” sul risultato, non definito

dall’operatore. Questo set up è, infatti, lasciato al sistema, che trova i pesi giusti in base ai

risultati che ottiene, o costruendoli su un training set.

Il sistema è quindi capace di configurare in maniera autonoma le proprie connessioni in

modo da far assegnare lo score più alto agli esoni.

La rete neurale sulla base della presenza del training set è distinta in supervisionata o non

supervisionata. Quelle supervisionate hanno un training set, e cioè un certo numero di

esempi, e nella fattispecie di sequenze certamente introniche e certamente esoniche, sulla

base delle quali si autoconfigura. E poi man mano aggiunge i propri risultati al set. Nelle

reti non supervisionate il training set è assente e il sistema impara solo sulla base dei

propri risultati.

Si possono riconoscere nella rete neurale più livelli: un input layer, dal quale noi

introduciamo i dati iniziali, l’output layer che ci fornisce il risultato e un certo numero di altri

livelli interposti che elaborano i dati. Questo livello di mezzo è chiamato hidden layer, e

cioè livello nascosto, poiché non si interagisce con esso; non è né visibile né

comprensibile. Infatti poiché il sistema si autoconfigura, non si può trovare una

corrispondenza tra quei determinati pesi delle connessioni e una qualsiasi regola biologica

che spieghi perché si debbano assegnare in quel modo.

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 23/44

Quindi paradossalmente la rete neurale funziona anche molto bene, ma non potremo mai

sapere come e perché ottiene questi risultati.

 

GENIE / GENESCAN

Sono programmi capaci di integrare tutti i singoli dati ottenuti precedentemente fino adottenere predizioni di geni. I risultati ottenuti da questo programma hanno comunque meno

affidabilità delle evidenze sperimentali, ma questi si rivelano il più delle volte molto vicini al

vero al punto che i database genetici archiviano anche i geni predetti da questi software, in

attesa che i risultati siano confermati poi sperimentalmente.

 

STUDIO DI GENOMI

 

GENOMICA FUNZIONALE

Esistono vari aspetti della gnomica, fin’ora si è parlato di gnomica strutturale, che si

occupa di determinare la sequenza del genoma e del mappaggio fisico dei geni.

Esiste poi una genomica funzionale si occupa dell’analisi del ruolo dei singoli geni o di

gruppi di questi, studiandone anche la loro reciproca interazione e come lavorano

all’interno di un organismo.

Infine la genomica comparativa esegue il confronto tra genomi di diversi organismi, sia

nella sua organizzazione che nella sequenza per determinarne la funzione (non della

proteina, ma del perché il genoma in sé ha quell’organizzazione).

La genomica funzionale è l’argomento che si affronterà in questa parte. Essenzialmentecerca di rispondere a 3 quesiti fondamentali, e nello specifico si interroga su quale sia il

ruolo del gene, ossia in quale processo cellulare è coinvolto (o meglio è coinvolta la

proteina che codifica), a quale tipo di regolazione e in che rete di regolazione è sottoposto,

e in che modo i suoi livelli di espressione variano in differenti tipi cellulari e in differenti

condizioni fisiologiche, di sviluppo, patologiche o in risposta ai farmaci.

Si può facilmente notare che questi target passano tutti per lo studio dei livelli di

espressione genica.

 

STUDIO DELL’ESPRESSIONE GENICA

Sono disponibili numerose tecniche per lo studio di espressione genica, si possono

classificare molto semplicemente tra tecniche che analizzano 1 solo gene per volta, e

tecniche capaci di analizzare gruppi anche molto estesi di geni. Nella prima categoria

troviamo:

▪ ISH

▪ Northern blot

▪ RNase protecion

▪ Dot-plot

▪ Immunoistochimica (proteine)

▪ Western blot (proteine)

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 24/44

Del secondo tipo sono:

▪ SAGE

▪ cDNA microarray

▪ Oligont microarray

▪ GeneChips 

MICROARRAY

E’ la tecnica che prenderemo più in considerazione. In questa metodica l’RNA viene

estratto dal campione in esame e da uno di controllo, e marcato con diversi fluorocromi per

generare i target. Questi vengono poi ibridati su sonde legate ad un supporto in vetro.

Queste sonde sono rappresentative di specifici geni, le varie tecniche di microarray

differiscono per queste, infatti il cDNA microarray utilizza come sonde cDNA o EST, quindi

sequenze lunghe 100-200 bp, l’oligont microarray fa uso di sonde di 40-80bp sintetizzate

artificialmente sulla base di informazioni ottenute da banche dati, genechips è una

particolare tecnologia sviluppata da Affimetrix in cui le sonde sono sintetizzate

direttamente sul supporto.

Ovviamente l’ibridazione tra target e sonda fornisce una misura quantitativa

dell’abbondanza di una particolare sequenza nella popolazione dei target rispetto al

controllo. Queste informazioni vengono catturate digitalmente e poi sottoposte a vari tipi di

analisi per l’estrapolazione di dati biologici.

E proprio in questo ultimo passaggio in cui interviene la bioinformatica funzionale, ed è

quindi l’argomento che si affronterà.E’ facile immaginare l’enorme campo applicativo di questo tipo di tecnologia che è capace

di analizzare la variazione dei messaggeri totali nella cellula dato che sui chips è possibile

mettere sonde per l’intero genoma.

Si possono identificare geni sulla base dei processi in cui sono potenzialmente coinvolti.

Si possono studiare i meccanismi di regolazione genica su larga scala, basandosi

sull’assunto che geni regolati in parallelo e che subiscono variazioni significative nello

stesso arco di tempo sono probabilmente sottoposti allo stesso meccanismo di controllo.

Si può fare diagnosi identificando i pattern di espressione genica conosciuti, caratteristici

degli stati patologici.

Si possono identificare nuove molecole drugable sulla base degli effetti causati e quindi

ottenere farmaci candidato.

La tecnica non è assolutamente perfetta, è molto costosa e soprattutto bisogna tenere

presente di numerosissime variabili che possono ostacolare il risultato. Un esempio fra tutti

e costituito dall’interazione tra target e sonda, in cui bisogna tenere conto che le sonde,

così vicine tra loro, possono ostacolare stericamente l’ibridazione a vicenda, quindi si

devono utilizzare escamotage tipo molecole linker in maniera da dare spazio a ogni sonda;

anche sui target bisogna porre attenzione in quanto molecole troppo grandi possono

ripiegarsi e dare ibridazione aspecifica.

 

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 25/44

ACQUISIZIONE DEI DATI

I dati sono acquisiti mediante microscopia confocale, che misura l’intensità di segnate

generata dai target sottoforma di scala di grigi, poi per rendere i risultati più user-friendly, di

immediata comprensione, subiscono una pseudo-colorazione per cui il software ci fa

apparire rossi gli spot in cui vi è sovrabbondanza di target, verdi quelli in cui si è ibridatosoprattutto il controllo e con gradazioni intermedie e quindi gialli tutti quelli con livelli di

espressione intermedi.

In realtà questo tipo di visualizzazione è solo un modo carino per far capire cosa accade

sul chip, ma in realtà visivamente con quei colori non possiamo capire veramente quale

sia il livello di espressione del gene. Quindi è molto più sensato organizzarli in una tabella

in cui ad ogni riga ci sono i dati di espressione di ogni singolo gene analizzato.

Osservando una tabella del genere emergono subito i 2 problemi fondamentali del

microarray ossia il rumore di fondo e l’elevato numero di geni.

Il rumore di fondo consiste in un certo livello di fluorescenza aspecifico che si genera

intrinsecamente alle fasi di processazione e analisi del campione, fa parte di quella

variabilità che non è possibile eliminare in modo assoluto, per cui eseguendo lo stesso

esperimento più volte si ottengono risultati sovrapponibili ma non identici.

L’elevato numero di geni può sembrare un vantaggio, ma analizzando tutti questi

contemporaneamente, diventa difficile distinguere quali sono i geni che veramente hanno

subito un processo regolativo e quali invece hanno variato la propria espressione in modo

non significativo.

 ANALISI DEI DATI

L’analisi dei dati di un esperimento di microarray si articola in 3 step fondamentali: Image

processing – ossia l’acquisizione dei dati con tutti i problemi che abbiamo già descritto

Data preprocessing and normalization – ha lo scopo di evidenziare le differenze

significative in un esperimento e dare la possibilità di confrontarlo con esperimenti diversi

Data mining – le misure ottenute sono confrontante al fine di individuare relazioni al loro

interno come geni differentemente espressi nel campione.

I primi 2 step fanno uso di analisi di “basso livello”, il cui scopo è quello di eliminare le

variazioni sistematiche esistenti tra i diversi microarray, e cioè il rumore di fondo e gli

artefatti, in modo da permetterne la comparazione. Quindi consiste in analisi dell’immagine

con la digitalizzazione dei segnali luminosi, eliminazione del rumore di fondo, filtraggio e

normalizzazione dei dati.

L’ultimo step fa uso di analisi ad “alto livello”, che consiste proprio nel data minino e come

si è detto nell’individuare pattern e relazioni tra geni che possono suggerire regole

biologiche.

 

ANALISI A BASSO LIVELLO

Eliminazione del Background

Detto a parole è molto semplice: consiste nel sottrarre l’intensità di background da quella

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 26/44

rilevata, proprio perché la luminosità di uno spot dovrebbe risultare dalla somma

dell’intensità del segnale più il rumore. Il problema sta nel determinare quale sia il livello di

rumore di fondo: questo viene ottenuto rilevando la fluorescenza in spot vuoti o in cui la

sonda e il target sono esogeni, ossia provenienti da organismi diversi. Ovviamente la

luminosità proveniente da questi 2 tipi non può essere quella dovuta ai nostri target ed èquindi rappresentativa di ibridazioni aspecifiche, che sono poi quelle che determinano il

rumore.

Normalizzazione

La normalizzazione in matematica consiste nel dividere tutti i termini di un’espressione per

uno stesso fattore. Questo significa che elaboriamo ogni singola intensità luminosa rilevata

attraverso una stessa funzione, in modo da ottenere dei dati “più normali”, o meglio più

regolari, in modo che siano più vicini a quelle che si riscontrano mediamente. In questo

modo diventa possibile confrontare le intensità fra loro all’interno di uno stesso chip e fra

esperimenti diversi.

Cruciale diventa l’identificazione di questo fattore, sulla base del quale normalizziamo i

dati.

La necessità di normalizzazione scaturisce dal fatto che esiste una grande variabilità tra gli

esperimenti, le cui sorgenti sono:

▪ Diversa efficienza dei markers

▪ Differenti protocolli sperimentali

▪ Diversi parametri usati in fase di scansione

Differenze nei substrati appartenenti a lotti di produzione diversiPer ovviare a questo problema dobbiamo usare come riferimento un gruppo di geni che

non variano tra gli esperimenti e che quindi si comportano allo stesso modo.

E’ possibile utilizzare “tutti i geni”, assumendo che quelli che subiscono una variazione

sono una parte molto piccola rispetto alla totalità, ma questo assunto non è valido in caso

di campioni molto eterogenei come quelli provenienti da tessuti diversi; un gruppo di geni

housekeeping, la cui espressione si considera costante, ma solitamente hanno livelli di

espressioni molto alti, quindi non sono adatti alla normalizzazione di geni ad espressione

bassa; target speciali di cui si conosce a priori la quantità totale, per cui possiamo

regolarla in base al tipo di geni che vogliamo normalizzare, ma dato che sono aggiunti

dopo la preparazione del campione, non è possibile compensare le differenze generate in

questa fase, che è la causa più comune di errore.

Una volta scelto il pool di geni su cui costruire lo schema di normalizzazione, si devono

effettivamente normalizzare i dati. Gli algoritmi più utilizzati sono la Global Normalization e

il LOcally WEighted Scatter plot Smooth (LOWESS).

 

Global Normalization

La global normalization è il tipo più semplice e riprende esattamente il concetto di

normalizzazione, infatti prevede che tutti i dati vengano moltiplicati per una costante. Tale

costante K è ottenuta dal rapporto tra i libelli medi di espressione nei 2 campioni, dei geni

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 27/44

su cui si basa lo schema di normalizzazione.

Tale sistema può essere usato solo se la differenza tra i campioni è costante a prescindere

dal livello di espressione. In pratica se io baso la mia costante su un pool di geni molto

espressi le cui differenze significative sono tipo 11 - 6 (circa 2 volte), mi perdo dati

riguardo geni poco espressi ma che presentano differenze significative più ampie tipo 0.01e 0.3 (circa 30 volte).

 

Lowess

Questo metodo cerca di ovviare ai limiti della Global Normalization, basandosi

sull’assunzione che le differenze tra i due campioni non sono costanti ma dipendono dai

livelli di espressione. Quindi la costante K è di volta in volta diversa e adatta al livello di

espressione che stiamo confrontando.

Il metodo prevede la costruzione di un grafico cartesiano in cui sulle ascisse troviamo

l’intensità media di ciascun gene nei 2 campioni indicata con A = log(E1*E2) / 2, e

sull’asse delle ordinate il logaritmo del rapporto delle intensità di ciascun gene nei 2

campioni M = log(E1/E2).

M dovrebbe essere restare costante tra i campioni, in quanto i geni su cui si basa la

normalizzazione sono costanti, ma in realtà all’aumentare dei livelli medi di espressione

(A), il livello di artefatti cambia (e quindi varia anche M).

Si ottiene quindi un grafico in cui i geni analizzati sono distribuiti su una curva.

Tramite regressione lineare si trova la funzione matematica che descrive la curva, e per

ogni punto di essa, e quindi per ogni livello medio di espressione (A) diventa possibileindividuare la costante K adatta per normalizzare i dati.

 

ANALISI AD ALTO LIVELLO

L’analisi ad alto livello consiste in una serie di approcci statistici che servono per

evidenziare le differenze significative tra i livelli di espressione, in maniera da ottenere

informazioni biologiche da una quantità di dati inizialmente molto grande e variabile.

 

Fold change

Il modo più intuitivo per distinguere una differenza significativa è quello di vedere di quante

volte un gene è più espresso di un altro. Il Fold change fa proprio questo: si stabilisce una

soglia arbitraria oltre la quale la differenza è considerata significativa, ad esempio se si

sceglie 2, saranno significativi tutti i geni che raddoppiano o dimezzano la propria

espressione.

Il vantaggio di questo metodo è che è facile e veloce, ma il fatto di imporre una soglia

arbitraria espone facilmente a falsi negativi in caso sia troppo alta, o falsi positivi se troppo

bassa.

Inoltre la presenza di molti geni a bassissima espressione comporta molto rumore in

questo tipo di analisi perché mostreranno sempre e comunque un enorme fold change.

Soprattutto il metodo non tiene conto della varianza dei dati del microarray, che si è

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 28/44

dimostrata essere solitamente elevata per basse intensità e ridotta per alte intensità.

 

Unusual ratio

Questo sistema individua la soglia in modo statistico, rendendola pari alla media dei

rapporti dei livelli di espressione tra esperimento e controllo. Vengono considerati sovra-espressi o sotto espressi i geni che hanno un rapporto di intensità che va oltre le 2

deviazioni standard rispetto alla media dei rapporti.

Questo sistema risolve il problema della soglia arbitraria ma come il fold change ignora il

problema riguardante la varianza dei valori di intensità.

 

Univariate statistics

Il metodo presuppone che i logaritmi dei rapporti dei livelli di espressione seguano una

distribuzione normale, e tramite il test “t” di Student assegna la probabilità che un gene

venga riportato erroneamente come differentemente espresso. Il test t si basa sull’”ipotesi

zero” secondo la quale le differenze dei livelli di espressione sono dovute al caso. I nostri

dati dovrebbero assumere rispetto a questa ipotesi una distribuzione normale ossia a

campana, con la maggior parte dei dati che variano rispetto al caso e una piccola parte

alle estremità della campana che sono quelle non dovute al caso ossia quelle significative.

Il test calcola quindi la probabilità che la differenza calcolata sia dovuta al caso, se questa

è molto quei 2 geni oggetto del confronto hanno un livello di espressione

significativamente diverso.

 Analysis of variance ANOVA

Il metodo si basa sull’analisi della varianza (ANOVA), è una estensione del test-t e può

essere utilizzata quando si confrontano le medie di più di 2 gruppi (il test-t confrontava solo

2 esperimenti tra loro) sotto la stessa ipotesi nulla e con lo stesso livello di significatività.

In questo caso l’ipotesi zero è consiste nell’assunzione che la variabilità all’interno di un

gruppo è più elevata rispetto alla variabilità tra i gruppi, e di conseguenza la variabilità tra

questi è probabilmente frutto solo della variabilità interna.

 

DATA MINING

Con data minino si intende l’estrazione di informazioni significative dai dati attraverso

l’individuazione di associazioni pattern, sequenze ripetute che si trovano “nascoste” tra i

dati, a causa della loro variabilità e mole.

Proprio a causa di questi 2 motivi l’analisi tradizionale dei dati come il data retrieval è

inadatta. Quest’ultimo infatti cerca all’interno dei dati quelli che soddisfano le condizioni

poste nella query. Quindi presuppone l’esistenza di domande precise e quindi la

conoscenza a priori delle relazioni tra i dati.

Il data mining ha il grande vantaggio di far emergere dai dati associazioni esistenti senza

la formulazione di ipotesi a priori e quindi senza query.

Le tecniche più utilizzate sono:

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 29/44

▪ Clustering

▪ Reti neurali

▪ Alberi di decisione

▪ Individuazione di associazioni

Il clustering e le reti neurali non supervisionate sono tecniche capaci di segmentare i dati,cioè di invididuare gruppi omogenei di dati presentanti le stesse caratteristiche.

Gli alberi di decisione e le reti neurali supervisionate fanno utilizzo di un training set per

classificare nuovi oggetti.

L’analisi di associazioni invece individuano regole nelle occorrenze concomitanti di più

eventi.

 

Clustering

Clustering significa classificare e cioè separare ciò che appare diverso e unire in gruppi

omogenei ciò che è simile.

Gli algoritmi di clustering separano i dati in sotto-insiemi costituenti, rivelando gruppi

naturali (preesistenti). Quindi si presuppone che i dati analizzati posseggano già una

propria distinzione in classi a noi sconosciuta, che le tecniche di clustering mettono in

evidenza.

Il clustering differisce dalla classificazione, perché in questa la struttura dei dati è nota, per

cui si conosce già il criterio in base al quale classificare.

La cluster analysis può essere utilizzata per dedurre la funzione di geni ignoti basandosi

sulla funzione di geni noti con pattern di espressione simile (i geni coinvolti nello stessoprocesso vengono attivati nello stesso momento); per identificazione di profili di

espressione associati a condizioni patologiche; per decifrare meccanismi di espressione

genica (i geni co-espressi sono anche co-regolati).

Gli algoritmi di clustering possono essere

Gerarchici agglomerativi / divisivi

Non-gerarchici a cluster sovrapposti / non sovrapposti

 

Clustering gerarchico

Il clustering gerarchico produce delle strutture ad albero, in cui i cluster dei livelli più alti

sono aggregazioni di altri cluster, di livello più basso. Quelli che procedono dai livelli più alti

a quelli più bassi eseguono un processo divisivo, viceversa si segue un processo

agglomerativo.

Tra i programmi che facevano uso di questo tipo di procedimento c’era l’algoritmo UPGMA,

che creava strutture ad albero, dendrogrammi, utilizzando un clustering gerarchico

agglomerativo.

Il dendrogramma è quindi la signature di questo metodo, perché rappresenta sia

operativamente che visivamente gli eventi di scissione o unione effettuati a ogni iterazione.

In particolare si notano le diverse lunghezze dei rami dell’albero, tali lunghezze riflettono le

distanze tra gli elementi del cluster e cioè il loro livello di similarità/diversità.

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 30/44

E’ necessario quindi costruire matrici di distanza, aggiornate ad ogni unione iterativa di

elementi simili a 2 alla volta.

Esempio

%Aa diversi

  Sqz1 sqz2 sqz3 sqz4Sqz1 0 5 11 4 In questo caso le sequenze 1 e 2 sono quelle più

Sqz2 0 9 10 simili (5% di diversità) e perciò verranno

Sqz3 0 7 aggregate in un unico cluster e la matrice verrà

Sqz4 0 aggiornata.

 

Cl1,2 sqz3 sqz4

Cl1,2 0 10 12 A questa seconda iterazione saranno aggregate

Sqz3 0 7 le sequenze 3 e 4 nel cluster Cl3,4. Ovviamente

Sqz4 0 risulta facile immaginare che i 2 cluster

Rimanenti saranno aggregati in uno unico.

 

1----- Le distanze vengono calcolate così:

  |--------- la distanza (Cl1,2 Sqz3) =[distanza(1,3) + distanza(2,3)]/2

2----- | il dendrogramma costruito in modo che la lunghezza di ogni ramo

  | sia pari a metà della distanza tra i 2 elementi del cluster

3---------- |  |----

4----------

 

I vantaggi di questo metodo sono il fatto che non è necessario conoscere a priori il numero

di cluster e non c’e bisogno di altri parametri se non il metodo di misura delle distanze.

Inoltre il dendrogramma fornisce una buona visualizzazione dei dati. Gli svantaggi

consistono nel fatto che il metodo non è facilmente scalabile, cioè all’aumentare dei dati

diventa difficile la gestione infatti per grossi moli di informazioni diventa difficile

comprendere i dendrogrammi.

 

Clustering non gerarchico

Il clustering non-gerarchico è definito anche metodo partitivo perché divide l’insieme di dati

iniziale in partizioni, cioè non ci sono gruppi che contengono sottogruppi, non esistono

cioè cluster annidati, bensì più raggruppamenti senza suddivisioni interne; al massimo tali

partizioni possono presentare zone sovrapposte.

Il clustering non-gerarchico può essere a cluster sovrapposti o non sovrapposti (fuzzy

cluster). Nel primo caso ogni elemento appartiene ad 1 ed 1 solo cluster, nel secondo

invece ogni elemento appartiene ad 1 o più cluster con un certo grado di appartenenza,

per esempio in percentuale da 1 a 100.

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 31/44

Il metodo di clustering non-gerarchico utilizza procedure iterative, in particolare c’è una

fase di inizializzazione in cui viene definita, in modo generale e provvisorio, una struttura

iniziale costituita da un certo numero di cluster, a cui gli elementi sono associati in maniera

random. Tale struttura viene successivamente aggiornata ciclo dopo ciclo fin quando non

può essere più migliorata e quindi si assume di essere arrivati alla struttura definitiva,stabile.

Ne consegue che l’impostazione della fase di inizializzazione è cruciale sia per la qualità

della struttura finale sia per il tempo di elaborazione dei dati. Inoltre si può notare che

bisogna definire a priori il numero di cluster massimi.

A differenza del clustering gerarchico che fa uso di matrici di distanze, gli algoritmi di

clustering non gerarchico misurano la distanza degli elementi da classificare dai centroidi,

cioè dal “centro” di agglomerazione, di gravità, del cluster, e ad ogni ciclo si riassegnano

gli elementi al centroide più vicino ridefinendo i confini del cluster.

Uno degli algoritmi che fa uso del clustering è K-means e ne possiamo descrivere il

funzionamento con un esempio.

Si immagini un sistema di dati basato su 2 variabili, e quindi rappresentabile su un sistema

cartesiano a 2 assi. Gli elementi sono quindi distribuiti su un piano, come chicchi di caffè

fatti cadere su una tavola. Per pochi elementi definiti e quindi pochi chicchi di caffè, sarà

molto facile individuare ad occhio i cluster: questi saranno costituiti dai mucchietti di chicchi

più vicini, probabilmente fatti cadere nella stessa zona e poi rotolati intorno, e per

trasposizione dai dati con caratteristiche vicine.

In A si possono vedere i nostri dati nel grafico o i chicchi di caffè sul tavolo. Ad “occhio”intuitivamente ci viene normale clusterizzare nel modo in cui è fatto in B, con 2 centri di

agglomerazione o mucchietti di chicchi ben visibili, con quelli centrali di dubbia

appartenenza e che quindi fanno parte della zona di sovrapposizione tra i clusters.

I centroidi dei nostri cluster saranno presumibilmente i centri dei mucchietti di caffè.

K-means adotta un meccanismo simile. Come possiamo vedere in C, per prima cosa

dobbiamo scegliere il numero di cluster massimi, nel nostro caso 2, per cui avremo 2

centroidi, messi in maniera random nel grafico (le 2 X rosse). Gli elementi, o i chicchi,

verranno assegnati in maniera random a uno qualsiasi dei centroidi. Alla fine avremo 2

forme libere che raggruppano un determinato numero di elementi intorno al centroide,

come si vede in C. Questa descritta è la fase di inizializzazione.

A questo punto le distanze degli elementi dai centroidi viene ricalcolata e ogni elemento

viene riassegnato al centroide più vicino, migliorando la forma intorno al centroide, e quindi

il cluster. Il miglioramento della struttura viene definito in maniera matematica da una

“funzione costo”, se questa diminuisce la struttura avrà evoluto verso uno stadio più

stabile, mentre se non diminuisce più vuol dire che si è arrivati a quella finale. Il loop

iterativo consiste quindi in questo processo di progressivo calcolo delle distanze e

riassegnazione degli elementi ai centroidi per diminuire la funzione costo. Si otterrà una

struttura stabile come quella in D, dove sono presenti 2 cluster ben definiti. Come si vede

essi non presentano sovrapposizione, infatti K-means è un algoritmo che definisce cluster

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 32/44

non sovrapposti, in quanto ogni elemento viene assegnato ad un solo centroide, per cui i

chicchi, o elementi, dubbi che si trovavano nella precedente zona di sovrapposizione

vengono assegnati in maniera distinta ad un cluster preciso.

Il vantaggio di questo algoritmo è che è efficiente e facile da implementare, ma bisogna

stabilire a priori il numero di cluster che non possiamo conoscere, la qualità dei risultatidipende molto dalla scelta della posizione iniziale dei centroidi, inoltre i geni devono per

forza appartenere ad un solo cluster.

 

Il concetto di centroide. - il centroide è il punto di accumulazione intorno al quale si

costruisce il cluster. In un’analisi a 2 dimensioni i cluster possono essere rappresentati

come forme libere, poligoni irregolari, il cui centroide è costituito dal centro di gravità della

figura. Per individuare il centro di gravità di una forma libera, in modo pratico, è molto

semplice: si immagini un pezzo di carta tagliato in modo irregolare (la nostra forma libera),

e di appenderla per un punto qualsiasi, il vincolo. La carta “penderà” in virtù della forza di

 gravità, si può disegnare quindi una linea che passa per il vincolo (il punto per cui è

appesa) con la stessa direzione e orientamento della forza di gravità, e quindi una linea

dritta verso il basso. Se si ripete la stessa operazione per un qualsiasi altro punto del

foglietto, e si tira un’altra linea, le 2 linee tracciate si incontreranno in un punto. Quel punto

è il centro di gravità della figura e per qualsiasi altro punto appenderemo la figura tutte le

linee passeranno sempre per quel punto.

Lo stesso vale per una figura dal peso non omogeneo in tutti i suoi punti, si può

immaginare ad esempio che ogni punto del cluster abbia un peso e quindi se più elementi

sono accumulati nella stessa zona, quella avrà più peso di un'altra zona del cluster con

meno elementi. Questo non cambia il modo di individuare il centroide, perché il foglietto di

carta, nel momento in cui è appeso, si orienterà nel modo giusto grazie alla forza di

 gravità.

 

Altri metodi

Altri metodi di clustering possono essere distinti in supervisionati e non supervisionati.

Come le reti neurali, quelli supervisionati fanno uso di un training set, ossia un pool di

esempi guida, campioni, in base ai quali costruire i cluster, i metodi di associazione esuccessivamente assegnare i nuovi elementi. Quelli non supervisionati non fanno uso del

training set.

 

Metodi non supervisionati

SOM (self organizing map) – l’operatore stabilisce i centroidi, o meglio i valori di

riferimento, rispetto ai quali i geni vengono assegnati sulla base della loro somiglianza a

tali valori.

PCA (principal component analysis) – estrae dai dati i “temi ricorrenti” e non c’è necessità

di definire il numero iniziale di clusters.

 

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 33/44

Metodi supervisionati

LDA (linear discriminant analysis) – usa markov chains e training set costituiti da una serie

di classi di geni di interesse. A partire da queste crea un modello per assegnare nuovi geni

alla classe appropriata.

 Banche dati di profili di espressione

I risultati di esperimenti di microarrays sono archiviati in banche dati. Le più importanti

sono GEO (ncbi), Array Express e KEGG Expression, come al solito americana, europea e

giapponese. Ogni dato è suddiviso in 2 componenti principali, l’array e cioè le informazioni

riguardo il design e la costruzione dell’array in sé, e i vari esperimenti che hanno fatto

utilizzo di quell’array, con i relativi dati ottenuti. Poi in aggiunta a questi c’è una terza

componente il protocollo che dà informazioni su come eseguire l’esperimento.

 DATABASE

Il database è una collezione strutturata di dati o records, per esempio un'agenda telefonica

o un libro di ricette.

Il computer-database si basa su un software per organizzare l'immagazzinamento dei dati.

Il modo in cui il software organizza la struttura del database è chiamato “data model”.

Un data model quindi descrive in modo astratto come si accede ai dati e come si

rappresentano, uno dei tanti modi disponibili è il Flat file.

GERGO DEI DATABASE

Tipo di dato = è un nome che indica l'insieme dei valori che una variabile può assumere.

(int = numero intero; char = carattere) Riga/Record/Row/Tuple = è un oggeto di undatabase che contiene campi o elementi ciascuno dei quali con un nome e un tipo proprio.

Tuple indica infatti una sequenza di valori, chiamati componenti del tuple.

Colonna/attributo/coloumn/Attribute = è un oggetto di un database e indica il tipo di dato,

quindi è una collezione di elementi di uno stesso tipo (numeri di telefono, nomi di persona,

ecc)

Campo/Field = è l'elemento che compone il record, e può contenere un dato classificato

con un determinato attributo.

Query = significa chiedere al software di recuperare dei dati dal database. La query è

infatti la “domanda”, che ha come risposta ciò che abbiamo chiesto di cercare nel

database.

 

FLAT FILE

Il flat file è un file contenente i records, ognuno di questi è descritto in una riga, per cui è

rappresentato da una tabella. L'attributo “flat” significa “piatto”, come un foglio di carta, ad

esempio di un'agenda telefonica, in cui i dati sono semplicemente elencati. Infatti il tipo di

flat file più semplice è rappresentato da tabella in cui i dati sono organizzati in righe e

colonne.

A livello informatico, quindi, il flat file non è altro che un insieme di dati e separatori. Il dato

è costituito da ciò che c'è scritto, dal campo, il separatore è una sequenza di uno o più

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 34/44

caratteri che viene usata per specificare il confine tra i campi del record e tra i record

diversi. Un database flat è un tipo di database il cui data model è codificato in un flat file,

quindi l'intera collezione di dati è archiviata in un solo file e non ci sono relazioni strutturali

tra i dati.

(vedi tsabella)Questo è un esempio di database flat. Bisogna tenere conto che questa però ne è la

rappresentazione, e non il modo in cui sono “scritti” nel file. Un esempio di come possono

essere codificati è usando come separatore di campo la virgola, e come separatore di

record l'indicatore di fine-linea (andare a capo), questo modo è chiamato “formato CSV”.

Mario,Rossi,12345678,Via Roma 21,Disneyland

Antonio,Verdi,54872532,Via Torino 37,Disneyland

Anna,Bianchi,123456789, eccetera

Il software interpreta questo formato così: Il separatore virgola è interpretato dal software

come una distinzione tra i campi, per cui i dati separati da questa vengono rappresentati in

colonne successive. Il separatore end-of-line viene interpretato come fine di un record e

inizio di un altro, per cui si passa alla riga successiva. Logicamente alla fine il database

sarà rappresentato dalla tabella precedente.

DATABASE RELAZIONALE

Un database relazionale utilizza un data model di tipo relazionale, è formato da una parte

di dati e da schemi, che indicano la struttura del database, ossia le relazioni attraverso le

quali esso è organizzato.

Quindi è una collezione di relazioni, chiamate “tabelle” (tabella e relazione sono sinonimi).Ogni tabella è come un flat file, organizzata in righe e colonne. Le righe costituiscono i

records, e ognuno di essi ha la stessa struttura; le colonne forniscono gli attributi in base ai

quali sono organizzati i records.

Il concetto è molto più semplice ed intuitivo di quanto sembri, prendiamo, ad esempio, la

tabella precendente:

Le righe sono i records, hanno tutti la stessa struttura, ossia hanno 5 campi.

Le colonne sono gli attributi in base ai quali i records sono organizzati: l'attributo della

prima colonna è “nome”, quello della seconda è “cognome”, la terza “numero di telefono” e

poi “indirizzo” e “città”.

DBMS

Il database management system DBMS è un software creato per gestire i database sulla

base di vari data models. Il relational database management system RDBMS si riferisce a

uno software capace di gestire solo database relazionali, e non va confuso erroneamente

con un database relazionale stesso.

Solitamente questi programmi si basano su linguaggi creati apposta per la gestione e il

recupero di dati dai database, il più famoso di questi è SQL (structured query language),

utilizzato da molti management system, che infatti portano la sigla SQL nel nome: MySQL,

PostgreSQL, Oracle, FileMaker, Microsoft Access, Microsoft SQL Server.

KEYS – CHIAVI

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 35/44

Le chiavi sono un elemento fondamentale di un database relazionale.

La chiave unica, primaria identifica in maniera univoca tutte le righe in una tabella. Poiché

la relazione è univoca, questo tipo di chiave non presenta ripetizioni del valore che

assume.

Una chiave secondaria, foreign (estranea), costituisce il riferimento alla chiave primaria diun'altra tabella. Questo significa che si può trovare in un campo di un record il riferimento

(chiave secondaria) a una chiave (primaria) di un'altra tabella.

Questa è la versione relazionale del database iniziale.

I numeri costituiscono le keys, infatti un numero crescente è il modo più semplice per far

assumere alla chiave un valore unico che non si ripete mai.

Prendiamo ad esempio la tabella “Indirizzi”, questa ha la chiave primaria nella prima

colonna: ogni numero identifica in maniera univoca un indirizzo, infatti assume valori

sempre diversi, unici. Poi nell'ultima colonna è presente una chiave secondaria, infatti

assume valori ripetuti. Questa, si è detto, è una reference, quindi punta a un'altra chiave: la

chiave primaria della tabella città.

Allo stesso modo i numeri nell'ultima colonna della tabella “Persone” rappresentano una

chiave secondaria che punta alla chiave primaria della tabella indirizzi.

 

SCHEMA DEL DATABASE

Le frecce nell'esempio precedente mostravano dove la chiave “puntava”, sottintendono,

quindi la relazione tra le tabelle:

Qui è indicato lo schema del data base in cui sono elencati i nomi dei campi delle tabelle,e la freccia indica la relazione tra esse. La colonna Ref_Città della tabella Indirizzi punta

alle chiavi primarie della colonna Pkey_Città della tabella Città.

In rosso sono indicati i tipi di file relativi ad ogni campo. Il tipo di file fa parte degli attributi,

alle chiavi primarie è assegnato in fatti un numero non-nullo. Al campo nome è associata

una stringa ossia un insieme di caratteri e numeri, ed vi è associato anche un limite

massimo di 20 caratteri, perché è difficile trovare un nome più lungo di 20 lettere.

Nel campo Ref_Città vediamo è presente un numero, questo numero dallo schema di

prima sappiamo che punta a una chiave primaria, una Pkey, e vediamo, infatti, che come

attrivuto hanno “numero-non-nullo”.

 

VANTAGGI DEL DATABASE RELAZIONALE

Per prima cosa il database relazionale grazie all'utilizzo delle relazioni snellisce molto la

gestione dei dati perché elimina le ridondanze e le possibilità di errore in quanto elementi

che si ripetono più volte si segnano 1 sola volta devono essere immessi effettivamente 1

sola volta, poi grazie al sistema delle chiavi vengono associati a tutti i record che

posseggono quel dato.

Inoltre anche la ricerca dei dati viene molto velocizzata, perché grazie all'utilizzo delle

chiavi il software può fare un retrieval molto semplice, basandosi direttamente sulle chiavi,

a differenza del database flat in cui per recuperare qualsiasi dato bisogna confrontare riga

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 36/44

per riga con la query.

Per esempio, se in un database flat volessimo trovare tutte le persone che abitano in Via

Roma 21, significa che il software dovrebbe cercare nel campo indirizzi tutti quelli che

presentano la stringa “Via Roma 21”, per un computer significa confrontare carattere per

carattere tutta la stringa con la query.In un database relazionale invece di cercare la stringa, si cercano tutti i record che

presentano la Ref_key che punta a quell'indirizzo. Nella fattispecie Via Roma 21 ha come

chiave primaria 1, per cui dobbiamo trovare tutti i record che nella tabella Nomi hanno nel

campo Ref_Indirizzi il numero 1 (che infatti punta al record Via Roma 21 nella tabella

Indirizzi). Questo tipo di confronto è molto più semplice per il software, perché deve

confrontare un unico numero. Il risultato di questa ricerca sarà: Mario Rossi, Anna Bianchi,

Luigi Rossi.

 

DATABASE BIOLOGICI

Inizialmente a causa della complessità dei database, e per il fatto che la sequenza di un

gene o di una proteina era praticamente l'unica informazione veramente rilevante, i

database biologici erano organizzati in flat files.

Oggi i dati sono archiviati e gestiti in RDBMS, ma sono tutt'ora scambiati e distribuiti come

flat files, sebbene con una struttura complessa.

 

EMBL record

Un record di EMBL è praticamente un file di testo, organizzato in righe.Ogni riga ha un identificativo, chiamato tag, composto da 2 lettere che descrive il

contenuto della stessa.

Per esempio ID sta per identification number, AC access number, DE description, OS

organism source, OC organism classification, DT data, XX riga vuota, // fine del file.

KW contiene le keyword ossia le parole chiave da supporto al motore di ricerca delle

sequenze.

Esistono blocchi di tag come quelli di reference in cui si trovano sempre nello stesso rigido

ordine i seguenti tag: RN, RP, RA, RT e RL. RN indica il reference number, RP la data di

pubblicazione, poi RA con gli autori, RT il nome della pubblicazione e RL il giornale in cui

è stata pubblicata.

Solo alla fine compare il tag SQ che contiene la sequenza nucleotidica vera e propria, che

quindi costituisce solo una piccola parte di tutte le informazioni contenute nell'entry.

Questo tipo di record nasce, essenzialmente, da un adattamento dei vecchi database flat,

infatti presenta numerosi difetti.

Per prima cosa l'attributo è dichiarato all'interno stesso di ogni file, invece di essere parte

del “data model”.

L'ordine dei tag è ben definito, rigido, questo perché ad esempio esistono record

multilinea, o gruppi di tag che vanno intesi come facenti parte di un blocco o come

“sottorecords”, come succede per le reference.

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 37/44

Alcune parti sono gerarchiche, ossia esistono tag che devono essere posti

necessariamente prima di altri per avere senso, questo succede nelle feature table: la

feature table è nient'altro che una tabella, o meglio, la descrizione di questa in modo da

adattarla dentro la struttura del file flat dell'embl record.

Per fare ciò, ovviamente, bisogna utilizzare un “linguaggio” standard, nella fattispecie inEMBL esiste un tag iniziale chiamato FH che sta per feature table header, in cui vengono

dichiarate le colonne della tabella, per esempio key e location/qualifier, e poi una

sequenza di tag FT, che descrivono ognuno un rigo della tabella e che fa uso di segnali

particolari per esempio con /codon start=1 si indica che il primo nucleotide della sequenza

successiva è proprio quello codificante la metionina di inzio della ORF, oppure

 /organism='Homo sapiens', indica che la sequenza è stata isolata dal genoma umano. Altri

esempi sono /translation='...' con la traduzione della ORF, /cell_type, /tissue_type...

Questo ovviamente è un metodo abbastanza macchinoso, proprio per la sua struttura

intrinsecamente complessa e la necessità di utilizzare un linguaggio standard.

Infine questo tipo di record presenta anche una certa quantità di ridondanza, infatti tutte le

sequenze di un determinato organismo avranno sempre ripetuti i blocchi di reference

relativi a fonte di provenienza e tassonomia, o tutte le sequenze inviate da uno stesso

gruppo presenteranno il medesimo blocco di reference.

Logicamente noi non visualizziamo il record tal quale come descritto, ma un programma

elabora il file e ce lo presenta in maniera più user-friendly e quindi più comprensibile.

 

EMBL DBAd oggi il database EMBL contiene quasi 205 miliardi di nucleotidi in circa 128 milioni di

entries. Se osserviamo com'è evoluta la quantità di dati archiviati, possiamo notare che

questa è cresciuta in maniera esponenziale dal 94, e la curva è molto rapida e non

accenna ad arrestarsi. Inoltre oggi la maggior parte delle sequenze non è di provenienza

umana, ma homo sapiens è solo uno dei molti organismi di cui si è completato e si sta

completando il progetto genoma.

Si guardano sempre entries e nucleotidi per un fatto molto semplice. Se guardiamo, ad

esempio, alle classi di dati archiviati, vediamo per esempio che la quantità di nucleotidi

provenienti da Whole Genome Shotgun sono quasi il doppio rispetto alle entries, questo

perché i frammenti sequenziati per WGS sono pochi, ma molto lunghi; se invece

osserviamo il rapporto entries/nucleotides per le sequenze EST vediamo che è

completamente l'opposto, e cioè il numero di entries è un quarto rispetto al numero di

nucleotidi, infatti le EST che essendo sequenze parziali di mRNA sono molto corte, ma

possono essere ottenute molto facilmente.

Questo costituisce un problema critico dal punto di vista informatico perché si chiede di

archiviare una quantità crescente di dati, relazionarli tra loro, e soprattutto velocizzare i

processi di ricerca all'interno del database, che come sappiamo si basano sul confronto

della nostra query con TUTTI i record del DB, il ché è un problema ancora più grande

essendo i DB biologici tutt'ora basati su file flat.

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 38/44

ALTRI DATABASE

Per prima cosa definiamo la differenza tra banche dati primarie e secondarie. Le banche

dati primarie sono quelle che contengono direttamente la sequenza nucleotidica o

amminoacidica, come EMBL, DDBJ, Genebank per gli acidi nucleici e SwissProt, TrEMBL

per le proteine; le banche dati secondarie sono quelle che basano le loro informazionirecuperandole da quelle primarie come PFAM, Ensembl. La differenza non è così netta,

esistono infatti DB non facilmente classificabili come PDB che archivia strutture

tridimensionali di proteine o anche acidi nucleici: l'informazione di struttura non è

direttamente evincibile dalla sequenza, per cui, se vogliamo, questa banca dati fornisce

un'informazione primaria, ma non si tratta di una sequenza, quindi dovrebbe essere

secondaria. Altri esempi sono Rebase che è un DB degli enzimi di restrizione, LocusLink

un DB di loci genici.

Tra il 1965 e il 1978 nasce il primo database storico “Atlas of Protein Sequences and

Structures” che nell'81 è diventato PIR, nel 1982 nasce Genebank. Esistono oggi circa

1000 databases. La rivista NAR nucleic acid research si è specializzata nei database

biologici e nel 2008 ha rilevato 1078 DB funzionanti. Ha creato la Molecular Biology

Database Collection che è praticamente una banca dati di banche dati.

 

SWISSPROT RECORD

E' organizzato in modo molto simile a un record di EMBL, cioè un file di testo, organizzato

in righe con un tag iniziale di 2 lettere. Anche questo contiene record multilinea come OC,

organism classification, e sottorecord o gruppi di record come il blocco reference, contieneinoltre reference incrociate e link con altri DB.

Ovviamente contiene informazioni sulla proteina, oltre la sequenza, domini

transmembrana, folding conosciuti, mutazioni conosciute; anche qui sono organizzati nella

feature table. Esiste anche un tag CC, commenti, che contiene invece informazioni

abbastanza generiche, ma, se vogliamo, utili come la funzione, localizzazione cellulare,

tessuto specificità e anche informazioni sul copyright.

 

TrEMBL RECORD

I record di TrEMBL derivano tutti direttamente da record EMBL. TrEMBL significa, infatti,

translated EMBL (ossia EMBL tradotto): i file invece di tenere sequenze di nucleotidi

contengono sequenze ipotetiche di amminoacidi. Queste sono in un certo senso primarie

perché sono costruite “de novo”, ma si tratta di un DB secondario perché queste sono

attinte da EMBL.

Se la sequenza ipotetica è confermata, il recordo viene trasferito, tal quale, in SwissProt.

In un certo senso a ogni ondata di genomi sequenziati il database di TrEMBL si

ingrandisce, poi man mano che le proteine vengono studiate e ne viene confermata la

sequenza TrEMBL si accorcia.

 

PDB RECORD

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 39/44

E' stato già descritto quando si è parlato dell'homology modelling, comuque vale la pena

ricordare che anche questo tipo di record è strutturato similmente a quelli già descritti, solo

che qui i tag sono a più caratteri.

La parte essenziale del record è l'annotazione spaziale di tutti gli atomi della proteina.

 CONSORZI

Le varie banche dati incominciano ad associarsi per mettere insieme le conosce, i dati e

fornire un DB unico e comprensivo di tutto. Un esempio di questi è UniProt, costituito

dall'unione di SwissProt, TrEMBL e Pir. Da questa unione è nato un DB con più

componenti tra cui UniProt Knowledgebase che è il central access point, per cercare

informazioni su funzione, classificazione e cross-reference, poi ci sono UniProt Non-

redundant Reference (UniRef) che accelera le ricerche combinando sequenze

strettamente correlate in un singolo record, e infine UniProt Archive (UniParc) che

raccoglie la storia di tutte le sequenze proteiche.

 

ALTRI DB DI INTERESSE

REF SEQ DB di sequenze ma non ridondante

LOCUSLINK DB di loci genici

OMIM DB di malattie genetiche a trasmissione mendeliana

SNPs DB di polimorfismi

PUBMED DB di reference bibliografiche

TAXONOMY DB di tassonomia degli organismiREBASE DB di sequenze riconosciute da enzimi di restrizione

GENEONTOLOGY E' un DB di definizioni di biologia ed è uno dei pochissimi esempi

di DB relazionale

 

RELAZIONI TRA I DATABASE

Il problema principale dei flat database è la ridondanza di informazioni, e quindi la mole di

queste che deve essere archiviata. Questo è un problema che tutt'ora affligge molti DB,

come per esempio PIR che è diviso in 2 sezioni “Domini” e “Superfamily map” che in larga

parte condividono i dati forniti come la sequenza, e spesso capita che le sequenze

annotate nelle 2 non coincidano.

Se poi ci mettiamo nei panni del ricercatore che vuole sfruttare questi DB la situazione è

sconfortante. Abbiamo visto che le banche dati esistenti sono moltissime, e ognuna ha il

suo formato, quindi per prima cosa bisognerebbe prendere confidenza con ognuno di

questi.

Poi ogni database ha un suo strumento di query, che è adattato sul suo formato, sul suo

data model. Questo significherebbe che se uno volesse sfuttare tot DB dovrebbe imparare

tot query tools.

 

Si è cercato di ovviare a questi problemi integrando tra loro i dati delle differenti DB tramite

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 40/44

un unico tool.

Si sono tentati 3 approcci:

l View integration (K2)

l Data warehouse (Entrez)

l Link integration (SRS) 

VIEW INTEGRATION (K2)

La View integration lascia le informazioni nei DB sorgente, cioè non copia le informazioni,

ma costruisce attorno ad essi un ambiente che fa sembrare all'utente come facenti parte di

un unico sistema, quello che in realtà è l'integrazione di molteplici formati. EMBL e

GeneBank giustamente hanno formati diversi, mostrano informazioni leggermente diverse,

nell'ordine diverso, nonché con un formato diverso, ma attraverso la View integration le

informazioni diverse vengono integrate tra loro e mostrate in un'unica interfaccia, che

risulta all'utente molto più comprensibile.

Il sistema si basa su un language processor che analizza la query, sceglie i database

necessari a soddisfare la richiesta di search, e genera tante subqueries che sono adattate

ad estrarre informazioni dai database scelti.

Recuperate le informazioni, queste vengono integrate e mostrate all'utente come un tutto

unico.

Un esempio di questo sistema è K2 che era un linguaggio che permetteva di fare questo

lavoro di connettersi alle sorgenti, recuperare dati e mostrarli. La query si faceva in un sito

internet.Non ha avuto successo per diversi motivi: per prima cosa per il fatto che non copiando i

dati dai database, ma accendendo a loro ad ogni query, nel momento in cui la rete è down

(cioè non funziona), non era possibile recuperare informazioni. Inoltre era un sistema

intrisencamente lento, per il modo in cui funzionava.

 

DATA WAREHOUSE (ENTREZ)

Questo sistema recupera tutti i dati dai DB, quindi copia la roba (ware) e la conserva in

loco (house). Questi dati sono poi accomodati in un proprio data model. Alla base ci sono

una serie di software che prendono i dati dalle banche sorgente, trasforma questi dati

adattandoli nel proprio data model e poi li caricano nella warehouse.

Questo tipo di sistema è adottato da Entrez: questo integra dati di letteratura, database di

sequenze di DNA e proteine, strutture 3D, dati sui domini, studi di popolazione, studi di

espressione, informazioni tassonomiche e numerosi crosslink. Entrez scarica intere

banche dati e ne riorganizza i dati in nodi di una rete, per esempio DB come Pir,

SWISSPROT e PDB andrebbero a far parte del nodo Protein, EMBL e GenBank di quello

Nucleotide.

In quanto facenti parte di una rete, i nodi sono ovviamente interconnessi tra loro, e dato

l'alto numero di DB sorgente e di nodi, il sistema diventa talmente complesso che Entrez

non viene distribuito, non si può downloadare interamente.

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 41/44

 

LINK INTEGRATION (SRS)

In questo sistema non si crea un nuovo data-model, non si trasformano i dati, ma si

sfruttano semplicemente i crosslink già segnati nei data model di ogni banca.

Ogni DB ha più o meno provveduto a relazionarsi alle altre tramite i cross-link, ossia icollegamenti ad altre banche, ognuna ha link solo verso certe altre, però presi in toto è

possibile raggiungerle tutte.

Un sistema di questo genere è SRS (Sequence Retrieval System).

SRS è un tool che permette l'accesso rapido ad un grande numero di database biologici,

che possono essere querati per stringhe o numeri. Il sistema lavora su flat-file database,

ma oggi anche su DB relazionali.

SRS si basa su un sistema di indicizzazione per cui tutti i flat-file vengono letti e le

informazioni utili vengono “filtrate”, queste poi vengono indicizzate, ossia viene annotata la

posizione di una certa parola, informazione, all'interno del file. SRS poi ad ogni query

consulta gli indici per recuperare i dati che la soddisfano.

Il sistema degli indici permette di eliminare l'eterogeneità dei file dei singoli DB consultabili,

perché ognuno di questi indici è consultabile dallo strumento di search allo stesso modo, e

quindi li si possono interrogare sempre attraverso la stessa query form.

Lo strumento che si occupa dell'indicizzazione è il “parser”, questo, in un certo senso,

individua la “struttura grammaticale” del flat-file e lo suddivide in elementi singoli chiamati

“token”, che sono dei blocchetti di testo. Di questi token, ossia queste parole rilevanti, ne è

archiviata la posizione in un indice, che ha sempre la stessa struttura e si gestisce sempreallo stesso modo.

Il parsing permette per prima cosa di uniformare il formato degli indici per tutti i DB, e

permette di presentare i dati in maniera leggibile. Facciamo un esempio pratico: nei record

delle sequenze è segnata la data, ora ogni DB ha scelto un suo modo di scriverla, alcuni

esempi possono essere “09-oct-1975” “09/10/75” “10/09/1975” “19751009” e così via.

Ovviamente il programmatore sa come sono scritte le date nei singoli data-model e ha

creato il parser in modo da saperle interpretare e riscriverle tutte allo stesso modo, così da

presentarle all'utente scritte sempre in un solo e unico modo, senza che debba impararsi

anche lui tutti i modi di scrivere una data.

Quindi partendo da una query (cerca la sequenza del gene p53), che sostanzialmente

chiede di cercare una parola o una serie di parole (sequenza, gene, p53), si compie una

ricerca di questa all'interno degli indici. Se la parola è trovata, l'indice punterà a una certa

posizione, ossia a un certo record che conterrà molto probabilmente l'oggetto della nostra

ricerca.

Il funzionamento sembra analogo a quello di un engine di ricerca sul web come Google,

ma in realtà non è così, perché la query è presa alla lettera quindi si recuperano risultati

identici e non simili ad essa, inoltre i risultati non sono “ranked” ossia non hanno attribuiti

uno score di similarietà, mentre invece Google non solo cerca tutto ciò che assomiglia

vagamente a quello che stai cercando, ma te lo ordina anche per grado di similarità.

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 42/44

Questo significa che i risultati dipendono molto dalla qualità dei database, ma soprattutto

dalla qualità degli indici e della query, perché sapere cosa viene indicizzato dei DB e cosa

no, ti permette di fare una query intelligente chiedendo cose che sai di poter trovare negli

indici.

 SUBENTRIES

Uno dei problemi che ha dovuto affrontare SRS sono le SubEntries, ossia quello che

succedeva in EMBL con i blocchi di reference. All'interno dei DB originali questo problema

non esiste, perché ognuno conosceva il proprio data-model e organizzava il blocco

“reference” con l'ordine prefissato.

I blocchi di reference hanno tag ripetuti tutti uguali, ma contengono informazioni

sostanzialmente diverse, per esempio se nel primo blocco reference c'è l'autrice Rose che

ha scritto su Nature, e nel secondo l'autore Peppe che ha scritto su PNAS, queste sono

informazioni diverse, ma se noi facciamo una ricerca “Rose&PNAS”, il search ci ritorna

quelle 2 pubblicazioni perché Rose e PNAS fanno parte dello stesso record, ma il risultato

è sbagliato perché in realtà a noi interessava una certa Rose che ha scritto su PNAS, che

non è presente nel risultato del search.

Lo stesso problema si crea nelle feature table, in cui con uno stesso Tag (FT) è

immagazzinata una quantità molto varia di informazioni, come domini, tessuti di

espressione, ecc.

Il parser risolve questo problema perché conosce la struttura di questi blocchi, li “legge”

nel modo opportuno, li isola uno dall'altro e lo associa ad un ID artificiale, così ogniblocchetto di reference ha un proprio ID e ogni pubblicazione viene considerata a sé.

LINK IN SRS

I links in SRS possono essere di 2 tipi:

l Hypertext links

l Indexed links (index-links & read links)

L'hypertext link è il tipo collegamento internet, un link di connessione anonimo che non

lascia traccia, non si conosce né da dove viene, né dove va. Gli indexed links invece

tengono traccia di origine e destinazione, il sottotipo indexed è indicizzato sia in origine

che in destinazione, il read-link è indicizzato solo da una parte.

Nel lato sinistro di questa figura si può notare un elenco di record A e B. Alcuni record A

sono relazionati con B, per esempio A1 è relazionato con B3.

Inizialmente in alto a sinistra vediamo che l'ID è collegato ad A1, e il DR a B3. Dopo che le

relazioni vengono indicizzate e il risultato è che l'ID è B3, e DR è A1 e A2, infatti si vede

che A1 inziale è relazionato con B3, mentre B3 è relazionato con A1 e A2.

Quando facciamo una ricerca e vogliamo sapere tutti i record di B che sono relazionati ad

A (A>B o B

Se invece vogliamo sapere tutti i link di A relazionati con B (AA), otteniamo A1, A2, A3 e

A4, che sono i record da cui partono le frecce verso B.

L'indexed link è creato confrontando 2 indici per esempio vengono linkati EMBL e

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 43/44

GenBank perché utilizzano entrambi un access number.

Il read link è creato estraendo i token da un DB e confrontandoli con l'indice di altri DB. Per

esempio si estrae dai cross link di SwissProt l'access number della rispettiva entry di

EMBL e la si va a cercare nell'indice degli access number di EMBL. Il risultato sarà un link

SwissProt↔ EMBL. Gli indexed link sono bidirezionali, difiniti una sola volta,indipendentemente dai link HTML e possono essere definiti all'interno di un DB.

Proprio a causa dell'esistenza di questa rete di crosslink, si vengono a creare alcuni

problemi, uno di questi sta nella scelta del path, del percorso da seguire per raggiungere

database non connessi direttamente, ossia i nodi, i DB, da attraversare per collegare 2

database senza un link diretto.

Per esempio se io volessi conoscere a partire dalla sequenza nucleotidica la struttura 3D

di una proteina codificata dal mio gene. Questo significa procedere da EMBL (sequenza) a

PDB (struttura 3D). Ovviamente una sequenza nucleotidica ha ben poco a che fare con

una struttura 3D di una catena amminoacidica, per cui è facile immaginare che EMBL e

PDB sono siano direttamente connessi tra loro. Per andare da un database all'altro

bisogna in teoria passare attraverso una banca dati di sequenze proteiche, ma queste

sono molte, per esempio c'è SwissProt, ma anche SwissNew. In linea di massima i 2 path

sono equivalenti, ma come si fa a scegliere tra loro? SRS attribuisce ai collegamenti un

certo peso, per cui andare da EMBL a SwissProt pesa 5, poi andare da SwissProt a PDB

pesa altri 5, il peso totale di questo path è 5 + 5, cioè 10. Passare per SwissNew invece

pesa 15 + 15, cioè 30. SRS sceglie il path con il peso totale minore, quindi in questo caso

passerà per SwissProt invece che per SwissNew. 

ENSEMBL

Fin'ora si è parlato di annotazioni di singoli geni o proteine, ma oggigiorno si sequenziano

interi genomi, per cui si pone il problema dell'annotazione genomica, ossia di quali modi,

segnali, utilizzare per descrivere un genoma.

Una delle banche dati che ha affrontato questo problema è Ensembl, che è un progetto

congiunto tra EMBL – EBI (European Bioinformatics Institute) e WTSI (Wellcome Trust

Sanger Institute), che ha sviluppato un software che produce e mantiene un'annotazione

accurata e automatica di alcuni genomi eucariotici.

L'annotazione di base del genoma comprende:

Geni

l Locazione genomica

l Struttura del gene (esoni, introni, UTR)

l Trascritti (pseudogeni e RNA non-codificante)

l Proteine

l Link per altre sorgenti di informazione

 

L'annotazione avanzata include però:

l bande citogenetiche

7/21/2019 riassunti bioinfo

http://slidepdf.com/reader/full/riassunti-bioinfo 44/44

l markers polimorfici (STS sequence tagged sites)

l variazione genica (SNPs, DIPs, STRs)

l sequenze ripetute

l expressed sequence tags (ESTs)

l cDNA e mRNA da specie correlatel regioni di omologia di sequenza

 

Il sistema ENSEMBL parte dalle sequenze genomiche, che vengono elaborate da CPU nel

database di analisi, quando poi la sequenza è pronta viene caricata nel database finale,

affiancato da altri DB di supporto. Sono questi che poi l'utente consulta attraverso

l'interfaccia web chiamata MartView.

L'analisi della sequenza genomica è molto accurata e richiede molto tempo, infatti per

vedere una propria sequenza inclusa nel DB di ENSEMBL sono necessari 3-6 mesi.

ENSEMBL è basato su un server-database che fa uso di mySQL, e il l'ensembl database-

server è direttamente disponibile on-line.

L'interfaccia web è abbastanza intuitiva si parte dalla scelta dell'organismo, poi se ne

visualizzano i cromosomi, se ne sceglie uno, e via via si può scendere man mano a livelli

di “zoom” sempre più alti fino a raggiungere la sequenza genetica interessata.

 

BIOMART (www.biomart.org/martview)

BioMart è un search engine specializzato nel data mining. E' capace di gestire ricerche

con moltissimi parametri e porre i risultati in una tabella. Non sono richieste competenze diprogrammazione e l'interfaccia è abbastanza user-friendly.

Si possono scegliere il database o il gruppo di DB in cui effettuare la ricerca per esempio

ENSEMBL, chiamato data set e poi impostare numerosissimi attributi, per esempio in quali

organismi ricercare, se la sequenza è conosciuta o meno, in quali cromosomi, ma ad

esempio interagisce anche con GeneOntology, per cui è possibile ricercare tutti i geni

associati a una certa definizione di GeneOntology, per esempio tutti gli oncogeni, tutti i

geni coinvolti nel metabolismo di una sostanza, tutti i geni espressi in un certo tipo di

tessuto o in una certa patologia.

Si possono infine applicare filtri sul geneset ricercato.

Quindi è un potentissimo strumento di ricerca che permette di decidere:

l specie di interesse (Dataset)

l cosa conoscere di un gene, tipo sequenza, ID, descrizione (Attributes)

l decidere su un geneset più piccolo (Filters)

Il risultato finale, abbiamo detto, è una tabella, in cui si possono settare gli attributi da

mostrare, tipo il nome del gene, la regione genica, ecc oltre ovviamente all'ID del gene o

del trascritto di ENSEMBL, che è un vero e proprio hypertext-link così si può raggiungere il

d l