Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione...

43
comparativa rappresenta l’approccio bioinformatico ante per la caratterizzazione funzionale delle sequ iche e proteiche. nzionalmente più rilevanti, mostreranno, infatti, u conservazione in tutte le sequenze considerate. tuare analisi comparative è necessario selezionare ero di sequenze ed effettuare un allineamento multi

Transcript of Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione...

Page 1: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.

L’analisi comparativa rappresenta l’approccio bioinformaticopiù rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.

I siti funzionalmente più rilevanti, mostreranno, infatti, un elevatogrado di conservazione in tutte le sequenze considerate.

Per effettuare analisi comparative è necessario selezionare un certo numero di sequenze ed effettuare un allineamento multiplo.

Page 2: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.

L’allineamento multiplo viene rappresentato sotto forma di una tabellacostituita da righe, corrispondenti alle sequenze omologhe considerate,e da colonne, corrispondenti a ciascun sito dell’allineamento.Con omologia posizionale si intende che tutti i residui siano evolutivamente correlati.

Esso viene realizzato con algoritmi che effettuano allineamento globaleche quindi considerano l’intera lunghezza delle sequenze in esame.

Il tempo impegato però diventa eccessivamente lungo cresce in modo esponenziale rispetto al numero di sequenze da allineare.

Page 3: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.

Metodo allineamento progressivo: si basa sull’ipotesi che le sequenze che devono essere allineate siano filogeneticamente correlate.

1. Allineamento tra tutte le possibili coppie: N sequenze si dovranno Effettuare N*(N-1)/2 allineamenti a coppie.2. I punteggi di similarità calcolati tra tutte le diverse coppie possonoEssere utilizzati per costruire un albero o dendrogramma.3. L’albero ottenuto viene utilizzato come guida per l’allineamento progressivo, che verrà formato formando via via dei cluster di seq. allineate. Un cluster potrà poi essere allineato ad una sequenza o ad un altro cluster. 4. Una volta che due o più sequenze vengono allineate in un cluster,L’allineamento rimane fissato. Per cui si può incorrere in problemidi minimo locale.

Page 4: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.

La bonta dell’allineamento dipende dall’algoritmo ma anche dalla sceltadelle sequenze. L’allineamento risulta problematico anche quando le sequenze sono didiversa lunghezza.

ClustalW che ha la peculiarità di allineare una nuova sequenza ad un allineamento precedente.

Identità amminoacidica superiore 50%Identità nnucleotidica superiore 70% Soluzione ottima

Page 5: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.

Quando no ricorrano tali condizioni, l’allineamento richiede unaulteriore fase di aggiustamento, che tenga conto di informazioni addizionali quali:

•Conservazioni di siti funzionali e catalitici noti a priori•Predizioni di struttura secondaria•Predizioni di struttura terziaria

Page 6: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.

>sp|P01922|HBA_HUMAN Hemoglobin alpha chain (Human)

VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGK

KVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPA

VHASLDKFLASVSTVLTSKYR

>sp|P02023|HBB_HUMAN Hemoglobin beta chain (Human)

VHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKV

KAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGK

EFTPPVQAAYQKVVAGVANALAHKYH

>sp|P01958|HBA_HORSE Hemoglobin alpha chains (Horse)

VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHFDLSHGSAQVKAHGK

KVGDALTLAVGHLDDLPGALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPA

VHASLDKFLSSVSTVLTSKYR

>sp|P02062|HBB_HORSE Hemoglobin beta chain (Horse)

VQLSGEEKAAVLALWDKVNEEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKV

KAHGKKVLHSFGEGVHHLDNLKGTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFGK

DFTPELQASYQKVVAGVANALAHKYH

>sp|P02179|MYG_BALAC Myoglobin (Minke whale)

VLSDAEWHLVLNIWAKVEADVAGHGQDILIRLFKGHPETLEKFDKFKHLKTEAEMKASED

LKKHGNTVLTALGGILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISDAIIHVLHSRHP

AEFGADAQAAMNKALELFRKDIAAKYKELGFQG

Page 7: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.

P01922 HBA-Human P02023 HBB-HumanP01958 HBA-HorseP02062 HBB-HorseP02179 MYG-Whale

Page 8: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.
Page 9: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.
Page 10: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.

- Predizione Struttura Secondaria

-Modeling per Omologia

-Modeling per Threading

-Modeling Ab Initio

Page 11: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.

Predizione Struttura Secondaria

I metodi usati sono tre e si basano sulle informazione raccoltedalle proteine la cui struttura terziaria è già risolta.

-Statistico di Chou e Fasman: i 20 aa mostrano preferenze significative per particolari strutture secondarie (A,R,Q,E,M,L,K eliche) (C,I,F,T,W,Y,V foglietti)GOR attendibilità del 56%

-Stereochimico di Lim: tiene conto delle proprietà idrofobiche, idrofiliche ed elettrostatiche considerando il loro ruolo nel folding(alternanza di idrofilici e idrofobici, foglietti) utile per predire elicheanfipatiche e transmembrana. SOSUI, TMPRED, ecc.

-Neural Network: tiene conto di entrambe le precedenti e del processoevolutivo a partire dall’allineamento multiplo. PHD 70%

Page 12: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.

Predizioni di struttura secondaria

CHOU & FASMAN

Page 13: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.

Algoritmi predizione struttura secondaria

Page 14: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.

153320+1062164 sequenze proteiche conosciute SwissProt +Trembl

26059 strutture conosciute

Tecniche lunghe per determinare la struttura delle proteine(NMR, Cristallografia)

Incapacità di prevedere il folding di una proteina

Questo ha portato alla necessità di sviluppare una nuova metodologia.

Page 15: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.

Rost B. Twilight zone of protein sequence alignments. Protein Eng 1999 Feb;12(2):85-94Sequence alignments unambiguously distinguish between protein pairs of similar and non-similar structure when the pairwise sequence identity is high (>40% for long alignments). The signal gets blurred in the twilight zone of 20-35% sequence identity. Here, more than a million sequence alignments were analysed between protein pairs of known structures to re-define a line distinguishing between true and false positives for low levels of similarity. Four results stood out. (i) The transition from the safe zone of sequence alignment into the twilight zone is described by an explosion of false negatives. More than 95% of all pairs detected in the twilight zone had different structures. More precisely, above a cut-off roughly corresponding to 30% sequence identity, 90% of the pairs were homologous; below 25% less than 10% were. (ii) Whether or not sequence homology implied structural identity depended crucially on the alignment length. For example, if 10 residues were similar in an alignment of length 16 (>60%), structural similarity could not be inferred. (iii) The 'more similar than identical' rule (discarding all pairs for which percentage similarity was lower than percentage identity) reduced false positives significantly. (iv) Using intermediate sequences for finding links between more distant families was almost as successful: pairs were predicted to be homologous when the respective sequence families had proteins in common. All findings are applicable to automatic database searches.

Page 16: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.

Step 1: determinare proteine correlate a quella sotto studio

Step2: Identificare regioni strutturalmente conservate (SCR)e strutturalmente variabili (SVR)

Step3: costruire le SCR e le SVR usando le coordinate della struttura stampo

Step 4:Modellare le catene laterali

Step5: Rifinire la struttura ottenuta con minimizzazione edinamica molecolare

Page 17: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.

Step 1

Capire a quale famiglia appartiene la mia proteina

Comparare la sequenza con le migliaia contenute nei database.

BLAST FASTA

Tecnica dell’allineamento di sequenza importante per:-identificare le regioni conservate nella sequenza-trovare corrispondenze tra gli aa della proteina strutturata e quellidella sconosciuta> in modo da trasferire le coordinate da quellastrutturata a quella non.

Page 18: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.

Le proteine cambiano molto rapidamente la loro sequenza.Difficile indicare il grado di similarità necessario perdimostrare in modo non ambiguo che due proteine sonoOMOLOGHE.Doolittle dichiara:1. Se due squenze sono più lunghe di 100 aa e l’identitàè maggiore del 25% esse sono plausibilmente correlate2. Se l’identità è tra il 15-25 % potrebbero essere correlate3. Se l’identità è sotto il 15% probabilmente non sono correlate

Page 19: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.
Page 20: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.
Page 21: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.

Se ci troviamo nella situazione intermedia dobbiamo fare altre valutazioni

Confronto della predizione di struttura secondariaResidui idrofobici interni conservatiPonti a disolfuro conservatiPattern funzionali conservati

Page 22: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.

Quando l’identità di sequenza fra proteine si trova sotto il 25%un altro metodo di procedere è quello via THREADING

In questo caso si cerca di adattare un profilo 1D ad uno 3D.

Informazioni a partire dalla nostra sequenza primaria di accessibilità e struttura secondaria.

Da queste informazioni si procede grazie all’utilizzo di un’algoritmo (MaxHom) ad individuare lo stesso tipo di profiloin una proteina di cui si conosca già la struttura.

http://bioinf.cs.ucl.ac.uk/psipred/psiform.html

Page 23: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.

GenThreader necessita come input le predizioni diBLAST e PSIPRED

Page 24: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.

L’utlimo approccio utilizzabile è il Modeilin AB INITIO

Si basa sull’energia e parte esclusivamente dalla sequenzaprimaria.

Sfrutta una lista di criteri geometrici tali da campionare tuttele possibili conformazioni e trovare quelle con minimo di energia.SCEF (Self Consistent Electrostatic-Field) ed il Metodo MonteCarlo si basano sull’osservazione delle forze che entrano in gioconel determinare il folding di proteine (X e NMR), in questo modotenendo conto del principio di Boltzman, si può usare un metodo statistico per ottenere le strutture 3D

Page 25: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.

Scelta del genoma

Page 26: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.

ORF Finder

Page 27: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.
Page 28: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.
Page 29: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.

ESEMPIOEscherichia Coli 5231428 bp NP_752656

Page 30: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.

> NP_752656MKLQNSFRDYTAESALFVRRALVAFLGILLLTGVLIANLYNLQIVRFTDYQTRSNENRIK LVPIAPSRGIIYDRNGIPLALNRTIYQIEMMPEKVDNVQQTLDALRSVVDLTDDDIAAFR KERARSHRFTSIPVKTNLTEVQVARFAVNQYRFPGVEVKGYKRRYYPYGSALTHVIGYVS KINDKDVERLNNDGKLANYAATHDIGKLGIERYYEDVLHGQTGYEEVEVNNRGRVIRQLK EVPPQAGHDIYLTLDLKLQQYIETLLAGSRAAVVVTDPRTGGVLALVSTPSYDPNLFVDG ISSKDYSALLNDPNTPLVNRATQGVYPPASTVKPYVAVSALSAGVITRNTTLFDPGWWQL PGSEKRYRDWKKWGHGRLNVTRSLEESADTFFYQVAYDMGIDRLSEWMGKFGYGHYTGID LAEERSGNMPTREWKQKRFKKPWYQGDTIPVGIGQGYWTATPIQMSKALMILINDGIVKV PHLLMSTAEDGKQVPWVQPHEPPVGDIHSGYWELAKDGMYGVANRPNGTAHKYFASAPYK IAAKSGTAQVFGLKANETYNAHKIAERLRDHKLMTAFAPYNNPQVAVAMILENGGAGPAV GTLMRQILDHIMLGDNNTDLPAENPAVAAAEDH

NP_752656

Formato FASTA è il codice di interscambio universaletra software

Page 31: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.
Page 32: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.
Page 33: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.
Page 34: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.

Penicillin binding protein Staphylococcus Aureus1MWX1MWS

Allineamento multiplo

Page 35: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.
Page 36: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.

Localizzazione cellulare della proteina

Predizione strutture secondaria GORIV

Predizione profilo idrofobico-idrofilico

Ricerca motivi strutturali MotifScan

Page 37: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.

Predizione localizzazione cellularePSORT

Page 38: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.

Predizione proteine di membranaSOSUI

This amino acid sequence is of a MEMBRANE PROTEINwhich have 1 transmembrane helix.

No. N terminal transmembrane region C terminal type length1 20 RALVAFLGILLLTGVLIANLYNL 42 PRIMARY 23

Page 39: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.

PredizioneStruttura secondariaGORIV

Page 40: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.

Profilo idropatiaProtScale

Page 41: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.

Ricerca motivi in banca dati PROSITEMotifScan

Page 42: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.
Page 43: Lanalisi comparativa rappresenta lapproccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche.