Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

Post on 02-May-2015

224 views 0 download

Transcript of Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

Motivi Funzionali

Identificare la funzione di una sequenza cercando motivi conservati

Motivi e proteineDomini proteici

Motivi funzionali

Sequenze segnale

ABCA2_HUMAN/1641-1652 C t C s a q g t G f s CABCA2_MOUSE/1641-1652 C t C s a q g t G f s CABCA2_RAT/1641-1652 C t C s a q g t G f s CADA11_HUMAN/698-709 C i C q p d w t G k d CADA11_MOUSE/702-713 C i C q p d w t G k d CADA11_XENLA/381-392 C i C h p e w t G k d CADA22_HUMAN/700-711 C v C n r h w i G s d CADA22_MOUSE/698-709 C v C n r h w t G a d CADA22_XENLA/701-712 C i C d r f w t G e d CADA23_HUMAN/757-768 C i C d f t w a G t d CADA23_MOUSE/754-765 C i C d f t w a G t d CADAM8_MOUSE/346-357 C y C p e p r e G g g CADP1_YEAST/79-90 C e C i e g f a G d d C

CONSENSUS C x C x x x x x G x x C

Consensus Allineamento multiplo domini EGF-like

Ricerca di un motivo

CxCxxxxxGxxC ACCKCFOWEGGPVCLDSFFEKVOD

CxCxxxxxGxxC ACCKCFOWEGGPVCLDSFFEKVOD

CxCxxxxxGxxC ACCKCFOWEGGPVCLDSFFEKVOD

CxCxxxxxGxxC ACCKCFOWEGGPVCLDSFFEKVOD

………………ACCKCFOWEGGPVCLDSFFEKVOD

ASCKCFOWEGGPVCLDSFFEKVOD CxCxxxxxGxxC+=

CxCxxxxxGxxCACCKCFOWEGGPVCLDSFFEKVOD

Ricerche in banche daticon un motivo

UNIPROT CxCxxxxxGxxC

Ricerca

ID Organismo

Sequenza

RPD2_HUMAN

Human MTERENNVYKAKLAEQCECYDECWGACYYKMKGDYHRYLAEFIAMNDLPP

FFS_MOUSE Mouse MKKVASMDVELTVE ERNLLSVAYKDFLEKHLIPCATSGESKVFYHPIRLGL

RHA_MOUSE Mouse ASKKJFOWERMPVKLDSFFEKVODFKAAFDDAICECDTLCWGECRLGLALNF

GCN4_YEAST Yeast LNVLEKHLIPCATSGESKVFYYKMKGDYHRYLAEFATGSDRKDAAENSLIYKA

RAS_HUMAN Human LNSPDR ACRLAKAAFDDAIAELDTLS EESYKDSTLI MQLLRDNLTLALNFS

… … …

Sequenze Positive: RPD2_HUMAN, RHA_MOUSE, …

Sequenze Negative: FFS_MOUSE, GCN4_YEAST, RAS_HUMAN, …

Veri/Falsi Positivi/Negativi

Ha un dominio EGF ?

1 No

2 Si

3 No

4 Si

5 No

6 No

7 Si

8 No

9 No

Sequenza Consensus

FHSERERJEKAKLAEQCEYDECWGACYYKMKGDYH

Negativo

KAKLAEQCECYDECWGACYYKMKGDYH Positivo

FGSDKGPOKEDFGSDSFIJIERJNCOLXCVDFMIDF

Negativo

MTERENNVYKAKLAEQCECYDECWGACYYKMKGDYH

Positivo

MKKVASMDVELTVENLLSVAYKDFLEKH Negativo

FDGLDFKGLFKAAFDDAICECDTLCWGECRLGLALNF

Positivo

ESKVFYYKMKGDYHRYLAEFATGSDRKDAAENSLIYKA

Negativo

LNSPDDFSDFKSDFMLKSDGMLKFGIMBVCIJBVUBUI

Negativo

FGXCIXCVIMXRFOLXCVPOXCKOASDLMXCMLNAS

Negativo

Risultato

Vero

Vero

Vero

Vero

Vero

Falso

Falso

Vero

Vero

Veri/Falsi Positivi/Negativi

Positivo Negativo

Vero Vero

Falso Falso

Raccolgo pomodori nell’ortoPrendendo tutto quello che èdi colore rosso.

Sensitività del motivoQuanti pomodori sono riuscito ad identificare?

---------+

13= ------ = 0.81 13 + 3

VP= --------- VP + FN

Selettività del motivoQuanti ortaggi scelti sono veramente pomodori?

---------+

13= ------ = 0.65 13 + 7

VP= --------- VP + FP

C t C s a q G t G f s CC i C q p d W t G k d DC i C q p d W t G k d DC i C h p e G t G K d CC v C n r h W i G S d C

C i C d r f W t A E d CC i C d f t W a A T d CC i C d f t W a A t d CC y C p e p R e G g g CC e C i e g F a G d d C

C x C x x x X x X x x X

Scelta del Motivo Migliore

C t C s a q G t G f s CC i C q p d W t G k d DC i C q p d W t G k d DC i C h p e G t G K d CC v C n r h W i G S d C

C i C d r f W t A E d CC i C d f t W a A T d CC i C d f t W a A t d CC y C p e p R e G g g CC e C i e g F a G d d C

C x C x x x X x G x x C

C t C s a q G t G f s CC i C q p d W t G k d DC i C q p d W t G k d DC i C h p e G t G K d CC v C n r h W i G S d C

C i C d r f W t A E d CC i C d f t W a A T d CC i C d f t W a A t d CC y C p e p R e G g g CC e C i e g F a G d d C

C x C x x x G x G x x C

EGF-like

NOEGF-like

Motivo

Sensitività 100%Selettività 50%

Sensitività 60%Selettività 60%

Sensitività 40%Selettività 100%

Coefficiente di Correlazione

VP*VN – FN*FP-------------------------------------------------------

Radice di (VN+FN)*(VN+FP)*(VP+FN)*(VP+FP)

Banche dati di motivi

Funzione Consensus

Sito di N-glicosilazione N.S

Sito di fosforilazione S.R

Motivo di legame all’ATP G....GKS

Motivo di legame al calcio

R..R..D

Dominio EGF C.C.....G..C

Zinc finger C......C...C....C......C

Cerniera di Leucine L......L......L......L

… …

Annotare una sequenza

Banca dati

di motiviRicerca

ASCKCFOWEGGPVCLDSFFEKVOD

ASCKCNASEGGPVCLDSFFEKDSERORKWOPEKEPGFPCIEEIRERIRDWERWE

Sito di N-glicosilazione Sito di legame al calcioSito di fosforilazione

Ricerche con Motivi

Banca dati di motivi Ricerca

ASCKCNASEGGPVCLDSFFEKDSERORKWOPEKEPGFPCIEEIRERIRDWERWE

Sito di N-glicosilazione Sito di legame al calcioSito di fosforilazione

Funzione Motivo

Sito di N-glicosilazione

N.S

Sito di fosforilazione S.R

Motivo di legame all’ATP

G....GKS

Motivo di legame al calcio

R..R..D

Dominio EGF C.C.....G..C

Zinc finger C......C...C....C......C

Cerniera di Leucine L......L......L......L

… …

ASCKCNASEGGPVCLDSFFEKDSERORKWOPEKEPGFPCIEEIRERIRDWERWE

Sequenza sconosciuta

Espressioni regolari

VLHSCDAICWTNLKIIHSCLAECWRQVSGVHTCLIDCWSNIRAAHTCAAECWTLVRVLHTCAAECWTLVR HTC...CW S

H-[ST]-C-X-X-X-C-W

H-[S,T]-C-X(3)-C-W

Posizioni con più possibilità = [A,C,D, …]

Posizioni ripetute = (n)

Ripetizioni variabili

GVHTCLCWSNIR

VLHSCDAICWTNLK

IIHSCLAAAECWRQVS

H-[ST]-C-X(1,5)-C-W

Numero variabile di ripetizioni = (i, j)

H-[ST]-C-X-C-W ?

H-[ST]-C-X-X-X-C-W ?

H-[ST]-C-X-X-X-X-X-C-W ?

GVHTCL----CWSNIRVLHSCD--AICWTNLKIIHSCLAAAECWRQVS

?

Matrici posizionali di peso

L H S C D A D C TI H T C L A E C SV H T C L I D C SA H T C A A E C TL H T C A A E C T

Position

Specific

Scoring

Matrix

[LIVA]-H-[ST]-C-[DLA]-[AI]-[DE]-C-[ST]

AA 0.20.2 0.40.40.80.8CC 1.01.0 1.01.0DD 0.20.2 0.40.4EE 0.60.6HH 1.01.0II 0.20.2 0.20.2LL 0.40.4 0.40.4SS 0.20.2 0.40.4TT 0.80.8 0.60.6VV 0.20.2

Logo di sequenzaAA 0.20.2 0.40.4 0.80.8CC 1.01.0 1.01.0DD 0.20.2 0.40.4EE 0.60.6HH 1.01.0II 0.20.2 0.20.2LL 0.40.4 0.40.4SS 0.20.2 0.40.4TT 0.80.8 0.60.6VV 0.20.2

Altezza = log2 (20) - F * log2 (F) = 4.32 - F * log2 (F)

Punteggio con PSSM

AA 0.20.2 0.40.40.80.8CC 1.01.0 1.01.0DD 0.20.2 0.40.4EE 0.60.6HH 1.01.0II 0.20.2 0.20.2LL 0.40.4 0.40.4SS 0.20.2 0.40.4TT 0.80.8 0.60.6VV 0.20.2

A H T C A A D C S Sequenza

Position

Specific

Scoring

Matrix

AG… W Y …0.0081920.2x 1.0x 0.8x 1.0x 0.4x 0.8x 0.4x 1.0x 0.4=

Attesi per casoAA 0.250.25 0.330.33 0.50.5

CC 1.01.0 1.01.0

DD 0.330.33 0.50.5

EE 0.50.5

HH 1.01.0

II 0.250.25 0.50.5

LL 0.250.25 0.330.33

SS 0.50.5 0.50.5

TT 0.50.5 0.50.5

VV 0.250.25

Log-Odds

AA -1-1 +1+1 +2+2CC 00 00DD -2-2 -1-1EE +1+1HH 00II -1-1 -4-4LL +2+2 +1+1SS -4-4 -1-1TT +2+2 +1+1VV -1-1

A H T C A A D C S-1 +0 +2 +0 +1 +2 -1 0 -1

Sequenza

Position

Specific

Scoring

Matrix

AG… W Y …= +2

Punteggio = 10*log(osservati/attesi)

T in posizione 3 = 10*log(0.8/0.5) = +2.041… = +2

Ricerca PSSM su sequenza

Ricerca Espressione regolare

[LIVA]-H-[ST]-C-[DLA]-[AI]-[DE]-C-[ST]

AA -1-1 +1+1 +2+2CC 00 00DD -2-2 -1-1EE +1+1HH 00II -1-1 -4-4LL +2+2 +1+1SS -4-4 -1-1TT +2+2 +1+1VV -1-1

TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ

TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ

TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ

+5 -13

TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ

Calcolo punteggio PSSM

Scelta motivi più alti del volore soglia

PSSM > -2 = POSITIVIPSSM > -2 = POSITIVIPSSM < -2 = NEGATIVIPSSM < -2 = NEGATIVI

PositiPositivava

Curve Roc% Veri positivi

100%

75%

50%

25%

% Falsi positivi

100%75%50%25%

Random

Motivo efficiente

Motivo poco efficiente

*

**

Ricerca con allineamentoL H S C D A D C TI H T C L A E C SV H T C L I D C SA H T C A A E C TL H T C A A E C T

… A V H Y A L I D C T G W H …

AllineamentoMultiplo

Sequenza

/5 = Punteggio sequenza

?

VL HH YS AC LD … …VI HH YT AC LL … …VV HH YT AC LL …VA HH YT AC LA …VL HH YT AC LA …

P1+P2+P3+P4+P5+P6+P7+P8+P9

Profilo di un allineamentoL H S D C A D C TI H T L C A E C SV H T L C I D C SA H T A C A E C TL H T A C A E C T

1 2 3 4 5 6 7 8 9AACCDDEE…………TTVVWWYY--

AllineamentoMultiplo

=(CD+CL+CL+CA+CA)/5

=(ED+EL+EL+EA+EA)/5

Ricerca con profilo

Profilo

1 2 3 4 5 6 7 8 9AACCDDEEFFGGHH……WWYY--

…… AA KK RR HH FF CC CC WW EE -- EE GG WW HH ……Punteggio = 1H+2F+3D+4C+5W+6E+7D+8E+9G

** **

** ****

****

**

**

PSI- BLASTSequenza sconosciuta

AllineamentoMultiplo

Profilo dell’allineamento

BLAST

CostruzioneProfilo

Ciclo N’ 2Nuove SequenzeOmologhe

CostruzioneAllineamento

Multiplo

Banche dati di sequenze

SequenzeOmologhe

Ciclo N’ 3Nuove SequenzeOmologhe

+

Ciclo N’ ………

+

+

Analisi di sequenze

Sequenza sconosciuta Sequenz

a annotata

Albero filogenetico Allineamento

Multiplo

Motivo Funzionale

SequenzeSimili

Matrice di distanze

Banche dati di sequenze

Banche dati di Motivi

CLUSTALW

BLASTFASTA

Smith & Waterman

Ricerca con Motivi

UPGMA

CostruzioneMotivi

Analisi

FamigliaSequenzeOmologhe