Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

28
otivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati

Transcript of Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

Page 1: Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

Motivi Funzionali

Identificare la funzione di una sequenza cercando motivi conservati

Page 2: Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

Motivi e proteineDomini proteici

Motivi funzionali

Sequenze segnale

Page 3: Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

ABCA2_HUMAN/1641-1652 C t C s a q g t G f s CABCA2_MOUSE/1641-1652 C t C s a q g t G f s CABCA2_RAT/1641-1652 C t C s a q g t G f s CADA11_HUMAN/698-709 C i C q p d w t G k d CADA11_MOUSE/702-713 C i C q p d w t G k d CADA11_XENLA/381-392 C i C h p e w t G k d CADA22_HUMAN/700-711 C v C n r h w i G s d CADA22_MOUSE/698-709 C v C n r h w t G a d CADA22_XENLA/701-712 C i C d r f w t G e d CADA23_HUMAN/757-768 C i C d f t w a G t d CADA23_MOUSE/754-765 C i C d f t w a G t d CADAM8_MOUSE/346-357 C y C p e p r e G g g CADP1_YEAST/79-90 C e C i e g f a G d d C

CONSENSUS C x C x x x x x G x x C

Consensus Allineamento multiplo domini EGF-like

Page 4: Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

Ricerca di un motivo

CxCxxxxxGxxC ACCKCFOWEGGPVCLDSFFEKVOD

CxCxxxxxGxxC ACCKCFOWEGGPVCLDSFFEKVOD

CxCxxxxxGxxC ACCKCFOWEGGPVCLDSFFEKVOD

CxCxxxxxGxxC ACCKCFOWEGGPVCLDSFFEKVOD

………………ACCKCFOWEGGPVCLDSFFEKVOD

ASCKCFOWEGGPVCLDSFFEKVOD CxCxxxxxGxxC+=

CxCxxxxxGxxCACCKCFOWEGGPVCLDSFFEKVOD

Page 5: Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

Ricerche in banche daticon un motivo

UNIPROT CxCxxxxxGxxC

Ricerca

ID Organismo

Sequenza

RPD2_HUMAN

Human MTERENNVYKAKLAEQCECYDECWGACYYKMKGDYHRYLAEFIAMNDLPP

FFS_MOUSE Mouse MKKVASMDVELTVE ERNLLSVAYKDFLEKHLIPCATSGESKVFYHPIRLGL

RHA_MOUSE Mouse ASKKJFOWERMPVKLDSFFEKVODFKAAFDDAICECDTLCWGECRLGLALNF

GCN4_YEAST Yeast LNVLEKHLIPCATSGESKVFYYKMKGDYHRYLAEFATGSDRKDAAENSLIYKA

RAS_HUMAN Human LNSPDR ACRLAKAAFDDAIAELDTLS EESYKDSTLI MQLLRDNLTLALNFS

… … …

Sequenze Positive: RPD2_HUMAN, RHA_MOUSE, …

Sequenze Negative: FFS_MOUSE, GCN4_YEAST, RAS_HUMAN, …

Page 6: Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

Veri/Falsi Positivi/Negativi

Ha un dominio EGF ?

1 No

2 Si

3 No

4 Si

5 No

6 No

7 Si

8 No

9 No

Sequenza Consensus

FHSERERJEKAKLAEQCEYDECWGACYYKMKGDYH

Negativo

KAKLAEQCECYDECWGACYYKMKGDYH Positivo

FGSDKGPOKEDFGSDSFIJIERJNCOLXCVDFMIDF

Negativo

MTERENNVYKAKLAEQCECYDECWGACYYKMKGDYH

Positivo

MKKVASMDVELTVENLLSVAYKDFLEKH Negativo

FDGLDFKGLFKAAFDDAICECDTLCWGECRLGLALNF

Positivo

ESKVFYYKMKGDYHRYLAEFATGSDRKDAAENSLIYKA

Negativo

LNSPDDFSDFKSDFMLKSDGMLKFGIMBVCIJBVUBUI

Negativo

FGXCIXCVIMXRFOLXCVPOXCKOASDLMXCMLNAS

Negativo

Risultato

Vero

Vero

Vero

Vero

Vero

Falso

Falso

Vero

Vero

Page 7: Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

Veri/Falsi Positivi/Negativi

Positivo Negativo

Vero Vero

Falso Falso

Raccolgo pomodori nell’ortoPrendendo tutto quello che èdi colore rosso.

Page 8: Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

Sensitività del motivoQuanti pomodori sono riuscito ad identificare?

---------+

13= ------ = 0.81 13 + 3

VP= --------- VP + FN

Page 9: Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

Selettività del motivoQuanti ortaggi scelti sono veramente pomodori?

---------+

13= ------ = 0.65 13 + 7

VP= --------- VP + FP

Page 10: Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

C t C s a q G t G f s CC i C q p d W t G k d DC i C q p d W t G k d DC i C h p e G t G K d CC v C n r h W i G S d C

C i C d r f W t A E d CC i C d f t W a A T d CC i C d f t W a A t d CC y C p e p R e G g g CC e C i e g F a G d d C

C x C x x x X x X x x X

Scelta del Motivo Migliore

C t C s a q G t G f s CC i C q p d W t G k d DC i C q p d W t G k d DC i C h p e G t G K d CC v C n r h W i G S d C

C i C d r f W t A E d CC i C d f t W a A T d CC i C d f t W a A t d CC y C p e p R e G g g CC e C i e g F a G d d C

C x C x x x X x G x x C

C t C s a q G t G f s CC i C q p d W t G k d DC i C q p d W t G k d DC i C h p e G t G K d CC v C n r h W i G S d C

C i C d r f W t A E d CC i C d f t W a A T d CC i C d f t W a A t d CC y C p e p R e G g g CC e C i e g F a G d d C

C x C x x x G x G x x C

EGF-like

NOEGF-like

Motivo

Sensitività 100%Selettività 50%

Sensitività 60%Selettività 60%

Sensitività 40%Selettività 100%

Page 11: Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

Coefficiente di Correlazione

VP*VN – FN*FP-------------------------------------------------------

Radice di (VN+FN)*(VN+FP)*(VP+FN)*(VP+FP)

Page 12: Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

Banche dati di motivi

Funzione Consensus

Sito di N-glicosilazione N.S

Sito di fosforilazione S.R

Motivo di legame all’ATP G....GKS

Motivo di legame al calcio

R..R..D

Dominio EGF C.C.....G..C

Zinc finger C......C...C....C......C

Cerniera di Leucine L......L......L......L

… …

Page 13: Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

Annotare una sequenza

Banca dati

di motiviRicerca

ASCKCFOWEGGPVCLDSFFEKVOD

ASCKCNASEGGPVCLDSFFEKDSERORKWOPEKEPGFPCIEEIRERIRDWERWE

Sito di N-glicosilazione Sito di legame al calcioSito di fosforilazione

Page 14: Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

Ricerche con Motivi

Banca dati di motivi Ricerca

ASCKCNASEGGPVCLDSFFEKDSERORKWOPEKEPGFPCIEEIRERIRDWERWE

Sito di N-glicosilazione Sito di legame al calcioSito di fosforilazione

Funzione Motivo

Sito di N-glicosilazione

N.S

Sito di fosforilazione S.R

Motivo di legame all’ATP

G....GKS

Motivo di legame al calcio

R..R..D

Dominio EGF C.C.....G..C

Zinc finger C......C...C....C......C

Cerniera di Leucine L......L......L......L

… …

ASCKCNASEGGPVCLDSFFEKDSERORKWOPEKEPGFPCIEEIRERIRDWERWE

Sequenza sconosciuta

Page 15: Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

Espressioni regolari

VLHSCDAICWTNLKIIHSCLAECWRQVSGVHTCLIDCWSNIRAAHTCAAECWTLVRVLHTCAAECWTLVR HTC...CW S

H-[ST]-C-X-X-X-C-W

H-[S,T]-C-X(3)-C-W

Posizioni con più possibilità = [A,C,D, …]

Posizioni ripetute = (n)

Page 16: Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

Ripetizioni variabili

GVHTCLCWSNIR

VLHSCDAICWTNLK

IIHSCLAAAECWRQVS

H-[ST]-C-X(1,5)-C-W

Numero variabile di ripetizioni = (i, j)

H-[ST]-C-X-C-W ?

H-[ST]-C-X-X-X-C-W ?

H-[ST]-C-X-X-X-X-X-C-W ?

GVHTCL----CWSNIRVLHSCD--AICWTNLKIIHSCLAAAECWRQVS

?

Page 17: Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

Matrici posizionali di peso

L H S C D A D C TI H T C L A E C SV H T C L I D C SA H T C A A E C TL H T C A A E C T

Position

Specific

Scoring

Matrix

[LIVA]-H-[ST]-C-[DLA]-[AI]-[DE]-C-[ST]

AA 0.20.2 0.40.40.80.8CC 1.01.0 1.01.0DD 0.20.2 0.40.4EE 0.60.6HH 1.01.0II 0.20.2 0.20.2LL 0.40.4 0.40.4SS 0.20.2 0.40.4TT 0.80.8 0.60.6VV 0.20.2

Page 18: Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

Logo di sequenzaAA 0.20.2 0.40.4 0.80.8CC 1.01.0 1.01.0DD 0.20.2 0.40.4EE 0.60.6HH 1.01.0II 0.20.2 0.20.2LL 0.40.4 0.40.4SS 0.20.2 0.40.4TT 0.80.8 0.60.6VV 0.20.2

Altezza = log2 (20) - F * log2 (F) = 4.32 - F * log2 (F)

Page 19: Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

Punteggio con PSSM

AA 0.20.2 0.40.40.80.8CC 1.01.0 1.01.0DD 0.20.2 0.40.4EE 0.60.6HH 1.01.0II 0.20.2 0.20.2LL 0.40.4 0.40.4SS 0.20.2 0.40.4TT 0.80.8 0.60.6VV 0.20.2

A H T C A A D C S Sequenza

Position

Specific

Scoring

Matrix

AG… W Y …0.0081920.2x 1.0x 0.8x 1.0x 0.4x 0.8x 0.4x 1.0x 0.4=

Page 20: Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

Attesi per casoAA 0.250.25 0.330.33 0.50.5

CC 1.01.0 1.01.0

DD 0.330.33 0.50.5

EE 0.50.5

HH 1.01.0

II 0.250.25 0.50.5

LL 0.250.25 0.330.33

SS 0.50.5 0.50.5

TT 0.50.5 0.50.5

VV 0.250.25

Page 21: Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

Log-Odds

AA -1-1 +1+1 +2+2CC 00 00DD -2-2 -1-1EE +1+1HH 00II -1-1 -4-4LL +2+2 +1+1SS -4-4 -1-1TT +2+2 +1+1VV -1-1

A H T C A A D C S-1 +0 +2 +0 +1 +2 -1 0 -1

Sequenza

Position

Specific

Scoring

Matrix

AG… W Y …= +2

Punteggio = 10*log(osservati/attesi)

T in posizione 3 = 10*log(0.8/0.5) = +2.041… = +2

Page 22: Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

Ricerca PSSM su sequenza

Ricerca Espressione regolare

[LIVA]-H-[ST]-C-[DLA]-[AI]-[DE]-C-[ST]

AA -1-1 +1+1 +2+2CC 00 00DD -2-2 -1-1EE +1+1HH 00II -1-1 -4-4LL +2+2 +1+1SS -4-4 -1-1TT +2+2 +1+1VV -1-1

TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ

TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ

TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ

+5 -13

TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ

Calcolo punteggio PSSM

Scelta motivi più alti del volore soglia

PSSM > -2 = POSITIVIPSSM > -2 = POSITIVIPSSM < -2 = NEGATIVIPSSM < -2 = NEGATIVI

PositiPositivava

Page 23: Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

Curve Roc% Veri positivi

100%

75%

50%

25%

% Falsi positivi

100%75%50%25%

Random

Motivo efficiente

Motivo poco efficiente

*

**

Page 24: Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

Ricerca con allineamentoL H S C D A D C TI H T C L A E C SV H T C L I D C SA H T C A A E C TL H T C A A E C T

… A V H Y A L I D C T G W H …

AllineamentoMultiplo

Sequenza

/5 = Punteggio sequenza

?

VL HH YS AC LD … …VI HH YT AC LL … …VV HH YT AC LL …VA HH YT AC LA …VL HH YT AC LA …

P1+P2+P3+P4+P5+P6+P7+P8+P9

Page 25: Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

Profilo di un allineamentoL H S D C A D C TI H T L C A E C SV H T L C I D C SA H T A C A E C TL H T A C A E C T

1 2 3 4 5 6 7 8 9AACCDDEE…………TTVVWWYY--

AllineamentoMultiplo

=(CD+CL+CL+CA+CA)/5

=(ED+EL+EL+EA+EA)/5

Page 26: Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

Ricerca con profilo

Profilo

1 2 3 4 5 6 7 8 9AACCDDEEFFGGHH……WWYY--

…… AA KK RR HH FF CC CC WW EE -- EE GG WW HH ……Punteggio = 1H+2F+3D+4C+5W+6E+7D+8E+9G

** **

** ****

****

**

**

Page 27: Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

PSI- BLASTSequenza sconosciuta

AllineamentoMultiplo

Profilo dell’allineamento

BLAST

CostruzioneProfilo

Ciclo N’ 2Nuove SequenzeOmologhe

CostruzioneAllineamento

Multiplo

Banche dati di sequenze

SequenzeOmologhe

Ciclo N’ 3Nuove SequenzeOmologhe

+

Ciclo N’ ………

+

+

Page 28: Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

Analisi di sequenze

Sequenza sconosciuta Sequenz

a annotata

Albero filogenetico Allineamento

Multiplo

Motivo Funzionale

SequenzeSimili

Matrice di distanze

Banche dati di sequenze

Banche dati di Motivi

CLUSTALW

BLASTFASTA

Smith & Waterman

Ricerca con Motivi

UPGMA

CostruzioneMotivi

Analisi

FamigliaSequenzeOmologhe