Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

of 28 /28
otivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati

Embed Size (px)

Transcript of Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

  • Slide 1
  • Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati
  • Slide 2
  • Motivi e proteine Domini proteici Motivi funzionali Sequenze segnale
  • Slide 3
  • ABCA2_HUMAN/1641-1652CtCsaqgtGfsC ABCA2_MOUSE/1641-1652CtCsaqgtGfsC ABCA2_RAT/1641-1652CtCsaqgtGfsC ADA11_HUMAN/698-709CiCqpdwtGkdC ADA11_MOUSE/702-713CiCqpdwtGkdC ADA11_XENLA/381-392CiChpewtGkdC ADA22_HUMAN/700-711CvCnrhwiGsdC ADA22_MOUSE/698-709CvCnrhwtGadC ADA22_XENLA/701-712CiCdrfwtGedC ADA23_HUMAN/757-768CiCdftwaGtdC ADA23_MOUSE/754-765CiCdftwaGtdC ADAM8_MOUSE/346-357CyCpepreGggC ADP1_YEAST/79-90CeCiegfaGddC CONSENSUSCxCxxxxxGxxC Consensus Allineamento multiplo domini EGF-like
  • Slide 4
  • Ricerca di un motivo CxCxxxxxGxxC ACCKCFOWEGGPVCLDSFFEKVOD CxCxxxxxGxxC ACCKCFOWEGGPVCLDSFFEKVOD CxCxxxxxGxxC ACCKCFOWEGGPVCLDSFFEKVOD CxCxxxxxGxxC ACCKCFOWEGGPVCLDSFFEKVOD ACCKCFOWEGGPVCLDSFFEKVOD ASCKCFOWEGGPVCLDSFFEKVOD CxCxxxxxGxxC + = ACCKCFOWEGGPVCLDSFFEKVOD
  • Slide 5
  • Ricerche in banche dati con un motivo UNIPROT CxCxxxxxGxxC Ricerca IDOrganismoSequenza RPD2_HUMANHumanMTERENNVYKAKLAEQCECYDECWGACYYKMKGDYHRYLAEFIAMNDLPP FFS_MOUSEMouseMKKVASMDVELTVE ERNLLSVAYKDFLEKHLIPCATSGESKVFYHPIRLGL RHA_MOUSEMouseASKKJFOWERMPVKLDSFFEKVODFKAAFDDAICECDTLCWGECRLGLALNF GCN4_YEASTYeastLNVLEKHLIPCATSGESKVFYYKMKGDYHRYLAEFATGSDRKDAAENSLIYKA RAS_HUMANHumanLNSPDR ACRLAKAAFDDAIAELDTLS EESYKDSTLI MQLLRDNLTLALNFS Sequenze Positive: RPD2_HUMAN, RHA_MOUSE, Sequenze Negative: FFS_MOUSE, GCN4_YEAST, RAS_HUMAN,
  • Slide 6
  • Veri/Falsi Positivi/Negativi Ha un dominio EGF ? 1No 2Si 3No 4Si 5No 6 7Si 8No 9 SequenzaConsensus FHSERERJEKAKLAEQCEYDECWGACYYKMKGDYHNegativo KAKLAEQCECYDECWGACYYKMKGDYHPositivo FGSDKGPOKEDFGSDSFIJIERJNCOLXCVDFMIDFNegativo MTERENNVYKAKLAEQCECYDECWGACYYKMKGDYHPositivo MKKVASMDVELTVENLLSVAYKDFLEKHNegativo FDGLDFKGLFKAAFDDAICECDTLCWGECRLGLALNFPositivo ESKVFYYKMKGDYHRYLAEFATGSDRKDAAENSLIYKANegativo LNSPDDFSDFKSDFMLKSDGMLKFGIMBVCIJBVUBUINegativo FGXCIXCVIMXRFOLXCVPOXCKOASDLMXCMLNASNegativo Risultato Vero Falso Vero
  • Slide 7
  • Veri/Falsi Positivi/Negativi PositivoNegativo Vero Falso Raccolgo pomodori nellorto Prendendo tutto quello che di colore rosso.
  • Slide 8
  • Sensitivit del motivo Quanti pomodori sono riuscito ad identificare? --------- + 13 = ------ = 0.81 13 + 3 VP = --------- VP + FN
  • Slide 9
  • Selettivit del motivo Quanti ortaggi scelti sono veramente pomodori? --------- + 13 = ------ = 0.65 13 + 7 VP = --------- VP + FP
  • Slide 10
  • CtCsaqGtGfsC CiCqpdWtGkdD CiCqpdWtGkdD CiChpeGtGKdC CvCnrhWiGSdC CiCdrfWtAEdC CiCdftWaATdC CiCdftWaAtdC CyCpepReGggC CeCiegFaGddC CxCxxxXxXxxX Scelta del Motivo Migliore CtCsaqGtGfsC CiCqpdWtGkdD CiCqpdWtGkdD CiChpeGtGKdC CvCnrhWiGSdC CiCdrfWtAEdC CiCdftWaATdC CiCdftWaAtdC CyCpepReGggC CeCiegFaGddC CxCxxxXxGxxC CtCsaqGtGfsC CiCqpdWtGkdD CiCqpdWtGkdD CiChpeGtGKdC CvCnrhWiGSdC CiCdrfWtAEdC CiCdftWaATdC CiCdftWaAtdC CyCpepReGggC CeCiegFaGddC CxCxxxGxGxxC EGF-like NO EGF-like Motivo Sensitivit 100% Selettivit 50% Sensitivit 60% Selettivit 60% Sensitivit 40% Selettivit 100%
  • Slide 11
  • Coefficiente di Correlazione VP*VN FN*FP ------------------------------------------------------- Radice di (VN+FN)*(VN+FP)*(VP+FN)*(VP+FP)
  • Slide 12
  • Banche dati di motivi FunzioneConsensus Sito di N-glicosilazioneN.S Sito di fosforilazioneS.R Motivo di legame allATPG....GKS Motivo di legame al calcioR..R..D Dominio EGFC.C.....G..C Zinc fingerC......C...C....C......C Cerniera di LeucineL......L......L......L
  • Slide 13
  • Annotare una sequenza Banca dati di motivi Ricerca ASCKCFOWEGGPVCLDSFFEKVOD ASCKCNASEGGPVCLDSFFEKDSERORKWOPEKEPGFPCIEEIRERIRDWERWE Sito di N-glicosilazione Sito di legame al calcio Sito di fosforilazione
  • Slide 14
  • Ricerche con Motivi Banca dati di motivi Ricerca ASCKCNASEGGPVCLDSFFEKDSERORKWOPEKEPGFPCIEEIRERIRDWERWE Sito di N-glicosilazione Sito di legame al calcio Sito di fosforilazione FunzioneMotivo Sito di N-glicosilazioneN.S Sito di fosforilazioneS.R Motivo di legame allATPG....GKS Motivo di legame al calcioR..R..D Dominio EGFC.C.....G..C Zinc fingerC......C...C....C......C Cerniera di LeucineL......L......L......L ASCKCNASEGGPVCLDSFFE KDSERORKWOPEKEPGFPCI EEIRERIRDWERWE Sequenza sconosciuta
  • Slide 15
  • Espressioni regolari VLHSCDAICWTNLK IIHSCLAECWRQVS GVHTCLIDCWSNIR AAHTCAAECWTLVR VLHTCAAECWTLVR HTC...CW S H-[ST]-C-X-X-X-C-W H-[S,T]-C-X(3)-C-W Posizioni con pi possibilit = [A,C,D, ] Posizioni ripetute = (n)
  • Slide 16
  • Ripetizioni variabili GVHTCLCWSNIR VLHSCDAICWTNLK IIHSCLAAAECWRQVS H-[ST]-C-X(1,5)-C-W Numero variabile di ripetizioni = (i, j) H-[ST]-C-X-C-W ? H-[ST]-C-X-X-X-C-W ? H-[ST]-C-X-X-X-X-X-C-W ? GVHTCL----CWSNIR VLHSCD--AICWTNLK IIHSCLAAAECWRQVS ?
  • Slide 17
  • Matrici posizionali di peso LHSCDADCT IHTCLAECS VHTCLIDCS AHTCAAECT LHTCAAECT P osition S pecific S coring M atrix [LIVA]-H-[ST]-C-[DLA]-[AI]-[DE]-C-[ST] A0.20.40.8 C1.01.0 D0.20.4 E0.6 H1.0 I0.20.2 L0.40.4 S0.20.4 T0.80.6 V0.2
  • Slide 18
  • Logo di sequenzaA0.20.40.8C1.01.0 D0.20.4 E0.6 H1.0 I0.20.2 L0.40.4 S0.20.4 T0.80.6 V0.2 Altezza = log 2 (20) - F * log 2 (F) = 4.32 - F * log2 (F)
  • Slide 19
  • Punteggio con PSSM A0.20.40.8 C1.01.0 D0.20.4 E0.6 H1.0 I0.20.2 L0.40.4 S0.20.4 T0.80.6 V0.2 AHTCAADCS Sequenza P osition S pecific S coring M atrix A G W Y 0.008192 0.2x1.0x0.8x1.0x0.4x0.8x0.4x1.0x0.4=
  • Slide 20
  • Attesi per caso A0.250.330.5 C1.01.0 D0.330.5 E0.5 H1.0 I0.250.5 L0.250.33 S0.50.5 T0.50.5 V0.25
  • Slide 21
  • Log-OddsA+1+2 C00 D-2 E+1 H0 I-4 L+2+1 S-4 T+2+1 V AHTCAADCS +0+2+0+1+20 Sequenza P osition S pecific S coring M atrix A G W Y = +2 Punteggio = 10*log(osservati/attesi) T in posizione 3 = 10*log(0.8/0.5) = +2.041 = +2
  • Slide 22
  • Ricerca PSSM su sequenza Ricerca Espressione regolare [LIVA]-H-[ST]-C-[DLA]-[AI]-[DE]-C-[ST]A+1+2C00 D-2 E+1 H0 I-4 L+2+1 S-4 T+2+1 V TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ +5 -13 TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ Calcolo punteggio PSSM Scelta motivi pi alti del volore soglia PSSM > -2 = POSITIVI PSSM < -2 = NEGATIVI Positiva
  • Slide 23
  • Curve Roc % Veri positivi 100% 75% 50% 25% % Falsi positivi 100% 75% 50% 25% Random Motivo efficiente Motivo poco efficiente * * *
  • Slide 24
  • Ricerca con allineamento LHSCDADCT IHTCLAECS VHTCLIDCS AHTCAAECT LHTCAAECT AVHYALIDCTGWH Allineamento Multiplo Sequenza /5 = Punteggio sequenza ? VLHHYSACLD VIHHYTACLL VVHHYTACLL VAHHYTACLA VLHHYTACLA P1+P2+P3+P4+P5+P6+P7+P8+P9
  • Slide 25
  • Profilo di un allineamento LHSDCADCT IHTLCAECS VHTLCIDCS AHTACAECT LHTACAECT 123456789 A C D E T V W Y - Allineamento Multiplo =(CD+CL+CL+CA+CA)/5 =(ED+EL+EL+EA+EA)/5
  • Slide 26
  • Ricerca con profilo Profilo 123456789 A C D E F G H W Y - AKRHFCCWE-EGWH Punteggio = 1H+2F+3D+4C+5W+6E+7D+8E+9G ** ** * * * * *
  • Slide 27
  • PSI- BLAST Sequenza sconosciuta Allineamento Multiplo Profilo dell allineamento BLAST Costruzione Profilo Ciclo N 2 Nuove Sequenze Omologhe Costruzione Allineamento Multiplo Banche dati di sequenze Sequenze Omologhe Ciclo N 3 Nuove Sequenze Omologhe + Ciclo N + +
  • Slide 28
  • Analisi di sequenze Sequenza sconosciuta Sequenza annotata Albero filogenetico Allineamento Multiplo Motivo Funzionale Sequenze Simili Matrice di distanze Banche dati di sequenze Banche dati di Motivi CLUSTALW BLAST FASTA Smith & Waterman Ricerca con Motivi UPGMA Costruzione Motivi Analisi Famiglia Sequenze Omologhe