Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Post on 02-May-2015

232 views 5 download

Transcript of Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Allineamenti di sequenze

Misura della somiglianza di 2 geni o proteine dalle loro sequenze

Evoluzione MolecolareQUESTAELASEQUENZADIUNAPROTEINA

Duplicazione QUESTAELASEQUENZADIUNAPROTEINA

Mutazioni puntiformi QUESTAILASECUENZEDOUNAPROTEINA

Delezione QUESTAILASECUENZEDOUNA____INA

Inserzione QUESTAILANUOVASECUENZEDOUNAINA

Proteina originaria

Individuazione di una proteina progenitrice

QUESTAELASEQUENZADIUNAPROTEINA

QUESTAILANUOVASECUENZEDOUNAINA

Proteina 1

SDFNWEOIRHTLKWEFLKFNLSKDFNSLDProteina 2

☻ Matches ☻ Mismatches

ACVILPEDPSTRYTT AVISPSDPTTRY

ACVILPEDPSTRYTT || | || ||| AVISPSDPTTRY

CVISPSDPTTRYACVILPEDPSTRYTT

Allineamento

Punteggio di Identità

Identità = 8

ACVILPEDPSTRYTT || | || ||| AVISPDDPTTRY

QUESTAELASEQUENZADIUNAPROTEINA|||||| || |||QUESTAILANUOVASECUENZEDOUNAINA

Proteina 1Proteina 2

| | SDFNWEOIAHTLKWEFLDFNLSKDFNSLDProteina

3

QUESTAELASEQUENZADIUNAPROTEINAProteina 1

Identità = 11

Identità = 2

Similarità & Omologia

Sequenze Omologhe e Simili

Sequenze Omologhe

Duplicazione e/o Speciazione

Evoluzione

Sequenza Originaria

Sequenze Omologhe ma non Simili

Evoluzione

Sequenze non Omologhe ma Simili

Sequenze non Omologhe

Evoluzione Convergente

Percentuale di Identità

% di identita =

7*2/27 = 0.52

ACVLLPEDPSTRYTT | | || ||| AVISPDDPTTRY

PDDETTY ||| ||| PDDPTTYR

(Identità*2)/ Numero di aminoacidi

% di identita =

6*2/15 = 0.80

Allineamenti possibili

Identità = 8

ACVILPEDPSTRYTT || | || ||| AVISPDDPTTRY

Identità = 2ACVILPEDPSTRYTT | | AVISPDDPTTRY

ILVVIV |||| 0 VLVVII

ILVVIV | 1VLVVII

ILVVIV ||||| 1 VLVVII

ILVVIV || 0 VLVVII

ILVVIV ||||| 2 VLVVII

ILVVIV || 1 VLVVII

ILVVIV |||| 2 VLVVII

ILVVIV | 1 VLVVII

ILVVIV |||||| 4 VLVVII

ILVVIV ||| 0 VLVVII

ILVVIV ||| 2 VLVVII

Lunghezza: s1=6 s2=6 Numero confronti s1+s2-1 = 13 Caratteri confrontati s1*s2 = 36

Ricerca miglior allineamento

Inserzioni (Gaps)

ALLINEAMISECIRIESCI ALLINEAANCHEMESECIRIESCI

ALLINEAMISECIRIESCI|||||||ALLINEAANCHEMESECIRIESCI

ALLINEAMISECIRIESCI | ||||||||||ALLINEAANCHEMESECIRIESCI

ALLINEA-----MISECIRIESCI||||||| | ||||||||||ALLINEAANCHEMESECIRIESCI

Identità = 7 Identità = 11

Identità = 18

Significato strutturaleALFAELICAUNO-----ALFAELICADUE|||||||||||| ||||||||||||ALFAELICAUNOLOOOPALFAELICADUE

Alfa elica

Alfa elica

Loop

Allineamenti con gaps

ACD

EFG

ACD

E-FG

ACD

E—FG

A-CD

EF-G

A-C-D

EF-G

AC-D

E-FG

A-C-D

EFG

ACD

EF-G

ACD

EFG

AC-D

EFG

AC--D

EFG

A-CD

EF-G

A-CD

E-F-G

ACD

E-F-G

AC-D

EF-G

ACD

EF-G

ACD

EFG

AC-D

EFG

AC--D

EFG

A-CD

E-FG

AC-D

E-F-G

A-C-D

EFG

AC-D

EF-G

ACD

EFG

AC-D

EFG

A--CD

EFG

A-CD

E-FG

A--CD

E—FG

A-C-D

E-FG

A-CD

EF-G

ACD

EFG

A-CD

EFG

A--CD

EFG

AC-D

E-FG

A-CD

EFG

ACD

EF--G

ACD

E-FG

ACD

EF-G

A-CD

EFG

ACD

E-F-G

AC-D

E-FG

ACD

EF—G

ACD

E—FG

ACD

E-FG

Matrici di allineamento

Y A S E N Y M A W E P U E N Z A

I

O

T

O

U

N

S

O

Q

YASEN-YMAWEPUENZA I--OTOUN-SOQ

Allineamenti possibiliI O S O N U N A S E Q U E N Z A

I

O

N

O

U

N

S

O

Q

IOSONUNASEQUENZA IONO---UNS--OQ

IOSONUNASEQUENZA ION---OU----N--SOQ

IOSONU-NA--SEQUENZA IONOUNSOQ

Non valido

Matrice di puntiI O S O S U N A S E Q U E N Z A

I *

O * *

N * *

O * *

U * *

N * *

S * * *

O * *

Q *

* = Identità

Matrice di puntiI O S O S U N A S E Q U E N Z A

I *

O * *

N * *

O * *

U * *

N * *

S * * *

O * *

Q *

* = Identità

Regioni di identitàI O S O S U N A S E Q U E N Z A

S * * *

Q *

U * *

E * *

N * * *

Z * *

A * *

O * *

I *

* = Identità

Matrice di punti reale

DuplicazioniI Q U E N Z N A S E Q U E N Z A

S *

Q * *

U * *

E * * *

N * * * *

Z * * *

A * *

O

I *

* = Identità

InversioniI O S O S U N A S E A Z N E U Q

S * * *

Q *

U * *

E * *

N * *

Z * *

A * *

O * *

I *

* = Identità

Analisi delle matrici di punti

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *

* *

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *

* * * * * * * *

Regioni di identità

Inversione

Duplicazione

I O S O N U N A S E Q U E N Z A

I

O

N

O

U

N

S

O

Q

Punteggi

+1+1

+0+0

Inizio

Fine

Ricerca allineamento

IOSONUNASEQUENZA || | || | | IONO-UN-SOQ

Identità = 7

Programmazione dinamicaI O S O N U N A S E Q U E N Z A

I

O

N

O

U

N

S

O

Q

00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00

00

00

00

00

00

00

00

00

00

Punteggi

+1+1

+0+0

11

Programmazione dinamicaI O S O N U N A S E Q U E N Z A

I

O

N

O

U

N

S

O

Q

00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00

00

00

00

00

00

00

00

00

00

Punteggi

+1+1

+0+0

11 11

Programmazione dinamicaI O S O N U N A S E Q U E N Z A

I

O

N

O

U

N

S

O

Q

00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00

00

00

00

00

00

00

00

00

00

Punteggi

+1+1

+0+0

11 11

11

Programmazione dinamicaI O S O N U N A S E Q U E N Z A

I

O

N

O

U

N

S

O

Q

00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00

00

00

00

00

00

00

00

00

00

Punteggi

+1+1

+0+0

11 11

11 22

d d + 1+ 1? ? = il maggiore fra= il maggiore fra xx

y y

dd yy

xx ??

2 + 1 2 + 1 = 3= 3? =? = 2 2 = 2= 2

1 1 = 1= 1

dd yy

xx ??

dd? ? = il maggiore fra= il maggiore fra xx

yy

Ricerca direzione migliore

22 11

22 ??

22 11

22 33

Programmazione dinamicaI O S O N U N A S E Q U E N Z A

I

O

N

O

U

N

S

O

Q

00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00

00 11 11 11 11 11

00 11 22 22 22 22

00 11 22 22 22 33

00 11 22 22 33

00

00

00

00

00

Punteggi

+1+1

+0+033

Programmazione dinamicaI O S O N U N A S E Q U E N Z A

I

O

N

O

U

N

S

O

Q

00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00

00 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11

00 11 22 22 22 22 22 22 22 22 22 22 22 22 22 22 22

00 11 22 22 22 33 33 33 33 33 33 33 33 33 44 44 44

00 11 22 22 33 33 33 33 33 33 33 33 33 33 44 44 44

00 11 22 22 33 33 44 44 44 44 44 44 55 55 55 55 55

00 11 22 22 33 44 44 55 55 55 55 55 55 55 66 66 66

00 11 22 33 33 44 44 55 55 66 66 66 66 66 66 66 66

00 11 22 33 44 44 44 55 55 66 66 66 66 66 66 66 66

00 11 22 33 44 44 44 55 55 66 66 77 77 77 77 77 77IOSONUNASEQUENZA || | || | | IONO-UN-SOQ

IOSON-UNASEQUENZA || | || | | IO--NOUN-SOQ

Punteggi

+1+1

+0+0

Penalità per apertura gaps

a) IOSONOUNASEQUENZA |||||||| |||||||1) IOSONOUNOSEQUENZO

a) IOSONOUNASEQUENZA |||||||| |||||||2) IOSONOUN-SEQUENZO

Identità = 15

Identità = 15-2 = 13

a) IOSONOUNASEQUENZA1) IOSONOUNOSEQUENZO Mutazione2) IOSONOUNSEQUENZO Delezione

GAP insertion penalty = -2 per ogni nuovo gap inserito

Penalità per estensione gaps

a) IOSONOUNASEQUENZA | |||||| ||| |||1) I-SONOUN-SEQ-ENZO

Identità = 13 –2 -2 -2 = 7

a) IOSONOUNASEQUENZA1) ISONOUNSEQENZO2) IOSONOSEQUENZO

GAP extension penalty = -1 per ogni estensione di un gap già presente

a) IOSONOUNASEQUENZA |||||| |||||||2) IOSONO---SEQUENZO

Identità = 13 -2 -1 -1 = 9

Significato strutturaleALFAELICAUNOALFAELICADUEALFAELICAUNOLALFAELICADUE apertura gapALFAELICAUNOLOOOPALFAELICADUE estensione gap

Apertura gap Estensione gap

Penalità per gaps

I O S O N U N A S E Q U E N Z A

I

O

N

O

U

N

S

O

Q

IOSON-UNASEQUENZA | || || | | I--ONOUN-SOQ

d d + 1+ 1? ? = il maggiore fra= il maggiore fra x x - 2- 2

y y - 2- 2

dd yy

xx ??

3 3 = 3= 3? =? = 4 – 2 4 – 2 = 2= 2

2 – 22 – 2 = 0= 0

PD con gap penalties

dd yy

xx ??

dd? ? = il maggiore fra= il maggiore fra x x - 2- 2

y y - 2- 2

33 22

44 ??

33 22

44 33

PD con gap penaltiesI O S O N U N A S E Q U E N Z A

I

O

N

O

U

N

S

O

Q

00 00 00 00 00 00 00 00

00 11 00 00 00 00 00 00

00 00 22 00 11 00 00 00

00 00 00 22 00 22 00 11 11

00 00 11 00 33 11 22 00 11 11

00 00 00 11 11 33 22 22 11 11 11

11 11 33 33 22 11 11 11

11 11 11 33 33 33 11 11 11 11

11 22 11 11 33 33 33 11 11 11 11

11 22 11 11 33 33 44 22 11 11

IOSONUNASEQUENZA || | | IONOUNSOQ

Punteggi

+1+1

+0+0

-2-2

-2-2

Classi di aminoacidi

IL

V

GA

E DF YW

K

H

C

PIdrofobici

Polari

Positivi

R

S T

Aromatici Negativi

Piccoli

QN

-OH

M

Punteggio di similarità

Similarità = 6*2 + 3*1 = 15

ARVILPEDPSTRYTT ||.|. |.| | AVIVPDQPTTEY

| Aminoacidi identici = 2 punti

. Aminoacidi simili = 1 punto

Aminoacidi diversi = 0 punti

Matrice di sostituzione

A C D E F G H I K L M N P Q R S T V W YA 2 1 1 1 1 1 1 1 1 1C 2 1 1 1 1 1 1 1D 2 1E 2F 2 1 1 1 1 1 1 1G 2 1 1 1 1 1 1H 2 1 1I 2 1 1 1 1K 2 1L 2 1 1 1M 2 1 1 1 1 1N 2 1 1 1 1P 2 1 1Q 2 1 1 1R 2S 2 1 1T 2 1V 2 1W 2 1Y 2

Calcolo con matriceA C D E F

A 2 1 …

C 2 …

D 2 1 …

E 2 …

F …

AAADE | .. ADCEC

Punteggio = AA + AD + AC + DE + EC =

2 + 0 + 1 + 1 + 0

Un allineamento

Punteggio di similarità

Similarità = 5*2 + 3*1 – 2*2 – 3*1 = 6

ARVILPEDDPSTRYYYTT AVIVPD-QPTT----EY

5 Coppie identici = 2 punti3 Coppie simili = 1 punto4 Coppie diversi = 0 punti 2 Inserzione Gap = -2 punti3 Estensione Gap = -1 punto

A C D E F G H I K L M N P Q R S T V W Y

A 2 -2 0 0 -4 1 -1 -1 -1 -2 -1 0 1 0 -2 1 1 0 -6 -3C 12 -5 -5 -4 -3 -3 -2 -5 -6 -5 -4 -3 -5 -4 0 -2 -2 -8 0D 4 3 -6 1 1 -2 0 -4 -3 2 -1 2 -1 0 0 -2 -6 -4E 4 -5 0 1 -2 0 -3 -2 1 -1 2 -1 0 0 -2 -6 -4F 8 -5 -2 1 -5 2 0 -4 -5 -5 -4 -3 -3 -1 0 6G 5 -2 -3 -2 -4 -3 0 -1 -1 -3 1 0 -1 -6 -5H 6 -2 0 -2 -2 2 0 3 2 -1 -1 -2 -3 0I 5 -2 2 2 -2 -2 -2 -2 -1 0 4 -5 -1

K 5 -3 0 1 -1 1 3 0 0 -2 -3 -4L 6 4 -3 -3 -2 -3 -3 -2 2 -2 -1

M 6 -2 -2 -1 0 -2 -1 2 -4 -2N 2 -1 1 0 1 0 -2 -4 -2P 6 0 0 1 0 -1 -6 -5Q 4 1 -1 -1 -2 -5 -4R 6 0 -1 -2 2 -4S 2 1 -1 -2 -3T 3 0 -5 -3V 4 -6 -2W 17 0Y 10

Una vera matrice di sostituzione

Needleman & WunschI V S V N Y E S S V Q Y E N W A

I

V

N

V

Y

N

S

V

Q

Punteggi

+1+1

+0+0

+2+2

Needleman & Wunsch

dd yy

xx ??

d d + 2+ 2? ? == x x - 2- 2

y y - 2- 2

d d + 1+ 1? ? == x x - 2- 2

y y - 2- 2

d d ? ? == x x - 2- 2

y y - 2- 2

dd yy

xx ??

dd yy

xx ??

33 22

77 ??

3 + 1 3 + 1 = 4= 4? =? = 7 – 2 7 – 2 = 5= 5

2 – 22 – 2 = 0= 0

33 22

77 55

Needleman & WunschI V S V N Y E S S V Q Y E N W A

I

V

N

V

Y

N

S

V

Q

IVSVNYESSVQYENWA ||.| | .||| IVNV-Y-NSVQ

22 11 11 11 11

11 44 22 22 11 22 11 11 22

22 55 33 44 22 11 11 33 22 22 11

11 11 33 77 55 55 33 11 11 33 11 44 22 33 11

11 22 55 88 77 55 44 22 11 44 33 44 33 11 33

22 44 77 99 77 66 55 44 33 55 33 66 44 33

22 33 55 88 99 99 88 66 55 44 55 44 66 55

11 22 44 44 66 88 99 99 1010 88 77 66 55 55 66

33 22 33 55 66 99 1010 99 1212 1010 99 88 77 66

IVSVNYESSVQYENWA ||. .||| IVNVYNSVQ

Punteggi

+1+1

+0+0

+2+2

Locale e Globale

LTGARDWEDIPLWTDWDIEQESDFKTRAFGTANCHE ||   | |  |   |     |  ||  || | | TGIPLWTDWDLEQESDNSCNTDHYTREWGTMNAHKAG

LTGARDWEDIPLWTDWDIEQESDFKTRAFGTANCHKE         |||||||| |||||       TGIPLWTDWDLEQESDNSCNTDHYTREWGTMNAHKAG

Allineamento globale

Allineamento locale

Punteggio di Identità = 13

Punteggio di Identità = 13

Significato BiologicoAllineamento globale

Allineamento locale

Algoritmi locali e globaliI O S O N U N A S E Q U E N Z A

I

O

N

O

U

N

S

O

Q

IOSONUNASEQUENZA ION---OU----N--SOQ

U-NASNOUNS

Globale

Locale

Smith-WatermanI V S V N V E Y N W A Y E N W A

I

V

N

V

Y

N

S

V

Q

Punteggi

+0+0

+2+2

-2-2

-2-2

-2-2

22

44 22 22 22 22

22 44 22 44 22 22 22

22 22 66 44 66 44 33 22 22

22 44 66 44 44 66 44 33 22 22

33 66 44 33 44 88 66 55 44 33 22 11

22 22 44 22 22 33 66 55 66 55 33 33 11 11

11 22 44 33 66 44 33 55 66 44 44 33 11 33

22 22 44 44 44 44 44 44 44 44 22 33 11 11

Smith-WatermanI V S V N V E Y N W A Y E N W A

I

V

N

V

Y

N

S

V

Q

IVSVNVEYNWAYENWA ||| || IVNV-YNSVQ

22

44 22 22 22 22

22 44 22 44 22 22 22

22 22 66 44 66 44 33 22 22

22 44 66 44 44 66 44 33 22 22

33 66 44 33 44 88 66 55 44 33 22 11

22 22 44 22 22 33 66 55 66 55 33 33 11 11

11 22 44 33 66 44 33 55 66 44 44 33 11 33

22 22 44 44 44 44 44 44 44 44 22 33 11 11