Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

49
Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze

Transcript of Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Page 1: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Allineamenti di sequenze

Misura della somiglianza di 2 geni o proteine dalle loro sequenze

Page 2: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Evoluzione MolecolareQUESTAELASEQUENZADIUNAPROTEINA

Duplicazione QUESTAELASEQUENZADIUNAPROTEINA

Mutazioni puntiformi QUESTAILASECUENZEDOUNAPROTEINA

Delezione QUESTAILASECUENZEDOUNA____INA

Inserzione QUESTAILANUOVASECUENZEDOUNAINA

Proteina originaria

Page 3: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Individuazione di una proteina progenitrice

QUESTAELASEQUENZADIUNAPROTEINA

QUESTAILANUOVASECUENZEDOUNAINA

Proteina 1

SDFNWEOIRHTLKWEFLKFNLSKDFNSLDProteina 2

Page 4: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

☻ Matches ☻ Mismatches

ACVILPEDPSTRYTT AVISPSDPTTRY

ACVILPEDPSTRYTT || | || ||| AVISPSDPTTRY

CVISPSDPTTRYACVILPEDPSTRYTT

Allineamento

Page 5: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Punteggio di Identità

Identità = 8

ACVILPEDPSTRYTT || | || ||| AVISPDDPTTRY

QUESTAELASEQUENZADIUNAPROTEINA|||||| || |||QUESTAILANUOVASECUENZEDOUNAINA

Proteina 1Proteina 2

| | SDFNWEOIAHTLKWEFLDFNLSKDFNSLDProteina

3

QUESTAELASEQUENZADIUNAPROTEINAProteina 1

Identità = 11

Identità = 2

Page 6: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Similarità & Omologia

Sequenze Omologhe e Simili

Sequenze Omologhe

Duplicazione e/o Speciazione

Evoluzione

Sequenza Originaria

Sequenze Omologhe ma non Simili

Evoluzione

Sequenze non Omologhe ma Simili

Sequenze non Omologhe

Evoluzione Convergente

Page 7: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Percentuale di Identità

% di identita =

7*2/27 = 0.52

ACVLLPEDPSTRYTT | | || ||| AVISPDDPTTRY

PDDETTY ||| ||| PDDPTTYR

(Identità*2)/ Numero di aminoacidi

% di identita =

6*2/15 = 0.80

Page 8: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Allineamenti possibili

Identità = 8

ACVILPEDPSTRYTT || | || ||| AVISPDDPTTRY

Identità = 2ACVILPEDPSTRYTT | | AVISPDDPTTRY

Page 9: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

ILVVIV |||| 0 VLVVII

ILVVIV | 1VLVVII

ILVVIV ||||| 1 VLVVII

ILVVIV || 0 VLVVII

ILVVIV ||||| 2 VLVVII

ILVVIV || 1 VLVVII

ILVVIV |||| 2 VLVVII

ILVVIV | 1 VLVVII

ILVVIV |||||| 4 VLVVII

ILVVIV ||| 0 VLVVII

ILVVIV ||| 2 VLVVII

Lunghezza: s1=6 s2=6 Numero confronti s1+s2-1 = 13 Caratteri confrontati s1*s2 = 36

Ricerca miglior allineamento

Page 10: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Inserzioni (Gaps)

ALLINEAMISECIRIESCI ALLINEAANCHEMESECIRIESCI

ALLINEAMISECIRIESCI|||||||ALLINEAANCHEMESECIRIESCI

ALLINEAMISECIRIESCI | ||||||||||ALLINEAANCHEMESECIRIESCI

ALLINEA-----MISECIRIESCI||||||| | ||||||||||ALLINEAANCHEMESECIRIESCI

Identità = 7 Identità = 11

Identità = 18

Page 11: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Significato strutturaleALFAELICAUNO-----ALFAELICADUE|||||||||||| ||||||||||||ALFAELICAUNOLOOOPALFAELICADUE

Alfa elica

Alfa elica

Loop

Page 12: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Allineamenti con gaps

ACD

EFG

ACD

E-FG

ACD

E—FG

A-CD

EF-G

A-C-D

EF-G

AC-D

E-FG

A-C-D

EFG

ACD

EF-G

ACD

EFG

AC-D

EFG

AC--D

EFG

A-CD

EF-G

A-CD

E-F-G

ACD

E-F-G

AC-D

EF-G

ACD

EF-G

ACD

EFG

AC-D

EFG

AC--D

EFG

A-CD

E-FG

AC-D

E-F-G

A-C-D

EFG

AC-D

EF-G

ACD

EFG

AC-D

EFG

A--CD

EFG

A-CD

E-FG

A--CD

E—FG

A-C-D

E-FG

A-CD

EF-G

ACD

EFG

A-CD

EFG

A--CD

EFG

AC-D

E-FG

A-CD

EFG

ACD

EF--G

ACD

E-FG

ACD

EF-G

A-CD

EFG

ACD

E-F-G

AC-D

E-FG

ACD

EF—G

ACD

E—FG

ACD

E-FG

Page 13: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Matrici di allineamento

Y A S E N Y M A W E P U E N Z A

I

O

T

O

U

N

S

O

Q

YASEN-YMAWEPUENZA I--OTOUN-SOQ

Page 14: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Allineamenti possibiliI O S O N U N A S E Q U E N Z A

I

O

N

O

U

N

S

O

Q

IOSONUNASEQUENZA IONO---UNS--OQ

IOSONUNASEQUENZA ION---OU----N--SOQ

IOSONU-NA--SEQUENZA IONOUNSOQ

Non valido

Page 15: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Matrice di puntiI O S O S U N A S E Q U E N Z A

I *

O * *

N * *

O * *

U * *

N * *

S * * *

O * *

Q *

* = Identità

Page 16: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Matrice di puntiI O S O S U N A S E Q U E N Z A

I *

O * *

N * *

O * *

U * *

N * *

S * * *

O * *

Q *

* = Identità

Page 17: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Regioni di identitàI O S O S U N A S E Q U E N Z A

S * * *

Q *

U * *

E * *

N * * *

Z * *

A * *

O * *

I *

* = Identità

Page 18: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Matrice di punti reale

Page 19: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

DuplicazioniI Q U E N Z N A S E Q U E N Z A

S *

Q * *

U * *

E * * *

N * * * *

Z * * *

A * *

O

I *

* = Identità

Page 20: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

InversioniI O S O S U N A S E A Z N E U Q

S * * *

Q *

U * *

E * *

N * *

Z * *

A * *

O * *

I *

* = Identità

Page 21: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Analisi delle matrici di punti

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *

* *

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *

* * * * * * * *

Regioni di identità

Inversione

Duplicazione

Page 22: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

I O S O N U N A S E Q U E N Z A

I

O

N

O

U

N

S

O

Q

Punteggi

+1+1

+0+0

Inizio

Fine

Ricerca allineamento

IOSONUNASEQUENZA || | || | | IONO-UN-SOQ

Identità = 7

Page 23: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Programmazione dinamicaI O S O N U N A S E Q U E N Z A

I

O

N

O

U

N

S

O

Q

00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00

00

00

00

00

00

00

00

00

00

Punteggi

+1+1

+0+0

11

Page 24: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Programmazione dinamicaI O S O N U N A S E Q U E N Z A

I

O

N

O

U

N

S

O

Q

00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00

00

00

00

00

00

00

00

00

00

Punteggi

+1+1

+0+0

11 11

Page 25: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Programmazione dinamicaI O S O N U N A S E Q U E N Z A

I

O

N

O

U

N

S

O

Q

00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00

00

00

00

00

00

00

00

00

00

Punteggi

+1+1

+0+0

11 11

11

Page 26: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Programmazione dinamicaI O S O N U N A S E Q U E N Z A

I

O

N

O

U

N

S

O

Q

00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00

00

00

00

00

00

00

00

00

00

Punteggi

+1+1

+0+0

11 11

11 22

Page 27: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

d d + 1+ 1? ? = il maggiore fra= il maggiore fra xx

y y

dd yy

xx ??

2 + 1 2 + 1 = 3= 3? =? = 2 2 = 2= 2

1 1 = 1= 1

dd yy

xx ??

dd? ? = il maggiore fra= il maggiore fra xx

yy

Ricerca direzione migliore

22 11

22 ??

22 11

22 33

Page 28: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Programmazione dinamicaI O S O N U N A S E Q U E N Z A

I

O

N

O

U

N

S

O

Q

00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00

00 11 11 11 11 11

00 11 22 22 22 22

00 11 22 22 22 33

00 11 22 22 33

00

00

00

00

00

Punteggi

+1+1

+0+033

Page 29: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Programmazione dinamicaI O S O N U N A S E Q U E N Z A

I

O

N

O

U

N

S

O

Q

00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00

00 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11

00 11 22 22 22 22 22 22 22 22 22 22 22 22 22 22 22

00 11 22 22 22 33 33 33 33 33 33 33 33 33 44 44 44

00 11 22 22 33 33 33 33 33 33 33 33 33 33 44 44 44

00 11 22 22 33 33 44 44 44 44 44 44 55 55 55 55 55

00 11 22 22 33 44 44 55 55 55 55 55 55 55 66 66 66

00 11 22 33 33 44 44 55 55 66 66 66 66 66 66 66 66

00 11 22 33 44 44 44 55 55 66 66 66 66 66 66 66 66

00 11 22 33 44 44 44 55 55 66 66 77 77 77 77 77 77IOSONUNASEQUENZA || | || | | IONO-UN-SOQ

IOSON-UNASEQUENZA || | || | | IO--NOUN-SOQ

Punteggi

+1+1

+0+0

Page 30: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Penalità per apertura gaps

a) IOSONOUNASEQUENZA |||||||| |||||||1) IOSONOUNOSEQUENZO

a) IOSONOUNASEQUENZA |||||||| |||||||2) IOSONOUN-SEQUENZO

Identità = 15

Identità = 15-2 = 13

a) IOSONOUNASEQUENZA1) IOSONOUNOSEQUENZO Mutazione2) IOSONOUNSEQUENZO Delezione

GAP insertion penalty = -2 per ogni nuovo gap inserito

Page 31: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Penalità per estensione gaps

a) IOSONOUNASEQUENZA | |||||| ||| |||1) I-SONOUN-SEQ-ENZO

Identità = 13 –2 -2 -2 = 7

a) IOSONOUNASEQUENZA1) ISONOUNSEQENZO2) IOSONOSEQUENZO

GAP extension penalty = -1 per ogni estensione di un gap già presente

a) IOSONOUNASEQUENZA |||||| |||||||2) IOSONO---SEQUENZO

Identità = 13 -2 -1 -1 = 9

Page 32: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Significato strutturaleALFAELICAUNOALFAELICADUEALFAELICAUNOLALFAELICADUE apertura gapALFAELICAUNOLOOOPALFAELICADUE estensione gap

Apertura gap Estensione gap

Page 33: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Penalità per gaps

I O S O N U N A S E Q U E N Z A

I

O

N

O

U

N

S

O

Q

IOSON-UNASEQUENZA | || || | | I--ONOUN-SOQ

Page 34: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

d d + 1+ 1? ? = il maggiore fra= il maggiore fra x x - 2- 2

y y - 2- 2

dd yy

xx ??

3 3 = 3= 3? =? = 4 – 2 4 – 2 = 2= 2

2 – 22 – 2 = 0= 0

PD con gap penalties

dd yy

xx ??

dd? ? = il maggiore fra= il maggiore fra x x - 2- 2

y y - 2- 2

33 22

44 ??

33 22

44 33

Page 35: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

PD con gap penaltiesI O S O N U N A S E Q U E N Z A

I

O

N

O

U

N

S

O

Q

00 00 00 00 00 00 00 00

00 11 00 00 00 00 00 00

00 00 22 00 11 00 00 00

00 00 00 22 00 22 00 11 11

00 00 11 00 33 11 22 00 11 11

00 00 00 11 11 33 22 22 11 11 11

11 11 33 33 22 11 11 11

11 11 11 33 33 33 11 11 11 11

11 22 11 11 33 33 33 11 11 11 11

11 22 11 11 33 33 44 22 11 11

IOSONUNASEQUENZA || | | IONOUNSOQ

Punteggi

+1+1

+0+0

-2-2

-2-2

Page 36: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Classi di aminoacidi

IL

V

GA

E DF YW

K

H

C

PIdrofobici

Polari

Positivi

R

S T

Aromatici Negativi

Piccoli

QN

-OH

M

Page 37: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Punteggio di similarità

Similarità = 6*2 + 3*1 = 15

ARVILPEDPSTRYTT ||.|. |.| | AVIVPDQPTTEY

| Aminoacidi identici = 2 punti

. Aminoacidi simili = 1 punto

Aminoacidi diversi = 0 punti

Page 38: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Matrice di sostituzione

A C D E F G H I K L M N P Q R S T V W YA 2 1 1 1 1 1 1 1 1 1C 2 1 1 1 1 1 1 1D 2 1E 2F 2 1 1 1 1 1 1 1G 2 1 1 1 1 1 1H 2 1 1I 2 1 1 1 1K 2 1L 2 1 1 1M 2 1 1 1 1 1N 2 1 1 1 1P 2 1 1Q 2 1 1 1R 2S 2 1 1T 2 1V 2 1W 2 1Y 2

Page 39: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Calcolo con matriceA C D E F

A 2 1 …

C 2 …

D 2 1 …

E 2 …

F …

AAADE | .. ADCEC

Punteggio = AA + AD + AC + DE + EC =

2 + 0 + 1 + 1 + 0

Un allineamento

Page 40: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Punteggio di similarità

Similarità = 5*2 + 3*1 – 2*2 – 3*1 = 6

ARVILPEDDPSTRYYYTT AVIVPD-QPTT----EY

5 Coppie identici = 2 punti3 Coppie simili = 1 punto4 Coppie diversi = 0 punti 2 Inserzione Gap = -2 punti3 Estensione Gap = -1 punto

Page 41: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

A C D E F G H I K L M N P Q R S T V W Y

A 2 -2 0 0 -4 1 -1 -1 -1 -2 -1 0 1 0 -2 1 1 0 -6 -3C 12 -5 -5 -4 -3 -3 -2 -5 -6 -5 -4 -3 -5 -4 0 -2 -2 -8 0D 4 3 -6 1 1 -2 0 -4 -3 2 -1 2 -1 0 0 -2 -6 -4E 4 -5 0 1 -2 0 -3 -2 1 -1 2 -1 0 0 -2 -6 -4F 8 -5 -2 1 -5 2 0 -4 -5 -5 -4 -3 -3 -1 0 6G 5 -2 -3 -2 -4 -3 0 -1 -1 -3 1 0 -1 -6 -5H 6 -2 0 -2 -2 2 0 3 2 -1 -1 -2 -3 0I 5 -2 2 2 -2 -2 -2 -2 -1 0 4 -5 -1

K 5 -3 0 1 -1 1 3 0 0 -2 -3 -4L 6 4 -3 -3 -2 -3 -3 -2 2 -2 -1

M 6 -2 -2 -1 0 -2 -1 2 -4 -2N 2 -1 1 0 1 0 -2 -4 -2P 6 0 0 1 0 -1 -6 -5Q 4 1 -1 -1 -2 -5 -4R 6 0 -1 -2 2 -4S 2 1 -1 -2 -3T 3 0 -5 -3V 4 -6 -2W 17 0Y 10

Una vera matrice di sostituzione

Page 42: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Needleman & WunschI V S V N Y E S S V Q Y E N W A

I

V

N

V

Y

N

S

V

Q

Punteggi

+1+1

+0+0

+2+2

Page 43: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Needleman & Wunsch

dd yy

xx ??

d d + 2+ 2? ? == x x - 2- 2

y y - 2- 2

d d + 1+ 1? ? == x x - 2- 2

y y - 2- 2

d d ? ? == x x - 2- 2

y y - 2- 2

dd yy

xx ??

dd yy

xx ??

33 22

77 ??

3 + 1 3 + 1 = 4= 4? =? = 7 – 2 7 – 2 = 5= 5

2 – 22 – 2 = 0= 0

33 22

77 55

Page 44: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Needleman & WunschI V S V N Y E S S V Q Y E N W A

I

V

N

V

Y

N

S

V

Q

IVSVNYESSVQYENWA ||.| | .||| IVNV-Y-NSVQ

22 11 11 11 11

11 44 22 22 11 22 11 11 22

22 55 33 44 22 11 11 33 22 22 11

11 11 33 77 55 55 33 11 11 33 11 44 22 33 11

11 22 55 88 77 55 44 22 11 44 33 44 33 11 33

22 44 77 99 77 66 55 44 33 55 33 66 44 33

22 33 55 88 99 99 88 66 55 44 55 44 66 55

11 22 44 44 66 88 99 99 1010 88 77 66 55 55 66

33 22 33 55 66 99 1010 99 1212 1010 99 88 77 66

IVSVNYESSVQYENWA ||. .||| IVNVYNSVQ

Punteggi

+1+1

+0+0

+2+2

Page 45: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Locale e Globale

LTGARDWEDIPLWTDWDIEQESDFKTRAFGTANCHE ||   | |  |   |     |  ||  || | | TGIPLWTDWDLEQESDNSCNTDHYTREWGTMNAHKAG

LTGARDWEDIPLWTDWDIEQESDFKTRAFGTANCHKE         |||||||| |||||       TGIPLWTDWDLEQESDNSCNTDHYTREWGTMNAHKAG

Allineamento globale

Allineamento locale

Punteggio di Identità = 13

Punteggio di Identità = 13

Page 46: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Significato BiologicoAllineamento globale

Allineamento locale

Page 47: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Algoritmi locali e globaliI O S O N U N A S E Q U E N Z A

I

O

N

O

U

N

S

O

Q

IOSONUNASEQUENZA ION---OU----N--SOQ

U-NASNOUNS

Globale

Locale

Page 48: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Smith-WatermanI V S V N V E Y N W A Y E N W A

I

V

N

V

Y

N

S

V

Q

Punteggi

+0+0

+2+2

-2-2

-2-2

-2-2

22

44 22 22 22 22

22 44 22 44 22 22 22

22 22 66 44 66 44 33 22 22

22 44 66 44 44 66 44 33 22 22

33 66 44 33 44 88 66 55 44 33 22 11

22 22 44 22 22 33 66 55 66 55 33 33 11 11

11 22 44 33 66 44 33 55 66 44 44 33 11 33

22 22 44 44 44 44 44 44 44 44 22 33 11 11

Page 49: Allineamenti di sequenze Misura della somiglianza di 2 geni o proteine dalle loro sequenze.

Smith-WatermanI V S V N V E Y N W A Y E N W A

I

V

N

V

Y

N

S

V

Q

IVSVNVEYNWAYENWA ||| || IVNV-YNSVQ

22

44 22 22 22 22

22 44 22 44 22 22 22

22 22 66 44 66 44 33 22 22

22 44 66 44 44 66 44 33 22 22

33 66 44 33 44 88 66 55 44 33 22 11

22 22 44 22 22 33 66 55 66 55 33 33 11 11

11 22 44 33 66 44 33 55 66 44 44 33 11 33

22 22 44 44 44 44 44 44 44 44 22 33 11 11