Introduction à la comparaison de séquences

Introduction à la comparaison de séquences - Université de Lille 1-2 eme Semestre

Pourquoi comparer des séquences Recherche de similarités. Déterminer si des séquences sont homologues. Rechercher les exons/introns....

Le DotPlot Le principe : T T C T A C T A T C T G C T Le résultat :

Le DotPlot Le principe : T T C T A C T A T C T G C T Avec des outils plus évolués (dotter) :

Alignement Mettre en concordance les résidues communs. Insertion, délétion, match et mismatch/substitution. Ajout de Gaps. séquence 1 : C A C C C T G G A T G G séquence 2 : C C C C A G A A C T G G sites : 1 2 3 4 5 6 7 8 9 10 11 12 13

Alignement de séquences nucléiques Choisir la meilleure concordance Utilisation d un score/similarité : match 2, indel -1, mismatch -1. Pourcentage d identité. Pourcentage de similarité. Exemple : ATCATG, TACCTA. A T C A T G T A C C T A Score = 2 A T C A T G T A C C T A Score = 1 A T C A T G T A C C T A Score = 2

Alignement de séquences nucléiques Construction de l alignement maximisant le score : algorithme de Needleman et Wunch. C est un alignement global. Utilisation de gaps affines. Pas de pénalité pour les gaps en ouverture et fermeture.

Alignement de séquences nucléiques Alignement local : utilisation de l algorithme de Smith et Watermann. Trouver la région de similarité maximale entre deux séquences. Alignement global : GGCTGACCACCTT et GATCACTTCCATG 1 G G C T G A C C A C C _ T T 13 1 G A _ T C A C T T C C A T G 13 Résultat souhaité : 5 G A C C A C C T T 13 1 G A T C A C _ T T 8

Alignement de séquences protéiques On travaille sur l alphabet suivant : A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y. Même méthode, mais tous les matches et mismatches ne sont pas équivalents (physico-chimiques). Matrice de substitution : permet d évaluer les scores des substitutions entres lettres Deux familles de matrices : les matrices PAM et BLOSUM.

Alignement de séquences protéiques Exemple de matrice :

Alignement de séquences protéiques Principe général Matrices : sont calculées selon le principe du log-odd-ratio. odd-ratio = Pr(observe) Pr(attendu) p odd-ratio(a,b) = a,b p a p b pour deux lettres a, b avec : p a,b : probabilité d observer a aligné à b sur deux séquences homogues. p a p b : probabilité attendu d aligner a à b sur deux séquences non-homogues. log-odd-ratio = log odd-ratio

Alignement de séquences protéiques Matrices PAM (Point Accepted Mutations) 1-PAM : en moyenne une mutation tous les 100 acides aminés. Mab = Pr(a b) = Pr(a b a changé) Pr(a changé) M ab = f ab fa f a f 1 100p a p a la probabilité d observer a. f ab nombre de fois ou a est muté en b. f nombre d acides aminés impliqués dans des mutations. f a nombre de fois ou a est muté. Le score de substitution est le ratio entre la probabilité d observer la mutation de a vers b et d observer b par chance. Scoreab = 10 log 10 M ab p b On prend le log que l on multiplie par 10 pour des raisons arithmétiques... 250-PAM : la matrice PAM à la puissance 250. X-PAM : la matrice PAM à la puissance X.

Alignement de séquences protéiques Matrices PAM (Point Accepted Mutations). On utilise X-PAM (ou PAM X) avec X choisi suivant l évolution séparant les séquences que l on veut comparer. En pratique on ne connait pas l évolution séparant les séquences, on essaye donc différentes valeurs de X. Un petit X est utile pour détecter des similarités fortes. Un grand X est utile pour détecter des similarités faibles. Les valeurs supérieures à 0 ont une mutabilité plus élevée que prévu. Les valeurs égales à 0 ont une mutabilité normale. Les valeurs inférieures à 0 ont une mutabilité moins élevée que prévu.

Alignement de séquences protéiques Exemple : PAM 120 K A L M R V A K N S -4 3-4 -3-1 Score = -9

Alignement de séquences protéiques Les matrices PAM sont de moins en moins utilisées L échantillon de données des matrices PAM récolté en 1978 est restreint. La plupart des séquences protéiques des matrices PAM sont biaisées ; en effet, elles représentent majoritairement des petites protéines globulaires. Hypothèse de parcimonie. Les erreurs commises dans l estimation de PAM-1 sont amplifiées dans PAM-X, X > 1. On utilise plutôt les matrices BLOSUM...

Alignement de séquences protéiques Matrices BLOSUM-X (BLOcks SUbstitution Matrices). Même principe que PAM mais on calcule les fréquences et les probabilités en se basant sur un alignement local avec au moins X% d identité. Construites à partir de 2000 BLOCKS provenant de plus de 500 familles de protéines. Les BLOCKS sont des régions conservées de familles de protéines ne contenant pas d insertions ou de délétions. Création des familles de matrices, dans lesquelles les séquences ont un degré de similarité supérieur ou égal à un certain pourcentage. Blosum-80 : Construite avec des séquences partageant au moins 80% de similarité. Blosum-62 : Construite avec des séquences partageant au moins 62% de similarité.

Alignement de séquences protéiques BLOSUM-X Les valeurs supérieures à 0 ont une mutabilité inférieure à ce qui est prévu par chance. Les valeurs inférieures à 0 ont une mutabilité supérieure à ce qui est prévu par chance. Les valeurs égales à 0 ont une mutabilité égale à ce qui est prévu par chance. Un petit X est utile pour détecter des similarités faibles. Un grand X est utile pour détecter des similarités fortes.

Probabilité d observer un alignement dû au hasard : PRSS alignement deux à deux sans gap : on construit un alignement au hasard a a a a t t t t... a t c g a t c g... proba d oberver un match : p = 4 16 proba d observer k matches dans un alignement de n nucléotides : p(m = k) = Cn k p k (1 p) n k. proba d observer plus de 25 matches pour un alignement de taille 100 : 0, 54 (1 chance sur 2) proba d observer plus de 33 matches pour un alignement de taille 100 : 0, 05 (1 chance sur 20) plus compliqué avec des gaps... PRSS : pour deux séquences il calcule leur score optimal et la probabilité d observer un alignement dû au hasard avec au moins le même score.

Alignement multiple principe : s2 c g a - - - g c c a t t g t a g c t s3 c g a - - - - c c a t t g t a g c t s1 c g a t g a g t c a t t g t - g - - s4 c g a t g a g t c a c t g t - g - - On maximise quel score? Sum of Pairs Score = somme des scores des colonnes. SP(m i ) = s(m j i, mk i ) 1 j<k n m i = la i-ème colonne de l alignement m j i = j-ème élément dans la colonne i

Alignement multiple jeu de scores : s(x, x) = 1, s(x, y) = 1, s(x, ) = s(, x) = 2, s(, ) = 0 A A C G T A C G A T A A - C G T A - A A T G G T C G T A - - T T A ------------------------------- (1-2) 1-2 1 1 1 1-2 -1 1 1-1 (1-3) -1-1 1 1 1 1-2 -1-1 1 1 (2-3) -1-2 1 1 1 1 0-2 -1 1-1 = = = = = = = = = = = -1-5 3 3 3 3-4 -5-1 3-1 = -2

Alignement multiple Mais on ne sait pas calculer efficacement l alignement de score maximal. On va utiliser des méthodes d approximation (des heuristiques). Les méthodes les plus employées : Clustal et Dialign. Il en existe beaucoup : DCA, MSA, PIMA, MULTALIGN, PILEUP, Coffee, HMMT, T-Coffee, POA, ProbCons, Multi-LAGAN, Muscle, MAFFT... Il faut connaître leurs principes pour pouvoir éviter leurs artefacts (et savoir lesquelles utiliser).

Clustal 1 Alignement deux à deux des séquences. 2 Construction d un arbre basé sur le score des alignements.! Attention ce n est pas un arbre phylogénétique! 3 Alignement progressif des séquences en suivant l ordre induit par l arbre.

CLUSTAL - exemple 4 séquences jeu de score s 1 s 2 s 3 s 4 cgatgagtcattgtgactg cgagccattgtagctactg cgaccattgtagctacctg cgatgagtcactgtgactg indel : -2, substitution : -1, identité : 1

Etape 1 calcul des scores de similarité de tous les alignements s1 cgatgagtcattgt-g--actg s2 cgagccattgtagcta-ctg s2 cga-g--ccattgtagctactg s3 cga-ccattgtagctacctg s1 cgatgagtcattg-tgactg s2 cga-g--ccattgtagctactg s3 cgacca-ttgtagctacctg s4 cgatgagtcactgt-g--actg s1 cgatgagtcattgtgactg s3 cgaccattgtagctacctg s4 cgatgagtcactgtgactg s4 cgatgagtcactgtgactg tableau des scores d alignement : s 1 s 2 s 3 s 4 s 1 2 0 17 s 2 2 14 0 s 3 0 14 1 s 4 17 0 1 n séquences n(n 1)/2 calculs

Etape 2 construction de l arbre guide arbre obtenu avec l algorithme de Neighbor-Joining S1 S2 S4 S3 S1 S4 S2 S3 regroupement des séquences suivant leur similarité à partir de la matrice des scores 2 à 2.

Etape 3 construction de l alignement multiple final s1 s4 s2 s3 cgatgagtcattgtgactg cgatgagtcactgtgactg cgagccattgtagctactg cgaccattgtagctacctg

Etape 3 construction de l alignement multiple final s1 cgatgagtcattgtgactg s4 cgatgagtcactgtgactg s2 cgagccattgtagcta-ctg s3 cga-ccattgtagctacctg s1 s4 s2 s3 cgatgagtcattgtgactg cgatgagtcactgtgactg cgagccattgtagctactg cgaccattgtagctacctg

Etape 3 Once a gap, always a gap. construction de l alignement multiple final s2 cga---gccattgtagctac-tg s3 cga----ccattgtagctacctg s1 cgatgagtcattgt-g--ac-tg s4 cgatgagtcactgt-g--ac-tg s1 cgatgagtcattgtgactg s4 cgatgagtcactgtgactg s2 cgagccattgtagcta-ctg s3 cga-ccattgtagctacctg s1 s4 s2 s3 cgatgagtcattgtgactg cgatgagtcactgtgactg cgagccattgtagctactg cgaccattgtagctacctg

Dialign 1 Alignement deux à deux des séquences. 2 Sélection de diagonales (sous séquences conservées). 3 Recherche d un ensemble de diagonales consistantes avec un alignement multiple. 4 Alignement multiple des séquences en se basant sur les diagonales consistantes.

DIALIGN Étape 2 : détection des diagonales dans les paires de séquences Y I A F L F A W D D S W E D F M F A E D L A C F I F G S Étape 3 : sélection d un ensemble cohérent de diagonales pour construire l alignement pas de croisements pas de chevauchements score maximal y I A - F L F A W D d - L A c F I F g s - - s w e d F M F A E D -

CLUSTAL vs. DIALIGN Exemple GARFIELD THE LAST FAT CAT GARFIELD THE FAT CAT GARFIELD THE VERY FAST CAT THE FAT CAT

CLUSTAL vs. DIALIGN Exemple Alignement fourni par Clustal GARFIELD THE LAST FAT CAT GARFIELD THE FAT CAT GARFIELD THE VERY FAST CAT THE FAT CAT seq1 seq2 seq3 seq4 GARFIELDTHELASTFA-TCAT ----GARFIELDTHEFA-TCAT GARFIELDTHEVERYFASTCAT ------------THEFA-TCAT

CLUSTAL vs. DIALIGN Exemple Alignement fourni par Clustal GARFIELD THE LAST FAT CAT GARFIELD THE FAT CAT GARFIELD THE VERY FAST CAT THE FAT CAT seq1 seq2 seq3 seq4 GARFIELDTHELASTFA-TCAT ----GARFIELDTHEFA-TCAT GARFIELDTHEVERYFASTCAT ------------THEFA-TCAT Alignement fourni par Dialign2 seq1 GARFIELD THE LAST FA-T CAT seq2 GARFIELD THE ---- FA-T CAT seq3 GARFIELD THE VERY FAST CAT seq4 -------- THE ---- FA-T CAT

Quelle méthode utiliser? cela dépend du type de séquences à aligner... BaliBASE : base de données d alignements multiples et de benchmarks plus de 150 familles de protéines alignements basés sur la structure secondaire Référence 1 séquences équidistantes avec différents niveaux de conservation Référence 2 protéines homologues + 1 séquence orpheline Référence 3 sous-groupes avec moins de 25% d identité entre les groupes Référence 4 extensions N/C-terminales Référence 5 insertions internes Réf. 1, 2 et 3 : préférer Clustal à Dialign2 Réf. 4 et 5 : préférer Dialign2 à Clustal