Introduction à la comparaison de séquences

Documents pareils
La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Big data et sciences du Vivant L'exemple du séquençage haut débit

Perl Orienté Objet BioPerl There is more than one way to do it

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

Principe d un test statistique

Identification de nouveaux membres dans des familles d'interleukines

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

Bases moléculaires des mutations Marc Jeanpierre

Introduction à la Programmation par Contraintes (PPC) Ruslan Sadykov LIX, École Polytechnique

Raisonnement par récurrence Suites numériques

Exercice 6 Associer chaque expression de gauche à sa forme réduite (à droite) :

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Microsoft Excel : tables de données

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Théorie des sondages : cours 5

Bureau N301 (Nautile)

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

MABioVis. Bio-informatique et la

RoCaWeb. Reconstruction de spécifications pour la détection d intrusion Web. Yacine Tamoudi(1), Djibrilla Amadou Kountché(2), Alain Ribault(1),

Le théorème de Thalès et sa réciproque

Introduction à l approche bootstrap

Associations Dossiers pratiques

TD de Biochimie 4 : Coloration.

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Extraction d information des bases de séquences biologiques avec R

La nouvelle planification de l échantillonnage

AC AB. A B C x 1. x + 1. d où. Avec un calcul vu au lycée, on démontre que cette solution admet deux solutions dont une seule nous intéresse : x =

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Chap 4: Analyse syntaxique. Prof. M.D. RAHMANI Compilation SMI- S5 2013/14 1

) ) ) ) Structure et optimisation des coûts de la conformité Analyse comparée de PCI DSS et ISO CNIS EVENT. 27 avril 2011.

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Plus courts chemins, programmation dynamique

La diffusion des résultats statistiques du recensement de la population

Les suites numériques

Résolution de systèmes linéaires par des méthodes directes

III- Raisonnement par récurrence

Insulinothérapie et diabète de type 1

OPTIMISEZ VOS INVESTISSEMENTS POUR MAXIMISER VOS RÉSULTATS Pablo Stevenson Ressac Media 13 mai 2008

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

INF 232: Langages et Automates. Travaux Dirigés. Université Joseph Fourier, Université Grenoble 1 Licence Sciences et Technologies

Les probabilités. Chapitre 18. Tester ses connaissances

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

6 - Le système de gestion de fichiers F. Boyer, UJF-Laboratoire Lig, Fabienne.Boyer@imag.fr

Leslie REGAD ; Gaëlle LELANDAIS. leslie.regad@univ- paris- diderot.fr ; gaelle.lelandais@univ- paris- diderot.fr

Décision Markovienne appliquée à un jeu de stop ou encore : Pickomino (Heckmeck Am Bratwurmeck)

Item 169 : Évaluation thérapeutique et niveau de preuve

Analyse Combinatoire

Limitations of the Playstation 3 for High Performance Cluster Computing

Arbres binaires de décision

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Observatoire National de la santé des jeunes. Accès aux droits et aux soins

Ebauche Rapport finale

Fiche de version N 12.28a Nov SOMMAIRE

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Feuille d exercices 2 : Espaces probabilisés

Codage d information. Codage d information : -Définition-

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

PLAN STATISTIQUE AUTOMOBILE DU QUÉBEC Définitions

Pour l épreuve d algèbre, les calculatrices sont interdites.

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Équations non linéaires

Mesure agnostique de la qualité des images.

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Cours de Probabilités et de Statistique

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

Résolution d équations non linéaires

Pourquoi l apprentissage?

Comptes rendus d Activités Techniques et Financières du Service de l Eau Potable Année 2004

ACCRÉDITATION DES CENTRES PRIVÉS ET DES PROGRAMMES DE FORMATION PROFESSIONNELLE EN HAÏTI. Formulaire de demande d une autorisation de fonctionnement

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Représentation des Nombres

Alarme domestique- Présentation

Programmation Par Contraintes

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

EVALUATION DU RISQUE CHIMIQUE

Eteindre. les. lumières MATH EN JEAN Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

webanalyste Boostez les performances de votre site Web grâce aux conseils du webanalyste

Chapitre 7. Récurrences

TESTS D'HYPOTHESES Etude d'un exemple

Exercice : la frontière des portefeuilles optimaux sans actif certain

Planche n o 22. Fonctions de plusieurs variables. Corrigé

1. Pourquoi? Les avantages d un bon référencement

Jean-Philippe Préaux

Secure Advantage Revenus Garantis

L évolution des modes de communication, comment adapter les enquêtes en population générale? L expérience de l enquête KABP VIH/sida 2010

Informatique Générale

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Trucs et astuces N o 2.1 COMMENT AJUSTER VOTRE TABLETTE PORTE-CLAVIER

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

IFT1215 Introduction aux systèmes informatiques

Prédiction de la structure d une

SOMMAIRE. Travailler avec les requêtes... 3

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Transcription:

Introduction à la comparaison de séquences - Université de Lille 1-2 eme Semestre

Pourquoi comparer des séquences Recherche de similarités. Déterminer si des séquences sont homologues. Rechercher les exons/introns....

Le DotPlot Le principe : T T C T A C T A T C T G C T Le résultat :

Le DotPlot Le principe : T T C T A C T A T C T G C T Le résultat :

Le DotPlot Le principe : T T C T A C T A T C T G C T Avec des outils plus évolués (dotter) :

Alignement Mettre en concordance les résidues communs. Insertion, délétion, match et mismatch/substitution. Ajout de Gaps. séquence 1 : C A C C C T G G A T G G séquence 2 : C C C C A G A A C T G G sites : 1 2 3 4 5 6 7 8 9 10 11 12 13

Alignement de séquences nucléiques Choisir la meilleure concordance Utilisation d un score/similarité : match 2, indel -1, mismatch -1. Pourcentage d identité. Pourcentage de similarité. Exemple : ATCATG, TACCTA. A T C A T G T A C C T A Score = 2 A T C A T G T A C C T A Score = 1 A T C A T G T A C C T A Score = 2

Alignement de séquences nucléiques Construction de l alignement maximisant le score : algorithme de Needleman et Wunch. C est un alignement global. Utilisation de gaps affines. Pas de pénalité pour les gaps en ouverture et fermeture.

Alignement de séquences nucléiques Alignement local : utilisation de l algorithme de Smith et Watermann. Trouver la région de similarité maximale entre deux séquences. Alignement global : GGCTGACCACCTT et GATCACTTCCATG 1 G G C T G A C C A C C _ T T 13 1 G A _ T C A C T T C C A T G 13 Résultat souhaité : 5 G A C C A C C T T 13 1 G A T C A C _ T T 8

Alignement de séquences protéiques On travaille sur l alphabet suivant : A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y. Même méthode, mais tous les matches et mismatches ne sont pas équivalents (physico-chimiques). Matrice de substitution : permet d évaluer les scores des substitutions entres lettres Deux familles de matrices : les matrices PAM et BLOSUM.

Alignement de séquences protéiques Exemple de matrice :

Alignement de séquences protéiques Principe général Matrices : sont calculées selon le principe du log-odd-ratio. odd-ratio = Pr(observe) Pr(attendu) p odd-ratio(a,b) = a,b p a p b pour deux lettres a, b avec : p a,b : probabilité d observer a aligné à b sur deux séquences homogues. p a p b : probabilité attendu d aligner a à b sur deux séquences non-homogues. log-odd-ratio = log odd-ratio

Alignement de séquences protéiques Matrices PAM (Point Accepted Mutations) 1-PAM : en moyenne une mutation tous les 100 acides aminés. Mab = Pr(a b) = Pr(a b a changé) Pr(a changé) M ab = f ab fa f a f 1 100p a p a la probabilité d observer a. f ab nombre de fois ou a est muté en b. f nombre d acides aminés impliqués dans des mutations. f a nombre de fois ou a est muté. Le score de substitution est le ratio entre la probabilité d observer la mutation de a vers b et d observer b par chance. Scoreab = 10 log 10 M ab p b On prend le log que l on multiplie par 10 pour des raisons arithmétiques... 250-PAM : la matrice PAM à la puissance 250. X-PAM : la matrice PAM à la puissance X.

Alignement de séquences protéiques Matrices PAM (Point Accepted Mutations). On utilise X-PAM (ou PAM X) avec X choisi suivant l évolution séparant les séquences que l on veut comparer. En pratique on ne connait pas l évolution séparant les séquences, on essaye donc différentes valeurs de X. Un petit X est utile pour détecter des similarités fortes. Un grand X est utile pour détecter des similarités faibles. Les valeurs supérieures à 0 ont une mutabilité plus élevée que prévu. Les valeurs égales à 0 ont une mutabilité normale. Les valeurs inférieures à 0 ont une mutabilité moins élevée que prévu.

Alignement de séquences protéiques Exemple : PAM 120 K A L M R V A K N S -4 3-4 -3-1 Score = -9

Alignement de séquences protéiques Les matrices PAM sont de moins en moins utilisées L échantillon de données des matrices PAM récolté en 1978 est restreint. La plupart des séquences protéiques des matrices PAM sont biaisées ; en effet, elles représentent majoritairement des petites protéines globulaires. Hypothèse de parcimonie. Les erreurs commises dans l estimation de PAM-1 sont amplifiées dans PAM-X, X > 1. On utilise plutôt les matrices BLOSUM...

Alignement de séquences protéiques Matrices BLOSUM-X (BLOcks SUbstitution Matrices). Même principe que PAM mais on calcule les fréquences et les probabilités en se basant sur un alignement local avec au moins X% d identité. Construites à partir de 2000 BLOCKS provenant de plus de 500 familles de protéines. Les BLOCKS sont des régions conservées de familles de protéines ne contenant pas d insertions ou de délétions. Création des familles de matrices, dans lesquelles les séquences ont un degré de similarité supérieur ou égal à un certain pourcentage. Blosum-80 : Construite avec des séquences partageant au moins 80% de similarité. Blosum-62 : Construite avec des séquences partageant au moins 62% de similarité.

Alignement de séquences protéiques BLOSUM-X Les valeurs supérieures à 0 ont une mutabilité inférieure à ce qui est prévu par chance. Les valeurs inférieures à 0 ont une mutabilité supérieure à ce qui est prévu par chance. Les valeurs égales à 0 ont une mutabilité égale à ce qui est prévu par chance. Un petit X est utile pour détecter des similarités faibles. Un grand X est utile pour détecter des similarités fortes.

Probabilité d observer un alignement dû au hasard : PRSS alignement deux à deux sans gap : on construit un alignement au hasard a a a a t t t t... a t c g a t c g... proba d oberver un match : p = 4 16 proba d observer k matches dans un alignement de n nucléotides : p(m = k) = Cn k p k (1 p) n k. proba d observer plus de 25 matches pour un alignement de taille 100 : 0, 54 (1 chance sur 2) proba d observer plus de 33 matches pour un alignement de taille 100 : 0, 05 (1 chance sur 20) plus compliqué avec des gaps... PRSS : pour deux séquences il calcule leur score optimal et la probabilité d observer un alignement dû au hasard avec au moins le même score.

Alignement multiple principe : s2 c g a - - - g c c a t t g t a g c t s3 c g a - - - - c c a t t g t a g c t s1 c g a t g a g t c a t t g t - g - - s4 c g a t g a g t c a c t g t - g - - On maximise quel score? Sum of Pairs Score = somme des scores des colonnes. SP(m i ) = s(m j i, mk i ) 1 j<k n m i = la i-ème colonne de l alignement m j i = j-ème élément dans la colonne i

Alignement multiple jeu de scores : s(x, x) = 1, s(x, y) = 1, s(x, ) = s(, x) = 2, s(, ) = 0 A A C G T A C G A T A A - C G T A - A A T G G T C G T A - - T T A ------------------------------- (1-2) 1-2 1 1 1 1-2 -1 1 1-1 (1-3) -1-1 1 1 1 1-2 -1-1 1 1 (2-3) -1-2 1 1 1 1 0-2 -1 1-1 = = = = = = = = = = = -1-5 3 3 3 3-4 -5-1 3-1 = -2

Alignement multiple Mais on ne sait pas calculer efficacement l alignement de score maximal. On va utiliser des méthodes d approximation (des heuristiques). Les méthodes les plus employées : Clustal et Dialign. Il en existe beaucoup : DCA, MSA, PIMA, MULTALIGN, PILEUP, Coffee, HMMT, T-Coffee, POA, ProbCons, Multi-LAGAN, Muscle, MAFFT... Il faut connaître leurs principes pour pouvoir éviter leurs artefacts (et savoir lesquelles utiliser).

Clustal 1 Alignement deux à deux des séquences. 2 Construction d un arbre basé sur le score des alignements.! Attention ce n est pas un arbre phylogénétique! 3 Alignement progressif des séquences en suivant l ordre induit par l arbre.

CLUSTAL - exemple 4 séquences jeu de score s 1 s 2 s 3 s 4 cgatgagtcattgtgactg cgagccattgtagctactg cgaccattgtagctacctg cgatgagtcactgtgactg indel : -2, substitution : -1, identité : 1

Etape 1 calcul des scores de similarité de tous les alignements s1 cgatgagtcattgt-g--actg s2 cgagccattgtagcta-ctg s2 cga-g--ccattgtagctactg s3 cga-ccattgtagctacctg s1 cgatgagtcattg-tgactg s2 cga-g--ccattgtagctactg s3 cgacca-ttgtagctacctg s4 cgatgagtcactgt-g--actg s1 cgatgagtcattgtgactg s3 cgaccattgtagctacctg s4 cgatgagtcactgtgactg s4 cgatgagtcactgtgactg tableau des scores d alignement : s 1 s 2 s 3 s 4 s 1 2 0 17 s 2 2 14 0 s 3 0 14 1 s 4 17 0 1 n séquences n(n 1)/2 calculs

Etape 2 construction de l arbre guide arbre obtenu avec l algorithme de Neighbor-Joining S1 S2 S4 S3 S1 S4 S2 S3 regroupement des séquences suivant leur similarité à partir de la matrice des scores 2 à 2.

Etape 3 construction de l alignement multiple final s1 s4 s2 s3 cgatgagtcattgtgactg cgatgagtcactgtgactg cgagccattgtagctactg cgaccattgtagctacctg

Etape 3 construction de l alignement multiple final s1 cgatgagtcattgtgactg s4 cgatgagtcactgtgactg s2 cgagccattgtagcta-ctg s3 cga-ccattgtagctacctg s1 s4 s2 s3 cgatgagtcattgtgactg cgatgagtcactgtgactg cgagccattgtagctactg cgaccattgtagctacctg

Etape 3 Once a gap, always a gap. construction de l alignement multiple final s2 cga---gccattgtagctac-tg s3 cga----ccattgtagctacctg s1 cgatgagtcattgt-g--ac-tg s4 cgatgagtcactgt-g--ac-tg s1 cgatgagtcattgtgactg s4 cgatgagtcactgtgactg s2 cgagccattgtagcta-ctg s3 cga-ccattgtagctacctg s1 s4 s2 s3 cgatgagtcattgtgactg cgatgagtcactgtgactg cgagccattgtagctactg cgaccattgtagctacctg

Dialign 1 Alignement deux à deux des séquences. 2 Sélection de diagonales (sous séquences conservées). 3 Recherche d un ensemble de diagonales consistantes avec un alignement multiple. 4 Alignement multiple des séquences en se basant sur les diagonales consistantes.

DIALIGN Étape 2 : détection des diagonales dans les paires de séquences Y I A F L F A W D D S W E D F M F A E D L A C F I F G S Étape 3 : sélection d un ensemble cohérent de diagonales pour construire l alignement pas de croisements pas de chevauchements score maximal y I A - F L F A W D d - L A c F I F g s - - s w e d F M F A E D -

CLUSTAL vs. DIALIGN Exemple GARFIELD THE LAST FAT CAT GARFIELD THE FAT CAT GARFIELD THE VERY FAST CAT THE FAT CAT

CLUSTAL vs. DIALIGN Exemple Alignement fourni par Clustal GARFIELD THE LAST FAT CAT GARFIELD THE FAT CAT GARFIELD THE VERY FAST CAT THE FAT CAT seq1 seq2 seq3 seq4 GARFIELDTHELASTFA-TCAT ----GARFIELDTHEFA-TCAT GARFIELDTHEVERYFASTCAT ------------THEFA-TCAT

CLUSTAL vs. DIALIGN Exemple Alignement fourni par Clustal GARFIELD THE LAST FAT CAT GARFIELD THE FAT CAT GARFIELD THE VERY FAST CAT THE FAT CAT seq1 seq2 seq3 seq4 GARFIELDTHELASTFA-TCAT ----GARFIELDTHEFA-TCAT GARFIELDTHEVERYFASTCAT ------------THEFA-TCAT Alignement fourni par Dialign2 seq1 GARFIELD THE LAST FA-T CAT seq2 GARFIELD THE ---- FA-T CAT seq3 GARFIELD THE VERY FAST CAT seq4 -------- THE ---- FA-T CAT

Quelle méthode utiliser? cela dépend du type de séquences à aligner... BaliBASE : base de données d alignements multiples et de benchmarks plus de 150 familles de protéines alignements basés sur la structure secondaire Référence 1 séquences équidistantes avec différents niveaux de conservation Référence 2 protéines homologues + 1 séquence orpheline Référence 3 sous-groupes avec moins de 25% d identité entre les groupes Référence 4 extensions N/C-terminales Référence 5 insertions internes Réf. 1, 2 et 3 : préférer Clustal à Dialign2 Réf. 4 et 5 : préférer Dialign2 à Clustal