Introduction. Alignement multiple = Alignement simultané de plusieurs séquences (Nt ou Prot)

Documents pareils
La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Big data et sciences du Vivant L'exemple du séquençage haut débit

MABioVis. Bio-informatique et la

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

Probabilités Loi binomiale Exercices corrigés

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Réseaux IUP2 / 2005 DNS Système de Noms de Domaine

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

TD de Biochimie 4 : Coloration.

Ebauche Rapport finale

Détection et prise en charge de la résistance aux antirétroviraux

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

Niveau de scolarité et emploi : le Canada dans un contexte international

Répondants et non-répondants dans les enquêtes. Analyse des séquences de contact

INF6304 Interfaces Intelligentes

Raisonnement probabiliste

Big Data et Graphes : Quelques pistes de recherche

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Nouveautés FDS Pour créer des équipements 2D et les publier à partir d'autocad

Perl Orienté Objet BioPerl There is more than one way to do it

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

CHAPITRE 2 : Structure électronique des molécules

Prédiction de la structure d une

Base de données bibliographiques Pubmed-Medline

Optimisation Combinatoire (Méthodes approchées) II. Recherche Locale simple (Les bases)

Utilisation de l'outil «Open Office TEXTE»

l'atelier Scientifique

Génétique et génomique Pierre Martin

Les bases de données transcriptionnelles en ligne

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

GUIDE DE DÉMARRAGE RAPIDE

Trucs et astuces N o 2.1 COMMENT AJUSTER VOTRE TABLETTE PORTE-CLAVIER

Identification de nouveaux membres dans des familles d'interleukines

Les arbres binaires de recherche

Corrigé des TD 1 à 5

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes

Notice d utilisation Cafetère isotherme programmable CL-ISPR12X FR-1. Version

Modélisation et simulation du trafic. Christine BUISSON (LICIT) Journée Simulation dynamique du trafic routier ENPC, 9 Mars 2005

Construction d un cercle tangent à deux cercles donnés.

Adaptateurs réseau CPL 200 Plus (PL200P)

Stratégie de recherche adaptative en programmation par contrainte

Cours d algorithmique pour la classe de 2nde

Structure quantique cohérente et incohérente de l eau liquide

CARTE DE VOEUX À L ASSOCIAEDRE

CHAPITRE V SELECTION DES CONSULTANTS ET D AUTRES PRESTATAIRES DE SERVICES

FIMA, 7 juillet 2005

Utilisation de la clé de Registre BurFlags pour réinitialiser des jeux de réplicas FRS

Le + TICE : Rendre l élève autonome et l impliquer dans son apprentissage. Comment créer une carte heuristique?

Tutoriel pour la configuration des ipad et son «rattachement» au CG

Théorie des Jeux Et ses Applications

Chapitre 3 : INFERENCE

FANTEC DB-229US Manuel de l'utilisateur

CH.6 Propriétés des langages non contextuels

Big Data et Graphes : Quelques pistes de recherche

d évaluation Objectifs Processus d élaboration

Lois de probabilité. Anita Burgun

(Third-Man Attack) PASCAL BONHEUR PASCAL 4/07/2001. Introduction. 1 Domain Name Server. 2 Commandes DNS. 3 Hacking des serveurs DNS

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Règlement pour l obtention d une bourse de Youth For Understanding (YFU) Suisse

NIMEGUE V3. Fiche technique 3.07 : Sauvegarde / Restauration manuelle

Algorithmique répartie

Limitations of the Playstation 3 for High Performance Cluster Computing

Rapport d'analyse des besoins

Algorithmique avec Algobox

Pi, poker et informatique ; une «épuisante» alliance pour des projets en mathématiques

Charger une structure Comment ouvrir un fichier avec VMD? Comment charger un fichier PDB directement depuis la Protein Data Bank? Comment charger un

A L ERT. Pour démarrer rapidement avec

Comment changer le mot de passe NT pour les comptes de service Exchange et Unity

1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : Florent.Hivert@lri.fr Page personnelle : hivert

Exercice 6 Associer chaque expression de gauche à sa forme réduite (à droite) :

Guide d installation CLX.PayMaker Office (3PC)

Introduction aux Bases de Données Relationnelles Conclusion - 1

6. Hachage. Accès aux données d'une table avec un temps constant Utilisation d'une fonction pour le calcul d'adresses

Notion de base de données

a. La masse de Jeans b. Le support des nuages moléculaires -Séquence Principale (PMS)

Compétitivité française : Quelques constats

WEBINAIRE SUR LE SUIVI DE TENDANCES

Formation. Module WEB 4.1. Support de cours

Introduction au maillage pour le calcul scientifique

Enseignement secondaire

Disponibilité et fiabilité des services et des systèmes

Intégration de la dimension sémantique dans les réseaux sociaux

Installation et configuration de base de l active Directory

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

MERLIN GESTION PATRIMONIALE. Groupe GESTION PATRIMONIALE. Définition d un programme de renouvellement

Déploiement de SAS Foundation

GUIDE D ENTRÉE, D ADMISSION ET D INSCRIPTION AUX ÉTUDES SUPÉRIEURES DE PREMIER CYCLE

RACCOURCIS CLAVIERS. DEFINITION : Une «combinaison de touches» est un appui simultané sur plusieurs touches.

Activité 11 : Nuage de points ou diagramme de dispersion

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le

Introduction à l informatique en BCPST

Disparités entre les cantons dans tous les domaines examinés

IN SYSTEM. Préconisations techniques pour Sage 100 Windows, MAC/OS, et pour Sage 100 pour SQL Server V16. Objectif :

Algorithme des fourmis appliqué à la détection et au suivi de contours dans une image

Équations non linéaires

2. Activités et Modèles de développement en Génie Logiciel

Transcription:

Introduction Alignement multiple = Alignement simultané de plusieurs séquences (Nt ou Prot) Outil essentiel pour : Signatures protéiques Homologie avec une famille de protéines particulière Structure secondaire ou tertiaire des protéines Choix d amorces pour PCR Étape pré-requise pour les analyses d évolution moléculaire Alignement Multiple : -> car alignement de 2 séquences n est pas transitif Programmation dynamique : Solution mathématique optimale -> alignement optimal Alignement de 3 séquences maximum jusqu à 8 séquences protéiques d environ 200aa (en diminuant la demande en mémoire) Insuffisant

comparaison de séquences multiples Pour algorithmes exacts beaucoup de mémoire et de temps de calcul requis. Algorithme de Needleman-Wunsch Algorithme de Smith-Waterman 2 Globines => 1 sec 3 Globines => 2 min 4 Globines => 5 hr 5 Globines => 3 semaines 6 Globines => 9 ans 7 Globines => 1000 ans Heuristiques

Introduction Méthodes approchées = Heuristiques 2 méthodes principales : détection de zones d'ancrage alignement progressif Au cours de l évolution : Accumulation non homogène de mutations le long d une séquence (zones fonctionnelles plus contraintes) Certaines positions de la protéine vont donc être conservées, mais cette conservation peut être diffuse (qq aa séparés par de grandes zones non similaires) But : détecter les zones conservées entre plusieurs séquences homologues

Plusieurs étapes : Alignement multiple : ClustalW Thompson et al., Nucleic Acids Res., 22, 4673-80 (1994) Alignement deux à deux de toutes les séquences soit algorithme de programmation dynamique (alignement global) (matrice de substitution, pondération affine des indels) soit méthode d alignement rapide (score = des mots de longueur k identiques (k-tuples) pénalité fixe pour chaque indel) k = 1 ou 2 résidus pour des protéines k = 2 à 4 résidus pour des séquences ADN Construction d une matrice de distances entre les séquences, calculée à partir des scores des alignements obtenus

Hbb-Human 1 - Exemple d une matrice de distances Extrait de Nucleic Acids Res., 22, 4673-80 (1994) Hbb_Horse 2 0.17 - Hba_Human 3 0.59 0.60 - Hba_Horse 4 0.59 0.59 0.13 - Myg_Phyca 5 0.77 0.77 0.75 0.75 - Glb5_Petma 6 0.81 0.82 0.73 0.74 0.80 - Lgb2_Luplu 7 0.87 0.86 0.86 0.88 0.93 0.90-1 2 3 4 5 6 Hbb_Human : Globine b humaine Hbb_Horse : Globine b de cheval Hba_Human : Globine a humaine Hba_Horse : Globine a de cheval Myg_Phyca : myoglobine de sperme de baleine Glb5_Petma : cyanohémoglobine de lamproie Lgb2_Luplu : Leghémoglobine de lupin

Plusieurs étapes : Alignement multiple : ClustalW Thompson et al., Nucleic Acids Res., 22, 4673-80 (1994) Alignement deux à deux de toutes les séquences soit algorithme de programmation dynamique (alignement global) soit méthode d alignement rapide ( des mots de longueur k identiques pénalité indel Construction d une matrice de distances entre les séquences, calculée à partir des scores des alignements obtenus Construction d un arbre de parenté entre ces séquences en utilisant la méthode des plus proches voisins (Neighbor Joining Method)

Arbre sans racine déduit de la matrice de distance Hba_Human Myg_Phyca Hba_Horse branche feuille Lgb2_Lupllu Racine Hbb_Human Hbb_Horse Glb5_Petma = nœud interne : ancêtre commun hypothétique Positionnement de la racine : barycentre point pour lequel la longueur moyenne des branches est égale pour sous-arbre droit et le sous-arbre gauche

Arbre enraciné déduit 0.226 0.081 Hbb_Human 0.061 0.084 Hbb_Horse 0.015 0.219 0.055 0.065 Hba_Human Hba_Horse 0.062 0.398 Myg_Phyca 0.389 Glb5_Petma 0.442 Lgb2_Lupllu

Plusieurs étapes : Alignement multiple : ClustalW Thompson et al., Nucleic Acids Res., 22, 4673-80 (1994) Alignement deux à deux de toutes les séquences soit algorithme de programmation dynamique (alignement global) soit méthode d alignement rapide ( des mots de longueur k identiques pénalité indel Construction d une matrice de distances entre les séquences, calculée à partir des scores des alignements obtenus Construction d un arbre de parenté entre ces séquences en utilisant la méthode des plus proches voisins (Neighbor Joining Method) Alignement multiple progressif : ajout des séquences en fonction de leurs distances dans l arbre (distance, on commence par aligner les deux plus proches Alignement par profil

Arbre enraciné déduit 0.015 0.061 0.226 0.219 0.081 0.084 0.055 0.065 Hbb_Human Hbb_Horse Hba_Human Hba_Horse Alignement de 2 séquences Alignement de 2 alignements Alignement de 2 séquences 0.062 0.398 Myg_Phyca Alignement de 1 séquence avec un alignement 0.389 Glb5_Petma 0.442 Lgb2_Lupllu Alignement par profil

Plusieurs problèmes pour cette approche Le problème du minimum local Lié à la nature progressive de la stratégie d alignement Pas de correction des erreurs faites dans les premiers alignements, pas de remise en cause des indels : - Mauvaise structure de l arbre initial, ordre de branchement incorrect (car arbre établi à partir d une matrice de distances réalisée à partir d alignements de séquences 2 à 2 moins fiable que les arbres provenant d un alignement multiple) - Même si topologie de l arbre correcte : un certain pourcentage de résidus mal alignés à chaque étape

Plusieurs problèmes pour cette approche Le problème du choix des paramètres Choix de la matrice de substitution : Une même matrice tout au cours de l alignement - fonctionne pour des séquences proches - problème avec des séquences divergentes Choix des pénalités de gaps : Pénalité de gaps affine (2 valeurs : ouverture d un nouveau gap et extension d un gap) Les indels ne sont pas localisés aléatoirement dans les séquences Gaps plus fréquents entre les éléments de structure secondaire (hélice a et feuillet b) qu à l intérieur de ces structures. Pas de pondérations des séquences Engendre un biais si les distances évolutives entre séquences ne sont pas également représentées

Améliorations apportées à la dernière version de ClustalW Le problème des paramètres Matrices de substitution : 4 matrices différentes utilisées au cours de l alignement multiple en fonction de la distance séparant les séquences à aligner (les distances sont mesurées directement à partir de l arbre initial) 2 séries de matrices proposées : PAM et BLOSUM BLOSUM par défaut % de similarités des séquences : 80%-100% : 60%-80% : 40%-60% : 0-40% : PAM20 PAM60 PAM120 PAM350 BLOSUM80 BLOSUM62 BLOSUM45 (30%-60%) BLOSUM30 (0-30%)

Améliorations apportées à la dernière version de ClustalW Le problème des paramètres Pondération des indels : Si un indel doit être inséré dans une région contenant déjà un indel, la pénalité d ouverture est réduite en fonction du nombre de séquences possédant cet indel, et la pénalité d extension est divisée par 2. Insertion d un indel dans une région sans indel mais dont la distance à un indel déjà présent est < 8 alors la pénalité d ouverture est augmentée Insertion d un indel dans une suite de 5aa ou plus hydrophyles alors la pénalité d ouverture est diminuée. Suite de 5aa ou plus (D,E,G,K,N,Q,P,R ou S) = boucle, random coil, donc région non impliquée dans un élément de structure secondaire

Améliorations apportées à la dernière version de ClustalW Calcul du poids des séquences : Dépend de la longueur de la branche et du nombre de séquences partageant cette branche : longueur branche/nombre feuilles partageant cette branche Poids d une séquence j = de la longueur des branches pondérées de la racine à la feuille n li Longueur de la branche W seqj = i=1 o i Nombre de séquences partageant la branche

Améliorations apportées à la dernière version de ClustalW Calcul du poids des séquences du premier exemple : Extrait de Nucleic Acids Res., 22, 4673-80 (1994) Poids 0.061 0.226 0.081 0.084 Hbb_Human Hbb_Horse 0.062/6 + 0.015/5 + 0.061/4 + 0.226/2 + 0.081 = 0.221 0.221 0.225 0.015 0.219 0.055 0.065 Hba_Human Hba_Horse 0.194 0.203 0.062 0.398 Myg_Phyca 0.411 0.389 Glb5_Petma 0.389 0.442 Lgb2_Lupllu 0.442

Exemple de l alignement multiple des protéines homologues à ComE de S. pneumoniae

Exemples de logiciels d'alignement multiple Clustal W : (Thompson, Higgins, Gibson, 1994) (progressive) www.clustal.org Clustal O : (Sievers et al., 2011) www.clustal.org/omega/ T-Coffee : (Notredame, Higgins, Heringa, 2000) tcoffee.crg.cat (consistency) Mafft : (Katoh et al., 2002) mafft.cbrc.jp/alignment/server/ (progressive/consistency, iterative) Muscle : (Edgar, 2004) www.ebi.ac.uk/tools/msa/muscle/ (progressive, iterative) Expresso/3DCoffee (Poirot, Notredame, 2004) (structures) tcoffee.crg.cat

Sélection de séquences Séquences identiques ou trop proches n'ajoutent pas d'information. Diversité : propice pour l'alignement Attention aux séquences répétées Utilisation de données expérimentales (Swiss-Prot, PDB..) Analyse de séquences Comparer les alignements obtenus avec différentes méthodes permet d'analyser les conservations et la variabilité.

Editeurs d alignements Jalview, multiplatform (JAVA) (Dundee, UK) www.jalview.org Seaview, multiplatform (+ phylogenetic trees) (Lyon, Fr) pbil.univ-lyon1.fr/software/seaview.html BioEdit, Windows (CA, USA) www.mbio.ncsu.edu/bioedit/bioedit.html

Pour les curieux : explication de l alignement par profil

Alignement par profil On cherche à aligner un groupe de 4 séquences (déjà alignées) avec un second groupe de 2 séquences (déjà alignées). Le calcul est donné pour l alignement de la position encadrée. On effectue toutes les comparaisons 2 à 2 qui sont pondérées par le poids de chacune des 2 séquences (w1 et w5 par exemple) et par la valeur dans la matrice substitution de la mutation d un acide aminé en l autre (M(T,V) par exemple). Le total est ensuite divisé par le nombre de comparaison. Le calcul décrit ci-dessus donnera le score de l alignement T L K K V I Nombre total de comparaisons