Alignement Multiple de séquences

Documents pareils
La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

MABioVis. Bio-informatique et la

Algorithmique répartie

Identification de nouveaux membres dans des familles d'interleukines

Ebauche Rapport finale

Perl Orienté Objet BioPerl There is more than one way to do it

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

Probabilités Loi binomiale Exercices corrigés

d évaluation Objectifs Processus d élaboration

de l Université Laval Orientations et exigences générales et techniques de construction

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Big data et sciences du Vivant L'exemple du séquençage haut débit

6. Hachage. Accès aux données d'une table avec un temps constant Utilisation d'une fonction pour le calcul d'adresses

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

Parallélisme et Répartition

Optimisation Combinatoire (Méthodes approchées) II. Recherche Locale simple (Les bases)

TD de Biochimie 4 : Coloration.

INF6304 Interfaces Intelligentes

Les arbres binaires de recherche

Le + TICE : Rendre l élève autonome et l impliquer dans son apprentissage. Comment créer une carte heuristique?

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

Algorithmique avec Algobox

Niveau de scolarité et emploi : le Canada dans un contexte international

T.P.E. LA PHYLLOTAXIE: ASSOCIATION DES SPIRALES DANS LA CROISSANCE DES PLANTES. Juan Carlos Marroquin, T le S.

Lois de probabilité. Anita Burgun

Joueur B Pierre Feuille Ciseaux Pierre (0,0) (-1,1) (1,-1) Feuille (1,-1) (0,0) (-1,1) Ciseaux (-1,1) (1,-1) (0.0)

GUIDE DE DÉMARRAGE RAPIDE

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes

Coup de Projecteur sur les Réseaux de Neurones

III- Raisonnement par récurrence

a. La masse de Jeans b. Le support des nuages moléculaires -Séquence Principale (PMS)

Détection et prise en charge de la résistance aux antirétroviraux

Programmation par contraintes. Laurent Beaudou

Corrigé des TD 1 à 5

Modélisation et simulation du trafic. Christine BUISSON (LICIT) Journée Simulation dynamique du trafic routier ENPC, 9 Mars 2005

NIMEGUE V3. Fiche technique 3.07 : Sauvegarde / Restauration manuelle

Algorithme des fourmis appliqué à la détection et au suivi de contours dans une image

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Efficacité énergétique des réseaux de cœur et d accès

Programmation linéaire

GUIDE D ENTRÉE, D ADMISSION ET D INSCRIPTION AUX ÉTUDES SUPÉRIEURES DE PREMIER CYCLE

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

Raisonnement probabiliste

Structure quantique cohérente et incohérente de l eau liquide

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

COMPTABILITE SAGE LIGNE 100

Règlement pour l obtention d une bourse de Youth For Understanding (YFU) Suisse

TPE/PME : comment me situer et justifier de mon statut?

Notion de base de données

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Intelligence Artificielle et Robotique

Dérivation : Résumé de cours et méthodes

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Rétablissement d un réseau cellulaire après un désastre

Examen Médian - 1 heure 30

1 Un peu d histoire. 1.1 La recherche opérationnelle : l outil mathématique

FIMA, 7 juillet 2005

CH.6 Propriétés des langages non contextuels

Gestionnaire de réseaux Linux et Windows

Exercice 6 Associer chaque expression de gauche à sa forme réduite (à droite) :

Activité 11 : Nuage de points ou diagramme de dispersion

Prédiction de la structure d une

Sauvegarde collaborative entre pairs Ludovic Courtès LAAS-CNRS

Big Data et Graphes : Quelques pistes de recherche

Améliorer les performances du site par l'utilisation de techniques de Web Mining

HFVESA. Ecole supérieure assurance (ESA) Höhere Fachschule Versicherung Ecole supérieure assurance. Une coopération entre l AFA et AKAD Business

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Réseaux IUP2 / 2005 DNS Système de Noms de Domaine

Formation «Gestion actif/passif (ALM) : L essentiel»

Chapitre 3 : INFERENCE

Téléchargez le manuel de l utilisateur sur gopro.com/support GUIDE DE DÉMARRAGE RAPIDE

I. Introduction aux fonctions : les fonctions standards

Analyse Sémantique de Nuages de Points 3D et d Images dans les Milieux Urbains

Électromécanique de systèmes automatisés

mission. Le premier poste du programme de travail du DREV vise la qualification, la quantification et le suivi

INPCA. Institution Nationale de Prévoyance du Commerce et de l Artisanat 2 / 0 / 1 / 4

Cette publication constitue un instantané

Introduction au maillage pour le calcul scientifique

Echantillonnage Non uniforme

Cours de Master Recherche

Charger une structure Comment ouvrir un fichier avec VMD? Comment charger un fichier PDB directement depuis la Protein Data Bank? Comment charger un

PLAN DE SITUATION C'est le plan qui localise votre terrain PCMI 1. SAINT DENIS - Bellepierre Parcelle AY 592. Ech : 1/ 2000 ème

Découverte du tableur CellSheet

Algorithmique avec Algobox

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Introduction aux bases de données: application en biologie

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Principe de symétrisation pour la construction d un test adaptatif

Intégration de la dimension sémantique dans les réseaux sociaux

Nouveautés FDS Pour créer des équipements 2D et les publier à partir d'autocad

PLAN DE COURS. GPA750 Ordonnancement des systèmes de production aéronautique

Permanences secrétariat : Sans rendez-vous : Du lundi au jeudi de 17h00 à 21h30. Sur rendez-vous : Les mercredi et vendredi après-midi.

Ce tutoriel ne fera pas de vous un expert sur le déploiement via WDS, mais il vous permettra de comprendre un peu les rouages de ce système.

Équations non linéaires

Théorie des Jeux Et ses Applications

FANTEC DB-229US Manuel de l'utilisateur

Les structures de données. Rajae El Ouazzani

Correction de l examen de la première session

Transcription:

Alignement Multiple de séquences

Introduction Alignement multiple = Alignement simultané de plusieurs séquences (Nt ou Prot) Outil essentiel pour : Signatures protéiques Homologie avec une famille de protéines particulière Structure secondaire ou tertiaire des protéines Choix d amorces pour PCR Étape pré-requise pour les analyses d évolution moléculaire Alignement Multiple : - car alignement de 2 séquences n est pas transitif - plus difficile Programmation dynamique : - Solution mathématique optimale, c-à-d alignement optimal - Alignement de 3 séquences maximum - jusqu à 8 séquences protéiques d environ 200aa (en diminuant la demande en mémoire) Insuffisant

Introduction Méthodes approchées = Heuristiques 2 méthodes principales : détection de zones d ancrage alignement progressif Au cours de l évolution : Accumulation non homogène de mutations le long d une séquence (zones fonctionnelles plus contraintes) Certaines positions de la protéine vont donc être conservées, mais cette conservation peut être diffuse (qq aa séparés par de grande zones non similaires) But : détecter les zones conservées entre plusieurs séquences homologues

Alignement multiple : ClustalW Plusieurs étapes : Alignement deux à deux de toutes les séquences soit algorithme de programmation dynamique (alignement global) soit méthode d alignement rapide ( des mots de longueur k identiques pénalité indel Construction d une matrice de distances entre les séquences calculées à partir des scores des alignements obtenus Construction d un arbre de parenté entre ces séquences en utilisant la méthode des plus proches voisins (Neighbor Joining Method) Alignement multiple progressif : ajout des séquences en fonction de leurs distances dans l arbre (distance, on commence par aligner les deux plus proches Alignement par profil

Exemple d une matrice de distances Hbb-Human 1 - Extrait de Nucleic Acids Res., 22, 4673-80 (1994) Hbb_Horse 2 0.17 - Hba_Human 3 0.59 0.60 - Hba_Horse 4 0.59 0.59 0.13 - Myg_Phyca 5 0.77 0.77 0.75 0.75 - Glb5_Petma 6 0.81 0.82 0.73 0.74 0.80 - Lgb2_Luplu 7 0.87 0.86 0.86 0.88 0.93 0.90-1 2 3 4 5 6 Hbb_Human : Globine humaine Hbb_Horse : Globine de cheval Hba_Human : Globine humaine Hba_Horse : Globine de cheval Myg_Phyca : myoglobine de sperme de baleine Glb5_Petma : cyanohémoglobine de lamproie Lgb2_Luplu : Leghémoglobine de lupin

Arbre sans racine déduit de la matrice de distance Extrait de Nucleic Acids Res., 22, 4673-80 (1994) Hba_Horse branche Myg_Phyca Hba_Human Feuille Hbb_Horse Glb5_Petma Hbb_Human Lgb2_Luplu = Nœud interne : ancêtre commun hypothétique

Arbre sans racine déduit de la matrice de distance Extrait de Nucleic Acids Res., 22, 4673-80 (1994) Hba_Horse Myg_Phyca Hba_Human Hbb_Horse Glb5_Petma Hbb-Human 1 - Hbb_Human Hbb_Horse 2 0.17 - Lgb2_Luplu Hba_Human 3 0.59 0.60 - Hba_Horse 4 0.59 0.59 0.13 - Myg_Phyca 5 0.77 0.77 0.75 0.75 - Glb5_Petma 6 0.81 0.82 0.73 0.74 0.80 - Lgb2_Luplu 7 0.87 0.86 0.86 0.88 0.93 0.90-1 2 3 4 5 6

Alignement par profil Comment fonctionne cette méthode d alignement? Aligne les séquences sur toute leur longueur Un profil permet de prendre en compte l ensemble des résidus qui sont rencontrés à chaque position d un alignement. Définition d un profil dans le cas de Clustal : Si on considère N séquences alignées sur L positions Pos1 Pos2 Pos3 -------- PosL Seq1 a1,1 a1,2 a1,3 -------- a1,l Seq2 a2,1 a2,2 a2,3 -------- a2,l Seq3 a3,1 a3,2 a3,3 -------- a3,l - - - SeqN an,1 an,2 an,3 -------- an,l Si insertion d un indel, remplacé par un caractère non utilisé dans la liste des aa (X ou -).

Plusieurs problèmes pour cette approche Le problème du minimum local Lié à la nature progressive de la stratégie d alignement Pas de remise en cause de la position des indels créés dans les différentes étapes de l alignement - Mauvaise structure de l arbre initial, ordre de branchement incorrect (car arbre établi à partir d une matrice de distances réalisée à partir d alignements de séquences 2 à 2 moins fiable que les arbres provenant d un alignement multiple) - Même si topologie de l arbre correcte : un certain pourcentage de résidus mal alignés à chaque étape lié à la difficulté de positionner correctement certains indels.

Plusieurs problèmes pour cette approche Le problème du choix des paramètres Choix de la matrice de substitution : Une même matrice tout au cours de l alignement - fonctionne pour des séquences proches - problème avec des séquences divergentes Choix des pénalités de gaps : Pénalité de gaps affine (2 valeurs : ouverture d un nouveau gap et extension d un gap) Les indels ne sont pas localisés aléatoirement dans les séquences Gaps plus fréquents entre les éléments de structure secondaire (hélice et feuillet ) qu à l intérieur de ces structures. Distance d au moins 8 résidus entre deux gaps Pas de pondérations des séquences Engendre un biais si les distances évolutives entre séquences ne sont pas également représentées

Améliorations apportées à la dernière version de ClustalW Le problème des paramètres Matrices de substitution : 4 matrices différentes utilisées au cours de l alignement multiple en fonction de la distance séparant les séquences à aligner (les distances sont mesurées directement à partir de l arbre initial) 2 séries de matrices proposées : PAM et BLOSUM BLOSUM par défaut % de similarités des séquences : 80%-100% : 60%-80% : 40%-60% : 0-40% : PAM20 PAM60 PAM120 PAM350 BLOSUM80 BLOSUM62 BLOSUM45 (30%-60%) BLOSUM30 (0-30%)

Améliorations apportées à la dernière version de ClustalW Le problème des paramètres Pondération des indels : Si un indel doit être inséré dans une région contenant déjà un indel, la pénalité d ouverture est réduite en fonction du nombre de séquences possédant cet indel, et la pénalité d extension est divisée par 2. Insertion d un indel dans une région sans indel mais dont la distance à un indel déjà présent est < 8 alors la pénalité d ouverture est augmentée Insertion d un indel dans une suite de 5aa ou plus hydrophyles alors la pénalité d ouverture est diminuée. Suite de 5aa ou plus (D,E,G,K,N,Q,P,R ou S) = boucle, random coil, donc région non impliquée dans un élément de structure secondaire

Exemple de l alignement multiple des protéines homologues à ComD