TD Bioinformatique : Sequence Alignment. Pourquoi faire une recherche par similarité?



Documents pareils
Big data et sciences du Vivant L'exemple du séquençage haut débit

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

Identification de nouveaux membres dans des familles d'interleukines

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

PRINCE2 Vs PMI Comparaison & Complémentarité

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

Perl Orienté Objet BioPerl There is more than one way to do it

Plus courts chemins, programmation dynamique

Extraction d information des bases de séquences biologiques avec R

TP11 - Administration/Tuning

I. Programmation I. 1 Ecrire un programme en Scilab traduisant l organigramme montré ci-après (on pourra utiliser les annexes):

RÉSUMÉ DE THÈSE. L implantation des systèmes d'information (SI) organisationnels demeure une tâche difficile

TP3 Test immunologique et spécificité anticorps - déterminant antigénique

Indications pour une progression au CM1 et au CM2

La gestion des mots de passe pour les comptes à privilèges élevés

LE MODELE CONCEPTUEL DE DONNEES

Gestion des autorisations / habilitations dans le SI:

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

La fonction exponentielle

Frequently Asked Questions

Spécial Catégorie 6 Patch Cords

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Instructions Mozilla Thunderbird Page 1

Chapitre 7. Récurrences

Formulaire d inscription (form also available in English) Mission commerciale en Floride. Coordonnées

MABioVis. Bio-informatique et la

Leslie REGAD ; Gaëlle LELANDAIS. leslie.regad@univ- paris- diderot.fr ; gaelle.lelandais@univ- paris- diderot.fr

Exercice Packet Tracer : Configuration de base des réseaux locaux virtuels

CLIM/GTP/27/8 ANNEX III/ANNEXE III. Category 1 New indications/ 1 re catégorie Nouvelles indications

QUESTIONNAIRE DE DIAGNOSTIC RAPIDE DES NIVEAUX DE CPO ET TMS EN ETABLISSEMENTS DE SOIN

Corrigé des TD 1 à 5

The new consumables catalogue from Medisoft is now updated. Please discover this full overview of all our consumables available to you.

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006


Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

Rapport d'analyse des besoins

PLAN DIRECTEUR DES PARCS, MILIEUX NATURELS ET ESPACES VERTS PARKS, NATURAL HABITATS AND GREEN SPACES MASTER PLAN

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Analyse fonctionnelle Théorie des représentations du groupe quantique compact libre O(n) Teodor Banica Résumé - On trouve, pour chaque n 2, la classe

M. F. PITA Departamento de Geografía Física. Universidad de Sevilla. C/ María de Padilla s.n SEVILLA (Espagne).

Flexible Identity. authentification multi-facteurs. authentification sans token. Version 1.0. Copyright Orange Business Services mai 2014.

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Exercices sur SQL server 2000

CALCUL DE LA CONTRIBUTION - FONDS VERT Budget 2008/2009

Installation d un patch de mise à jour et d un pack langue dans SugarCRM Open Source 4.5.1

Agile&:&de&quoi&s agit0il&?&

Feuille d exercices 2 : Espaces probabilisés

Créé par Goldfing & Pblabla Créé le 02/05/ :49:00. Guide pour la déclaration d impôt

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Reconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12

Data issues in species monitoring: where are the traps?

Life Companies Borrowing Regulations. Règlement sur les emprunts des sociétés d assurance-vie CONSOLIDATION CODIFICATION

Cloud Computing: de la technologie à l usage final. Patrick CRASSON Oracle Thomas RULMONT WDC/CloudSphere Thibault van der Auwermeulen Expopolis

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Comment Définir une Plage de données Pour Utiliser Fonctions de Filtres et de Tris

Resolution limit in community detection

et Active Directory Ajout, modification et suppression de comptes, extraction d adresses pour les listes de diffusion

Borrowing (Property and Casualty Companies and Marine Companies) Regulations

Annexe commune aux séries ES, L et S : boîtes et quantiles

Deadline(s): Assignment: in week 8 of block C Exam: in week 7 (oral exam) and in the exam week (written exam) of block D

Archived Content. Contenu archivé

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

I>~I.J 4j1.bJ1UlJ ~..;W:i 1U

Critères pour les méthodes de quantification des résidus potentiellement allergéniques de protéines de collage dans le vin (OIV-Oeno )

Dessin assisté par ordinateur en lycée professionnel

Détection et prise en charge de la résistance aux antirétroviraux

Programming Server-Side Web Applications with Object-Oriented PHP NC Group Syllabus. Duration: 75 hours 1-2-2

Objets Combinatoires élementaires

- MANIP 2 - APPLICATION À LA MESURE DE LA VITESSE DE LA LUMIÈRE

Base de données bibliographiques Pubmed-Medline

The Exploration of HIV Fitness Landscapes

Faits saillants et survol des résultats du sondage

Introduction à la Sécurité Informatique

S'orienter et se repérer sur le terrain avec une carte

Bases moléculaires des mutations Marc Jeanpierre

IFT3902 : (Gestion de projet pour le) développement, (et la) maintenance des logiciels

Dans l Unité 3, nous avons parlé de la

Génétique et génomique Pierre Martin

(B.O. n 2739 du , page 489) LE PREMIER MINISTRE,

Production et orchestration de services digitaux, un nouvel enjeu pour les DSI

Feature Team Primer. par Craig Larman et Bas Vodde. Version 1.2

Tutoriel de formation SurveyMonkey

SparkInData. Place de Marché des applications Spatiales

CONCEPTION Support de cours n 3 DE BASES DE DONNEES

Stratégie de réduc-on des déchets Waste Reduc-on Strategy: Contrat 2016 Contract

Manuel Utilisateur. Boticely

Les bonnes pratiques d un PMO

Rappels sur les suites - Algorithme

Table des matières PREMIÈRE PARTIE CONCEPTS FONDAMENTAUX...25

Modules Multimédia PAO (Adobe)

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Logiciel SCRATCH FICHE 02

Outils d évaluation des réseaux routiers (RONET) Version 1.0

Transcription:

TD Bioinformatique : Sequence lignment Pourquoi faire une recherche par similarité? - Savoir si ma séquence ressemble à d'autres déjà connues. - Trouver toutes les séquences d'une même famille. - Rechercher toutes les séquences qui contiennent un motif donné. - Déterminer la fonction: Le but est d'identifier la fonction d'une séquence en la comparant à une ou plusieurs autres séquences. similarités dans la séquence similarités dans la structure similarités dans la function

Homologie La similarité forte entre deux séquences est considérée comme représentative de l'homologie entre ces séquences. séquence ancêtre commune mutations accumulées au cours de l'évolution. Lorsque la similitude protéique dépasse 30% sur au moins 100 résidus, alors il est généralement probable que les séquences dérivent d'un ancêtre commun (elles sont homologues). La comparaison de gènes homologues est une approche très efficace pour : - Déterminer la fonction et la structure d'une séquence. - Repérer des régions fonctionnelles au sein des séquences. - Etudier les processus de l'évolution à l'échelle moléculaire. - Etablir la phylogénie des espèces L'homologie entre deux séquences peut laisser supposer que les séquences ont des fonctions identiques (mais ne le prouve pas...).

2784 Gan et al. FIGURE 1 (caption on next page) Biophysical Journal 83(5) 2781 2791

Dot Plot lignement de séquences (proteines, DN, RN) Méthode de représentation visuelle des positions des similarités entre deux séquences (ou sur une même séquence). Objectif Dans le cas de la comparaison d'une séquence avec elle-même, il s'agit de détecter les répétitions internes. Dans le cas où la comparaison implique deux séquences différentes, il est possible d'identifier des régions de similarité. Principe Le principe est de mettre les séquences le long des axes d une matrice et de mettre un point là où il y a une correspondance. T T C G G C T G G C

Exercise 1: Tracez un nouveau dotplot à partir des deux séquences suivantes : THFLTQHYDKPQYRNDR KHFLTQHQHKPFGRNDR Que remarquez vous? T H F L T Q H Y D K P Q Y R N D R K H F L T Q H Q H K P F G R N D R

Exercise 2: Tracez un dotplot de la sequence avec elle-meme: BCDFFGKDFGTFGK B C D D F G K D F G B B C D D F G K D F G B ugmentez la stringence, en ne conservant les segments qui contiennent au moins 3 positions identiques sur la diagonale. La diagonale principale représentant l exacte similarité de la prot avec elle-même (normale) Plusieurs lignes diagonales représentant des zones de similarité chevauchantes. Dot plot typique pour une séquence contenant des répétitions.

La proteine ribosomale S1 de EColi contient 6 répétitions d environ 13 aa correspondant à 6 domaines S1. Domaine S1 : fonction de liaison à l RN et Beta-Barrel. Si on diminue la taille des fragments devant être similaires en dessous de 13, on voit mieux. Ici taille fragment = 6.

Exercise 3: Comparaison de la séquence nucléaire du gène de l'actine de muscle (horizontalement) à la séquence de l'dnc (RN) du même gène 1. Comment apparaissent les exons dans un dotplot? 2. Combien comptez-vous d'exons? 3. Que pouvez-vous dire sur la différence de taille entre les exons et les introns? 1. Les exons apparaissent en plusieurs petites diagonale décalées. Ils sont séparés par les introns du genes que l on ne retrouve pas dans l DNc. 2. 6 exons. 3. Les exons sont plus petits que les introns.

Recherche par similarité La recherche de similarités (globale ou locale) entre deux séquences consiste à chercher des régions très semblables: un maximum de caractères identiques : appariements et un minimum de changements : substitutions, insertions/délétions Exemples Un alignement parfait: sequence 1: TCCPSIVRSN * * * * * * * * * * * sequence 2: TCCPSIVRSN Un alignement avec ressemblances fortes: sequence 1: TCCPSIVRSN. * * * * *. * * * * sequence 2: SCCPSISRSN Un alignement avec indels et mismatch: sequence 1: CCCPSIVRSN. * * *. * *.. sequence 2: SC - PSR-RNT

Matrices de similarité Quantification de la similitude : Le score Un score global permet de quantifier la similitude. Il résulte de la somme des scores élémentaires calculés sur chacune des positions en vis à vis des deux séquences dans leur appariement optimal. C'est le nombre total de "bons appariements" pénalisé par le nombre de "mésappariements". Un mésappariement peut être : la substitution d'un caractère par un autre (mutation) l'introduction d'un "gap" Le gap permet d'optimiser l'alignement entre les deux séquences donc de faire coïncider le maximum de caractères communs. Example: ppariement: 5 Mésappariement: -6 Ouverture insertion/délétion : -4 T G G T T T G G T SCORE: 5-4+5+5-4+5-6+5 = 1

Matrices de substitution Les matrices PM (Percentage of cceptable point Mutations) PM matrices are based on global alignments of closely related proteins. Specific for a particular evolutionary distance. ex : la PM 250 est appropriée pour comparer des sequences ayant subis 250 mutations per 100 amino acids. Because of back mutations and silent mutations this corresponds to sequences that are about 20 percent identical. Les matrices BLOSUM (BLOcks SUbstitution Matrix) Based on local multiple alignments sans gap de regions très conservées of more distantly related sequences. ex:blosum 62 (default matrix in BLST), is calculated from comparisons of sequences with no less than 62% identity. Est utilisée comme matrice par défaut car elle offre un bon compromis quand les distances évolutives entre les séquences ne sont pas connues. lignement 1: G - P F D Y S T V H R C P R F E T H - V Score PM250 = -3-4-1 +6-2+ 9 +3-3 -1-4-1 +4-1 = 2 Score BLOSUM45 = -2-4-1 +9-2 +8 +2-1 -1-4-1 +5-2 = 6 lignement 2: G P F D Y S T - V H R C P R F E - - T H V Score PM250 = -3-4-1 +6-2 +9 +3-4-1-1 +3-4-1 +4-1 = 3 Score BLOSUM45 = -2-4-1 +6-2 +8 +2-4-1-1 +5-4-1 +5-2 = 4

Exercise 4: Calculer le score pour l allignemnet proteique suivante. Vous utiliserez la matrice de substitution BLOSUM50 et une pénalité d ouverture et d extension de gap de 2 E V R E P K T E M P K V

E-value Nombre d'alignements attendus par hasard ayant un score supérieur ou égale au score (S) obtenu dans la banque considérée (mn). Plus la valeur est faible, plus l'alignement est fiable (indique que le résultat n est pas du au hasard) Dépend du nombre total de résidus contenus dans la banque (Ces valeurs ne sont pas comparables entre deux banques) E-value = Kmn e -λs m* n : correspond à l espace de recherche. m est le nombre de lettres de la séquence requête et n est le nombre de lettre dans la base de données. Relation linéaire avec la taille de l espace de recherche: si la taille de la banque double, la e-value double aussi. Relation exponentielle avec le score: de légers changements de score peuvent entraîner d important changement de la e-value.

Exercise 5: Caluler le E-value pour les alignements precedents. Consider: m=10, n=10, K=1, λ=2 lignement 1 PM 250 : S = 2 E-value = Kmn e -λs = 1 * 10 * 10 * exp(-2*2) = 1.831564 Blosum 45 : S = 6 E-value = Kmn e -λs = 1 * 10 * 10 * exp(-2*6) = 0.0006144212 lignement 2 PM 250 : S = 3 E-value = Kmn e -λs = 1 * 10 * 10 * exp(-2*3) = 0.2478752 Blosum 45 : S = 4 E-value = Kmn e -λs = 1 * 10 * 10 * exp(-2*4) = 0.03354626