Quelques problèmes de bioinformatique

Documents pareils
CHAPITRE 3 LA SYNTHESE DES PROTEINES

Big Data et Graphes : Quelques pistes de recherche

MABioVis. Bio-informatique et la

Big Data et Graphes : Quelques pistes de recherche

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

UFR de Mathématiques et Informatique Année 2009/2010. Réseaux Locaux TP 04 : ICMP, ARP, IP

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Big data et sciences du Vivant L'exemple du séquençage haut débit

Quel sirop choisir pour le nourrissement d hiver.

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

TD de Biochimie 4 : Coloration.

ALGORITHME GENETIQUE ET MODELE DE SIMULATION POUR L'ORDONNANCEMENT D'UN ATELIER DISCONTINU DE CHIMIE

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Transmission d informations sur le réseau électrique

Les OGM. 5 décembre Nicole Mounier

Master 2. Mention : «Ecosciences, Microbiologie» Domaine : Sciences Technologies Santé Responsable : F. Menu

Université de La Rochelle. Réseaux TD n 6

Travaux pratiques. Compression en codage de Huffman Organisation d un projet de programmation

Extraction d information des bases de séquences biologiques avec R

M06/5/COMSC/SP1/FRE/TZ0/XX INFORMATIQUE NIVEAU MOYEN ÉPREUVE 1. Mardi 2 mai 2006 (après-midi) 1 heure 30 minutes INSTRUCTIONS DESTINÉES AUX CANDIDATS

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Régression linéaire. Nicolas Turenne INRA

Traitement bas-niveau

Associer le tout. Démarche Lire. Lisez la question. Assurez-vous de bien la comprendre.

GUIDE «TELECHARGER LA CLE PUBLIQUE DE SON CERTIFICAT» 1. DEFINITION ET UTILISATION DE LA CLE PUBLIQUE P2

Introduction au Data-Mining

C f tracée ci- contre est la représentation graphique d une

Une dérivation du paradigme de réécriture de multiensembles pour l'architecture de processeur graphique GPU

Quelques algorithmes simples dont l analyse n est pas si simple

Apprentissage statistique dans les graphes et les réseaux sociaux

L informatique comme discipline au gymnase. Renato Renner Institut für Theoretische Physik ETH Zürich

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

Evaluation des performances de programmes parallèles haut niveau à base de squelettes

La matrice emploi- exposition spéci2ique du milieu de soin : application au risque chimique

Introduction au Data-Mining

Annales du Contrôle National de Qualité des Analyses de Biologie Médicale

Plus courts chemins, programmation dynamique

Syllabus du cours de musique. Maternelle. enseigné par Joël Chiasson

Machines virtuelles Cours 1 : Introduction

MegaStore Manager ... Simulation de gestion d un hypermarché. Manuel du Participant

Cryptographie et fonctions à sens unique

GPS GARMIN ETREX 30 GESTION DES FICHIERS GPX

DM 1 : Montre Autoquartz ETA

Les structures de données. Rajae El Ouazzani

ANTICORPS POLYCLONAUX ANTI IMMUNOGLOBULINES

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Gènes Diffusion - EPIC 2010

Apprentissage Automatique

Exercice 6 Associer chaque expression de gauche à sa forme réduite (à droite) :

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

Les technologies du Big Data

Etonnamment silencieux Le nouvel

- MANIP 2 - APPLICATION À LA MESURE DE LA VITESSE DE LA LUMIÈRE

Algèbre binaire et Circuits logiques ( )

RÉPERTOIRE RELÈVE SCIENTIFIQUE AU SERVICE DES ENTREPRISES AGROALIMENTAIRES. 2 e édition

VI- Exemples de fiches pédagogiques en 3 ème année primaires

Travailler avec les télécommunications

Jedeclare.com fournisseur de gains de productivité

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

Identification de nouveaux membres dans des familles d'interleukines

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Optimisation for Cloud Computing and Big Data

Les liaisons SPI et I2C

Intégration de la dimension sémantique dans les réseaux sociaux

Conférence technique internationale de la FAO

Quatrième partie IV. Test. Test 15 février / 71

Système immunitaire artificiel

Présentation BAI -CITC

THEME : CLES DE CONTROLE. Division euclidienne

Conception des bases de données : Modèle Entité-Association

Consolidation de jeux de données pour la prospective : la génération d une population synthétique pour les communes de Belgique

Analyse dialectométrique des parlers berbères de Kabylie

Fig. 1 Le détecteur de LHCb. En bas à gauche : schématiquement ; En bas à droite: «Event Display» développé au LAL.

DÉCLARATIONS DU VENDEUR SUR L IMMEUBLE 1 INFORMATIONS GÉNÉRALES VENDEUR 2 / PAR VENDEUR 1 / PAR

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Cahier des charges pour la réalisation d un audit externe du programme GUS / OFS

La sécurité dans un réseau Wi-Fi

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Dérivation : Résumé de cours et méthodes

Introduction au private equity

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Chapitre 5 : Flot maximal dans un graphe

Perl Orienté Objet BioPerl There is more than one way to do it

Le risque de réputation

TD 1 - Transmission en bande de passe

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

France. Conditions d ouverture des droits. Calcul des prestations. Indicateurs essentiels. France : le système de retraite en 2012

LES OBJECTIFS DU LIVRE

La séparation membranaire : comment maintenir la performance des membranes?

LA CONFIANCE CrytalSanté

Concevoir une base de données

Calculabilité Cours 3 : Problèmes non-calculables.

Cours de Master Recherche

LIVRE BLANC Pratiques recommandées pour l utilisation de Diskeeper sur les réseaux SAN (Storage Area Networks)

Lean Management : une stratégie de long terme. Pourquoi l évolution des comportements est-elle essentielle à une réussite durable?

Transcription:

Quelques problèmes de bioinformatique Marc Bailly-Bechet Université Claude Bernard Lyon I France Biologie & Modélisation 2009-2010 (saison 1) marc.baillybechet@gmail.com (LBBE) Bioinformatique B&M 09 1 / 31

Table des matières 1 Alignements et phylogénie Alignements Reconstruction d arbres phylogénétiques 2 Prédiction fonctionelle de protéines Séquence, structure et fonction Problèmes de repliement 3 Problématiques de réseaux biologiques Inférence Analyse structurelle Analyse dynamique marc.baillybechet@gmail.com (LBBE) Bioinformatique B&M 09 2 / 31

Table des matières 1 Alignements et phylogénie 2 Prédiction fonctionelle de protéines 3 Problématiques de réseaux biologiques marc.baillybechet@gmail.com (LBBE) Bioinformatique B&M 09 3 / 31

Qu est ce qu un alignement? Un alignement de séquences biologiques x et y (ADN, ARN ou protéine) consiste, à partir d une distance définie pour chaque couple (x i, y i ), à trouver le positionnement relatif d une séquence par rapport à l autre pour minimiser la somme des distances sur tous les couples (i.e avec un décalage constant k). Intuitivement on veut maximiser le nombre de lettres qui correspondent dans les deux séquences. marc.baillybechet@gmail.com (LBBE) Bioinformatique B&M 09 4 / 31

Deux versions du problème Alignement global : on prend deux séquences et on cherche le meilleur alignement sur l ensemble des deux séquences. Exemple : comparer deux séquences d ADN théoriquement identiques, entre deux individus proches. Alignement local : on cherche un très bon alignement, mais on accepte qu il ne concerne qu une toute petite sous-partie des deux séquences. Exemple : trouver les parties communes de l ADN de l homme et de la truite. marc.baillybechet@gmail.com (LBBE) Bioinformatique B&M 09 5 / 31

Difficultés des alignements Multi-alignements Problèmes algorithmiques : trouver les méthodes qui donneront les meilleurs alignements, le plus vite possible Problèmes statistiques : évaluer l intérêt d un alignement local. Si je trouve que l homme et la truite partagent les séquences ATTGGTGAC, est-ce important? marc.baillybechet@gmail.com (LBBE) Bioinformatique B&M 09 6 / 31

Biologiquement, à quoi ca sert? Les alignements de séquence sont très utilisés en biologie moderne. On considère que deux séquence proches ont un ancêtre commun récent et partagent donc, en plus d une similarité de séquence, une similarité au niveau, par exemple, de la fonction biologique. On peut ainsi chercher à aligner les séquences génétiques de l homme et de la souris, pour pouvoir ensuite faire des expériences de génétique chez la souris, et en tirer des conclusions chez l homme. Cela permet également d étudier la génétique de certains organismes, et de découvrir des traces de leur évolution récente (i.e duplication de gènes ou de génomes). marc.baillybechet@gmail.com (LBBE) Bioinformatique B&M 09 7 / 31

Qu est ce qu un arbre phylogénétique Un arbre phyolgénétique est une représentation de l histoire évolutive des espèces. Il contient autant de feuilles que d espèces étudiées, et est binaire : chaque division est un évènement de spéciation. On n a pas accès aux séquences génétiques des espèces ancestrales dans l arbre : on doit donc l inférer à partir des séquences génétiques actuelles. marc.baillybechet@gmail.com (LBBE) Bioinformatique B&M 09 8 / 31

Théorie de l évolution en deux phrases Darwin : Les espèces évoluent de manière aléatoire, mais que seuls les changements bénéfiques sont conservés. On parle de sélection naturelle. Et pour information en ces heures de créationisme et intelligent design scientifiquement, ca marche. marc.baillybechet@gmail.com (LBBE) Bioinformatique B&M 09 9 / 31

La phylogénie des bactéries marc.baillybechet@gmail.com (LBBE) Bioinformatique B&M 09 10 / 31

Techniques de reconstruction d arbres La procédure générale est : 1 Récupérer les séquences génétiques (ADN) des espèces dont on veut reconstruire l histoire 2 Calculer toutes les distances inter-séquences 3 Grouper les séquences sous forme d arbre, de manière à ce que les séquences proches aient un ancêtre commun récent. marc.baillybechet@gmail.com (LBBE) Bioinformatique B&M 09 11 / 31

Les ancêtres, ca n a pas d importance... Les développements les plus récents sur notre compréhension du HIV sont dus à l étude de la phylogénie des virus dans un même individu infecté (phylogénie populationelle) Avant cela, on avait déjà pu relier le HIV aux SIV grâce à des études phylogénétiques On peut même étudier des mécanismes fondamentaux de la génétique, comme la recombinaison à l échelle des populations, par la phylogénie L arbre de la vie est un ancien objectif, maintenant globalement atteint. marc.baillybechet@gmail.com (LBBE) Bioinformatique B&M 09 12 / 31

Généralisation : problèmes de classification Le problème énoncé précédemment est un problème de classification. Un exemple plus général, en images : marc.baillybechet@gmail.com (LBBE) Bioinformatique B&M 09 13 / 31

Généralisation : problèmes de classification Le problème énoncé précédemment est un problème de classification. Un exemple plus général, en images : marc.baillybechet@gmail.com (LBBE) Bioinformatique B&M 09 13 / 31

Table des matières 1 Alignements et phylogénie 2 Prédiction fonctionelle de protéines 3 Problématiques de réseaux biologiques marc.baillybechet@gmail.com (LBBE) Bioinformatique B&M 09 14 / 31

Une pro... quoi? Une protéine est une chaîne linéaire d acides aminés (aa). On en trouve 20 (en réalité 23) chez l ensemble des êtres vivants, toujours les mêmes. Les protéines représentent la plus grande partie des molécules du vivant, et ont des rôles fonctionnels très variés, aussi bien mécaniques qu enzymatiques, de transport... Les gènes sont les séquences d ADN qui codent pour les protéines, par le code génétique. Ce code est déterministe, dégéneré et universel. marc.baillybechet@gmail.com (LBBE) Bioinformatique B&M 09 15 / 31

Le code génétique marc.baillybechet@gmail.com (LBBE) Bioinformatique B&M 09 16 / 31

Comment prédire informatiquement la fonction d une protéine? Par recherche de signaux peptides Par similarité de séquence Par similarité de structure (quand vous l avez) Par des méthodes d apprentissage (machine learning, neural networks, HMM) Par prédiction de sa structure marc.baillybechet@gmail.com (LBBE) Bioinformatique B&M 09 17 / 31

Structure protéique marc.baillybechet@gmail.com (LBBE) Bioinformatique B&M 09 18 / 31

Prédiction de la structure Il est généralement accepté par les biologistes que c est la structure tridimensionelle d une protéine qui détermine sa fonction. Or cette structure ne peut être révélée expérimentalement que par des moyens très coûteux et très longs : on dispose actuellement de seulement quelques dizaines de milliers de structures. La prédiction de la structure tridimensionelle à partir de la séquence d acides aminés est un problème ouvert. Le problème reste la taille des instances : on n arrive à calculer le repliement de protéines que si elles font une trentaine d acides aminés (longueur moyenne chez les bactéries : 300 acides aminés). marc.baillybechet@gmail.com (LBBE) Bioinformatique B&M 09 19 / 31

Table des matières 1 Alignements et phylogénie 2 Prédiction fonctionelle de protéines 3 Problématiques de réseaux biologiques marc.baillybechet@gmail.com (LBBE) Bioinformatique B&M 09 20 / 31

Qu est ce qu un réseau biologique? Un réseau biologique est une représentation de la circulation d un certain type d information dans la cellule. Il en existe plusieurs types : Réseau génétique ou de régulation : le gène A régule l expression du gène B Réseau d interaction protéine-protéine : La protéine A interragit physiquement avec la protéine B Réseau de signalisation : la protéine A transmet un signal informatif à la protéine B Réseau métabolique : l ensemble des réactions chimiques dans une cellule marc.baillybechet@gmail.com (LBBE) Bioinformatique B&M 09 21 / 31

Quelques exemples marc.baillybechet@gmail.com (LBBE) Bioinformatique B&M 09 22 / 31

marc.baillybechet@gmail.com (LBBE) Bioinformatique B&M 09 23 / 31

marc.baillybechet@gmail.com (LBBE) Bioinformatique B&M 09 24 / 31

Problématique L idée de l inférence est d utiliser des données accessibles en très grande quantité, ainsi qu un modèle, pour reconstruire la structure du réseau biologique considéré. Les données accessibles à grande échelle sont les interactions protéine-protéine et le niveau d expression de l ensemble des gènes dans des conditions contrôlées. Cela s applique essentiellement au réseau de signalisation et de régulation. marc.baillybechet@gmail.com (LBBE) Bioinformatique B&M 09 25 / 31

Inférence de réseau de régulation L idée clef de tous les modèles est que si deux gènes sont exprimés de manière similaire, alors ils ont un régulateur commun (ou se régulent l un l autre). Les problèmes sont : Le bruit dans les données expérimentales La causalité (A régule B ou l inverse? Besoin d autres données) La taille de l espace des réseaux à explorer : combien pouvez-vous écrire de réseaux différents avec 3 gènes simplement 1? 1. On rappelle que l on cherche à appliquer ce type d approche à des réseaux de l ordre de plusieurs milliers de gènes marc.baillybechet@gmail.com (LBBE) Bioinformatique B&M 09 26 / 31

Intérêt biologique La connaissance globale du réseau de régulation d un organisme permet d appréhender comment des modifications génétiques précises peuvent influencer globalement la survie d une cellule : il y a donc une vocation thérapeutique. De plus, l étude des réseaux inférés permet de comprendre comment les systèmes vivants sont organisés, et éventuellement de mettre à jour des propriétés fondamentales. marc.baillybechet@gmail.com (LBBE) Bioinformatique B&M 09 27 / 31

Analyse de robustesse On cherche à savoir comment le réseau dans son ensemble réagit à la destruction d un noeud, correspondant à la mutation inactivante du gène correspondant. Il a ainsi pu être montré que les réseaux de régulation sont très robustes à des destructions aléatoires de gènes. Ces études montrent comment un concept développé en informatique et télécom a permis de poser une question biologique pertinente. marc.baillybechet@gmail.com (LBBE) Bioinformatique B&M 09 28 / 31

Recherche de motifs L un des axes de recherche sur les réseaux est de trouver les motifs récurrents qui les composent. Cette recherche nécéssite à la fois des algorithmes puissants pour explorer le réseau et des modèles biologiques pertinents pour déterminer si leur présence est significative. Les motifs de régulation peuvent avoir des rôles fonctionnels : c est la théorie de la modularité, qui dit que le même type de fonctionnement été copié et réutilisé de nombreuses fois au cours de l évolution. marc.baillybechet@gmail.com (LBBE) Bioinformatique B&M 09 29 / 31

Réseaux booléens On peut étudier la dynamique de réseaux de régulation par des techniques issues des systèmes dynamiques : un affecte à chaque gène une variable d état, et on définit une loi de changement d état pour tous les gènes en fonction de leurs entrées, à chaque pas de temps. On peut ainsi étudier les cycles limites et/ou les états stables d un réseau de régulation. marc.baillybechet@gmail.com (LBBE) Bioinformatique B&M 09 30 / 31

Réseaux métaboliques Dans les réseaux métaboliques, le type d étude le plus pratiqué consiste à prédire les conséquences de la modification de la capacité d une enzyme en un point du réseau, sur le fonctionnement global. On étudie également l espace des solutions des paramètres enzymatiques du réseau, et l impact de maladies sur la position dans cet espace. Finalement on peut cherche à identifier les paramètres qui permettent de contrôler un output donné, par exemple la biomasse produite. marc.baillybechet@gmail.com (LBBE) Bioinformatique B&M 09 31 / 31