De la Bioinformatique à la Biologie des Systèmes Plan Définitions Bioinformatique Biologie des systèmes Discussion Denis Thieffry TAGC - INSERM ERM206 Université de la Méditerranée Marseille, France
Qu'est-ce que la bioinformatique? Réponse courte: On regroupe sous le terme de bio-informatique toutes les applications informatiques appliquées à la biologie. Cela va de l'analyse du génome à la modélisation de l'évolution d'une population animale dans un environnement donné, en passant par la modélisation moléculaire, l'analyse d'image, le séquençage du génome, la reconstruction d'arbres phylogénétiques (phylogénie), etc. (http://fr.wikipedia.org/wiki/bioinformatique). En anglais: Bioinformatics, Computational biology, Computational genomics, In silico biology
Qu'est-ce que la bioinformatique? Réponses plus longues:
Qu'est-ce que la biologie des systèmes? Réponse courte: La biologie des systèmes est un domaine académique qui cherche à intégrer différents niveaux d'informations pour comprendre comment fonctionnent des systèmes biologiques. En étudiant les relations et les interactions entre différentes parties du système biologique (organites, cellules, systèmes physiologiques, réseaux de gènes et de protéines permettant la communication des cellules), le chercheur tente de découvrir un modèle de fonctionnement de la totalité du système. (http://fr.wikipedia.org/wiki/biologie_des_systèmes). En anglais: (Computational) Systems biology, Integrative biology
Qu'est-ce que la biologie systémique? Réponses plus longues:
Motivations Accumulation des données biologiques - Séquences génomiques - Données de génomique fonctionnelle Organisation et intégration des données Annotations fonctionnelles Modélisation explicative et prédictive
Emergence de la bioinformatique Les progrès en biologie/biophysique ont stimulé le développement de nouvelles méthodes en bioinformatique: Analyse des structures macromoléculaires (à partir des années 1950) structure comparaison structure prédiction Séquençage (à partir des années 1970) Alignement de séquences Recherche de similarités dans les bases de données Génomes (à partir des années 1990) Annotations Génomique comparative Classifications fonctionnelles Transcriptome (à partir de 1997) Analyses multi- variées Interactome (~ 2000) Analyse de graphes
3500 3000 2500 Publications référencées dans MedLine 2000 1500 1000 Computational Biology Systems Biology 500 0 1996 1998 2000 2002 2004 2006
Multidisciplinarité biologie moléculaire génomique génétique biochimie biophysique bioinformatique mathématiques statistiques analyse numérique évolution algorithmique analyse d'image bases de données
Multidisciplinarité La bioinformatique est fondamentalement multidisciplinaire Il est impossible d'être expert dans tous les domaines concernés Equipes multidisciplinaires, projets collaboratifs Problèmes: Les biologistes (généralement) détestent les mathématiques Les biologistes (généralement) n'aiment pas trop les ordinateurs Les informaticiens (généralement) ignorent les statistiques et la biologie Les mathématiciens tiennent (généralement) un discours ésotérique (formules) Complexité de la biologie: Chaque fois que l'on formule une règle, on trouve des contre-exemples La définition des concepts centraux nécessite des livres entiers (exemple classique: définition de gène...)
Principaux domaines de la bioinformatique Bases de données biologiques et outils de requête Analyse des séquences nucléiques et protéiques Phylogénie et évolution Structures 2D et 3D des macromolécules biologiques Analyse des données d'expression génique Modélisation et analyse des réseaux biologiques
Bases de données Séquences: EMBL, GenBank, SwissProt... Génomes: NCBI, ENSEMBL... Structures: PDB, DALI... Métabolisme: KEGG, EcoCyc, Amaze... Transcriptome: ArrayExpress, GEO... Régulations transcriptonnelles: TRANSFAC, EPD... Protéomique: Expasy... Cf. site web et 1er numéro annuel de Nucleic Acid Research
Analyse de séquences Alignement de deux séquences Recherche de similarités avec des banques de séquences Alignements multiples et détermination de régions fonctionnelles Profils et recherche de motifs fonctionnels - Domaines protéiques - Séquences nucléiques fixés par les facteurs de régulation Phylogénie et histoire évolutive
Exemple d'alignement multiple (cas difficile): protéines à cluster de zinc [Zn(2)Cys(6)] de levure
Phylogénie Classification de 191 espèces sur la base de 31 groupes de gènes orthologues Ciccarelli et al. (2006) Science 311:1283-7
Bioinformatique structurale Patron de diffraction Modèle atomique 2D: Motifs structuraux (feuillets β, hélices α) 3D: Structure en 3 dimensions 4D: Assemblages de plusieurs polypetides en complexes fonctionnels
Génomique fonctionnelle Le génome est défini comme l'ensemble de l'adn (et donc des gènes) d'un organisme De manière similaire, on peut définir : le transcriptome le protéome le métabolome l'interactome le régulome A chacun de ces niveaux correspondent des méthodes expérimentales à grande échelle et des outils bioinformatiques
Transcription différentielle révélée par puces à ADN Culture cellulaire sample 1 sample 2 Extraction de l'arn ARN ARN Synthèse de cdna marqué cdna cdna 1 spot = 1 gene Intensité Quantité Couleur Spécificité jaune non spécifique rouge échantillon 1 vert échantillon 2 Source: de Risi et al. (1997)
Une puce complète après hybridation différentielle Analyse d'image Analyse statistique Intégration et fouille de données Inférence d'interactions géniques
Gènes à expression périodique au cours du cycle cellulaire Synchronisation initiale Sélection de gènes à expression cyclique Classification des profils Lignes: gènes Colonnes: différentes expériences (mutants + points temporels) Source: Spellman et al. (1998)
Interactions protéiques network au cours du cycle cellulaire mitotique chez la levure de Lichtenberg et al. (2005). Science 307: 724-7.
Applications de la bioinformatique Recherche en biologie Organisation moléculaire de la cellule Développement Mécanismes évolutifs Médecine Diagnostic de cancers Détection de gènes impliqués dans le cancer Recherche pharmaceutique Mécanismes d'action des molécules thérapeutiques Identification de cibles thérapeutiques Thérapie génique Biotechnologie Bio-ingénierie Bio-remédiation
Vers la biologie des systèmes Intégration de données de différents types - Métabolisme - Régulations géniques - Voies de transduction de signaux - Niveaux physiologiques supérieurs (tissus, organes...) Modélisation formelle, dynamique
Réseau de régulation génétique Endoderm Spécification de l'endoderme chez l'oursin de mer: interactions géniques maternelles et précoces http://sugp.caltech.edu/endomes/
Voies de transduction de signaux La voie Ras http://www.cellml.org/ La voie de transduction des phéromone chez la levure http://cbr-rbc.nrc-cnrc.gc.ca/thomaslab/
Réseaux intercellulaires Organisation schématique du thymus, différentiation des lymphocytes T et interactions intercelullaires Zuniga-Pflucker JC (2004). Nat Rev Immunol 4: 67-72.
Questions Etablissement d'un graphe de regulation pour un processus biologique Quel niveau d'abstraction pour répondre à une question biologique? Niveau moléculaire : réseau biochimique Niveau génétique: réseau génétique Tissus: réseau inter-cellulaire Comment connecter différent niveaux d'abstraction? Quels sont les relations entre la structure du réseau de régulation et profils d'expression spatio-temporelle? Des données de régulation à l'expression génique: simulations Des données d'expression aux graphe de régulation: inférence
Modélisation dynamique des réseaux biologiques Différentes approches: Analyse de graphes Modèles logiques Equations Différentielles Modèles Stochastiques Réseaux de Petri Etc.
Modélisation dynamique du cycle cellulaire Equations différentielles Premier modèles d'oscillateurs mitotiques Hyver & Le Guyader (1990) Biosystems 24: 85-90. Goldbeter (1991) PNAS 88: 9107-11. Norel & Agur (1991) Science 251: 1076-8. Tyson (1991) PNAS 88: 7328-32. Xénope (embryos/ extraits cellulaires) Novack & Tyson (1993) J Cell Sci 106: 1153-68. S. cerivisiae Novack & Tyson (1995, 1997), Novak et al (1998, 2001)... S. pombe Chen et al (2000) Mol Biol Cell 11: 369-91. Cellules mammifères Obeyesekere et al (1995) Oncogene 11: 1199-205. Hatzimanikatis et al (1999) Biotechnol Bioeng 65: 631-7. Aguta & Tang et al (1999). Cell Prolif 32: 321-35.
Organisation du cycle cellulaire eucaryote Synthèse de l'adn S Préparation à la réplication chromosomique G1 G2 Préparation à la mitose M Mitose
Réseau contrôlant le cycle chez la levure (S. pombe) Tyson et al. (2001). Nat Rev Mol Cell Biol 2: 908-16. Le système de contrôle peut être divisé en trois modules, qui régulent les transitions G1/S, G2/M, et la sortie de la mitose. Le modèle correspondant à ce diagramme comporte une douzaine d'équations différentielles et une trentaine paramètres cinétiques.
Simulations numériques
Diagrammes de bifurcation Module G1/S Module G2/M Module mitose
Diagramme de bifurcation complet
Modélisation différentielle du cycle cellulaire eucaryote Réalisations Intégration de nombreuses données hétérogènes Description cinétique détaillée et rigoureuse Approche modulaire Compréhension approfondie Simulation de mutants Limites L'augmentation du nombre d'équations et de paramètres génère des difficultés numériques Cette approche repose essentiellement sur des intégrations numériques Peu de données précises sur les paramètres, voire les interactions
Modélisation logique du réseau moléculaire contrôlant le cycle cellulaire chez les mammifères Noeuds Régulateurs (protéines...) Niveaux discrets Arcs Interactions régulatrices Règles logiques Adaption et extension du modèle de Novak & Tyson (2004). J Theor Biol 230: 563-79. Méthode logique originalement développé par R. Thomas (ULB)
Simulation synchrone Cdc20 E2F CycA CycB Cdh1 CycE UbcH10 CycA Cycle comprenant 7 états Cdc20 UbcH10 CycB E2F Cdh1 CycE [CyD, Rb, E2F, CycE, CycA, p27, Cdc20, Cdh1, UbcH10, CycB]
Modélisation logique du cycle cellulaire eucaryote Réalisations: Intégration de nombreuses données hétérogènes Approche modulaire Simulation de mutants identification des circuits de régulation cruciaux Limites: Comportements qualitatifs Perspectives: Développement de modèles plus complets (points de contrôle) Combinaisons de méthodes quantitatives et qualitatives
Comment devient-on bioinformaticien? Formation tri-disciplinaire: Biologie: biologie moléculaire, génomique, génétique... Informatique: programmation, bases de données, algorithmique... Mathématiques: statistiques, systèmes dynamiques... Mais dosages variés possibles...!!! Nouveau Master Bioinformatique et Modélisation à l'ulb Filières approfondie et spécialisée Démarage en 2007-2008
Spécialités bioinformatiques bruxelloises Analyse des séquences régulatrices de la transcription: Service de Conformation des Macromolécules Biologiques et de Bioinformatique Structure des Protéines: Service de Conformation des Macromolécules Biologiques et de Bioinformatique Modélisation dynamique: Centre de Physique non Linéaire Bases de données et interfaces de requêtes: Belgian EMBnet Node + Nombreuses équipes de biologie, informatique et mathématiques
Bibliographie Articles grand public: Bioinformatique et Génome. Biofutur 24/251 (2005). Bioinformatique et Post-Génome. Biofutur 24/252 (2005). Livres de référence: Hancock JM & Zvelebil MJ (eds) (2004). Dictionary of Bioinformatics and Computational Biology. New York: John Wiley & Sons. Mount DW (2004). Bioinformatics: Sequence and Genome Analysis. NY: Cold Spring Harbor Laboratory Press.