MABioVis Modèles et Algorithmes pour la Bio-informatique et la Visualisation Visite ENS Cachan 5 janvier 2011
MABioVis G GUY MELANÇON (PR UFR Maths Info / EPI GRAVITE) (là, maintenant) - MABioVis DAVID SHERMAN DR INRIA (EPI MAGNOME) Mercredi 17h Génomique DAVID AUBER (MCF UFR Maths Info / EPI GRAVITE) Jeudi 10h Visual Analytics BRUNO PINAUD (MCF UFR Maths Info / EPI GRAVITE) Jeudi 11h-13h 13h «Réseaux biochimiques i évolutifs et visualisations de graphes» (discussion)
MABioVis La bio-informatique comme domaine d application cible Objectifs complémentaires Travailler au plus près des données biologiques, concevoir et mettre en œuvre des modèles Apporter des objets/modèles combinatoires à des fins algorithmique, d analyse et de modélisation Développer des méthodes offrant ultimement à l expert un laboratoire d exploration et d analyse des données
Production de données Données biologiques Annotation primaire Exploration / Formulation d hypothèses / Analyse Analyse et algorithmes Objets/modèles (combinatoires) Elaboration de modèles Intégration et visualisation
MABioVis nos fondamentaux Apport des fondamentaux informatiques Méthodes formelles Théorie des graphes, mathématiques combinatoires Optimisation combinatoire Abstraire la méthodologie des objets modélisés Structures et algorithmes des mathématiques discrètes Permutations et motifs interdits Arborescences multi-échelle Graphes planaires, petit monde, invariant d échelle
La bio-informatique domaine fédérateur et catalyseur Comparaison de génomes / structure, évolution Deux à deux: combinatoire des structures Multiple: optimisation combinatoire (Re) construction de réseaux biologiques gq Modélisation multi- échelle Représentation des connaissances Intégration de données Approche exploratoire Confirmation d hypothèses
MABioVis méthodologie(s) Calcul de similarités (sur des objets ou sur des groupes d objets) Réduction de dimension, clustering Autosimilarité, compression, échantillonnage, passage à l échelle Analyse des séquences et du texte (structures linéaires), des structures arborescentes Objets/mesures combinatoires Formulation des algorithmes Analyse des algorithmes Complexité, convergence ou passage à l échelle des algorithmes
Bilan Scientifique Quelques résultats
aux modèles Cartes comparatives De la comparaison de génomes Loci et gènes Gènes annotés ADN génomique G 1 G 2 G 3 G 4 G 5 G 6 EMBL Gain et perte de gènes Conservation de réseaux Architectures génomiquesé ancestraux Groupes de homologues Familles de protéines Modèles
De la comparaison de génomes aux modèles Comprendre l évolution et la fonction des Cartes comparatives génomes Loci et Gènes gènes annotés ADN de génomiqueé relations développées EMBL au cours du temps La comparaison des génomes est révélatrice G Besoin 1 de comprendre la dynamique des G 2 gènes et des génomes G 3 Gain et perte de gènes Conservation de réseaux Architectures génomiques ancestraux G Besoin 4 G 5 de prédire le rôle et la fonction des gènes G 6 Etablir le lien entre génotype et phénotype Groupes de homologues Familles de protéines Modèles
Comparaison de génomes Clustering par consensus Eviter les écueils d un choix particulier Rechercher la «robustesse» de la partition Définir une heuristique qui se calcule en temps raisonnable Consensus clustering: étant données des partitions P 1,...,P k, trouver une partition consensus P minimisant Σ d(p, ( P k ) où d est une distance. Nikolski Sherman 2007
Comparaison de génomes Comparaison et réarrangements de plusieurs génomes modélisés é par des permutations ti signées Jean Nikolski Sherman 2009
Comparaison de génomes Comparaison et réarrangements de plusieurs génomes Génome médian : à distance minimal i de tous les génomes considérés () Adjacence préservées / perdues encodées par un graphe (breakpoint graph)
Analyse de structures biologiques combinatoires i 350 300 250 Plantes entières 0 - Peuplement 200 150 100 50 0 1 2 3 4 5 6 7 Graphes Caractérisation statistique DAGs Données génomiques Données fortement structurées Arborescences multi-échelles Arborescences Séquences Étiquetage 2 0 1 3 Données moléculaires Comparaison Évaluation de l autosimilarité Modélisation
Comparaison de Structures Secondaires d ARN Bases de données de structures secondaires d'arn Important besoin de nouveaux outils de traitement automatique d'analyse et de comparaison Comparaison multi-échelles Prise en compte de la séquence de nucléotides, de son repliement en structure arborescente, de la décomposition en éléments structuraux (réseau de boucles multiples) Auber Delest Domenger Dulucq 2006
Visualisation d information La visualisation comme stratégie d exploration et de formulation d hypothèses Graphes petits mondes / invariant d échelle Approches (semi) supervisées Algorithmes de dessin Exploitation des indices structuraux Interactions spécifiques
Visualisation multi-niveaux Approche topologique pour l exploration de grands graphes Algorithmes existants peu efficace sur les très grands graphes Besoin de rechercher h automatiquement des sous-structures structures topologiques dans les données Décomposition Multi-échelles Archambault, Auber (2007, 2008, 2009)
Visualisation multi-niveaux Représentation de réseaux métaboliques Algorithmes existant travaille sur un sous- ensemble du réseau Nouvel algorithme permettant d éviter la duplication de sommets en conservant au mieux la représentation des chemins métaboliques Analyse topologique Dessin planaire Bourqui, Auber (2006, 2007)