Calcul intensif en Bioinformatique

Documents pareils
La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

MABioVis. Bio-informatique et la

Extraction d information des bases de séquences biologiques avec R

Mise en place d'un gestionnaire de données léger, pluridisciplinaire et national pour les données scientifiques

Big data et sciences du Vivant L'exemple du séquençage haut débit

Gènes Diffusion - EPIC 2010

Alignement avec les métiers par le test fonctionnel et d acceptation en projets agiles

4D v11 SQL Release 5 (11.5) ADDENDUM

Rétablissement d un réseau cellulaire après un désastre

ARCHEOVISION. Centre de Ressources Numériques 3D. UMR 5607 du CNRS. R. Vergnieux IR-CNRS

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

4.2 Unités d enseignement du M1

IMO - Informatique, modélisation et optimisation

Perl Orienté Objet BioPerl There is more than one way to do it

Master 2. Mention : «Ecosciences, Microbiologie» Domaine : Sciences Technologies Santé Responsable : F. Menu

Master Informatique Aix-Marseille Université

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Initiation aux bases de données (SGBD) Walter RUDAMETKIN

Les compensations écologiques sur la ligne à grande vitesse Sud Europe Atlantique

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

L échelle des Technology Readiness Levels (TRL ou Niveaux de maturité technologique) : Comment la prendre en compte dans nos métiers?

Algorithmique et langages du Web

Bases de données et environnements distribués Chapitre I : Architecture logicielle technologies de developpement en environnement

TABLE DES MATIERES. C Exercices complémentaires 42

LOGICIEL DE GESTION DE LABORATOIRE ALPHA LABO

Appel à manifestation d intérêt

Vocabulaire juridique multilingue comparé. Caroline Reichling Direction générale de la Traduction Cour de justice de l Union européenne

Intelligence Economique - Business Intelligence

PROGRAMME DETAILLE. Parcours en première année en apprentissage. Travail personnel CC + ET réseaux

Dr YAO Kouassi Patrick

1. Smart Energy Management System (SEMS)

Projet Business Object

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

Rapport d activité. Mathieu Souchaud Juin 2007

Description de l implantation dans le centre d examen (nom du service ou de l outil et caractéristiques techniques)

UE 8 Systèmes d information de gestion Le programme

1/15. Jean Bernard CRAMPES Daniel VIELLE

Ils sont évolutifs et constamment à la pointe des technologies, avec toujours plus de fonctionnalités et de performances.

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.


MAIDESC - KO 21 Novembre 2013 Etienne Wey Alexandre Boilley

SQL Parser XML Xquery : Approche de détection des injections SQL

Chapitre 1 : Introduction aux bases de données

ASA-Advanced Solutions Accelerator. Solution pour la gestion des données des laboratoires et des plateformes de service

WEB15 IBM Software for Business Process Management. un offre complète et modulaire. Alain DARMON consultant avant-vente BPM

Master CCI. Compétences Complémentaires en Informatique. Livret de l étudiant

Rapport de certification

ACQUISITION. Traitement de l image. Classement. Préparation. Ouverture. Performance

Laboratoire d informatique Gaspard-Monge UMR Journée Labex Bézout- ANSES

Analyse des données de séquençage massif par des méthodes phylogénétiques

La pertinence de l information pour agir au bon moment. Recherche exploitation de. l information. & pertinente

A la découverte du Traitement. des signaux audio METISS. Inria Rennes - Bretagne Atlantique


Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Topologie du web - Valentin Bourgoin - Méthodes agiles & SCRUM

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

GPC Computer Science

Plus courts chemins, programmation dynamique

Modélisation aléatoire en fiabilité des logiciels

Développement d applications Internet et réseaux avec LabVIEW. Alexandre STANURSKI National Instruments France

Informatique Médicale & Ingénierie des Connaissances Pour la e-santé

2007 se termine déjà, et avec l heure du bilan qualitatif et quantitatif!

Comité Français des Tests Logiciels. Testeur Certifié. Version 2012

Java à Murex: un retour d'expérience. Jean-Pierre DACHER & Craig MORRISON

La Business Intelligence & le monde des assurances

Intérêt du découpage en sous-bandes pour l analyse spectrale

Méthode de Test. Pour WIKIROUTE. Rapport concernant les méthodes de tests à mettre en place pour assurer la fiabilité de notre projet annuel.

SDLS08 - Modes propres d'une plaque carrée calculés sur base réduite

GEI 465 : Systèmes répartis

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Outil d aide au choix Serveurs Lot 4 Marché Groupement de Recherche

FusionInventory. Guillaume Rousse Journées francophones de Perl 2011

DÉVELOPPEMENT DE COURS ÀDISTANCE JEUDI DU NUMÉRIQUE 14/10/2010 M. LUCAS - UF SPI - ENITAB

Annuaire(des(programmes(de(sciences(participatives( (Collectif(national(SPB(

Parc naturel régional du Perche Maison du Parc- Courboyer Nocé

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

Introduction : Essais de phase I

Combinaison de modèles phylogénétiques et longitudinaux pour l analyse des séquences biologiques : reconstruction de HMM profils ancestraux

MASTER (LMD) GESTION DE DONNEES ET SPATIALISATION EN ENVIRONNEMENT (GSE)

MASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE

Groupe Eyrolles, 2004 ISBN :

VIPE CNAM 6 mars Frank Meyer Orange Labs / IMT / UCE / CRM-DA / PROF

Etudier l informatique

Dailymotion: La performance dans le cloud

Refonte front-office / back-office - Architecture & Conception -

LES OUTILS DU TRAVAIL COLLABORATIF

Cryptologie et physique quantique : Espoirs et menaces. Objectifs 2. distribué sous licence creative common détails sur

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Annuaires LDAP et méta-annuaires

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

Soutenance de stage Laboratoire des Signaux et Systèmes

Programme «Analyste Programmeur» Diplôme d état : «Développeur Informatique» Homologué au niveau III (Bac+2) (JO N 176 du 1 août 2003) (34 semaines)

LICENCE PROFESSIONNELLE SYSTEMES INFORMATIQUES & LOGICIELS

Item 169 : Évaluation thérapeutique et niveau de preuve

Cahier des charges (CDC)

Les nouveautés d AppliDis Fusion 4 Service Pack 1


Les macroinvertébrés: des bioindicateurs incontournables pour le monitoring des cours d eau en CH

Panorama des solutions analytiques existantes

Transcription:

Calcul intensif en Bioinformatique Réalisations en génétique et génomique évolutives Pôle Rhône Alpin de BioInformatique (PRABI) Laboratoire de Biologie et Biométrie Evolutives (LBBE)

Contexte De plus en plus de génomes décryptés de plus en plus rapidement, chez les mammifères, les oiseaux, les poissons, les insectes, les plantes, des centaines de bactéries. Il s agit maintenant de comprendre le contenu de ces génomes, leur structure, leur fonctionnement et leur origine. Le Laboratoire de Biométrie et Biologie Evolutive (LBBE) s attache à décrire et comprendre les mécanismes moléculaires et les forces évolutives qui gouvernent l'organisation et l'évolution des génomes

L évolution des gènes et l évolution des espèces La construction, à partir de leur séquences alignées, d «arbres phylogénétiques» de gènes, décrivant les relations évolutives entre les gènes, permet de retracer l histoire des espèces à travers celle de leurs gènes. Matériel de base : l alignement de séquences

L évolution des gènes et l évolution des espèces Requins Poisson-zèbre Amphibiens Primates Rongeurs Crocodiliens Oiseaux Figure 1: Phylogénie des vertébrés Amniotes Tetrapodes Vertebrés

L évolution des gènes et l évolution des espèces Relations d homologie, d orthologie et de paralogie Deux gènes sont homologues lorsqu ils descendent du même gène ancestral. Plus précisément, ils sont paralogues lorsqu ils dérivent d un évènement de duplication, orthologues lorsqu ils dérivent d un évènement de spéciation. Identifier si des gènes sont paralogues ou orthologues est une étape essentielle dans l étude de ces gènes.

L évolution des gènes et l évolution des espèces Ancêtre des vertébrés Gène de globine ancestral DUPLICATION DU GENE Gène de globine alpha Gène de globine beta Gène de globine alpha de la souris SPECIATIO N Gène de globine alpha du poulet Gène de globine beta de la souris SPECIATIO N Gène de globine beta du poulet orthologues paralogues paralogues

Thématiques PRABI/LBBE à forte demande en temps de calcul Phylogénie Moléculaire & Evolution Analyse et comparaison de séquence à grande échelle Algorithmique Statistiques

Les bases de données de familles de gènes homologues But Comparer des séquences homologues entre diverses espèces. Contenu Familles de séquences homologues Chaque famille est associée : à un alignement de séquence à un arbre phylogénétique dans lequel les événements de duplication ou spéciation sont mis en évidence. Les principales bases sont HOGENOM génomes complets des bactéries, des archées et de certains eukaryotes, HOMOLENS génomes complets animaux, HOVERGEN gènes de vertébrés. Ces bases de données sont actualisées régulièrement et mises à disposition de l'ensemble de la communauté scientifique

Les bases de données de familles de gènes homologues Structure Les bases sont structurées sous le système ACNUC développé au LBBE. Chaque base comprend l ensemble des séquences et des annotations des gènes et de leur protéines associées, l information taxonomique, fonctionnelle, bibliographique, ainsi que les alignements et les arbres phylogénétiques de chaque famille. Accès aux bases et interrogation Les bases ont accessibles par l intermédiaire d applications de type serveur client, via un site web, et via des sockets et des API en divers langages.

Les bases de données de familles de gènes homologues Un exemple d interface: Le logiciel FamFetch (application client/serveur)

Calcul intensif pour la construction et la mise à jour des bases de données de familles de gènes homologues Il faut noter que les calculs nécessaire à la création et à la mise à jour des bases sont effectués plusieurs fois par an, ceci pour les différentes releases des bases développées. Recherche de similarité Les séquences des gènes sont associées en familles sur la base de leur similarité. Comparer deux à deux tous les gènes d un ensemble de génomes, soit pour la dernière release de HOGENOM environ 1 million de séquences de 600 caractères en moyenne. La recherche de similarité entre les séquences est effectuée en utilisant un algorithme complexe (BLAST) sur la base d une matrice de substitution (ou unitaire). La parallèlisation de ces calculs au CCIN2P3 nous permet de mener à bien cette étape en une durée raisonnable.

Calcul intensif pour la construction et la mise à jour des bases de données de familles de gènes homologues Calcul d alignements Les séquences de chaque famille sont alignées entre elle, afin de pouvoir en retirer l information phylogénétique. Le calcul d un alignement est consommateur en temps de calcul, surtout lorsque la famille contient plusieur dizaine de séquences, et il s agit ici de calculer des dizaines de milliers d alignements à chaque release de la base de données. Le CCIN2P3 permet de calculer en parallèle des centaines d alignements. Calcul d arbres phylogénétiques A partir de chaque alignement, un arbre phylogénétique est calculé. Le calcul d un arbre peut être très rapide ou au contraire demander un temps de calcul massif selon la fiabilité désirée. Le bootstrap, par exemple, multiplie le temps de calcul d un arbre par un facteur de 500 à 1000. Ici encore la parallélisation massive des calculs au CCIN2P3 est nécessaire

Autres développements La recherche de similarité de séquences, les calculs d alignements et de phylogénies sont des outils bionformatiques majeurs massivement utilisés en biologie. Phylogénie Calculs de plusieurs millions d arbres phylogénétiques pour détecter les transferts de gènes entre bactéries hyperthermophiles et les archées (Alexandra Calteau) Maximum de vraisemblance, développement, simulation (Bastien Bousseau) Chaînes de Markov, simulation d évolution, 400 génomes à analyser (Anamaria Necsulea) Des milliers d arbres de gènes pour reconstruire l histoire du vivant (Sophie Abby) Analyse de génomes complets Chaînes de Markov : détection d isochores (Christelle Melo de Lima) MegaBlast : recherche de retropseudogènes, (Adel Khelifi) Analyse statistique R (ade4, seqinr) (Leonora Palmeira)

Gains en temps de calculs Type de calcul Durée estimée du calcul au LBBE Durée du calcul au CCIN2P3 Similarité de séquences pour construire la banque Hogenom Recherche de «pseudo gènes» dans le génome humain Prédiction d «isochores» (zones plus ou moins riches en gènes) dans le génome humain Calculs de plusieurs millions d arbres phylogénétiques pour détecter les transferts de gènes entre espèces. 1 an plus de un an 3 ans plusieurs années 3 jours moins d 1 mois 10 jours quelques mois

Perspectives Le temps de calcul était devenu un facteur limitant pour une grande partie des activités du LBBE. L'accès aux ressources de calcul du CCIN2P3 nous permet de faire face à l'augmentation exponentielle du volume de données biologiques et donc de poursuivre la mise à jour des bases de données que nous mettons à disposition de la communauté de maintenir nos capacités d'analyses de séquences. envisager des analyses qui n'étaient pas réalisables avec les moyens propres au laboratoire. Ainsi, de nouvelles perspectives de recherche sont désormais ouvertes. 100 000 000 10 000 000 10 106 023 30 968 418 Nombre de séquences 1 000 000 100 000 10 000 1 000 100 606 5 700 20 579 55 627 215 273 1 765 847 Evolution du nombre de séquences dans la banque GenBank 10 1 1982 1985 1988 1991 1994 1997 2000 2003 Année

Participants Pascal Calvat Laurent Duret Vicent Daubin Christian Gautier Manolo Gouy Simon Penel Guy Perrière User Support IN2P3 Sophie Abby Bastien Boussau Alexandra Calteau Adel Khelifi Christelle Melo de Lima Anamaria Necuslea Leonor Palmeira