Quelle place pour la bioinformatique à l IN2P3? V. Breton Journées informatiques Cargèse 07/01



Documents pareils
Big data et sciences du Vivant L'exemple du séquençage haut débit

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

BNP Paribas Personal Finance

Présentation par François Keller Fondateur et président de l Institut suisse de brainworking et M. Enga Luye, CEO Belair Biotech

SCHOLARSHIP ANSTO FRENCH EMBASSY (SAFE) PROGRAM APPLICATION FORM

Eco-système calcul et données

Calcul intensif pour la biologie

Guide d'installation rapide TFM-560X YO.13

Face Recognition Performance: Man vs. Machine

Services à la recherche: Data Management et HPC *

Architecture de la grille

Les mésocentres HPC àportée de clic des utilisateurs industriels

GIS and satellite remote sensing for humanitarian operations support SIG et télédétection pour le support aux operations humanitaires

SAP SNC (Supply Network Collaboration) Web Package. (Français / English) language. Edition 2013 Mars

«Rénovation des curricula de l enseignement supérieur - Kazakhstan»

Environnement logiciel LHCb

Extraction d information des bases de séquences biologiques avec R

Quatre axes au service de la performance et des mutations Four lines serve the performance and changes

The space to start! Managed by

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

Formation continue BNF // Programme des cours 2015

Comprendre l impact de l utilisation des réseaux sociaux en entreprise SYNTHESE DES RESULTATS : EUROPE ET FRANCE

Tutoriel Cloud IFB - Initiation -

XtremWeb-HEP Interconnecting jobs over DG. Virtualization over DG. Oleg Lodygensky Laboratoire de l Accélérateur Linéaire

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

ONTARIO Court File Number. Form 17E: Trial Management Conference Brief. Date of trial management conference. Name of party filing this brief

Introduction aux bases de données: application en biologie

affichage en français Nom de l'employeur *: Lions Village of Greater Edmonton Society

Qualité et ERP CLOUD & SECURITY (HACKING) Alireza MOKHTARI. 9/12/2014 Cloud & Security

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

Monitoring des classes de neige des calottes polaires par Envisat

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB / 16

Perl Orienté Objet BioPerl There is more than one way to do it

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

8. Cours virtuel Enjeux nordiques / Online Class Northern Issues Formulaire de demande de bourse / Fellowship Application Form

BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ

SysFera. Benjamin Depardon

Sub-Saharan African G-WADI

Instructions Mozilla Thunderbird Page 1

Note. Membres de la collectivité canadienne de la physique subatomique. Chef d équipe, physique et astronomie

Bourses d excellence pour les masters orientés vers la recherche

Analyse des données de séquençage massif par des méthodes phylogénétiques

Empowering small farmers and their organizations through economic intelligence

ERA-Net Call Smart Cities. CREM, Martigny, 4 décembre 2014 Andreas Eckmanns, Responsable de la recherche, Office Fédéral de l énergie OFEN

Tier 1 / Tier 2 relations: Are the roles changing?

L'écosystème du calcul intensif et des données : la vision du CNRS. M. Daydé. Directeur du Comité d Orientation pour le Calcul Intensif au CNRS

Projet d infrastructure régionale pour le traitement des grands volumes de données scientifiques en Auvergne

Tendances Techniques et compétences des laboratoires

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Application Form/ Formulaire de demande

Cedric Dumoulin (C) The Java EE 7 Tutorial

Xtremweb-HEP : A best effort virtualization middleware

Plateforme Technologique Innovante. Innovation Center for equipment& materials

Le projet WIKIWATER The WIKIWATER project

Faits saillants et survol des résultats du sondage

Recherche et Formation dans un environnement de pointe. Contact:

«39 years of experience» ( )

Frequently Asked Questions

Plan. Department of Informatics

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Master Développement Durable et Organisations Master s degree in Sustainable Development and Organizations Dossier de candidature Application Form

We Generate. You Lead.

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

Thierry DELZESCAUX. «biopicsel» group, URA CNRS-CEA 2210 Service MIRCen, I²BM, CEA Fontenay-aux-Roses, France.

L OBSERVATOIRE DE LA BIOLOGIE DE SYNTHESE SYNTHETIC BIOLOGY OBSERVATORY

Gouvernance européenne sur les technologies énergétiques

Jean-François Boulicaut & Mohand-Saïd Hacid

ADHEFILM : tronçonnage. ADHEFILM : cutting off. ADHECAL : fabrication. ADHECAL : manufacturing.

JSPS Strasbourg Office

HSCS 6.4 : mieux appréhender la gestion du stockage en environnement VMware et service de fichiers HNAS Laurent Bartoletti Product Marketing Manager

MABioVis. Bio-informatique et la

Budget Constrained Resource Allocation for Non-Deterministic Workflows on a IaaS Cloud

Système de diffusion d information pour encourager les PME-PMI à améliorer leurs performances environnementales

POSITION DESCRIPTION DESCRIPTION DE TRAVAIL

Grenoble Institute of Technology Esisar department. Speaker : Laurent.Lefevre@grenoble-inp.fr

Présentation de la Grille EGEE

Sagemcom EDI with Suppliers

Thales Services, des systèmes d information plus sûrs, plus intelligents

WiFi Security Camera Quick Start Guide. Guide de départ rapide Caméra de surveillance Wi-Fi (P5)

Editing and managing Systems engineering processes at Snecma

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

StruxureWare Power Monitoring v7.0. La nouvelle génération en matière de logiciel de gestion complète d énergie

Développement logiciel pour le Cloud (TLC)

Get Instant Access to ebook Cest Maintenant PDF at Our Huge Library CEST MAINTENANT PDF. ==> Download: CEST MAINTENANT PDF

LADIES IN MOBILITY. LIVE TWEET Innovative City

INSTRUMENTS DE MESURE SOFTWARE. Management software for remote and/or local monitoring networks

Eléments de statistique

MANUEL MARKETING ET SURVIE PDF

L industrie pharmaceutique et la grippe aviaire

APX et VCE, Modèle d industrialisation de l intégration et du déploiement. Olivier BERNARD, VCE

IDENTITÉ DE L ÉTUDIANT / APPLICANT INFORMATION

MONTRÉAL LA CONFORTABLE MC

Mise en oeuvre TSM 6.1

Génération de code binaire pour application multimedia : une approche au vol

The new consumables catalogue from Medisoft is now updated. Please discover this full overview of all our consumables available to you.

Module Title: French 4

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Transcription:

Quelle place pour la bioinformatique à l IN2P3? V. Breton Journées informatiques Cargèse 07/01

Définitions Bioinformatique : informatique d acquisition et d analyse des données issues de la génomique et la postgénomique Génomique : décodage du patrimone génétique de tous les êtres vivants (lecture de l ADN) Post-génomique : ensemble des expériences biologiques pour comprendre la fonction des gènes Transcriptome : décodage de l ARN Protéome : caractérisation des protéines Métabolome : caractérisation du métabolisme

Genome sequencing projects (sequencing=atgcccatggtaccaccctatgg ) Bacteria: last 12 mounths) Archaea: Eukaryotes: 29 complete genomes (19 in the 6 complete genomes 3 (4) complete genomes yeast: 13 Mb 100% P. falciparum 30 Mb 24% C. elegans 100 Mb 95% A. thaliana 120 Mb 60% Drosophila 170 Mb 60% (100%) human 3200 Mb 30% «draft» complete in 2001, finished in 2003 mouse 3000 Mb 1%

Séquençage Human Genome Project ATGCTGATTGGCACTCCTCGCTAAATGGCCCGGCC X B D Y U E F T H Annotation ATGCTGATTGGCACTCCTCGCTAAATGGCCCGGCC

ATGCTGATTGGCACTCCTCGCTAAATGGCCCGGCC TTGGCACTCCTCGCTAAAT Search for homologies Public DataBases DNA sequences,

Next steps in genome projects Identify genes and other functional elements within genomic sequence (where are the genes?) Determine the function of genes (what do they do?) Analogy with particle physics in the 60 s and 70 s Plenty of data, new particles Need for a strong theoretical foundation

Where are the genes? What is their function? Experimental characterization of all human genes. 30,000-100,000 genes: How many years? Computer analysis of genomic sequences (Ab initio methods) Ruled-based or statistical methods e.g.: coding sequence prediction, promoter prediction, Very useful but limits in sensibility/specificity Comparative sequence analysis

Comparative analysis of homologous (= evolutionary related) sequences Identification of functional elements in genomic sequences stop 5 UTR ATG codon 3 UTR polya site Carp Human introns: protein-coding regions: regulatory elements: similarity scale: no significant similarity 80-90% identity 70-80% identity Prediction of gene function Gene A: known function (F) Gene B: homologous to A => function similar to F

BioInformatic Tools for Comparative Sequence Analysis (1) Similarity search programs (e.g. BLAST, parallelised) Identification of homologous sequences Sequence A ATCGCAGTCTGC TAGCTAGCTAAG ATCGAC... BLAST (heuristic): O(nm) n :length of the query sequence; m: total length of the sequence database (exponential growth) Example (Sun Sparc Ultra-4 300 MHz, 1 Gb RAM) : DNA n=400 m=7 10 9 t= 50' Protein n=172 m=2 10 8 t= 1'20'' (2) Multiple alignment Sequence database BLAST (3) Phylogenetic tree reconstruction List of sequences homologous to A

BioInformatic Tools for Comparative Sequence Analysis (1) Similarity search programs (2) Multiple alignment (e.g. ClustalW, heuristic, parallelised) CLUSTAL W (1.74) multiple sequence alignment Xenopus Gallus Bos Homo Mus Rattus ATGCATGGGCCAACATGACCAGGAGTTGGTGTCGGTCCAAACAGCGTT---GGCTCTCTA ATGCATGGGCCAGCATGACCAGCAGGAGGTAGC-----CAAAATAACACCAACATGCAAATG ATGCATCCGCCAC--ATGACCAGCAGGAGGTAGCACCCAAAACAGCACCAACGTGCAAATG ATGCATCCGCCACCATGACCAGCAGGAGGTAGCACTCAAAACAGCACCAACGTGCAAATG ATGCATCCGCCACCATGACCAGCAGGAGGTAGCACTCAAAACAGCACCAACGTGCA---- ATGCAT----GCCACCATGACCAGCGGGAGGTAGCTCTCAAAACAGCACCAACGTGCAAATG Identification of conserved functional elements Phylogenomics (Prediction of gene function) Example: 120 seq. x 300 bases: 18' (3) Phylogenetic tree reconstruction

BioInformatic Tools for Comparative Sequence Analysis (1) Similarity search programs (2) Multiple alignment (3) Phylogenetic tree reconstruction Phylogenomics (Prediction of gene function) CLUSTAL W (1.74) multiple sequence alignment Xenopus Gallus Bos Homo Mus Rattus ATGCATGGGCCAACATGACCAGGAGTTGGTGTCGG ATGCATGGGCCAGCATGACCAGCAGGAGGTAGC- ATGCATCCGCCAC-ATGACCAGCAGGAGGTAGCA ATGCATCCGCCACCATGACCAGCAGGAGGTAG ATGCATCCGCCACCATGACCAGCAGGAGGTAG ATGCAT GCCACCATGACCAGCGGGAGGTAGC 0.02 Gallus Rattus Mus Bos Homo Xenopus

The typical biologist task : updating a local database Data Base Local lab Public banks EBI, NCBI BLAST : search for homologies Database Client (Web browser, Java interface) submits queries (pieces of local data base), displays and edits results Server (EBI, NCBI,...) Public Banks

Computer engineering manpower is needed for such a task Using remote server CPU Network to access the web server Local database to store the results of the comparison To work locally Network to copy the public databases Hard disk to store the data bases CPU to run algorithms

For this task, the biologist needs computing resources High Energy &Nuclear Physics Resources : engineers, CPU Models & theory Biologists Computer scientists Low computing awareness Need for resources (CPU, manpower) Maximum computing awareness Little resources (manpower,cpu)

DataGRID, un laboratoire de collaboration pluridisciplinaire Work Package 10 Work Package 8 LHCb Alice CMS Atlas WP9 ESA Parasitology DNA-chips Phylogeny Protein structure Medical Imaging Architecture Task Force Work Packages 1 to 5 Globus team DataGRID services Bag of Services (GLOBUS) Local Operating System (LINUX, Solaris,???)

Partners involved in the biology work package CNRS : Clermont-Ferrand, Lyon, Marseille, Montpellier, Orsay, UREC NFR: Swedish Natural Research Council Karolinska Institute, Stockholm Uppsala University University di Padova, Italy in interaction with... European Bioinformatics Institute Institut Pasteur INRIA,...

DataGRID, un laboratoire de collaboration pluridisiciplinaire Opportunité de démontrer les compétences de l IN2P3 aux autres départements du CNRS Mise en commun des compétences et des contacts des laboratoires de l IN2P3

Conclusion Le projet de décodage du Génome Humain a été lancé et porté par les physiciens du Department of Energy aux Etats-Unis La bioinformatique en France est en retard Allons-nous rester hors du coup du post-séquençage?

Obstacles La méfiance des communautés respectives Côté IN2P3 : peur de perdre son âme Côté Sciences du Vivant : crainte vis-à-vis des physiciens L émiettement de la communauté de biologie Chaque laboratoire a sa propre politique informatique La difficulté de mettre en place des actions pluridisciplinaires au CNRS

Stratégie appliquée à Clermont «Démarchage» des laboratoires de biologie Besoins énormes Mais très mal quantifiés Et peu d argent pour l instant Les collaborations démarrent si une personne est affectée à l interface entre le LPC et le laboratoire de biologie Stagiaire (bac+2 et au-delà en info) Nécessité d un investissement des personnels permanents pour le suivi

Conclusion (2) Les laboratoires de l IN2P3 peuvent être la colonne vertébrale de la bioinformatique en France 1 labo par région française et par génopôle Des ressources en calcul et en réseau Des compétences en ingénierie informatique Prix à payer Aller à la rencontre des biologistes Dédier du personnel temporaire (stagiaires, CDD) Impliquer des personnels permanents

Une proposition Mise en place au CCPN Lyon d un site miroir d Infobiogen, centre de ressources bioinformatiques français Copie des bases de données Mise à jour hebdomadaire Mise en place de sites miroirs du CCPN dans divers labos IN2P3 via DataGRID Accès par un portail web à une plate-forme bioinformatique tirant partie de DataGRID

LHC Computing Grid Project 250 MSF 16 personnes en 2001 à 50 personnes en 2004