Eco-système calcul et données

Documents pareils
L'écosystème du calcul intensif et des données : la vision du CNRS. M. Daydé. Directeur du Comité d Orientation pour le Calcul Intensif au CNRS

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

E-BIOGENOUEST, VERS UN ENVIRONNEMENT VIRTUEL DE RECHERCHE (VRE) ORIENTÉ SCIENCES DE LA VIE? Intervenant(s) : Yvan Le Bras, Olivier Collin

OBJECTIFS. Une démarche E-science

Emergence du Big Data Exemple : Linked Open Data

Tutoriel Cloud IFB - Initiation -

Environmental Research and Innovation ( ERIN )

Physiopathologie : de la Molécule à l'homme

Emergence du Big Data Exemple : Linked Open Data

Galaxy est une plateforme de traitements (bio)informatiques accessible depuis l'url : (en précisant votre login et mot de passe LDAP «genotoul»).

Projet d infrastructure régionale pour le traitement des grands volumes de données scientifiques en Auvergne

parée e avec C. Germain, B. Kegl et M. Jouvin CS de l Université Paris Sud

Faculté des Sciences d ORSAY

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Travailler ensemble : Coopération, Collaboration, Coordination

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Les Rencontres ANR du numérique 2013

Possibilités offertes après la L2?

Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales

L informatique à l IN2P3 et le rôle du Chargé de Mission

Mise en œuvre de la virtualisation à l IGBMC. Guillaume Seith Remy Fritz

Big data et sciences du Vivant L'exemple du séquençage haut débit

Contrat d accompagnement de projet

MASTER (LMD) GESTION DE DONNEES ET SPATIALISATION EN ENVIRONNEMENT (GSE)

Grid 5000 : Administration d une infrastructure distribuée et développement d outils de déploiement et d isolation réseau

Gènes Diffusion - EPIC 2010

Comité de suivi de la licence et de la licence professionnelle Comité de suivi du cursus master

FORMATIONS STAGES INSERTION PROFESSIONNELLE. UFR Sciences Orsay. Isabelle DEMACHY

ArcGIS. for Server. Comprendre notre monde

Laboratoire d informatique Gaspard-Monge UMR Journée Labex Bézout- ANSES

Calcul intensif pour la biologie

MASTER (LMD) PARCOURS MICROORGANISMES, HÔTES, ENVIRONNEMENTS (MHE)

Réunion des DU de Biogenouest 19 mars 2014

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

MAIDESC - KO 21 Novembre 2013 Etienne Wey Alexandre Boilley

ArcGIS. for Server. Sénégal. Comprendre notre monde

Communauté d Universités et Établissements. Stratégie Territoriale et Initiative d Excellence. Université Côte d Azur (UCA) - page 1

Grid Technology. ActiveMQ pour le grand collisionneur de hadrons (LHC) Lionel Cons Grid Technology Group Information Technology Department

Présentation de la Grille EGEE

Lancement de la mise à jour de la feuille de route nationale «Infrastructures de Recherche»

EMME : un environnement de gestion des métadonnées expérimentales

Infrastructures Parallèles de Calcul

Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs?

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Colloque Calcul IN2P3

Université Paris Saclay De quoi parle t-on?

Cloud Computing : quels intérêts et quelles solutions pour les développeurs?

: l IDRIS a vingt ans!

L Ecole et observatoire des sciences de la Terre

Infrastructure de calcul du CRRI

Architecture de la grille

MASTER 2 SCIENCES DU MEDICAMENT

Tests de SlipStream sur les plateformes et : vers la. Vers la fédération du Cloud computing

Informatique Médicale & Ingénierie des Connaissances Pour la e-santé

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux

Cycle de vie, processus de gestion

SysFera. Benjamin Depardon

RESIF Une infrastructure de recherche pour l'observation des déformations de la terre site web :

TRAVAUX DE RECHERCHE DANS LE

UFR Sciences Fondamentales et Appliquées Université de Poitiers. Se réorienter à l UFR Sciences Fondamentales et Appliquées en janvier 2013

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

Mastodons. Une Approche Interdisciplinaire des Big Data. Mokrane Bouzeghoub CNRS / INS2I & MI !"#$%&%'()*%+,$-.'."$%%

ARCHEOVISION. Centre de Ressources Numériques 3D. UMR 5607 du CNRS. R. Vergnieux IR-CNRS

e-infrastructures pour la Génomique et la Biologie à Grande Echelle

Architecture de réseau de senseurs : monitoring environnemental et écosystèmes forestiers

Les Clouds de production : Panorama pour les sciences de la vie. Jérôme PANSANEL <jerome.pansanel@iphc.cnrs.fr> Directeur technique France Grilles

Informatique. epims : un LIMS pour la gestion des données de spectrométrie de masse TECHNOLOGIE APPLIQUÉE

Guide utilisation SFR Sync. SFR Business Team - Présentation

- 2 - faire industriel dans la mise au point des produits biologiques. L Institut Roche de Recherche et Médecine Translationnelle (IRRMT, basé à

Consensus Scientifique sur. les. Champs statiques

Les Parcours Scientifiques et les Ecoles Doctorales

Enseignant: Lamouchi Bassem Cours : Système à large échelle et Cloud Computing

Recherche et Formation dans un environnement de pointe. Contact:

Charte d'utilisation des infrastructures de la plate-forme bioinformatique Genotoul

PRODIGUER un noeud français de distribution de données GIEC/IPCC

FOURNIR UN SERVICE DE BASE DE DONNÉES FLEXIBLE. Database as a Service (DBaaS)

Rapport d évaluation du master

Compte-rendu de fin de projet

Présentation du module Base de données spatio-temporelles

Un exemple de cloud au LUPM : Stratuslab

MAB Solut. vos projets. MABLife Génopole Campus 1 5 rue Henri Desbruères Evry Cedex. intervient à chaque étape de

AA-SO5 KIDA/GSOV/VAMDC

Optimisation multi-critère pour l allocation de ressources sur Clouds distribués avec prise en compte de l énergie

Filière Data Mining (Fouille de données) Pierre Morizet-Mahoudeaux

Panorama des formations en biotechnologie

APPEL À COMMUNICATIONS 2010

Anticiper et prédire les sinistres avec une approche Big Data

Domaine : Sciences, Technologies et Santé Mention : Nutrition, Sciences des aliments, Agroalimentaire

ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

DIRAC : cadre et composants pour créer des systèmes de calcul distribués

Filière MMIS. Modélisation Mathématique, Images et Simulation. Responsables : Stefanie Hahmann, Valérie Perrier, Zoltan Szigeti

Spécialité Sciences Mécaniques et Ingénierie

Projet ARMED Assessment and Risk Management of MEdical Devices in plasticized polyvinylchloride

Calcul Haute Performance & Données

Transcription:

Eco-système calcul et données M. Daydé Dr du Comité d'orientation pour le Calcul Intensif (COCIN) Délégué Scientifique INS2I en charge HPC / Grille / Cloud

Calcul / données : un enjeu stratégique Calcul intensif au cœur des grandes avancées de la recherche scientifique:! Génome humain, découverte potentielle du boson de Higgs, évolution du climat, risques naturels, pollution atmosphérique, environnement De nombreux autres défis scientifiques :! Structure de l univers, astrophysique, neuroscience, combustion, sismologie, climat, biologie et recherche médicale, matériaux,. Enjeu stratégique de compétitivité et d attractivité internationale: multiples champs disciplinaires; importantes retombées socio-économiques

Calcul Intensif Plus possible de dissocier le calcul haute performance de l analyse et valorisation des masses de données issues des : simulations numériques, en climat, fluides turbulents (combustion, fusion, astrophysique) ; grands instruments, i.e., LHC, ITER, LSST, LOFAR, plateformes génomiques ; grands systèmes d observation au sol, i.e., sismologie et géodésie (RESIF) et dans l espace (Euclid, WFIRST, GAIA, imagerie et interférométrie) Compétitivité scientifique : adosser aux infrastructures et ressources informatiques un environnement d expertise pluri et inter disciplinaire pour les valoriser et les exploiter (e.g. USA, Japon, Allemagne, UK)

Hiérarchie)du)calcul)au)sens)de)PRACE)

Ecosystème)/)données)! Calcul)haute)performance)«)traditionnel)»)(2,500)personnes)au)CNRS))! Acteurs)au)CNRS)INSMI,)INS2I)mais)aussi)INSIS,)..)Et)en)dehors)du)CNRS) CEA,)INRIA,).)! Exascale):)#processeurs,)accélérateurs,)énergie,)codes,)résilience,)..)! Travail)interdisciplinaire)! Big)Data)! Recherche)INS2I,)INSMI,)INRIA)+)savoirSfaire)de)communautés)depuis) longtemps)confrontées)aux)besoins):)biologie,)climat,)astrophysique,) physique)des)particules,)..)! Méthodes)/)outils)! Travail)interdisciplinaire)! Grilles)/)Cloud):)gérer)/)agréger)des)ressources)de)calcul)et)de)stockage)pour)des) traitements)intensifs)(calcul,)data)):)cc)in2p3,)france)grilles,)grid 5000,..)

ESBiothon):)Une)plateSforme)pour)accélérer)les) recherches)en)biologie,santé)et)environnement) Partenaires):) ) 2)rack)de)BluegeneP) )installés)à)l IDRIS):)28)Tflops,)200)TB) stockage) Solution)Sysfera)pour)l accès)aux) ressources) Applications)en)cours)de)portage):) phylogénie,)barcoding,)calcul)et) visualisation)de)relations)de)synténie) dans)des)génomes)bactériens))

EMBRC-France EU Projects - EMBRC - ASSEMBLE Marine Model Organisms and data integration Programme Investissement d avenir 2011-2019 (constuction phase (2012-2017) Partners : UMPC et CNRS 700 persons OOB OOV

EMBRC France - Resource types - Organisms from the environment (fishes, invertebrates, macroalgae) - Collections (microalgae, bacteria, animals, macroalgae) - Genetic resources Joint development activities - E-resource (genomes and tools) JDA1 : Culture of model organisms (animals, algae and development of collections (bacteria/microalgae) JDA2 : Genetic resources. Mutant collections JDA3 : federative and integrative databases for marine biology. http://e-infra.embrc-france.org/ 2

E-infrastructure 2.0 : 2013 dec. Explore Analyse Query Archive http://e-infra.embrc-france.org/ 3

Database http://e-infra.embrc-france.org/ 4

Bottleneck : e.g. Interoperability Collection Database Partner A site MMO Database Partner B Solution : Web Services (REST)? PHP client on Banyuls Python server But needed of a dedicated WAN Network : RENATER QoS? http://e-infra.embrc-france.org/ 5

Conclusions and Prospectives European Infrastructure ELIXIR et EMBRC europe Data imaging integration? Training Galaxy and ++ Long Road again.. Maintenance after 2017. http://e-infra.embrc-france.org/ 6

Chemoinformatique en France Ronan Bureau Président de la SFCi

Société Française de chemoinformatique (SFCi) http://www.sfci.fr Créée en 2007 (Strasbourg). Objectif : traitement de l information chimique. Organisation des données. Bases de données. Prédiction (relations structure-activité). Des propriétés chimiques, biologiques. Des réactions chimiques. Conception (ligands d intérêts biologiques). Modélisation des interactions intermoléculaires. Ligand - Récepteur. Protéine - Protéine.

SFCi Une centaine de chercheurs. 60% académiques / 40% industriels (industrie pharmaceutique notamment). Localisation sur l ensemble du territoire. Orientation très forte vers les relations structure-activité au niveau biologique. Comprendre les propriétés : Pharmacodynamiques. Pharmacocinétiques. Toxicologiques. La base : la chemogénomique. Une interaction / un phénotype. Orientation : la biologie systémique. Voies de signalisation. Dynamique des systèmes biologiques. Sélectivité.

GDR Chemoinformatique http://infochim.u-strasbg.fr/gdrchemoinfo/ 25 équipes académiques relevant d universités et/ou des organismes CNRS, INSERM, CEA, INRA, INRIA. Fédérer les équipes. Favoriser les liens interdisciplinaires. chimie-biologie-informatique Formations. Thèmes de recherche. Méthodes de criblage virtuel et support au criblage réel. Modélisation des propriétés de molécules, de réactions et de matériaux Développement de méthodes, d algorithmes et d outils. Bases de données Développement de logiciels Environnement Mobyle.

Attentes / Questions Les chemoinformaticiens sont très intéressés par les activités en bioinformatique. Liens évidents entre les deux domaines Chemoinformatique : analyse de données avec une orientation chimie-biologie. Passerelle? Questions. Cette infrastructure est-elle dédiée à l'accompagnement de projets ambitieux de génomique/ protéomique, ou/et accessible à tous pour des tâches plus ou moins compliquée (Blast contre uniprot). Le positionnement des infrastructures françaises dans le contexte européen. Y a-t-il des liens entre l'ebi et l'equipex bioinfo? Diffusion des outils (réflexion) en particulier les outils statistiques. Liés à la fouille de données notamment. Orientation vers la recherche translationnelle. Monde académique / Monde industriel (médicaments). Possibilité d'une interface sciences de la vie / chimie? (par exemple annotation biologique des entités chimiques)

Génétique de l autoimmunité

Thymus Tolérance immunologique et le thymus

Expression de l ensemble de nos protéines dans le thymus!! Transcriptional profiling Aire KO MECs PTA genes And others WT MECs

Etude de la transcription dans le thymus Ce qui fonctionne au labo!!! Ce qui pose problème

Problèmes liés au NGS!!! Ce qui pose problème!!!!

Besoins!!!

UMR 8198 - GEPV Génétique et Evolution des Populations Végétales Lille Sophie Gallina 1

Méthodes & outils utilisés au GEPV NGS Séquençage de-novo / assemblage (transcriptome, génome) Re-séquençage : données individuelles ou poolées, srna Détection de variants Analyses de génétique des populations (ex popoolation) Futur : RAD-seq Annotations Outils spécifiques, annotations manuelles - Futur MAKER (GMOD) Visualisation Outils GMOD : Gbrowse, Gbrowse_syn Analyse de phylogénie : MrBayes Modélisation : simulations stochastiques => grand nombre de calculs indépendants 2

Ressources utilisées Génomique Serveur local (12 cœurs, 64G RAM, 64T disques) 1T raw data (en sortie de séquençage), 12T utilisés par les analyses Futur : Instances Galaxy Calcul Roscoff, Toulouse, IDB-cloud Cluster du CRI Lille1 (~ 600 coeurs) Grille de calcul EGI VO Biomed, instance Dirac 3

Besoins Calcul «Simple» ie court et légers en mémoire => EGI OK Plusieurs jours ou grande capacité mémoire => Cluster régional insuffisant? Contrainte : utilisation de nombreux logiciels, y compris des développements locaux => Installation de logiciels ou de packages spécifiques (R, Python, Perl) Analyses NGS : 3 contraintes Taille des données (=> temps de transfert) Disponibilité des outils, outils spécifiques Partage des données d'un projet entre plusieurs personnes => Galaxy? Bases de données à jour pour des annotations Formations, expertises & conseils Méthodes et outils (+ site de e-learning?) «protocoles» ou «bonnes pratiques» pour les analyses Service d'archivage pérenne pour les données brutes 4

Galaxy Avantages Utilisation sans connaissances informatiques Déployé sur plusieurs PF de bioinfo Annuaire des outils installés sur chaque PF? Utilisation via un cloud (IDB-cloud) Limites Stocker les données à 1 endroit (disque virtuel) Utiliser ce disque avec différentes appliances en fonction des outils disponibles Ajout d'outils ou configurations spécifiques possibles Consomme beaucoup de disque pour les données intermédiaires Récupération des résultats + workflow + tous les paramètres en fin de projet? Lourd à utiliser par exemple pour traiter 100 jeux de données 5