Eco-système calcul et données

Eco-système calcul et données M. Daydé Dr du Comité d'orientation pour le Calcul Intensif (COCIN) Délégué Scientifique INS2I en charge HPC / Grille / Cloud

Calcul / données : un enjeu stratégique Calcul intensif au cœur des grandes avancées de la recherche scientifique:! Génome humain, découverte potentielle du boson de Higgs, évolution du climat, risques naturels, pollution atmosphérique, environnement De nombreux autres défis scientifiques :! Structure de l univers, astrophysique, neuroscience, combustion, sismologie, climat, biologie et recherche médicale, matériaux,. Enjeu stratégique de compétitivité et d attractivité internationale: multiples champs disciplinaires; importantes retombées socio-économiques

Calcul Intensif Plus possible de dissocier le calcul haute performance de l analyse et valorisation des masses de données issues des : simulations numériques, en climat, fluides turbulents (combustion, fusion, astrophysique) ; grands instruments, i.e., LHC, ITER, LSST, LOFAR, plateformes génomiques ; grands systèmes d observation au sol, i.e., sismologie et géodésie (RESIF) et dans l espace (Euclid, WFIRST, GAIA, imagerie et interférométrie) Compétitivité scientifique : adosser aux infrastructures et ressources informatiques un environnement d expertise pluri et inter disciplinaire pour les valoriser et les exploiter (e.g. USA, Japon, Allemagne, UK)

Hiérarchie)du)calcul)au)sens)de)PRACE)

Ecosystème)/)données)! Calcul)haute)performance)«)traditionnel)»)(2,500)personnes)au)CNRS))! Acteurs)au)CNRS)INSMI,)INS2I)mais)aussi)INSIS,)..)Et)en)dehors)du)CNRS) CEA,)INRIA,).)! Exascale):)#processeurs,)accélérateurs,)énergie,)codes,)résilience,)..)! Travail)interdisciplinaire)! Big)Data)! Recherche)INS2I,)INSMI,)INRIA)+)savoirSfaire)de)communautés)depuis) longtemps)confrontées)aux)besoins):)biologie,)climat,)astrophysique,) physique)des)particules,)..)! Méthodes)/)outils)! Travail)interdisciplinaire)! Grilles)/)Cloud):)gérer)/)agréger)des)ressources)de)calcul)et)de)stockage)pour)des) traitements)intensifs)(calcul,)data)):)cc)in2p3,)france)grilles,)grid 5000,..)

ESBiothon):)Une)plateSforme)pour)accélérer)les) recherches)en)biologie,santé)et)environnement) Partenaires):) ) 2)rack)de)BluegeneP) )installés)à)l IDRIS):)28)Tflops,)200)TB) stockage) Solution)Sysfera)pour)l accès)aux) ressources) Applications)en)cours)de)portage):) phylogénie,)barcoding,)calcul)et) visualisation)de)relations)de)synténie) dans)des)génomes)bactériens))

EMBRC-France EU Projects - EMBRC - ASSEMBLE Marine Model Organisms and data integration Programme Investissement d avenir 2011-2019 (constuction phase (2012-2017) Partners : UMPC et CNRS 700 persons OOB OOV

EMBRC France - Resource types - Organisms from the environment (fishes, invertebrates, macroalgae) - Collections (microalgae, bacteria, animals, macroalgae) - Genetic resources Joint development activities - E-resource (genomes and tools) JDA1 : Culture of model organisms (animals, algae and development of collections (bacteria/microalgae) JDA2 : Genetic resources. Mutant collections JDA3 : federative and integrative databases for marine biology. http://e-infra.embrc-france.org/ 2

E-infrastructure 2.0 : 2013 dec. Explore Analyse Query Archive http://e-infra.embrc-france.org/ 3

Database http://e-infra.embrc-france.org/ 4

Bottleneck : e.g. Interoperability Collection Database Partner A site MMO Database Partner B Solution : Web Services (REST)? PHP client on Banyuls Python server But needed of a dedicated WAN Network : RENATER QoS? http://e-infra.embrc-france.org/ 5

Conclusions and Prospectives European Infrastructure ELIXIR et EMBRC europe Data imaging integration? Training Galaxy and ++ Long Road again.. Maintenance after 2017. http://e-infra.embrc-france.org/ 6

Chemoinformatique en France Ronan Bureau Président de la SFCi

Société Française de chemoinformatique (SFCi) http://www.sfci.fr Créée en 2007 (Strasbourg). Objectif : traitement de l information chimique. Organisation des données. Bases de données. Prédiction (relations structure-activité). Des propriétés chimiques, biologiques. Des réactions chimiques. Conception (ligands d intérêts biologiques). Modélisation des interactions intermoléculaires. Ligand - Récepteur. Protéine - Protéine.

SFCi Une centaine de chercheurs. 60% académiques / 40% industriels (industrie pharmaceutique notamment). Localisation sur l ensemble du territoire. Orientation très forte vers les relations structure-activité au niveau biologique. Comprendre les propriétés : Pharmacodynamiques. Pharmacocinétiques. Toxicologiques. La base : la chemogénomique. Une interaction / un phénotype. Orientation : la biologie systémique. Voies de signalisation. Dynamique des systèmes biologiques. Sélectivité.

GDR Chemoinformatique http://infochim.u-strasbg.fr/gdrchemoinfo/ 25 équipes académiques relevant d universités et/ou des organismes CNRS, INSERM, CEA, INRA, INRIA. Fédérer les équipes. Favoriser les liens interdisciplinaires. chimie-biologie-informatique Formations. Thèmes de recherche. Méthodes de criblage virtuel et support au criblage réel. Modélisation des propriétés de molécules, de réactions et de matériaux Développement de méthodes, d algorithmes et d outils. Bases de données Développement de logiciels Environnement Mobyle.

Attentes / Questions Les chemoinformaticiens sont très intéressés par les activités en bioinformatique. Liens évidents entre les deux domaines Chemoinformatique : analyse de données avec une orientation chimie-biologie. Passerelle? Questions. Cette infrastructure est-elle dédiée à l'accompagnement de projets ambitieux de génomique/ protéomique, ou/et accessible à tous pour des tâches plus ou moins compliquée (Blast contre uniprot). Le positionnement des infrastructures françaises dans le contexte européen. Y a-t-il des liens entre l'ebi et l'equipex bioinfo? Diffusion des outils (réflexion) en particulier les outils statistiques. Liés à la fouille de données notamment. Orientation vers la recherche translationnelle. Monde académique / Monde industriel (médicaments). Possibilité d'une interface sciences de la vie / chimie? (par exemple annotation biologique des entités chimiques)

Génétique de l autoimmunité

Thymus Tolérance immunologique et le thymus

Expression de l ensemble de nos protéines dans le thymus!! Transcriptional profiling Aire KO MECs PTA genes And others WT MECs

Etude de la transcription dans le thymus Ce qui fonctionne au labo!!! Ce qui pose problème

Problèmes liés au NGS!!! Ce qui pose problème!!!!

Besoins!!!

UMR 8198 - GEPV Génétique et Evolution des Populations Végétales Lille Sophie Gallina 1

Méthodes & outils utilisés au GEPV NGS Séquençage de-novo / assemblage (transcriptome, génome) Re-séquençage : données individuelles ou poolées, srna Détection de variants Analyses de génétique des populations (ex popoolation) Futur : RAD-seq Annotations Outils spécifiques, annotations manuelles - Futur MAKER (GMOD) Visualisation Outils GMOD : Gbrowse, Gbrowse_syn Analyse de phylogénie : MrBayes Modélisation : simulations stochastiques => grand nombre de calculs indépendants 2

Ressources utilisées Génomique Serveur local (12 cœurs, 64G RAM, 64T disques) 1T raw data (en sortie de séquençage), 12T utilisés par les analyses Futur : Instances Galaxy Calcul Roscoff, Toulouse, IDB-cloud Cluster du CRI Lille1 (~ 600 coeurs) Grille de calcul EGI VO Biomed, instance Dirac 3

Besoins Calcul «Simple» ie court et légers en mémoire => EGI OK Plusieurs jours ou grande capacité mémoire => Cluster régional insuffisant? Contrainte : utilisation de nombreux logiciels, y compris des développements locaux => Installation de logiciels ou de packages spécifiques (R, Python, Perl) Analyses NGS : 3 contraintes Taille des données (=> temps de transfert) Disponibilité des outils, outils spécifiques Partage des données d'un projet entre plusieurs personnes => Galaxy? Bases de données à jour pour des annotations Formations, expertises & conseils Méthodes et outils (+ site de e-learning?) «protocoles» ou «bonnes pratiques» pour les analyses Service d'archivage pérenne pour les données brutes 4

Galaxy Avantages Utilisation sans connaissances informatiques Déployé sur plusieurs PF de bioinfo Annuaire des outils installés sur chaque PF? Utilisation via un cloud (IDB-cloud) Limites Stocker les données à 1 endroit (disque virtuel) Utiliser ce disque avec différentes appliances en fonction des outils disponibles Ajout d'outils ou configurations spécifiques possibles Consomme beaucoup de disque pour les données intermédiaires Récupération des résultats + workflow + tous les paramètres en fin de projet? Lourd à utiliser par exemple pour traiter 100 jeux de données 5