OBJECTIFS. Une démarche E-science



Documents pareils
E-BIOGENOUEST, VERS UN ENVIRONNEMENT VIRTUEL DE RECHERCHE (VRE) ORIENTÉ SCIENCES DE LA VIE? Intervenant(s) : Yvan Le Bras, Olivier Collin

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

SysFera. Benjamin Depardon

L informatique à l IN2P3 et le rôle du Chargé de Mission

Réunion des DU de Biogenouest 19 mars 2014

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

Eco-système calcul et données

Annexe 6 et 7 Du Contrat de Performance Medicen Paris Region. Liste des engagements du Pôle avec d autres clusters français ou étrangers

«Les projets collaboratifs pour les nuls»

Towards a Life Sciences Virtual Research Environment

EMME : un environnement de gestion des métadonnées expérimentales

Environmental Research and Innovation ( ERIN )

Construire le Business Case lié à l automatisation du Cloud avec vcloud Suite

setting the scene: 11dec 14 perspectives on global data and computing e-infrastructure challenges mark asch MENESR/DGRI/SSRI - France

Tutoriel Cloud IFB - Initiation -

e-science : perspectives et opportunités pour de nouvelles pratiques de la recherche en informatique et mathématiques appliquées

Assemblée générale Aristote

HYPERSUITE/5. La solution de GED et d Archivage Légal intégrée à Delta-Bank

SÉQUENÇAGE DE TYPE RAD-SEQ, PRÉSENTATION ET TRAITEMENT ANALYTIQUE

Filière métier : Administrateur messagerie et portail collaboratif

Présentation du M2 SIC : Systèmes Informatiques et Applications Marines

Iyad Alshabani SysCom - CReSTIC Université de Reims 17/02/2011 1

Digital Lëtzebuerg Conférence de presse du 20 octobre 2014

Infrastructure de calcul du CRRI

parée e avec C. Germain, B. Kegl et M. Jouvin CS de l Université Paris Sud

TRAVAUX DE RECHERCHE DANS LE

Charte d adhésion d un laboratoire au Mésocentre CIMENT

Emergence du Big Data Exemple : Linked Open Data

VMware Infrastructure The New Computing Platform. Stéphane CROIX Systems Engineer

Conception d une infrastructure «Cloud» pertinente

Communauté d Universités et Établissements. Stratégie Territoriale et Initiative d Excellence. Université Côte d Azur (UCA) - page 1

Big data et sciences du Vivant L'exemple du séquençage haut débit

Regard sur hybridation et infogérance de production

LES NOUVEAUX FACTEURS DE COMPÉTITIVITÉ BASÉS SUR LA 3 ÈME PLATEFORME INFORMATIQUE. Sébastien LAMOUR IDC Research & Consulting Manager

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

Evolution des technologies et émergence du cloud computing Drissa HOUATRA, Orange Labs Issy

Gestion de la relation Client (CRM)

Quatre axes au service de la performance et des mutations Four lines serve the performance and changes

MABioVis. Bio-informatique et la

Emergence du Big Data Exemple : Linked Open Data

GUGGO 4 ème rencontre

Services à la recherche: Data Management et HPC *

janv-10 janv-11 oct-10 juil-11 juil-10 avr-11 avr-10

Business Intelligence et Data Visualisation

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Jean-François Boulicaut & Mohand-Saïd Hacid

Master Informatique Aix-Marseille Université

Tout au long de votre cursus Quel métier futur? Dans quel secteur d activité? En fonction de vos goûts et aptitudes et du «niveau d emploi» dans ce

VMware : De la Virtualisation. au Cloud Computing

Transformation vers le Cloud. Premier partenaire Cloud Builder certifié IBM, HP et VMware

Lyon, 16/10/13. Inauguration FLMSN. le contexte national et européen. M. Asch MESR/DGRI. Wednesday, 16 October 13

Pilotage de la masse salariale Déploiement de l outil de budgétisation

Les datas = le fuel du 21ième sicècle

HPC by OVH.COM. Le bon calcul pour l innovation OVH.COM

Réunion Information Investissements d Avenir

Les Rencontres ANR du numérique 2013

Masses de données et calcul : à l IRIT. 8 octobre 2013

CONFIGURER ET DÉPLOYER UN CLOUD PRIVÉ AVEC SYSTEM CENTER 2012

Lancement de la mise à jour de la feuille de route nationale «Infrastructures de Recherche»

Les Rencontres TIC de La Mêlée Numérique. Big Data & Cloud Computing : les nouveaux enjeux

Thomas Loubrieu (Ifremer) Small to Big Data Novembre 2013, Ifremer, Brest

Zone d Activité Datacenter en Aquitaine (ZAD)

Experts efficience informatique

Alphonse Carlier, Intelligence Économique et Knowledge Management, AFNOR Éditions, 2012.

Panorama des études à travers les filières. FEEL du 23 octobre 2014

Galaxy est une plateforme de traitements (bio)informatiques accessible depuis l'url : (en précisant votre login et mot de passe LDAP «genotoul»).

De la captation de données à la Datavisualisation

Du Datacenter au Cloud Quels challenges? Quelles solutions? Christophe Dubos Architecte Microsoft

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

La renaissance de l industrie

Christophe Dubos Architecte Infrastructure et Datacenter Microsoft France

WEB15 IBM Software for Business Process Management. un offre complète et modulaire. Alain DARMON consultant avant-vente BPM

Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales

Note de cadrage du PEPI MACS Mathématiques Appliquées & Calcul Scientifique

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

TRANSFORM IT + BUSINESS + YOURSELF

DOSSIER SOLUTION CA ERwin Modeling. Comment gérer la complexité des données et améliorer l agilité métier?

A la découverte du Traitement. des signaux audio METISS. Inria Rennes - Bretagne Atlantique

Le VDI et les solutions SaaS : Des outils puissants pour les DSI au service des utilisateurs. Château de Montchat, 7 octobre 2013

Forthcoming Database

22 juin 2016, INRIA Lyon

Formation continue BNF // Programme des cours 2015

Big Data et la santé

Tests de SlipStream sur les plateformes et : vers la. Vers la fédération du Cloud computing

Open Data. Enjeux et perspectives dans les télécommunications

Les ressources numériques

DIRAC : cadre et composants pour créer des systèmes de calcul distribués

Déjeuner EIM Enterprise Information Management. Mardi 16 novembre 2010 Restaurant l Amourette Montreuil Thomas Dechilly CTO Sollan

tech days AMBIENT INTELLIGENCE

COMMUNIQUE DE PRESSE : L Eco-Center, nouvel investissement majeur pour faire de l Auvergne le nouveau monde du numérique

Les données massives de Copernicus : vers un nouveau paradigme. Hervé Jeanjean Cnes

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

L industrie 4.0 : la 4ème révolution industrielle sauvera-telle l industrie française?

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL

IBM Business Process Manager

: l IDRIS a vingt ans!

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters

Concepts de Travail Collaboratif Par Olivier Moreau, Directeur SASI 6 Novembre 2009

Cloud et Informatique Scientifique

Transcription:

E-BIOGENOUEST Programme fédérateur Biogenouest co-financé par les Régions Bretagne et Pays de la Loire 24 mois Lancé depuis Mai 2012 Porteur : Olivier Collin (IRISA) Animateur : Yvan Le Bras (IRISA)

OBJECTIFS Une démarche E-science

Objectifs Test d une initiative E-science Impliquer les différents acteurs de Biogenouest Intégrer les différents aspects du développement de la recherche dans le Grand Ouest et au niveau national Schéma directeur intégrateur Mise en place d une «plateforme» e-science Intégration de façon cohérente Résultats du projet ebiogenouest Différentes politiques (Régions, Instituts, Universités, ) Soumission aux différentes tutelles et appels d offres

POURQUOI? La Biologie devient une science numérique

Contexte «Déluge de données» NGS première vague *omics Imagerie (ex: 16 To / jour) Evolution technologique Nombre de capteurs Production par capteur Evolution des infrastructures qui deviennent mutualisées Danger : ne pas être en mesure d analyser les données Kahn. On the future of genomic data. Science (2011) vol. 331 (6018) pp. 728-9 Opportunité : Plus d information Plus de précision Plus de points de vue

Evolution de la recherche Data heterogeneity Data quantity Data size Technological Evolutions Uses Evolution http://en.genomics.cn/navigation/show_navigation.ac tion?navigation.id=143 Life sciences data= digital High Performance Computing

Evolution de la recherche Il y a mille an Qq centaines d années Qq dizaines d années maintenant Evolution de la Science : Le 4 ième paradigme Empirique : description, expérimentation Théorique : modélisation, généralisation Computationnelle : simulation Exploration des données (unification de la théorie, de l expérience et de la simulation), extraction de connaissances. Emergence des disciplines *info Bioinformatique, Chemoinformatique, Astroinformatique, etc.

Evolution de la recherche Spectromètre de masse Séquenceur IRM Microscopes électronique Capteurs Caméra sous marine Puce à ADN Sondeurs GPS Données digitales Utilisateurs Analyseurs

Evolution de la recherche Biologie -Trouver des biomarqueurs -Comprendre la structure génétique de populations -Modéliser le comportement d un système Bio-informatique -Créer un outil de comparaison de séquences -Développer de nouvelles méthodologies -Concevoir un portail web dédié à l analyse Informatique -Proposer des ressources techniques fiables et adaptées

Evolution des infrastructures Livre blanc du CNRS Big Data = le 4 ième pilier de la science moderne Un enjeu majeur Aspects pas bien pris en compte Sciences de la vie non présentées! Ceci explique les demandes actuelles : Pourtant : Datacenter Datacenter Datacenter Datacenter Datacenter Datacenter Datacenter Datacenter Datacenter Datacenter Datacenter Datacenter Datacenter Datacenter Datacenter Datacenter Datacenter «les avancées scientifiques et l innovation dans de multiples domaines (dont ceux des sciences de la vie et de l environnement en pleine explosion actuellement et sans doute rapidement celui des sciences humaines et sociales) dépendent de manière cruciale d une politique du CNRS, et d un renforcement des capacités des infrastructures pour le calcul et l analyse de données»

Défis Le passage au numérique nécessite de nouveaux outils et de nouveaux usages qu il faut développer Besoin de compétences techniques souvent absentes des groupes de recherche Infrastructure : développer/adopter de nouveaux outils Optimisation des ressources (duplication de la donnée, utilisation du réseau, scripts performants, ) Collaboration scientifique (gestion de projet, échange de ressources, publication, ) Gestion et analyse de données (métadonnées, partage, workflows, DMP ) Infrastructure : développer/adopter de nouveaux usages Centralisation / mutualisation Mais Proximité (géographique et thématique) «People Paradox» L automatisation provoque des besoins croissants en ressources humaines Gestion des ressources humaines Evolution des métiers Nouvelles compétences

Bascule des coûts : facteur déstabilisant Bioinformatique Séquençage Using Clouds for Metagenomics: A Case Study Wilkening et al. IEEE cluster 2009 La mutualisation des appareillages a été réalisée (ex: Biogenouest) Il faut maintenant mutualiser les moyens humains sur le versant «TIC» et analyse des données

Une discipline en évolution Mutualisation des ressources plates-formes Bascule vers le monde digital centré sur les données Besoin d interdisciplinarité Pose des problèmes qui peuvent devenir des thèmes de recherche pour les acteurs des TIC Masse de données, intégration de données, etc.

L APPROCHE E-SCIENCE

E-science E-science = Science + TIC «Research done through distributed global collaboration enabled by the internet, using very large data collections, terascale computing resources and high performance visualization» (Sir John Taylor - 2001) E-science : trois volets Calcul: grille, cloud Stockage Outils collaboratifs Pas d initiative française purement e-science

Caractéristiques e-science Caractère distribué, pas de point central n empêche pas un guichet unique! Environnement de recherche virtuel Données Collaboration Utilisateurs Portail web Logiciels Communauté Ressources de traitement

e-infrastructure test : le VRE ebiogenouest

Plateforme E-science Infrastructure informatique de niveau intermédiaire Renforcement des ressources humaines pour les équipes d experts «cantine bioinformatique / cantine scientifique» Agnostique : multi/inter-disciplinarité

Ingénieur 3 Integrateur 3 Institut E-science La collaboration Discipline 1 Traduire Intégrateur 2 Ingénieur 2 Discipline 4 Integrateur 1 Ingénieur 1 centre e-science Discipline 2 Ingénieur 4 Intégrateur 4 Connecter Discipline 3 Coordonner

Ingénieur 3 Institut E-science Le développement Algorithmes Standardiser Ingénieur 2 Modèles Ingénieur 1 centre e-science Techniques Ingénieur 4 Partager Concepts Simplifier

Ingénieur 3 Institut E-science Les ressources Grilles de calcul Former Ingénieur 2 Cloud computing Ingénieur 1 centre e-science Clusters de calcul Ingénieur 4 Veiller Stockage Connecter

LE VRE Un environnement virtuel de recherche en sciences de la vie

Que peux être le début de la e-science? Searching Collaborating Exploring Discussing Uploading Questionning Education Computing Reviewing Visualizing Publishing Verifying Analysing

Let s go for the show! Switch to the Video : https://www.e-biogenouest.org/resources/201 Have an idea & create a group Invite patners Write a new Project Use ISA tools suite to record your data/metadata Use Galaxy to analyse & share your data/metadata Use HUBzero to -share knowledge -manage groups & projects

I have a dream Pour les biologistes perte de temps à apprendre à coder compréhension des outils, leurs paramètres, conserver l historique des traitements appliqués aux données accéder, partager et visualiser les jeux de données avoir accès à un système de gestion de projet simplifiée Pour le développement d outils perte de temps pour le graphique faciliter l utilisation des outils: Bioinfo Recherche Service temps entre développement, test et production. Pour la gestion des infrastructures optimiser stockage, calcul et utilisation du réseau Infrastructure pour la donnée infra de données

ORGANISATION Une nouvelle plate-forme pour Biogenouest

Articulation Bretagne Pays de la Loire e-biogenouest Infrastructure service Griote Structuration recherche Convergence Conclusions Importance des moyens humains mutualisés Lieu physique d échange, nécessite proximité Infrastructure de calcul et de données Importance de l intégration

Plate-forme Plate-forme Plate-forme Plate-forme Un réseau de plates-formes E-science Maillage du territoire Biogenouest Spécialisation thématique Infrastructure de données à l échelle du territoire Proximité des plates-formes traditionnelles Brest Roscoff Rennes Nantes Angers plate-forme virtuelle

Perspective : Plateforme e-science Communautés d utilisateurs Datacenter X Datacenter Y Datacenter Z Centre de calcul national Génomique, Ecologie et Environnement Biogenouest Xomique VRE Mésocentre e-science distribué Experts Développement Accompagnement Formations Grille Cloud

Comité scientifique WP7 : R&D WP8: Animation WP9 : Formation WP10 : Valorisation Structuration Schéma directeur Présentation modulaire en Groupes de tâches (WP) WP6: Programmes scientifiques WP5: Communautés et interdisciplinarité WP4a : Environnement virtuel WP4b : Analyse données WP4c : Gestion données / métadonnées WP2: Calcul WP3: Stockage WP1 : Infrastructure réseau Pilotage de la plate-forme

INRIA CNRS INRA INSERM IFREMER ANSES MNHN URennes1 UNantes UBO UBS Acteurs / rôles Financement -projet e-biogenouest -suites du projet /infra. Initiale? Région Bretagne Région Pays de la Loire Postes mutualisés Datacenter Réseau de communication Appui à la Formation Infrastructure d accueil logistique Universités Ecoles - PRES Pôles géographiques (Angers, Brest, Nantes, Rennes, Roscoff)

e-science, un nouvel axe? Biogenouest Université Européenne de Bretagne? Université Nantes Angers Le Mans? Datacenters mutualisés par site Brest Roscoff Rennes Nantes Angers PF e-science 1 PF e-science 2 PF e-science 3 PF e-science 4 PF e-science 5 Partie Sciences de la vie environnée (e-biogenouest)

CONCLUSION

Infrastructure de / pour données Gestion : curation, stockage, récupération Bénéfices : Données non «perdues» Pas de doublonnage de la recherche Qualité de la recherche grâce à la ré-analyse Accroissement de la valeur de la recherche par combinaison/intégration des données Permettre de nouvelles recherches C est ce qui fera la différence Expérimentation Centre de calcul e-science center Production Centre de données

Enjeux Avantage compétitif pour la recherche et les réponses aux appels d offre Projets dimensionnants Se structurer pour pouvoir répondre aux appels d offres à venir Roadmap à l horizon 2020 Préserver les données produites par les groupes de recherche Optimiser les infrastructures A fundamental characteristic of our age is the rising tide of data global, diverse, valuable and complex. In the realm of science, this is both an opportunity and a challenge. Riding the Wave report, High-Level Group on Data

Merci de votre attention La plate-forme Bio-informatique GenOuest Le groupe Symbiose IRISA/INRIA GenOuest-Dyliss-Genscale ebgo HUB (collaboration) http://www.e-biogenouest.org/ Cyril Monjeaud Olivier Collin EMME portal (data management ) http://emme.genouest.org/ Galaxy instance (data analysis) GO4Bioinformatics (education) http://galaxy.genouest.org/ http://go4bioinformatics.genouest.org/

Prospective processes in which the people do the creative work and the machine does the administration Tim Berners-Lee http://www.scilogs.com/eresearch/social-machines/