Cloud et Informatique Scientifique



Documents pareils
Les mésocentres HPC àportée de clic des utilisateurs industriels

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Infrastructure de calcul du CRRI

Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales

Vers une fédération de Cloud Académique dans France Grilles J. Pansanel pour le groupe FG-Cloud (M. Airaj, C. Cavet, V. Hamar, M. Jouvin, C.

Cloud Computing Maîtrisez la plate-forme AWS - Amazon Web Services

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

DIRAC : cadre et composants pour créer des systèmes de calcul distribués

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

Expérience de la mise en place s une solution de gestion de capacité pour supporter la migration des Datacenter

Journée Utiliateurs Nouvelles du Pôle ID (Informatique) Pierre Neyron, LIG/CNRS

tech days AMBIENT INTELLIGENCE

La mise en place du PACS 1 Midi-Pyrénées s inscrit

Hébergement MMI SEMESTRE 4

VIP et GateLab : retour d expérience

Priorités d investissement IT pour [Source: Gartner, 2013]

Les Clouds de production : Panorama pour les sciences de la vie. Jérôme PANSANEL <jerome.pansanel@iphc.cnrs.fr> Directeur technique France Grilles

3A-IIC - Parallélisme & Grid GRID : Définitions. GRID : Définitions. Stéphane Vialle. Stephane.Vialle@supelec.fr

Systèmes Répartis. Pr. Slimane Bah, ing. PhD. Ecole Mohammadia d Ingénieurs. G. Informatique. Semaine Slimane.bah@emi.ac.ma

E-BIOGENOUEST, VERS UN ENVIRONNEMENT VIRTUEL DE RECHERCHE (VRE) ORIENTÉ SCIENCES DE LA VIE? Intervenant(s) : Yvan Le Bras, Olivier Collin

+ = OpenStack Presentation. Raphaël Ferreira - enovance. Credits : Thanks to the OpenStack Guys 1

CNAM Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

Cloud Computing : quels intérêts et quelles solutions pour les développeurs?

Change the game with smart innovation

Présentation de la Grille EGEE

Déterminer les enjeux du Datacenter

Cloud Computing, discours marketing ou solution à vos problèmes?

Architectures informatiques dans les nuages

«Ré-inventer le browser d'entreprise pour assurer sa sécurité au coeur du Cloud Computing»

Thomas Loubrieu (Ifremer) Small to Big Data Novembre 2013, Ifremer, Brest

OBJECTIFS. Une démarche E-science

e need L un des premiers intégrateurs opérateurs Cloud Computing indépendants en France

Cloud computing Architectures, services et risques

Infrastructures Parallèles de Calcul

Du Datacenter au Cloud Quels challenges? Quelles solutions? Christophe Dubos Architecte Microsoft

APX et VCE, Modèle d industrialisation de l intégration et du déploiement. Olivier BERNARD, VCE

BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ

Les environnements de calcul distribué

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Colloque Calcul IN2P3

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Playbook du programme pour fournisseurs de services 2e semestre 2014

vcloud Director Comment créer et gérer son «Cloud» Jean-Claude DAUNOIS Senior Systems Engineer VMware

Séminaire Partenaires Esri France 6 et 7 juin 2012 Paris. ArcGIS et le Cloud. Gaëtan LAVENU

ILM ou Archivage Une démarche Métier

LES APPROCHES CONCRÈTES POUR LE DÉPLOIEMENT D INFRASTRUCTURES CLOUD AVEC HDS & VMWARE

ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE

Services à la recherche: Data Management et HPC *

SQL Server 2012 et SQL Server 2014

Archivage intermédiaire de données Scientifiques ISAAC Information Scientifique Archivée Au Cines

Regard sur hybridation et infogérance de production

Entrez dans l ère du Numérique Très Haut Débit

Système de Stockage Sécurisé et Distribué

Tests de SlipStream sur les plateformes et : vers la. Vers la fédération du Cloud computing

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Anglais : courant ; Espagnol : bilingue

OFFRE PROMOTIONNELLE INSTALLATION A TITRE GRACIEUX DE MEDIFIN Console d accès Simulation/Transfert ftp/anonymisation RSS et de MEDIFIN BackUp

Appel à Projets. Constitution de bases clinicobiologiques multicentriques à visée nationale en cancérologie. Action 3.1 et 23.2

Charte d'utilisation des infrastructures de la plate-forme bioinformatique Genotoul

Retours d expériences et perspectives sur les aspects énergétiques

«Les projets collaboratifs pour les nuls»

parée e avec C. Germain, B. Kegl et M. Jouvin CS de l Université Paris Sud

Cloud Computing : Généralités & Concepts de base

Assemblée générale Aristote

Big Data et la santé

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

Transformation vers le Cloud. Premier partenaire Cloud Builder certifié IBM, HP et VMware

IBM Software «CAMS² & Business Partners»

Thales Services, des systèmes d information plus sûrs, plus intelligents

QlikView et Google Big Query : Une réponse simple, rapide et peu coûteuse aux analyses Big Data

ORACLE 10g Découvrez les nouveautés. Jeudi 17 Mars Séminaire DELL/INTEL/ORACLE

Anatomie Pathologique (PAT)

Anatomie d'un cloud IaaS Représentation simplifiée

Containers : Outils magiques pour les Devops? OpenNebula et son écosystème pour une infrastructure cloud agile

Technique et architecture de l offre Suite infrastructure cloud. SFR Business Team - Présentation

La fédération des infrastructures cloud

Leadership, innovation, réussite L A N O U V E L L E R É F É R E N C E E N M AT I È R E D E T E C H N O L O G I E D E L A S A N T É.

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL

Middleware et services de la grille

Master Informatique Aix-Marseille Université

Automatiser le Software-Defined Data Center avec vcloud Automation Center

Le Cloud Open-Mind! Emilien Macchi

EXALOGIC ELASTIC CLOUD MANAGEMENT

Pourquoi OneSolutions a choisi SyselCloud

Le VDI et les solutions SaaS : Des outils puissants pour les DSI au service des utilisateurs. Château de Montchat, 7 octobre 2013

La nouvelle donne des espaces de travail mobiles. Didier Krainc 7 Novembre 2013

CliniPACS : distribution sécurisée d'images DICOM en réseau local hospitalier

Christophe Dubos Architecte Infrastructure et Datacenter Microsoft France

Estimated SMB instances PC (Physical and Virtual) 125,000 Total instances: SMB 1-24 PC. 392,000 Total instances: SMB PC

VMware Infrastructure The New Computing Platform. Stéphane CROIX Systems Engineer

Kick Off SCC 2015 Comment faire de votre infrastructure de stockage une source d économie? Vers de nouveaux horizons

VOTRE POLITIQUE D'ARCHIVAGE EST-ELLE ADAPTÉE? Démarche projet. Alain Le Corre, Responsable de Marché, Gestion de l information

Bases de données pour la recherche : quels enjeux et quel rôle pour les patients?

Grid 5000 : Administration d une infrastructure distribuée et développement d outils de déploiement et d isolation réseau

La tête dans les nuages

Projet d'infrastructure de stockage mutualisée

Solutions Dell Networking pour le Big Data. Philippe MARTIN Networking Sales Specialist - p_martin@dell.com

Architecture de la grille

Table des matières 1. Introduction. 1. Avant-propos Remerciements Chapitre 1 Virtualisation de serveurs

Transcription:

1 Cloud et Informatique Scientifique Gilles MATHIEU gilles.mathieu@inserm.fr DSI - Coordination de l Informatique Scientifique de l Inserm (CISI) Cumulo NumBio 2015 - Juin 2015

Objectifs de cette présentation 1. Présenter le contexte de l'informatique scientifique à l'inserm 2. Identifier les besoins de calcul/stockage de quelques domaines, notamment de l'imagerie 2 3. Préciser en quoi les technologies de Cloud peuvent être une solution pour répondre à ces besoins

Plan L informatique scientifique à l Inserm : contexte Focus sur l'imagerie médicale Autres domaines 3 Le challenge du Cloud, les verrous et les opportunités

L informatique scientifique à l Inserm 4

L informatique scientifique : c est quoi? Désigne l'organisation, la gestion ou le traitement de données scientifiques à l'aide d'outils numériques Elle intègre : Le calcul et l algorithmique (programmation, compilation, parallélisation, optimisation ) Le stockage et la manipulation de données scientifiques Les infrastructures et environnements virtuels 5 Elle n intègre pas : L informatique de gestion

Qui a besoin d informatique scientifique? 6...

Etat des lieux des infrastructures à l Inserm Ordinateurs individuels avec ou sans sauvegarde Serveurs isolés ou sur Plateformes 7 Entropie exponentielle : 300 unités de recherche = 300 stratégies Dispersion des ressources Clusters isolés ou sur Plateformes Utilisation partielle des ressources mutualisées

CISI: Coordination de l Informatique Scientifique de l Inserm une structure du DSI fonctionnant avec un pilotage scientifique des Instituts thématiques de l'inserm Conduite par Isabelle Perseil, constituée de 6 personnes Lancée et validée par la Direction Générale de l'inserm en 2014 Missions Support et accompagnement aux équipes de recherche : Algorithmique parallèle et distribuée Grille et Cloud Computing HPC Big Data Mutualisation et optimisation des infrastructures 8

Les 4 axes de développement de CISI CARTOGRAPHIE Assurer une bonne connaissance de l existant en infrastructures informatiques à l Inserm FORMATION Faciliter la montée en compétence des ingénieurs et chercheurs dans les domaines de l informatique scientifique 9 CONSEIL Fournir une expertise et un support de qualité aux chercheurs Inserm sur des thématiques techniques identifiées PROJETS Favoriser les collaborations au niveau national et international

Outils Parallélisation des algorithmes Partage des ressources Mutualisation des services VREs Distribution Exascale Grilles Clouds HPC BIG DATA Catalogue de services 10 Cloud Académique Mésocentres

Focus sur l imagerie médicale 11

Imagerie médicale, pour quoi faire? Prévention, surveillance Diagnostique et aide à la décision Formation et planification de traitement Imagerie temps réel durant un acte thérapeutique Construction de bases de références Suivi de pathologie et de traitement 12 Et évidemment : recherche

Besoins et profils d utilisation Stockage, archivage et manipulation de données Cohortes, données patients, bases d images Traitement, post-traitement Recalage, ré-échantillonnage, normalisation Analyse De différents types (IRM, scanners, PET, radio, echographies ) De différentes façons (segmentation, études longitudinales ) Simulation Pour différents buts (simulation d acquisition, validation théorique ) Avec différentes applications (Gate, Field, PET-Sorteo ) 13

Besoins informatiques associés Gestion de données Fichiers de grande taille (de l ordre du Go) Volume important (un seul hôpital génère entre 10 et 300 To/an) Besoin croissant (archivage) Souvent une forte contrainte de confidentialité Besoin de partage (bases de référence) Calcul Algorithmes gourmands (ex: simulation Monte Carlo) Traitement sur données complexes (ex: analyse matricielle) 14

France Life Imaging et le nœud IAM FLI une infrastructure de recherche visant à établir un réseau coordonné et harmonisé pour l'imagerie biomédicale en France noeud Français de l infrastructure européenne Euro-bioImaging Investissements d Avenir 2011 https://its.aviesan.fr/index.php?pagendx=291 15 Information Analysis and Management (IAM) Nœud transversal de FLI

L architecture de FLI-IAM 16

17

L infrastructure FLI-IAM 18

VIP: Virtual Imaging Platform Plateforme web integrant de nombreuses applications d imagerie Simulation (Gate/GateLab, Field-II, Sindbad, PET-Sorteo ) Analyse (FSL, Freesurfer ) 19 Simulated cardiac DWI (L. Wang, Y. Zhu, I. Magnin) CT and PET whole-body simulations (C. Lartizien, J. Tabary) in-vivo simulated Simulated prostate radiotherapy treatment plan (L. Grevillot and D. Sarrut) Echocardiographies parasternal short axis view (O. Bernard and M. Alessandrini)

Web portal Application as a service File transfer to/from grid https://vip.creatis.insa-lyon.fr/ Infrastructure Supported by EGI Infrastructure VIP consumes ~40 CPU years every month France-Grilles Scientific applications DIRAC Cancer therapy simulation Neuro-image analysis Users 773 registered users in May 2015 Most used robot certificate in EGI (http://go.egi.eu/wiki.robot.users) Prostate radiotherapy plan simulated with GATE(L. Grevillot and D. Sarrut) Image simulation Brain tissue segmentation with Freesurfer Modeling and optimization of distributed computing systems Echocardiography simulated with FIELD-II (O. Bernard et al) Acceleration yielded by non-clairvoyant task replication (R. Ferreira da Silva et al)

VIP : portail web Launch applications 21 Transfer files http://vip.creatis.insa-lyon.fr

VIP : Architecture User 0. Login 1. Send input data Web portal 3. Launch workflow Workflow engine (Moteur + GASW) 2. Transfer input files 4. Generate and submit task 22 Storage system 8. Get files 9. Execute 10. Upload results Computing sites 7. Get task 5. Submit and 6. Schedule pilot jobs Pilot Manager (DIRAC)

SHAring NeurOImaging Resources : SHANOIR Un site web avec interface graphique conviviale permettant : Archiver et Indexer Chercher and Récupérer des données de neuroimagerie Partager Il y a tellement plus facile pour partager ses données 23 Dans le but : D améliorer l accessibilité et l intégrité des données Structurer les données et gérer leur provenance Faciliter la collaboration dans les études multicentriques Partager les ressources d acquisition

Shanoir : architecture logicielle Shanoir est organisé comme un entrepos de fichiers de neuroimagerie couplé avec une base de données relationnelle auxquels s ajoutent des méta-données complémentaires Client application Shanoir middleware Data store Metadata Client Tools Web Services JDBC Connector Shanoir API Shanoir Engine Relational Database Web Browser Data Files Service Class Provider Backup PACS Nifti DICOM Application Web 2.0 sécurisée Gestion des données d imagerie pour la clinique et la recherche clinique et méthodologique Gère les accès des usagers Gère les scores cliniques (i.e. EDSS) Query/retrieve pour le chargement et le téléchargement de données sources et dérivées Sauvegarde de données d imagerie Permet l accès et le partage simplifié des données au dessus d internet 24

Dissémination de Shanoir au sein d une plateforme IRM recherche * Réseaux CHU Données Anonymisées 31 (37) Centers (Equipments) 127 (52) Users (active) 60 Studies 2228 Subjects 3157 Examinations IRM Données Nominative PACS SHANOIR 114 441 Datasets 3099 GB Raw & Processed Data 20 GB Meta-Data Supervision et suivi de l étude Usagers * http://www.neurinfo.org accès aux données Import des données externes DICOM Statistiques : Janvier 2015

Imagerie et Cloud Un exemple : FSL sur le cloud Amazon via CBRAIN T.Glatard, R.Adalat, N.Beck, P.Rioux, M.E.Rousseau, AC.Evans, "High-Throughput neuroimaging on the Amazon cloud with CBRAIN", 21th Annual Meeting of the Organization for Human Brain Mapping, Hawaii, USA, 2015 (to appear) 26 Bénéfices Déploiement plus facile des applications Elasticité des ressources Reproductibilité des calculs Exploitation commerciale facilitée

D autres domaines 27

E-santé et santé publique Le besoin du croisement de données Croisement de sources hétérogènes (biobanks, cohortes, hôpitaux, réseaux sociaux ) Formats hétérogènes Le paradoxe du partage Les données de recherche doivent être partagées au maximum Les données patients doivent être protégées au maximum Le besoin de suivre les évolutions technologiques Exemple : appareils embarqués 28

Bioinformatique structurale Ex: la plateforme RPBS http://bioserv.rpbs.univ-paris-diderot.fr 29

Le challenge du Cloud 30

Les limites techniques actuels Hétérogénéité des profils et besoins profils des données (taille, structure ) et de calculs Difficulté de mise en place de solutions «one size fits all» Limitation en terme de ressources disponibles Manque de flexibilité et faible adaptabilité 31 Les technologies Cloud pourraient résoudre efficacement ces blocages

Le cloud? Quel cloud? Plusieurs problématiques Stockage distribué Partage des données Virtualisation de ressources de calcul Mise en place de services 32 Plusieurs solutions Clouds commerciaux Clouds académiques

Et concrètement? Garder la surface, changer le fond Connecter un framework de soumission de calcul sur une infrastructure cloud Stocker physiquement des données dans un cloud sans changer la façon d y accéder Exemple : pour VIP, utiliser les ressources du Cloud EGI à travers DIRAC Changer d outils ou en produire de nouveaux Utilisation directe d interface cloud Mise en place de nouveaux environnements Exemple : utilisation de Slipstream sur le cloud France Grilles 33

Les freins à la cloudification Les «overheads» d un passage au Cloud Une migration prend toujours du temps Confidentialité et sécurité Les personnes travaillant sur l infrastructure ne doivent pas avoir accès aux données Problèmes légaux et éthiques A qui appartiennent les données? Qui est responsable de leur sécurisation? Si des patients sont en jeu, quid de leur consentement? 34

Les bénéfices du Cloud Plus de ressources disponibles Rentabilité économique Facilitation du déploiement des applications Amélioration de la reproductibilité expérimentale Facilitation du partage de données 35

Questions - discussion 36

Crédits/remerciements Isabelle Perseil, Sorina Camarasu Pop, Tristan Glatard, Michel Dojat, Christian Barillot, Pierre Mouillard, David N. Kennedy, Marie-Christine Jaulent, Pierre Tufféry 37 Pour l inspiration, et accessoirement quelques transparents, textes et images!

Références / liens Par ordre d apparition à l écran France Grilles http://www.france-grilles.fr EGI http://www.egi.eu GENCI http://www.genci.fr PRACE http://www.prace-ri.eu/ EUDAT http://eudat.eu/ Research Data Alliance https://rd-alliance.org/ Big Data Value Association http://www.bdva.eu/ France Life Imaging https://its.aviesan.fr/index.php?pagendx=291 Euro-BioImaging http://www.eurobioimaging.eu/ VIP http://www.creatis.insa-lyon.fr/vip/ Shanoir http://www.shanoir.org/ CBRAIN http://mcin-cnim.ca/neuroimagingtechnologies/cbrain/ RPBS http://bioserv.rpbs.univ-paris-diderot.fr 38