1 Cloud et Informatique Scientifique Gilles MATHIEU gilles.mathieu@inserm.fr DSI - Coordination de l Informatique Scientifique de l Inserm (CISI) Cumulo NumBio 2015 - Juin 2015
Objectifs de cette présentation 1. Présenter le contexte de l'informatique scientifique à l'inserm 2. Identifier les besoins de calcul/stockage de quelques domaines, notamment de l'imagerie 2 3. Préciser en quoi les technologies de Cloud peuvent être une solution pour répondre à ces besoins
Plan L informatique scientifique à l Inserm : contexte Focus sur l'imagerie médicale Autres domaines 3 Le challenge du Cloud, les verrous et les opportunités
L informatique scientifique à l Inserm 4
L informatique scientifique : c est quoi? Désigne l'organisation, la gestion ou le traitement de données scientifiques à l'aide d'outils numériques Elle intègre : Le calcul et l algorithmique (programmation, compilation, parallélisation, optimisation ) Le stockage et la manipulation de données scientifiques Les infrastructures et environnements virtuels 5 Elle n intègre pas : L informatique de gestion
Qui a besoin d informatique scientifique? 6...
Etat des lieux des infrastructures à l Inserm Ordinateurs individuels avec ou sans sauvegarde Serveurs isolés ou sur Plateformes 7 Entropie exponentielle : 300 unités de recherche = 300 stratégies Dispersion des ressources Clusters isolés ou sur Plateformes Utilisation partielle des ressources mutualisées
CISI: Coordination de l Informatique Scientifique de l Inserm une structure du DSI fonctionnant avec un pilotage scientifique des Instituts thématiques de l'inserm Conduite par Isabelle Perseil, constituée de 6 personnes Lancée et validée par la Direction Générale de l'inserm en 2014 Missions Support et accompagnement aux équipes de recherche : Algorithmique parallèle et distribuée Grille et Cloud Computing HPC Big Data Mutualisation et optimisation des infrastructures 8
Les 4 axes de développement de CISI CARTOGRAPHIE Assurer une bonne connaissance de l existant en infrastructures informatiques à l Inserm FORMATION Faciliter la montée en compétence des ingénieurs et chercheurs dans les domaines de l informatique scientifique 9 CONSEIL Fournir une expertise et un support de qualité aux chercheurs Inserm sur des thématiques techniques identifiées PROJETS Favoriser les collaborations au niveau national et international
Outils Parallélisation des algorithmes Partage des ressources Mutualisation des services VREs Distribution Exascale Grilles Clouds HPC BIG DATA Catalogue de services 10 Cloud Académique Mésocentres
Focus sur l imagerie médicale 11
Imagerie médicale, pour quoi faire? Prévention, surveillance Diagnostique et aide à la décision Formation et planification de traitement Imagerie temps réel durant un acte thérapeutique Construction de bases de références Suivi de pathologie et de traitement 12 Et évidemment : recherche
Besoins et profils d utilisation Stockage, archivage et manipulation de données Cohortes, données patients, bases d images Traitement, post-traitement Recalage, ré-échantillonnage, normalisation Analyse De différents types (IRM, scanners, PET, radio, echographies ) De différentes façons (segmentation, études longitudinales ) Simulation Pour différents buts (simulation d acquisition, validation théorique ) Avec différentes applications (Gate, Field, PET-Sorteo ) 13
Besoins informatiques associés Gestion de données Fichiers de grande taille (de l ordre du Go) Volume important (un seul hôpital génère entre 10 et 300 To/an) Besoin croissant (archivage) Souvent une forte contrainte de confidentialité Besoin de partage (bases de référence) Calcul Algorithmes gourmands (ex: simulation Monte Carlo) Traitement sur données complexes (ex: analyse matricielle) 14
France Life Imaging et le nœud IAM FLI une infrastructure de recherche visant à établir un réseau coordonné et harmonisé pour l'imagerie biomédicale en France noeud Français de l infrastructure européenne Euro-bioImaging Investissements d Avenir 2011 https://its.aviesan.fr/index.php?pagendx=291 15 Information Analysis and Management (IAM) Nœud transversal de FLI
L architecture de FLI-IAM 16
17
L infrastructure FLI-IAM 18
VIP: Virtual Imaging Platform Plateforme web integrant de nombreuses applications d imagerie Simulation (Gate/GateLab, Field-II, Sindbad, PET-Sorteo ) Analyse (FSL, Freesurfer ) 19 Simulated cardiac DWI (L. Wang, Y. Zhu, I. Magnin) CT and PET whole-body simulations (C. Lartizien, J. Tabary) in-vivo simulated Simulated prostate radiotherapy treatment plan (L. Grevillot and D. Sarrut) Echocardiographies parasternal short axis view (O. Bernard and M. Alessandrini)
Web portal Application as a service File transfer to/from grid https://vip.creatis.insa-lyon.fr/ Infrastructure Supported by EGI Infrastructure VIP consumes ~40 CPU years every month France-Grilles Scientific applications DIRAC Cancer therapy simulation Neuro-image analysis Users 773 registered users in May 2015 Most used robot certificate in EGI (http://go.egi.eu/wiki.robot.users) Prostate radiotherapy plan simulated with GATE(L. Grevillot and D. Sarrut) Image simulation Brain tissue segmentation with Freesurfer Modeling and optimization of distributed computing systems Echocardiography simulated with FIELD-II (O. Bernard et al) Acceleration yielded by non-clairvoyant task replication (R. Ferreira da Silva et al)
VIP : portail web Launch applications 21 Transfer files http://vip.creatis.insa-lyon.fr
VIP : Architecture User 0. Login 1. Send input data Web portal 3. Launch workflow Workflow engine (Moteur + GASW) 2. Transfer input files 4. Generate and submit task 22 Storage system 8. Get files 9. Execute 10. Upload results Computing sites 7. Get task 5. Submit and 6. Schedule pilot jobs Pilot Manager (DIRAC)
SHAring NeurOImaging Resources : SHANOIR Un site web avec interface graphique conviviale permettant : Archiver et Indexer Chercher and Récupérer des données de neuroimagerie Partager Il y a tellement plus facile pour partager ses données 23 Dans le but : D améliorer l accessibilité et l intégrité des données Structurer les données et gérer leur provenance Faciliter la collaboration dans les études multicentriques Partager les ressources d acquisition
Shanoir : architecture logicielle Shanoir est organisé comme un entrepos de fichiers de neuroimagerie couplé avec une base de données relationnelle auxquels s ajoutent des méta-données complémentaires Client application Shanoir middleware Data store Metadata Client Tools Web Services JDBC Connector Shanoir API Shanoir Engine Relational Database Web Browser Data Files Service Class Provider Backup PACS Nifti DICOM Application Web 2.0 sécurisée Gestion des données d imagerie pour la clinique et la recherche clinique et méthodologique Gère les accès des usagers Gère les scores cliniques (i.e. EDSS) Query/retrieve pour le chargement et le téléchargement de données sources et dérivées Sauvegarde de données d imagerie Permet l accès et le partage simplifié des données au dessus d internet 24
Dissémination de Shanoir au sein d une plateforme IRM recherche * Réseaux CHU Données Anonymisées 31 (37) Centers (Equipments) 127 (52) Users (active) 60 Studies 2228 Subjects 3157 Examinations IRM Données Nominative PACS SHANOIR 114 441 Datasets 3099 GB Raw & Processed Data 20 GB Meta-Data Supervision et suivi de l étude Usagers * http://www.neurinfo.org accès aux données Import des données externes DICOM Statistiques : Janvier 2015
Imagerie et Cloud Un exemple : FSL sur le cloud Amazon via CBRAIN T.Glatard, R.Adalat, N.Beck, P.Rioux, M.E.Rousseau, AC.Evans, "High-Throughput neuroimaging on the Amazon cloud with CBRAIN", 21th Annual Meeting of the Organization for Human Brain Mapping, Hawaii, USA, 2015 (to appear) 26 Bénéfices Déploiement plus facile des applications Elasticité des ressources Reproductibilité des calculs Exploitation commerciale facilitée
D autres domaines 27
E-santé et santé publique Le besoin du croisement de données Croisement de sources hétérogènes (biobanks, cohortes, hôpitaux, réseaux sociaux ) Formats hétérogènes Le paradoxe du partage Les données de recherche doivent être partagées au maximum Les données patients doivent être protégées au maximum Le besoin de suivre les évolutions technologiques Exemple : appareils embarqués 28
Bioinformatique structurale Ex: la plateforme RPBS http://bioserv.rpbs.univ-paris-diderot.fr 29
Le challenge du Cloud 30
Les limites techniques actuels Hétérogénéité des profils et besoins profils des données (taille, structure ) et de calculs Difficulté de mise en place de solutions «one size fits all» Limitation en terme de ressources disponibles Manque de flexibilité et faible adaptabilité 31 Les technologies Cloud pourraient résoudre efficacement ces blocages
Le cloud? Quel cloud? Plusieurs problématiques Stockage distribué Partage des données Virtualisation de ressources de calcul Mise en place de services 32 Plusieurs solutions Clouds commerciaux Clouds académiques
Et concrètement? Garder la surface, changer le fond Connecter un framework de soumission de calcul sur une infrastructure cloud Stocker physiquement des données dans un cloud sans changer la façon d y accéder Exemple : pour VIP, utiliser les ressources du Cloud EGI à travers DIRAC Changer d outils ou en produire de nouveaux Utilisation directe d interface cloud Mise en place de nouveaux environnements Exemple : utilisation de Slipstream sur le cloud France Grilles 33
Les freins à la cloudification Les «overheads» d un passage au Cloud Une migration prend toujours du temps Confidentialité et sécurité Les personnes travaillant sur l infrastructure ne doivent pas avoir accès aux données Problèmes légaux et éthiques A qui appartiennent les données? Qui est responsable de leur sécurisation? Si des patients sont en jeu, quid de leur consentement? 34
Les bénéfices du Cloud Plus de ressources disponibles Rentabilité économique Facilitation du déploiement des applications Amélioration de la reproductibilité expérimentale Facilitation du partage de données 35
Questions - discussion 36
Crédits/remerciements Isabelle Perseil, Sorina Camarasu Pop, Tristan Glatard, Michel Dojat, Christian Barillot, Pierre Mouillard, David N. Kennedy, Marie-Christine Jaulent, Pierre Tufféry 37 Pour l inspiration, et accessoirement quelques transparents, textes et images!
Références / liens Par ordre d apparition à l écran France Grilles http://www.france-grilles.fr EGI http://www.egi.eu GENCI http://www.genci.fr PRACE http://www.prace-ri.eu/ EUDAT http://eudat.eu/ Research Data Alliance https://rd-alliance.org/ Big Data Value Association http://www.bdva.eu/ France Life Imaging https://its.aviesan.fr/index.php?pagendx=291 Euro-BioImaging http://www.eurobioimaging.eu/ VIP http://www.creatis.insa-lyon.fr/vip/ Shanoir http://www.shanoir.org/ CBRAIN http://mcin-cnim.ca/neuroimagingtechnologies/cbrain/ RPBS http://bioserv.rpbs.univ-paris-diderot.fr 38