Services à la recherche: Data Management et HPC * Pierre-Yves Burgi et Jean-François Rossignol Division informatique (DINF) * HPC = High-Performance Computing Réunion CIF Sciences du 6.12.11 1/19
Contenu - Contexte général - The Fourth Paradigm - Les besoins en «HPC» - Projets en Sciences (tour de table) - Prochaines étapes Réunion CIF Sciences du 6.12.11 2/19
Contexte général - Initiative stratégique (IS) «Services à la recherche» du PDI, planification 2012-2017 (délai: décembre 2011) o La gestion des données scientifiques pour les besoins des chercheurs o Une infrastructure adaptée aux besoins de calculs à hautes performances (HPC) - Constitution d un projet de loi pour obtenir les ressources nécessaires sur la période 2014-2017 (délai: février 2012) - CUS programme (2013-2016) Scientific Information : Access, processing and preservation (délai: printemps 2012) o Communauté: Chercheurs, bibliothécaires, archivistes, et informaticiens o Scientific Information Steering Committee (CRUS) - Projet de Loi 10801 : Centre de données informatique principal de l'état de Genève (2017) (en cours) Réunion CIF Sciences du 6.12.11 3/19
The Fourth Paradigm: Data-Intensive Scientific Discovery E-Science: where IT meets scientists. a a 2 = 4πGρ Κ 3 c a 2 2 http://well-formed.eigenfactor.org/radial.html The Fourth Paradigm. Data-Intensive Scientific Discovery. Microsoft Research, T. Hey, S. Tansley, and K. Tolle (eds) 2009, Redmond, Washington Réunion CIF Sciences du 6.12.11 4/19
With data, problems are caused by copyright, but resistance also comes from many other sources: It s hard to annotate and reuse data, it s hard to send massive data files around, it s hard to combine data that was not generated for recombination, and on and on. J. Wilbanks (2009) «I Have Seen the Paradigm Shift, and It Is Us» in The Fourth Paradigm, pp. 209-214 Réunion CIF Sciences du 6.12.11 5/19
HPC Data Life Cycle Management (DLCM) Adapté de Tenopir et al PLoS ONE, 6(6) 2011 Réunion CIF Sciences du 6.12.11 6/19
Qui est concerné? From Burgi, SWITCH Journal oct. 2011 Réunion CIF Sciences du 6.12.11 7/19
Information «Erosion» Réunion CIF Sciences du 6.12.11 8/19 Adapted from Michener et al. 1997
Classement des motivations du chercheur à conserver leurs données (*) : 1) Ré-analyse de données 2) Validation future de résultats 3) L avancement de la science 4) Fonds Publics (justification) 5) Stimulation de collaborations interdisciplinaires 6) Valeur unique des données de recherche * Thaesis, J. van der Hoeven, PARSE.Insight: INSIGHT into issues of Permanent Access to the Records of Science in Europe, Insight Report, June 2010 Réunion CIF Sciences du 6.12.11 9/19
à intégration dans des environnements de recherche: o Laboratory Information Management Systems (LIMS) o Virtual Research Environments (VRE) o Personal Research Environments (PRE) Réunion CIF Sciences du 6.12.11 10/19
- Déjà trop de données - Quoi garder? Quoi migrer? Qui décide? Quand? - Ne pas prendre rapidement de décision sur les données à préserver souvent conduit par la suite à des protocoles de conservation plus complexes, qui demandent plus de travail, et sont par conséquent plus coûteux* *Trusted Digital Repositories: Attributes and Responsibilities, An RLG-OCLC Report, Mountain View, CA, May 2002 Réunion CIF Sciences du 6.12.11 11/19
Réunion CIF Sciences du 6.12.11 12/19
Besoins en HPC Enquête réalisée en 2011 par Jean-Luc Falcone: Tous les chercheurs et les enseignants ont été invités à répondre à un questionnaire Web. Les questions portaient notamment sur : Les équipements actuels Les acquisitions d équipement prévues pour 2012 et 2015 L intérêt pour un serveur de calcul central Le nombres de cœurs et l architecture La quantité de mémoire vive (RAM) et de stockage Le format du matériel (uniquement pour les équipements existants) Réunion CIF Sciences du 6.12.11 13/19
Participation des facultés à l enquête Réunion CIF Sciences du 6.12.11 14/19
Résultats (généraux) de l enquête Les réponses des 61 groupes de recherche ont été recoupés: 36 groupes possèdent un serveur de calcul 30 groupes pensent acquérir un serveur de calcul 53 groupes sont intéressés par une nouvelle machine centrale Besoins identifiés : 30 millions d heures de calcul, correspondant à une machine d environ 4 000 cœurs/ans et environ 5 PB d ici 2015 Une salle machine de 50 racks et 700 kw permettrait d héberger les serveurs de calculs Réunion CIF Sciences du 6.12.11 15/19
L enquête en sciences [ ] Souvent on n'entend par HPC que des programmes écrits spécifiquement à l'aide de librairie dédiées, en c, c++, fortran,... De tels codes demandent un investissement en temps considérable pour être écrits [ ] Matlab bénéficie que de très peu de support sur les ordinateurs performants mis à disposition de la communauté. [ ] renforcer le partenariat avec Vital-it qui dispose déjà d'une équipe dédiée exceptionnelle et d'une puissance de calcul déjà très grande [ ] [ ] utilisation de 100 coeurs "a plein temps"- utilisation de 1000 coeurs par période. L UNIGE a dejà une génération de machine de retard. La mise en service de ressources HPC doit être rapide pour faire du sens. Réunion CIF Sciences du 6.12.11 16/19
[ ] common computer room (equipped with air conditioning and electricity) is very desirable. Il faut que le partage des ressources coûte effectivement moins pour être attractif car partager les ressources entraîne aussi l'inconvénient de ne plus pouvoir garantir l'obtention des résultats dans un temps donné. [ ] nous aimerions que ce système soit maintenu à flot jour et nuit. [ ] We continuously develop new codes, such that it is hard to predict what resources we will need in two years 3940 cores, 2000GB (RAM),100TB (Disk) ; 25'000 jobs x 48 heures Réunion CIF Sciences du 6.12.11 17/19
Projets en Sciences (tour de table) Réunion CIF Sciences du 6.12.11 18/19
Prochaines étapes? 1. Présentation/discussion du projet aux CIFE, consolidation des besoins o Échéance: décembre 2011 2. Finalisation et soumission du PL (budget, ROI, etc.) o Échéance: février 2012 3. Acquisition d expertise avec les projets courants dans l attente du financement 2014-2017 o Service de base HPC (J.-L. Falcone) o Cadmos (Rectorat, B. Chopard) 4. Développement et consolidation des services DLCM et HPC destinés aux chercheurs dans l'attente du «datacenter» cantonal o Échéance: dès 2012 Réunion CIF Sciences du 6.12.11 19/19