Présentation prépar parée e avec C. Germain, B. Kegl et M. Jouvin CS de l Université Paris Sud
(pré)histoire de la Grille Paris Sudn1 Les besoins de la communauté HEP La collaboration physiciens/informaticiens Le capital existant Les différentes ressources Activités s scientifiques Les nouvelles ambitions Conclusions Griile Paris Sud 2
Depuis 15 ans, HEP repose sur la production et l exploitation l de grandes masses de données Volume des données simulées ~ données expérimentales LHC : 15 PB de données expérimentales par an Stocker et traiter (efficacement) ces données est un défi d technologique Centres de calcul isolés : Impossible, besoin d infrastructures d de calcul distribuées HPC et/ou GPU : essentiel des besoins inadaptés, coût élevé Grille : émerge comme la solution alternative ~10 ans de R&D pour aboutir à une infrastructure européenne enne (mondiale) performante : seule infrastructure pour le LHC Pour les applications de type High Throughput Computing Griile Paris Sud 3
Mise en place d une d ressource local conséquente : GRIF Initiative conjointe de 6 laboratoires IN2P3/CEA en 2005 2 laboratoires P11 (LAL + IPNO) impliqués, 4 sur Saclay-Orsay-X Un des plus gros sites de la grille européenne enne Financé par LCG France et EGEE (core services) GRIF depuis ses origines ouvert à de nombreuses communautés s hors HEP Biomed, sciences de la terre, astrophysique, chimie, systèmes complexes Forte implication dans les projets européens ens autour de la grille depuis le début d (2000) Griile Paris Sud 4
350 sites 200K cores 50 pays 40PBytes Etc. La grille phare de l espace européen de recheche A l échelle du LHC Ouverte depuis son orgine aux autres communautés scientifiques : 3,3M jobs/mois hors HEP Griile Paris Sud 23/01/2012 5
Collaboration entre physiciens et chercheurs en informatique de l université dès s 2002 2002-2005 2005 : PPF Augernome-Xtremweb pour l exploration l de la technologie desktop grid en // avec la grille de production Thèse d informatique d d un d ingénieur nieur LAL qui devriendra un membre des projets européens ens desktop grid des 5 dernières res années (EDGeS/EDGI) Thèse d informatique d avec intégration des résultats r opérationnels dans le principal middleware d EGI. d A partir de 2005, évolution vers la problématique du traitement des données massives 2006-2009 2009 : PPF DEMAIN (Des données massives aux interprétations) tations) Informatique, biologie, traitement du signal, imagerie médicalem Mise en place du Grid Observatory : collection de données sur la grille pour alimenter la recherche en informatique, portail public d accès s aux données www.grid-observatory.org Griile Paris Sud 6
A partir de 2010, projets Grille Paris Sud associant ressources et expertise en traitement de données acquise dans DEMAIN 2 MRM : 2010-2011 2011 et 2012-2014 2014 (en cours) Ressources basées sur GRIF et XtremWeb Expertise scientifique : LRI (équipe( TAO) + LAL (groupe AppStat) Griile Paris Sud 7
GRIF : une ressource de calcul et de stockage très importante 8000 cœurs, c 2,5 PB de disque dont 30% localisés s dans P11 1 réseau r interne privé 10 Gb/s + 1 connectivité externe 10 Gb/s 6 ans d expd expérience de travail en commun quotidien pour la gestion scientifique et technique du site Expérience de mutualisation gagnant-gagnant Cloud IaaS (à( la Amazon) à partir de la participation au projet européen en StratusLab 250 cœurs, c 50 TB de disque Intégration progressive d une d partie des ressources de GRIF dans le cloud Grille XtremWeb : prête à une extension plus large sur PSud Griile Paris Sud 8
Equipe technique gérant g ses ressources : ~15 FTEs ~5 sur l universitl université Paris 11 (principalement LAL) 1 grande compétence de gestion d une d infrastructure de production dans le cadre d une d infrastructure distribuée Expérience du support utilisateur avec des communautés s de toute taille Plusieurs experts des technologies de calcul distribués s impliqués dans les projets européens ens autour des différentes composantes Grille (EGEE/EGI), Cloud (StratusLab), Desktop grid (EDGeS/EDGI) Expertises spécifiques aux projets, qui peuvent être mutualisées Visualisation (ex : mur d image d LRI + LAL) Gestion de données es Griile Paris Sud 9
Cristallisation de plusieurs projets scientifiques autour du traitement et de l interprl interprétation tation des données massives GRIF est un centre de calcul essentiel pour l Institut l des Systèmes Complexes Analyse génétique g de variations combinées (haplotypes) avec l INSERM ayant débouchd bouché sur un article dans Nature Genetics Grid Observatory : enrichissement des problématiques autour du Green Computing Instrumentation de la salle machine du LAL pour collecter des données énergétiques Corrélation avec les informations sur l utilisationl GO portal : www.grid-observatory.org Siminole (2010-2014) 2014) : projet financé par l ANR l COSINUS Rendre les simulations plus efficaces : optimisation, inference et discriminative learning Dirigé par l él équipe AppStat du LAL Griile Paris Sud 10
Poursuite des projets R&D sur les architectures matérielles et les infrastructures de calcul distribuées PetaQCD : besoins spécifiques à LQCD (calculs massivement parallèles les à fort taux d éd échanges, 9 partenaires Physique + Informatique) Postdoc P2IO 2011 GridCL : impact de l intl intégration de ressources many-core/gpu dans les infrastructures de calcul distribuées sur des applications phares de physique R&D P2IO 2011 Gestion et accès s performant à de grands volumes de données dans les infrastructures distribuées, en particulier les clouds Griile Paris Sud 11
Faire profiter l universitl université plus largement de ces moyens importants De plus en plus de communautés s confrontées à l interprétation tation de données massives : les faire bénéficier b de l expl expérience acquise Les expériences réussies r naissent de la rencontre d un d besoin et d une expertise L Université Paris Sud possède les deux! Une relation directe et un tutorat sont décisifsd L exploitation efficace des ressources globalisées n implique n pas un changement de modèle de calcul, mais demande un accompagnement MRM : ambassadeur de la Grille Paris Sud Faire connaitre les moyens disponibles Assister les utilisateurs dans leurs premiers pas Griile Paris Sud 12
Développer le pôle d expertise d en statistique computationelle et apprentissage Un groupe transverse LRI/INRIA + LAL aux compétences reconnues 4 thèses co-dirig dirigées, 15 articles co-sign signés s depuis 2006 Un atout pour les autres communautés s de l universitl université La chance d une d colocalisation avec de grosses ressources et des groupes de physique avec des besoins stimulants Griile Paris Sud 13
Production de données sur leur propre fonctionnement Simulation Expérimentation e-science Partage Capacité de traitement Motivation Problèmes difficiles, bruités Passage à l échelle des méthodes Déploiement des traitements Optimisation des systèmes Griile Paris Sud 14
Le pôle Grille Paris Sud est aussi un atout majeur pour Paris Sud dans la dynamique Université de Paris Saclay Aucun ensemble ressource + expertise comparable chez les autres partenaires Via GRIF, déjàd des liens avec CEA (Irfu) et Ecole Polytechnique Réflexion depuis plusieurs années dans le cadre de P2IO sur le regroupement possible de l hébergement l des ressources autour d une d salle machine mutualisée En fait 1 salle sur 2 lieux pour mettre en oeuvre des problématiques de haute disponibilité Réflexion en cours sur la possibilité d une des salles dans la vallée e dans le cadre du maintien de P2IO Réutilisation/transformation d 1 d 1 batiment technique existant Ouverture à d autres partenaires : discussion en cours avec la DI Griile Paris Sud 15
10 ans de collaboration riche et fructueuse entre physique et informatique Construction d une d grande infrastructure de calcul ouverte sur l Université Paris Sud, avec des moyens pour chercher et accompagner de nouveaux utilisateurs Développement d activitd activités s de recherche autour de cette infrastructure, particulièrement rement l interprl interprétation tation de données massives Ce pôle ressources + expertise est un atout de Paris Sud dans la l dynamique de l Universitl Université Paris Saclay Pourrait aussi être un axe du réinvestissement r de la vallée P2IO prêt à s inscrire dans une démarche d plus large prenant en compte d autres besoins de l Universitl Université Réflexion souhaitable sur les modalités s d un d soutien de PSud au pôle transversal de statistique computationnelle et apprentissage Griile Paris Sud 16