Présentation de la Grille EGEE

Documents pareils
Présentation de la Grille EGEE

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

Les mésocentres HPC àportée de clic des utilisateurs industriels

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

Exemple PLS avec SAS

Editing and managing Systems engineering processes at Snecma

Forthcoming Database

VMware : De la Virtualisation. au Cloud Computing

Recherche et Formation dans un environnement de pointe. Contact:

SysFera. Benjamin Depardon

AGROBASE : un système de gestion de données expérimentales

Architecture de la grille

Jean-François Boulicaut & Mohand-Saïd Hacid

Développement logiciel pour le Cloud (TLC)

Un exemple de cloud au LUPM : Stratuslab

Forge. Présentation ( )

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Impacts de la numérisation. 20 ans INRIA Grenoble 20 Novembre 2012

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

Bourses d excellence pour les masters orientés vers la recherche

Eco-système calcul et données

ANGULAR JS AVEC GDE GOOGLE

Containers : Outils magiques pour les Devops? OpenNebula et son écosystème pour une infrastructure cloud agile

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

Calcul intensif pour la biologie

iqtool - Outil e-learning innovateur pour enseigner la Gestion de Qualité au niveau BAC+2

BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ

e-science : perspectives et opportunités pour de nouvelles pratiques de la recherche en informatique et mathématiques appliquées

The new consumables catalogue from Medisoft is now updated. Please discover this full overview of all our consumables available to you.

Comprendre l impact de l utilisation des réseaux sociaux en entreprise SYNTHESE DES RESULTATS : EUROPE ET FRANCE

: Machines Production a créé dès 1995, le site internet

L OBSERVATOIRE DE LA BIOLOGIE DE SYNTHESE SYNTHETIC BIOLOGY OBSERVATORY

GLOSSAIRE PSYCHOLOGICAL AND BEHAVIORAL BARRIER

XtremWeb-HEP Interconnecting jobs over DG. Virtualization over DG. Oleg Lodygensky Laboratoire de l Accélérateur Linéaire

Thomas Loubrieu (Ifremer) Small to Big Data Novembre 2013, Ifremer, Brest

3A-IIC - Parallélisme & Grid GRID : Définitions. GRID : Définitions. Stéphane Vialle. Stephane.Vialle@supelec.fr

EGEE vers EGI - situation actuelle et interrogations

PLM 2.0 : Mise à niveau et introduction à l'offre version 6 de Dassault systèmes

Cloud et Informatique Scientifique

Charte d'utilisation des infrastructures de la plate-forme bioinformatique Genotoul

L industrie pharmaceutique et la grippe aviaire

Plateforme Technologique Innovante. Innovation Center for equipment& materials

ISTIA INNOVATION. 62, Ave ND du Lac F Angers

ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE

Clouds/Big Inria. Frédéric Desprez Frederic.Desprez@inria.fr

BIG Data et R: opportunités et perspectives

Présentation par François Keller Fondateur et président de l Institut suisse de brainworking et M. Enga Luye, CEO Belair Biotech

NEC Virtual PC Center

Fiche produit ifinance v4

SMALL CITY COMMERCE (EL PEQUEÑO COMERCIO DE LAS PEQUEÑAS CIUDADES)

parée e avec C. Germain, B. Kegl et M. Jouvin CS de l Université Paris Sud

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

IPv6: from experimentation to services

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

DIRAC : cadre et composants pour créer des systèmes de calcul distribués

Software and Hardware Datasheet / Fiche technique du logiciel et du matériel

Projet d infrastructure régionale pour le traitement des grands volumes de données scientifiques en Auvergne

Introduction aux bases de données: application en biologie

Quatre axes au service de la performance et des mutations Four lines serve the performance and changes

Gouvernance européenne sur les technologies énergétiques

JASMINe, smart tool for your SOA platform management

Les lières. MSc in Electronics and Information Technology Engineering. Ingénieur civil. en informatique. MSc in Architectural Engineering

ILM ou Archivage Une démarche Métier

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

8. Cours virtuel Enjeux nordiques / Online Class Northern Issues Formulaire de demande de bourse / Fellowship Application Form

Face Recognition Performance: Man vs. Machine

Empowering small farmers and their organizations through economic intelligence

Toni Lazazzera Tmanco is expert partner from Anatole ( and distributes the solution AnatoleTEM

L offre IBM Software autour de la valeur métier

Accès aux données Sentinelles

EU- Luxemburg- WHO Universal Health Coverage Partnership:

CS-DRMS. Enhancing Functionalities. Commonwealth Secretariat Debt Management Forum London, June De l Ouest. Centrale

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Mesures de performances Perspectives, prospective

Lancement de la plateforme de private cloud IBM Connections en partenariat avec. 04 Novembre 2010

Data issues in species monitoring: where are the traps?

Relions les hommes à l entreprise Linking people to companies

Ecole Mohammadia d Ingénieurs Systèmes Répartis Pr. Slimane Bah, ing. PhD G. Informatique Semaine 24

Les marchés Security La méthode The markets The approach

PeTEX Plateforme pour e-learning et expérimentation télémétrique

Informatique. epims : un LIMS pour la gestion des données de spectrométrie de masse TECHNOLOGIE APPLIQUÉE

POSITION DESCRIPTION DESCRIPTION DE TRAVAIL

StratusLab : Le projet et sa distribution cloud

Estimated SMB instances PC (Physical and Virtual) 125,000 Total instances: SMB 1-24 PC. 392,000 Total instances: SMB PC

What s New. Sun ONE Application Server. Version 7, Enterprise Edition

Business Process Management

Cycle Innovation & Connaissance 12 petit déjeuner Mardi 15 mai Cloud Computing & Green IT : nuages ou éclaircies?

Concepts clés associés aux outils logiciels, exemples

CLIQUEZ ET MODIFIEZ LE TITRE

Présentation d une offre harmonisée de Numéros Courts Mobiles pour SVA au niveau de la sous-région Afrique Centrale

Interoperabilité entre Observatoire Virtuel et Grilles de calcul

staff worldwide years 36b. revenues countries

INSTITUT MARITIME DE PREVENTION. For improvement in health and security at work. Created in 1992 Under the aegis of State and the ENIM

Innovative BI with SAP Jean-Michel JURBERT D. de Marché BI, HANA, BIG DATA _ SAP France

BUILDING REGIONAL DATA ARCHIVES: The African Census Analysis Project (ACAP) Tours, July 18-23, Professor Tukufu Zuberi

L'écosystème du calcul intensif et des données : la vision du CNRS. M. Daydé. Directeur du Comité d Orientation pour le Calcul Intensif au CNRS

Agile&:&de&quoi&s agit0il&?&

SCC / QUANTUM Kickoff 2015 Data Protection Best Practices

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

Principes. 2A-SI 3 Prog. réseau et systèmes distribués 3. 3 Programmation en CORBA. Programmation en Corba. Stéphane Vialle

Transcription:

Présentation de la Grille EGEE Introduction aux grilles La grille EGEE Exemples d applications en physique des particules et en sciences de la vie Le cercle vertueux Conclusion Guy Wormser Directeur de l Institut des Grilles du CNRS

Une grille... Pourquoi? Mettre à la disposition des utilisateurs une puissance de calcul et des capacités de stockage importantes Garantir l efficacité et la sécurité de ces calculs et stockages Fonctionner sur un mode décentralisé

Principales caractéristiques d'une Grille de calcul Une grille est constituée d'un ensemble d'ordinateurs et d'outils logiciels destinés à les faire fonctionner de manière cohérente Chaque nœud de la grille est administré localement. Mais une coordination centralisée est indispensable pour garder le système cohérent Les ressources sont en principe hétérogènes Un système d'information (même très simple) doit être présent pour allouer les ressources informatiques adaptées aux tâches à exécuter Le réseau sur lequel s'appuie la grille est crucial Un système d'authentification et de sécurité doit être présent

Différents types de grilles Docking moléculaire Imagerie médicale Astronomie Grille de calcul Données et calcul Physique des Hautes Énergies Grille de données

Les grilles de données ATAGG CATAG GCTATA GGCCA GATTAA ATAGG CATAG GCTATA GGCCA GATTAA Production de données par de nombreuses équipes distribuées géographiquement et indépendantes L'ensemble des données doit être accessibles par tous

EGEE What do we deliver? Infrastructure operation Currently includes ~250 sites across 45 countries Continuous monitoring of grid services & automated site configuration/management Support many Virtual Organisations from diverse research disciplines Middleware Production quality middleware distributed under business friendly open source licence Implements a service-oriented architecture that virtualises resources Adheres to recommendations on web service inter-operability and evolving towards emerging standards User Support - Managed process from first contact through to production usage Training Expertise in grid-enabling applications Online helpdesk Networking events (User Forum, Conferences etc.)

240 sites 45 countries 41,000 CPUs 5 PetaBytes >5000 users >100 VOs >100,000 jobs/day Archeology Astronomy Astrophysics Civil Protection Comp. Chemistry Earth Sciences Finance Fusion Geophysics High Energy Physics Life Sciences Multimedia Material Sciences 32 %

Types of applications Simulation LHC Monte Carlo simulations; Fusion; WISDOM Jobs needing significant processing power; Large number of independent jobs; limited input data; significant output data Bulk Processing HEP ; Processing of satellite data Distributed input data; Large amount of input and output data; Job management (WMS); Metadata services; complex data structures Parallel Jobs Climate models, computational chemistry Large number of independent but communicating jobs; Need for simultaneous access to large number of CPUs; MPI libraries Short-response delays Prototyping new applications; grid Monitoring grid; Interactivity Limited input & output data; processing needs but fast response and quality of service Workflow Medical imaging; flood analysis Complex analysis algorithms; complex dependencies between jobs Commercial Applications Non-open source software; Geocluster (seismic platform); FlexX (molecular docking); Matlab, Mathematics; Idl, License server associated to an application deployment model

Collaborating infrastructures

EGEE: Une architecture de grille pluridisciplinaire De très nombreux domaines d'applications Archéologie Astronomie & Astrophysique Protection civile Chimie Sciences de la Planète Simulation Financière Fusion Géophysique Physique des Hautes Energies Science de la vie MultiMedia Science des matériaux Des milliers d'utilisateurs à travers le monde

Interopérabilité L'idée d'une grille mondiale unique est un mythe A terme les grilles doivent pouvoir inter-opérer OGF: Organisation visant à définir des standards ouverts

Les grilles et la fracture numérique R. L. Cottrell and S. Khan http://www.slac.stanford.edu/xorg/icfa/icfa-net-paper-jan07/ Derrière l'europe: 6 ans: Russie, Amérique Latine 7 ans: Moyen Orient, Asie du SE 8-9 ans: Asie du SO 11 ans: Asie Centrale 12 ans: Afrique Les grilles et en particuliers les projets partenaires d'egee: EELA, EUChinaGrid, EUMedGrid, EUIndiaGrid contribuent à la réduction de la fracture numérique Idem pour le modèle de calcul du LHC

Exemples de problèmes à résoudre (1) Gestion dynamique des ressources: Les machines ne sont pas disponibles en permanence, certaines sont en panne, Les performances du réseau d'interconnexion fluctuent avec la charge et le nombre d'utilisateurs... Sécurité et données confidentielles: Il faut garantir aux utilisateurs que personne ne pourra interférer dans leur calcul ou accéder à leurs données; Cryptographie

Exemples de problèmes à résoudre (2) Optimisation des performances: Des matériels divers sont mis en oeuvre à tous les niveaux (liens de communications, mémoires, disques, processeurs); cacher cette hétérogénéité. Faire bon usage de ces matériels pour obtenir leur meilleure performance simultanément est une tâche très complexe.

Importance du réseau RENATER GÉANT La qualité du réseau est primordiale pour le fonctionnement des grilles de calcul

L accélérateur LHC du CERN

Les 4 expériences du LHC 17

Le calcul au LHC: Un énorme défi! Signal/Bruit 10-9 Volume de données Taux élevé * grand nbre de canaux * 4 expériences 15 PetaBytes de données nouvelles par an Puissance de calcul (100 MSI2k) Complexité de l évenement * Nb. événements * milliers d utilisateurs 50 k fastest CPUs (d aujourd hui)

Le modèle par étages Tier-0-1 -2

La grille est une réalité opérationnelle pour le LHC La Mise à l échelle est un succès Elle est Fonctionnelle Stable Fiable Indispensable

Enjeux et intérêt des grilles en sciences du vivant Les enjeux L avalanche des données a bouleversé les stratégies de recherche en biologie moléculaire La médecine doit évoluer vers une science exacte exploitant toutes les données de la génomique à l épidémiologie L apport des grilles La grille fournit aujourd hui les siècles de cycles CPU requis pour les calculs massifs La grille fournit aujourd hui les services de gestion sécurisée pour stocker et copier les données biologiques et médicales La grille offrira à terme l environnement collaboratif pour l intégration et le partage des données dans les communautés de recherche

Comment utilise-t-on les grilles aujourd hui en sciences du vivant? Pour déployer des calculs à très grande échelle Exemple en bioinformatique: raffinement des structures de la PDB Exemple en imagerie médicale: simulateur de RMN Exemple pour la recherche de nouveaux médicaments: WISDOM Pour l analyse interactive de données de plus en plus volumineuses Exemple en bioinformatique: portail GPS@ Exemple en Imagerie médicale: GPTM3D Pour mutualiser de nouveaux services et compétences

Bioinformatics: recalculating protein 3D structures in PDB The PDB data base gathers publicly available 3D protein structures Full of bugs Project: redo the structures by recalculating the diffraction patterns PDB-files 42.752 X-ray structures 36.124 Successfully recalculated ~36.000 Improved R-free 12.500/17000 CPU time estimate 21.7 CPU years Real time estimate 1 month on Embrace Virtual Organization on EGEE Credit: Atelier Afrique et Internet, Montpellier, 10-12 Décembre 2007 G. Vriend, CMBI

GPSA: Bioinformatics Grid Portal Scientific objectives Molecular Bioinformatics of proteins Analyze data from high-throughput Biology: complete genome projects, EST, complete proteomes, structural biology,. Integration of biological data and tools Method Provide Biologists with an usual Web interface for Bioinformatics: NPS@ NPS@ Web portal online since 1998 46 tools & 12 updated databases + 10,000,000 jobs & 5,000 jobs/day Ease the access to updated databases and algorithms. Protein databases are stored on the grid storage as flat files, encrypted if needed. Wrapping legacy bioinformatics applications Transparent remote access through local file-system accesses Display results in graphical Web interface. Status: Prototype

Example: radiology analysis Scientific objectives Interactive volume reconstruction on large radiological data. PTM3D is an interactive tool for performing computer-assisted 3D segmentation and volume reconstruction and measurement (RSNA ( 2004 Method Reconstruction of complex organs (e.g. lung) or entire body from modern CT-scans is involved in augmented reality use case e.g. therapy planning. Starting from an hand-made rough Initialization,a snake-based algorithm segments each slice of a medical volume. 3D reconstruction is achieved in parallel by triangulating contours from consecutive slices. Contact: Cécile Germain, LRI, cecile.germain@lri.fr 12/12/07 To change: View -> Header and FooterAtelier Afrique et Internet, Montpellier, 10-12 Décembre 2007 25

Recherche de nouveaux médicaments contre la grippe aviaire Objectifs: étudier l impact de mutations de la neuraminidase N1 sur l efficacité des médicaments actuels (Tamiflu) Identifier de nouvelles molécules actives Méthode: Calculs sur ordinateur des probabilités d accrochage des molécules sur la neuraminidase mutée Résultats expérimentaux 20% des 300 molécules sélectionnées in vitro et testées in vivo sont plus actives que le tamiflu Facteur 200 d amélioration des résuttats des tests in vitro Credit: Y-T Wu D. Kim

Recherche de nouveaux médicaments contre la malaria Millions Molecular docking Objectifs: Identifier de nouvelles molécules actives sur des cibles biologiques de 5000 la malaria Méthode: Calculs sur ordinateur des probabilités d accrochage des molécules sur ces cibles 4 H bonds 180 Raffinement des calculs par dynamique moléculaire Résultats expérimentaux 20% des 30 molécules sélectionnées in vitro et testées in vivo sont des inhibiteurs actifs Tests in vivo en cours à Montpellier Molecular dynamics 30 Re-ranking MMPBSA-GBSA Complex visualization In vitro tests H C P 24 25 26 27 28 29 30

Biodiversity infrastructure: the LifeWatch project Life Watch: e-science and Technology Infrastructure for bioversity data and observatories Several thousand sites collecting data of ecological interest The challenges Distributed data generation Common mechanisms for sharing, analyzing and synthesizing these data Building a international infrastructure is easier on a grid foundation. Use case under study (EGEE HealthGrid) Contact: N. Jacq, HealthGrid association, nicolas.jacq@healthgrid.org

L intérêt scientifique des grilles Accès transparent à des données distribuées Exemples Sciences de la terre, sciences de la vie Manipulation de très grands volumes de données Physique des particules, astrophysique, sciences humaines Très grande flexibilité des ressources de calcul Gestion des catastrophes Challenge grippe aviaire, malaria

Le cercle vertueux Collaborations scientifiques internationales, réseaux rapides et grilles de calcul sont les trois ressorts d un progrès scientifique rapide Ce tryptique permet aux scientifiques des différents pays de s intégrer au mieux dans les grandes collaborations internationales L idée est de progresser en parallèle sur ces trois axes qui se renforcent mutuellement

L Institut des Grilles du CNRS L activité au CNRS sur les grilles a atteint en 2007 une importance considérable en volume et en impact Fédérer l ensemble des activités du CNRS dans le domaine des grilles de recherche et des grilles de production Meilleure visibilité Meilleure efficacité Renforcer l interaction entre ces deux domaines Point de contact pour les partenariats nationaux et internationaux Représentant du CNRS pour les contrats européens, pour les discussions auprès du Ministère Noyau central pour la «National Grid Initiative» Partenariat à nouer avec l INRIA et les autres organismes pour la recherche sur les grilles de calcul «Evangélisation» auprès de nouvelles communautés scientifiques Actions d animation, de formation et de dissémination Partenaire fort d une future structure de type «Institut Français des Grilles»

Conclusion L Europe s est dotée d une infrastructure de grille de production la plus importante au monde De nombreux résultats scientifiques uniques y sont obtenus Ce modèle peut bénéficier aux universités africaines si un réseau rapide peut y être installé De très nombreuses collaborations internationales pourront se nouer autour des grilles