e-infrastructures pour la Génomique et la Biologie à Grande Echelle Principales conclusions du GT Depuis quelques années, la biologie fait face à un déluge de données provenant essentiellement des progrès du séquençage haut débit. D urgence des solutions doivent être trouvées pour assurer le stockage et le traitement de cet afflux de données. Le coût des solutions nécessaires dépasse les financements classiques et impose de faire appel à une nouvelle forme d e-infrastructure mutualisée dans laquelle les très grands centres de calcul et les offres de nuage utilisées dans d autres communauté peuvent s intégrer. Le GT a travaillé dans ce sens et, au terme de son analyse, émet les huit recommandations suivantes, déclinées par ordre d importance : 1) Doter la biologie dans sa globalité d une e-infrastructure physique de stockage et de calcul évolutive permettant de combiner les fonctionnements d un cœur national, de centres régionaux (5 à 7 centres) ainsi que d autres acteurs locaux de plus petite taille. 2) Mettre en place un fonctionnement et une gouvernance unifiés de l'e-infrastructure en biologie citée ci-dessus. 3) Prendre en compte dans la recherche en biologie, le coût de l'infrastructure de stockage de données et des traitements associés, pour assurer la pérennité et la compétitivité du domaine. 4) Encourager la participation de la France au projet ELIXIR de structure européenne en bio-informatique. 5) Encourager l'émergence d'un premier centre national de stockage des données au TGCC avec ancrage à l Institut de Génomique d'evry à titre de démonstrateur. 6) S assurer du dimensionnement des liaisons réseau entre les grands sites de production, les centres de traitement (national et régionaux) et le hub Elixir anglais afin de permettre un transfert optimal des données. 7) Encourager les recherches ciblées sur les enjeux technologiques de la biologie à grande échelle. 8) Engager l infrastructure France-Génomique (FG) à devenir le vecteur des grands projets en génomique et qu elle les arbitre dans sa gouvernance. L analyse détaillée de ces recommandations fait suite. 1
Contexte Le groupe de travail a rassemblé une douzaine d'experts en biologie, en informatique, en architecture des réseaux, et en bio-informatique. Notre mission était de réaliser une synthèse des besoins sur le thème «quelles infrastructures informatiques et pour quels enjeux scientifiques» et d'émettre un ensemble de recommandations pour une mise en œuvre efficace des diverses infrastructures. Ces recommandations tiennent compte, d'une part, des besoins propres à la biologie en général et à la génomique en particulier, et, d'autre part, du contexte des infrastructures numériques existantes et de leurs évolutions (RENATER, France Grilles, GENCI...). Enfin, une mise en perspective à l échelle européenne était également souhaitée ainsi qu une réflexion sur les projets d infrastructures nationales du domaine (France-Génomique, IFB-ReNaBi) financées ou finançables dans le cadre des appels d offre des infrastructures nationales en biologie-santé des investissements d avenir. A- Analyse globale I Quelques conclusions générales à l issue des auditions Il convient, au préalable, de distinguer deux niveaux d'infrastructure informatique en génomique: - La production des données brutes (séquences), qui réclame des moyens importants de stockage et d'archivage et des moyens relativement modérés de calculs. Ces infrastructures doivent être proches des lieux de production en raison, en particulier, des transferts fréquents de données très volumineuses qui excluent, pour l'instant, l'utilisation du réseau internet standard. - Le traitement/service/support bio-informatique permettant de produire des données «filtrées» à plus forte valeur ajoutée et exploitables par les communautés intéressées (biologie/médecine/agronomie). Les volumes de stockage sur disque y sont d égale importance mais les ressources de calcul nécessaires y sont beaucoup plus conséquentes. Par ailleurs, le bon fonctionnement de ce type de centre de calcul repose sur l'existence d'une expertise bio-informatique, en lien avec la recherche, actuellement distribuée sur le territoire national. La production des données de séquence est actuellement décentralisée sur plusieurs sites académiques en France, dans plusieurs pays étrangers (au travers de collaborations scientifiques internationales), mais aussi sur un certain nombre de plateformes de service 2
privées (par exemple: GATC-biotech) pratiquant des tarifs de plus en plus avantageux. Ce mouvement ne peut que s'amplifier dans les années à venir, dans les laboratoires de biologie, mais également en milieu hospitalier ainsi que pour l analyse environnementale (écologie). Ces deux derniers domaines verront très probablement dans les prochaines années une explosion à la fois des données produites mais également du nombre de lieux de production, du fait de la démocratisation des technologies et de l apparition de machines simplifiées destinées à la médecine personnalisée (marqueurs de diagnostic thérapeutique) ou aux mesures environnementales. Cette tendance impliquant à court terme une multiplicité des points d entrée et des interlocuteurs est inéluctable et parfaitement légitime. Cependant, les données issues de la génomique peuvent et doivent pouvoir être traitées de manière similaire quelles que soit leur origine : biologie, médecine ou environnement, public ou privé. De plus, il convient d'éviter la fragmentation et la duplication des moyens informatiques et des savoirfaire. Une plus grande coordination en termes d'infrastructure et d'investissements apparaît de ce fait nécessaire. Les volumes actuels et croissants des données produites et nécessitant un stockage imposent des infrastructures informatiques dimensionnées et des coûts en équipement, mais aussi en ressources humaines et en fonctionnement, tels qu'il n'est pas raisonnable de les multiplier. Il faut donc poursuivre l'effort de concentration des moyens sur un nombre restreint de centres régionaux - comme l a initié IBiSA - rassemblés au sein d une infrastructure informatique globale cohérente. Paradoxalement, les centres de calcul nationaux sont encore peu utilisés par la communauté de la génomique, alors même que celle-ci exprime une demande urgente en stockage et en calcul. Une structuration nationale des biologistes intéressés par ces aspects permettrait d améliorer la présentation des attentes de la communauté aux infrastructures HPC. Cette organisation pourrait offrir le portail d entrée à ces moyens. La France est en retard dans la structuration de ses e-infrastructures pour la génomique et la biologie par rapport à d'autres pays. On attend également qu'elle se positionne dans le paysage européen de la bio-informatique, notamment dans l'initiative Elixir. L'existence d'un pilotage global et d'une e-infrastructure hiérarchisée et cohérente doit renforcer la position de la France dans ces domaines clefs pour sa recherche en Biologie-Santé. La génomique ne recouvre à ce jour qu'une petite partie de la variété des e-données produites en biologie mais représente une majorité des besoins de stockage, de calcul et d'analyse remontés aux informaticiens et bio-informaticiens des plateformes. Les autres 3
communautés semblent encore s'accommoder de la situation actuelle. Néanmoins, si la génomique est à ce jour la plus immédiatement demandeuse, d autres domaines émergent et risquent, à terme, de devenir également de gros demandeurs. Parmi ceux-ci, apparaissent trois domaines : - La protéomique, dès lors que la prise en compte des modifications multiples des protéines sont autorisées, et avec l'avancée de méthodes quantitatives et multiplexées, notamment dans le domaine des bio-marqueurs. - L imagerie médicale ou cellulaire, en particulier 4D. - La biologie structurale, dont l évolution va nécessiter d intégrer des données multiples et hétérogènes. Ces trois domaines concentrent pour l heure leur investissement informatique dans des efforts relatifs au logiciel : définition de «pipelines» standardisés de traitement, interopérabilité des outils développés par les uns et les autres ou LIMS (système informatique de gestion de laboratoire). Les infrastructures auditionnées (PROFI, FRISBI) sont pour l'instant autosuffisantes en termes d informatique mais envisagent des besoins dans une perspective de quelques années. Au-delà de la distinction entre les quatre domaines cités précédemment, l'enjeu à court terme concerne l'intégration de ces données hétérogènes pour les approches dites systémiques à forte plus-value scientifique, environnementale ou médicale. Il est donc crucial, même si la demande est actuellement moins forte dans ces autres domaines, d'imaginer d'ores et déjà l'infrastructure de manière globale et non-compartimentée. En matière d'acquisition et traitement de l'information, la biologie présente des spécificités comme celle de traiter de données de nature très variée (séquences, structures, phénotypes, données médicales ) afin d'aborder des questions de niveaux différents (génétique, physiologique, populationnel). En raison de leur variété, ces données massives sont généralement issues de points de production différents. Ceci nécessite à la fois d'être capable de les stocker localement mais également de les rassembler au sein de banques de données de référence afin d'établir des points de comparaison pour les nouvelles données. Le contenu de ces banques et bases de données évolue lui aussi au rythme de la production et des avancées technologiques qui sont extrêmement rapides (par exemple : trois générations de séquenceurs NGS en moins de 5 ans, abandon des techniques de gel en protéomique). Sur le plan des logiciels d'analyse, une caractéristique du domaine est la très grande variété de l'offre mais aussi la très grande volatilité des outils dès lors que ceux-ci sont adaptés à une technologie particulière. 4
Les offres d'externalisation de ressources informatique par des sociétés privées (du type d'amazon Web Services) sont actuellement réservées au seul traitement car le coût du stockage de longue durée y est encore élevé. Ce type d externalisation pose potentiellement le problème de la confidentialité des données, notamment pour ce qui concerne le domaine médical. L'utilisation de nuages (clouds) externes est pertinente pour des structures qui n'ont pas d'activité intensive de traitement ou de soucis de confidentialité. Cette infrastructure en nuage présente des avantages de souplesse et de capacité d adaptation des ressources informatiques et pourrait parfaitement être déclinée au niveau académique au moins pour des structures plus petites qui travailleront sur des jeux de données plus petits aussi. L expérience de l ENS, avec hadoop/map-reduce pour paralléliser les traitements de données RNA-Seq, illustre parfaitement cette approche. L'infrastructure mise en place en Suisse (Vital-IT) est séduisante. Elle est caractérisée par un fonctionnement à la fois centralisé (hub à Lausanne) et distribué (trois plateformes physiques différentes, dont deux à Lausanne et une à Genève) qui pourrait aussi s appliquer en France où l on dispose d une infrastructure en fibre noire dotée de multiplexage en longueurs d'ondes et des débits autorisés (et implémentés) tout à fait comparable à la Suisse. Vital-IT constitue l'infrastructure de stockage et de calcul de l'institut Suisse de Bioinformatique (SIB). Le SIB est donc la structure unique de pilotage permettant l'affectation et la gestion raisonnée des moyens. II France-Génomique a) Grandes lignes France-Génomique (FG), l infrastructure nationale en génomique, financée en 2011 dans le cadre du Programme des Investissement d'avenir, exprime les besoins les plus criants et requiert des efforts immédiats en informatique; ceci à la fois pour le stockage mais aussi pour le traitement secondaire des données, les traitements initiaux sur les données brutes (contrôle qualité, alignement sur un génome de référence) étant généralement réalisés au voisinage des séquenceurs NGS (plateformes IBiSA ou autres). Le projet FG a vocation à fédérer l ensemble de la communauté produisant des données de type NGS. Pour le volet bio-informatique du projet, la proposition est de mettre en place un centre unique de stockage et de traitement des données de génomique pour un montant de 5 M. Les dépenses relèveraient pour les deux tiers du stockage mais ne permettraient pas de réaliser une infrastructure pérenne pour plus de 3 ans. Au-delà, des 5
financements supplémentaires seraient nécessaires. L effort le plus grand sera de financer 32 CDD/an environnés pendant 3-4 ans (coût 7 M ). L institut de génomique d Evry, les plateformes parisiennes AppliBio (Pasteur, ENS) et les plateformes ReNaBi ont construit une proposition de financement de CDD sur une base qui n est pas apparue très clairement lors des exposés. Pour ce qui concerne l implantation d un centre de stockage et de traitement, la proposition d un hébergement au Très Grand Centre de Calcul (TGCC) pour les projets de l infrastructure FG permettrait de répondre au besoin de la communauté d'ile-de-france. Mais la capacité d'utilisation de cette infrastructure par les centres de production non-franciliens (par exemple Toulouse) n'est pas encore très claire. Il faut noter que les réponses aux projets «DARI 1» du Genoscope depuis 2007 à l IDRIS ne se sont pas avérées concluantes et ont pointé du doigt la nécessité d adaptation de la configuration des centres de calcul aux besoins de la communauté. b) Centres d hébergement et traitement des données et FG Le TGCC a été construit par le CEA à Bruyères-Le-Châtel. Cette infrastructure inaugurée fin 2010 accueille le supercalculateur CURIE de GENCI mis à la disposition de l infrastructure HPC européenne PRACE 2 et utilisé également pour les moyens nationaux. Pour son infrastructure physique, FG a fait la proposition d un hébergement au TGCC. Avant de discuter de ce choix, plusieurs aspects déterminants sont cependant à prendre en compte dès lors qu il s agit d une implantation d une e-infrastructure dans un centre de calcul et, quelle que soit la solution, le cahier des charges à respecter à minima peut être considéré comme suit : i. L indépendance complète de l infrastructure vis-à-vis de l hébergeur et de sa tutelle quant au choix initial des machines et lors de leur évolution à court terme (3 ans). Une dépendance ne peut exister uniquement pour ce qui concerne la faisabilité technique. L hébergeur doit uniquement proposer un service d accueil (alimentation électrique, climatisation, espace, technicité locale) et s assurer du respect des règles définies par la charte des utilisateurs du lieu. 1 Attribution annuelle par GENCI d heures de calcul sur les moyens nationaux arbitrée sur critères scientifiques. 2 L'infrastructure HPC de recherche européenne PRACE dispose de trois machines en 2011 (6 en 2012) de dimension internationale (Tier-0) accessibles à l'ensemble de la communauté: JUGENE et HERMIT en Allemagne (toutes deux à 30 %), et CURIE, au TGCC à Bruyères-Le-Châtel (80 %). 6
ii. La capacité de croissance du centre d hébergement est importante car les données à stocker sont, pour l instant, en croissance exponentielle. iii. L accessibilité du centre en termes de réseau haut débit aux utilisateurs français (en priorité) et internationaux (car les projets de biologie à "grande échelle" dépassent les frontières nationales). iv. Le coût récurrent de fonctionnement de l hébergement à la charge de l infrastructure et global puisque c est l Etat qui finance in fine quel que soit l hébergeur, au moins pour une grande partie. Si la localisation au TGCC semble bien répondre aux points (ii) et (iii), le GT n a reçu aucune assurance que cette solution réponde également aux autres critères. Par ailleurs, il n'est pas apparu clairement que tous les acteurs nationaux du domaine (en particulier le CC-IN2P3) aient été consultés et que leur implication ait été évaluée dans ce cadre. Les représentants du TGCC ont indiqué qu une fibre optique à 10 Gbps est disponible entre Evry, Paris-Centre et le TGCC. Ils suggèrent également qu une ligne à 100 Gbps est à l étude en tant que démonstrateur. C est un bon point pour le TGCC, mais on ignore qui financera la ligne. La plateforme de séquençage de l INRA de Toulouse (D. Milan, co-porteur de FG) au travers de ses projets de phénotypage via le re-séquençage de milliers de bovins - utilisera d'ici quelques mois un centre de calcul local. Ce centre, géré par la plate-forme bio-informatique IBiSA de Toulouse, hébergera une partie de ses équipements dans une structure qui dépend du Ministère de l Agriculture (structure située à quelques centaines de mètres, connexion à 10 Gbps). On apprend également que la France serait candidate, dans le cadre d un projet international, à héberger un centre de stockage pour ce seul projet. On peut donc raisonnablement penser que d autres communautés souhaiteront à terme mettre en place leur propre infrastructure de stockage dédiée pour telle cohorte ou tel autre projet de métagénomique. Des projets de type 1000-génomes seront techniquement réalisables en 6 mois en 2012 et vont se multiplier. c) Analyse SWOT de l'e-infrastructure FG Forces : - Bonne prise en compte de la nécessité de proposer une e-infrastructure parfaitement administrée par des équipes performantes du TGCC (bénéficier de l'expertise HPC et massive data du TGCC). - Grande proximité réseau entre le Genoscope et le TGCC. Faiblesses : 7
- L institut de Génomique (CNS-CNG) en cours de restructuration n a pas fait d appel d offre en 2011 et n'a, ou n'aura, plus le leadership national pour le séquençage (cf. paragraphe sur la "démocratisation" du séquençage). La multiplicité des sources de données semble irréversible et est observée partout dans le monde, en particulier depuis la Chine, où une capacité de production très importante existe au centre de Shanghai. - Le projet FG est historiquement issu du regroupement de quatre projets de génomique déposés simultanément à l'appel d'offre des Investissements d Avenir 2010. Ce regroupement n a pas encore permis de dégager une véritable vision nationale et communautaire large sur une infrastructure pour la génomique. Ceci met en évidence la difficulté à mutualiser sur un existant dont les différentes parties se sont développées indépendamment et sur des objets (biologiques) ou des dimensions (projets, infrastructures) de nature ou d'échelle différentes. - Le constat de l'existence de projets ambitieux (de type 1000-génomes) déclarés hors CNS/CNG, questionne sur le rôle central (portage, coordination...) que doit jouer un centre national. Pour certains de ces projets, la France reste malgré tout en pointe comme c est le cas des projets portant sur 1000-épigenomes/IHEC, les cohortes d association sur génome entier dans le domaine du cancer ou les cohortes d animaux variés. Concernant les aspects liés au choix d'infrastructure informatique et d'hébergement: - Les coûts complets de l'opération ne sont pas connus du GT. - Aucune véritable vision nationale et communautaire large sur une e-infrastructure pour la génomique n'est dégagée alors qu'il s'agit d un projet national. Opportunités : - Participer à la structuration d'une e-infrastructure pour la génomique mais aussi plus largement pour la biologie, l'environnement, la recherche médicale. - Proposer une structuration nationale des e-infrastructures et permettre à la France de se positionner plus fortement dans les discussions Européennes. - Bénéficier de l'infrastructure de tout premier plan international du TGCC et réciproquement la renforcer. Menaces : - Sentiment de concentration excessive des moyens et du pouvoir en région parisienne alors qu'il existe également d'excellents projets scientifiques, très visibles, ailleurs. - Que les organismes ayant une activité forte dans les domaines concernés et que la base des acteurs de la bio-informatique ne soutiennent pas unanimement une vision trop centralisée. 8
B- Recommandations Au sortir des auditions, compte-tenu de son analyse et collectivement, le groupe de travail souhaite émettre les huit recommandations énoncées comme suit par ordre décroissant d importance. Recommandation n 1 : doter la biologie dans sa globalité d une e-infrastructure physique de stockage et de calcul évolutive permettant de combiner les fonctionnements d un cœur national, de centres régionaux (5 à 7 centres) ainsi que d autres acteurs locaux de plus petite taille (hôpitaux, laboratoires ). L'existence d'une infrastructure hiérarchisée (national -> régional -> local) est rendue nécessaire par la distribution des centres de production et de traitement des données. Le cœur national permettrait de mettre en place une capacité de «délestage» d un centre de traitement à un autre, de manière transparente pour l utilisateur, si ce centre est momentanément saturé ou en incapacité technique de réaliser les services demandés. De la même manière les acteurs locaux s'adresseront, en cas d'incapacité technique, aux centres régionaux auxquels ils sont rattachés. L interopérabilité des centres régionaux et du cœur national sera une obligation; de même que la disponibilité d'une connexion réseau à un débit suffisant entre les différents niveaux. Une architecture en étoile, sur la base du schéma mis en avant par Elixir, pourrait être proposée (voir annexe 1). Cette recommandation est dépendante de la capacité de la communauté à répondre à la seconde recommandation; en effet, même si les ressources sont distribuées, leur gestion, elle, doit être unique. Enfin, le fonctionnement de cette e-infrastructure devra prendre en compte le coût complet de l hébergement. Recommandation n 2 : mettre en place un fonctionnement et une gouvernance unifiés de l'e-infrastructures en biologie citée ci-dessus. Pour la partie bio-informatique, il est certain que les projets FG et IFB-ReNaBi font appel très exactement aux mêmes communautés, le projet IFB couvrant plus largement la biologie au-delà de la seule génomique (phylogénie/biologie structurale). Il serait souhaitable que ces deux projets ainsi que les projets PROFI (Protéomique), FRISBI (Biologie Structurale) et, à terme l'ensemble des projets de biologie «à grande échelle», puissent s'appuyer sur une même e-infrastructure, harmonisée sur la base d une vision d ensemble concertée proposée dans une même structure de gouvernance. Il faut donc renforcer la coordination du déploiement, de l'administration et 9
des supports associés aux e-infrastructures pour la biologie par la création d une structure de pilotage centralisée que nous désignerons ici sous le sigle eib.fr (càd une structure opérationnelle de service de type UMS). L affectation à cette structure de ressources humaines et de moyens pérennes par les différents établissements impliqués est indispensable. La lettre de mission d une telle structure porterait sur les points suivants : Construire le schéma global d'une e-infrastructure basée sur la recommandation n 1. Vecteur de la capacité d évolution Coordonner globalement les ressources humaines de l ensemble des niveaux (nationaux et régionaux) du dispositif. Réserver, attribuer et allouer de l espace de stockage ou du calcul aux autres infrastructures nationales (FG, IFB, Profi, Frisbi,...) qui devront s'appuyer, à terme, exclusivement sur cette structure. Cette nouvelle structure sera ainsi l'interlocuteur et l'interface unique entre les centres HPC (GENCI ; CC-IN2P3) et les infrastructures nationales en biologie, et, plus généralement, l'interlocuteur privilégié entre ces centres HPC et la communauté des biologistes. Fournir support, conseil et veille technologique informatiques à ces infrastructures nationales par une interaction renforcée avec la communauté de la recherche dans les domaines des STIC et de la bio-informatique La gouvernance d ebi.fr devrait associer les acteurs du monde HPC et «clouds» (GENCI, France Grilles) ainsi que les acteurs des partenariats publics et privés du domaine (Pôles de compétitivité, IRT, IHU ) Recommandation n 3 : Prendre en compte dans la recherche en biologie, le coût de l'infrastructure de stockage des données et de traitement associé, pour assurer la pérennité et la compétitivité du domaine. Sur la base de la pratique de l'institut Suisse de Bio-informatique (SIB), l'introduction explicite d'une ligne "consommable bio-informatique" dans les appels d'offre (ANR, PHRC, fondations caritatives ), est une nécessité absolue; aucun projet en biologie mettant en œuvre des expérimentations "haut-débit" ne devrait être déposé sans qu'une ligne bio-informatique portant sur (i) le stockage et la gestion des données brutes et (ii) l'analyse de ces données. A l'heure actuelle ces aspects informatiques et bio-informatiques (y compris le coût récurent de l infrastructure électrique nécessaire pour alimenter et climatiser) restent encore très sous-évalués voire totalement négligés dans la plupart des projets; ceci 10
contribue, pour partie, à la création du goulet d'étranglement observé dans le traitement de données. On peut considérer que ce sont 5 à 10% du financement total d'un projet en biologiesanté qui pourraient ainsi être alloués au poste bio-informatique. Une structure nationale - comme le Gis IBiSA - pourrait être en charge de la gestion des moyens financiers obtenus et arbitrer leur redistribution sur les infrastructures régionales ou nationale pour leur permettre d accomplir la fonction d appui informatique demandée. L extension de la recommandation aux projets européens devra être examinée avec soin car les mêmes carences dans la budgétisation du stockage et du traitement des données y sont observées. Recommandation n 4 : encourager la participation de la France au projet ELIXIR de structure européenne en bio-informatique. En effet, la plupart des projets de production sont désormais pan-nationaux et l accessibilité aux données est l affaire de tous au niveau international. ELIXIR est un lieu d'échange et de construction de projets pour lever des fonds au niveau européen et doit permettre d'optimiser l'investissement national en s'appuyant sur une infrastructure européenne. ELIXIR est encore en construction et il faut que la France y soit présente si l'on veut avoir l'opportunité d'orienter le modèle dans le sens d'une véritable distribution. Parmi les aspects importants, il faudra : Proposer qu eib.fr devienne l interlocuteur français unique d ELIXIR. Défendre la position française de voir évoluer le projet vers une plus grande distribution de l infrastructure à moyen terme, assurant redondance, meilleure accessibilité et robustesse, i.e. plus proche du modèle de PRACE dans le domaine du HPC. Proposer des indicateurs quantifiables d évaluation à terme (livrables, jalons) pour garantir l évolution et la valeur ajoutée du projet. Recommandation n 5 : encourager l'émergence d'un premier centre national de stockage des données au TGCC avec ancrage à l Institut de Génomique d'evry à titre de démonstrateur mais à condition (i) qu'il s'insère dans le dispositif eib.fr et (ii) que les modalités d hébergement et d implémentation en soient précisées avec les partenaires (CEA, comme hébergeur ; GENCI et France Grilles comme structures représentatives du HPC et de l informatique académique en nuage; eib.fr comme représentant de la communauté); ceci implique : 11
Que son pilotage et sa gestion (personnel/politique scientifique/moyens/évolutions techniques) dépende d eib.fr (voir recommandations n 1 et 2). Que le périmètre de ce qui relève des besoins propres de l Institut de Génomique et de ce qui relève d'une e-infrastructure nationale pour la Génomique soit parfaitement défini. Que le coût complet de l hébergement soit étudié, en collaboration avec les acteurs compétents du domaine HPC (GENCI). Ainsi élargi, ce démonstrateur pourrait constituer la préfiguration de ce que serait le nœud physique national d eib.fr (recommandation n 1) Recommandation n 6 : s assurer du dimensionnement des liaisons entre les grands sites de production, les centres de traitement (national et régionaux) et le hub Elixir anglais afin de permettre un transfert optimal des données. Des liaisons optimisées permettront d assurer la capacité de délestage gérée par le nœud central évoquée dans la recommandation n 1. Il est important de comprendre que, pour le fonctionnement quotidien de ces infrastructures, l hébergement physique des machines n est pas lié nécessairement à leur administration qui peut se faire à distance dans un centre délocalisé assurant la gestion centralisée (voir recommandation n 1). L'évolution du réseau Renater prévoit une augmentation de capacité de 100 Gbps fin 2012 entre Paris et Lyon ce qui permettra de prendre en charge des débits très élevés entre les pôles "nord" (Paris, Saclay, Strasbourg et Lille) et "sud" (Lyon, Marseille, Toulouse, Bordeaux, Grenoble et Montpellier) et assumer la capacité de délestage proposée. Dans le cadre d'elixir, les flux vers le réseau britannique JANET seront acheminés par le réseau européen Géant (capacité actuelle de 10 Gbps, sans doute portée à 20 Gbps en 2012). Si le service de transport mutualisé ne fournissait pas une capacité suffisante de bout en bout, il sera possible d'utiliser le service Géant-Lambda pour créer un circuit 10G dédié depuis RENATER-Paris vers le site de Londres pour un coût inférieur à 100 k /an. Renater étudie actuellement le flux entre les centres RENABI et le TGCC, pour orienter les choix d'infrastructures réseau tenant compte des usages constatés. Si ces travaux sont effectivement réalisés, la capacité de la France de fonctionner selon le schéma proposé dans la recommandation n 2 sera assurée. Recommandation n 7 : Encourager les recherches ciblées sur les enjeux technologiques de la biologie à grande échelle. 12
Face à l'accroissement exponentiel des volumes de données, les technologies actuelles de stockage et de traitement informatique vont rapidement atteindre leurs limites (en capacité ou en coût). Il convient donc d'anticiper en favorisant des recherches visant soit à réduire soit à gérer plus efficacement ces volumes. En amont, il s'agit de favoriser des projets technologiques "de rupture" visant à séquencer moins (ou mieux) ou autrement. Par exemple, investir et accompagner le développement des technologies à longues lectures (ex : PACBIO), la génomique sur cellule individuelle (plutôt que la métagénomique, moins informative), et recourir systématiquement aux techniques de compression de l information (en général très redondante) susceptible de réduire le volume des données de plusieurs ordres de grandeurs. En aval, il s'agit de promouvoir des recherches en STIC dans le domaine des infrastructures performantes de calcul et de communication, en lien étroit avec les problématiques spécifiques de la génomique. Deux domaines prioritaires sont d'une part les réseaux "très haut débit" (un domaine où la France est bien positionnée à la fois au plan académique et industriel) et, d'autre part, les recherches visant à l'adoption et la généralisation des platesformes distribuées (supercalculateurs, grilles et clouds) dans le milieu biologique et médical. A ce titre, les moyens de calcul HPC de GENCI au TGCC (supercalculateur Curie) pourraient être adaptés à certains de ces travaux de recherche, en profitant ainsi de la co-localisation de données et des moyens de calcul HPC. De plus, un démonstrateur de cloud académique ouvert aux applications de biologie moléculaire va être déployé en 2012 au CC-IN2P3. Enfin, parallèlement aux solutions concernant les équipements et leur mise en œuvre, il conviendra également de porter une attention particulière aux progrès algorithmiques qui seront absolument nécessaires en visant le passage à l'échelle pour le traitement de ces volumes de données. Recommandation n 8 : que l infrastructure FG devienne le vecteur des grands projets en génomique et les arbitre dans sa gouvernance. A cet effet, il convient en préalable, de réaliser un état des lieux des projets existants en France (et en collaboration internationale) en évaluant et comparant, en particulier, les différentes solutions retenues pour la production et le traitement des données dans ces projets. Ensuite, dans le cadre de la coordination de l ensemble des projets de génomique, il convient de s'assurer que la réalisation au niveau informatique et bio-informatique soit intégrée et harmonisée à l ensemble de l einfrastructure. Réciproquement, l'eib.fr devra s'assurer que les ressources mises en place satisfassent les besoins exprimés par FG. 13
C- Méthode de travail I Composition du groupe Le groupe était composé de 11 membres représentatifs des compétences et établissements concernés : Emmanuel Barillot (DR/Inserm; Paris) Gérard Berry (DR/INRIA; Collège de France, Paris) Vincent Breton (DR/CNRS; France-Grilles) Jean-Michel Claverie (PUPH; Marseille) Laurent Desbat (PR/UJF; Grenoble), Chargé de mission à la DGRI Patrick Donath (Directeur du Gip RENATER ; Paris) Christine Gaspin (DR/INRA; Toulouse) Raphaël Guérois (DR/CEA; Saclay) Thierry Meinnel (DR/CNRS; Gif), Président du groupe de travail (GT) Catherine Rivière (PDG/GENCI; Paris) Alain Viari (DR/INRIA; Grenoble) II Réunions et auditions Réunion de démarrage du GT pour définir le périmètre de l'étude et la méthode de travail (9 novembre 2011). Le GT a auditionné plusieurs projets (en général sous la forme d'un séminaire suivi d'une discussion sous la forme d un ensemble de questions/réponses) entre le 1 er et le 12 décembre 2011. Laurent Jourdren/Stéphane Le Crom (Inserm, ENS Paris) «NGS dans les nuages», Catherine Rivière (GENCI) : «Le TGIR GENCI» Claude Scarpelli (CEA, Evry) : «France-Génomique, Institut de Génomique d Evry» Christine Ménache (CEA, Bruyères-Le-Châtel) : «Le CCRT dans le contexte de France Génomique» Ioannis Xenarios (SIB/Lausanne) : «Vital-IT, le point de vue Suisse» Ewan Birney (EBI/Hinxton) : «Elixir» Bruno Klaholz/Olivier Poch/Rémy Fritz (IGBMC, Strasbourg) : «FRISBI» Jérôme Garin/Christophe Bruley (CEA, Grenoble) : «Profi» Denis Milan (INRA/Toulouse) : «France-Génomique, gouvernance et projets» 14
Des compléments d information ont été demandés à Antoine de Daruvar (Bordeaux) au sujet d Elixir et Cédric Notredame (Barcelone) au sujet des nuages («clouds»). A l'issue des auditions, des discussions au sein du GT ont permis une analyse critique des informations, leur mise en lien avec le contexte national, mise en perspective et premières synthèses. Le GT s'est réuni pour réaliser la synthèse les 14, 15, 16, 19 et 20 décembre 2011 D) Annexes Annexe 1 Fonctionnement d Elixir entre nœud national de coordination et nœuds régionaux Annexe 2 Sous forme pdf, l ensemble des présentations des intervenants est disponible sur demande. 15