L'analyse de séquences de protéines sur une grille de ressources informatiques Protein analysis and GRID computing

Documents pareils
La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Introduction aux bases de données: application en biologie

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

3A-IIC - Parallélisme & Grid GRID : Définitions. GRID : Définitions. Stéphane Vialle. Stephane.Vialle@supelec.fr

Extraction d information des bases de séquences biologiques avec R

Architecture de la grille

Big data et sciences du Vivant L'exemple du séquençage haut débit

MABioVis. Bio-informatique et la

La fédération des infrastructures cloud

Grid Technology. ActiveMQ pour le grand collisionneur de hadrons (LHC) Lionel Cons Grid Technology Group Information Technology Department

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Tutoriel Cloud IFB - Initiation -

Les mésocentres HPC àportée de clic des utilisateurs industriels

parée e avec C. Germain, B. Kegl et M. Jouvin CS de l Université Paris Sud

APX et VCE, Modèle d industrialisation de l intégration et du déploiement. Olivier BERNARD, VCE

Présentation de la Grille EGEE

Perl Orienté Objet BioPerl There is more than one way to do it

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

Charte d'utilisation des infrastructures de la plate-forme bioinformatique Genotoul

Numérique. Mon Université.

Base de données bibliographiques Pubmed-Medline

La sécurité dans les grilles

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Evaluation des performances de programmes parallèles haut niveau à base de squelettes

Le Ro le Hyper V Troisie me Partie Haute disponibilite des machines virtuelles

Authentification, Sécurisation, & Tracking de vos équipements et produits

SysFera. Benjamin Depardon

Chapitre 2. Cluster de calcul (Torque / Maui) Grid and Cloud Computing

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

FOURNIR UN SERVICE DE BASE DE DONNÉES FLEXIBLE. Database as a Service (DBaaS)

Big Data et Graphes : Quelques pistes de recherche

Systèmes informatiques

StratusLab : Le projet et sa distribution cloud

Initiation à Internet Médiathèque de Bussy Saint-Georges. Le Cloud

DG-ADAJ: Une plateforme Desktop Grid

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Business Intelligence avec SQL Server 2012

Grid5000 aujourd'hui : Architecture & utilisation

ApiCrypt - Réception des résultats de biologie

Archivage intermédiaire de données Scientifiques ISAAC Information Scientifique Archivée Au Cines

Tropimed Guide d'installation

Modèle de cahier des charges pour un appel d offres relatif à une solution de gestion des processus métier (BPM)

Contrat d accompagnement de projet

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB / 16

Mise en oeuvre d un Serveur de CD AXIS StorPoint

Thales Services, des systèmes d information plus sûrs, plus intelligents

Les Entrepôts de Données

Cours LG : Administration de réseaux et sécurité informatique. Dans les Paramètres Système onglet Processeur, le bouton "Activer PAE/NX"

Séminaire Partenaires Esri France 7-8 juin Paris Cloud Computing Stratégie Esri

Le réseau Internet.

Vers une fédération de Cloud Académique dans France Grilles J. Pansanel pour le groupe FG-Cloud (M. Airaj, C. Cavet, V. Hamar, M. Jouvin, C.

SQL Server Installation Center et SQL Server Management Studio

Qu est-ce que le «cloud computing»?

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Exploiter les statistiques d utilisation de SQL Server 2008 R2 Reporting Services

Plan du cours. Incarnations/applications du Grid Computing. Super-calcul virtuel

La base de données dans ArtemiS SUITE

Projet ViSaGe : implémentation de l administration et du monitoring de ViSaGe (Virtualisation du Stockage appliquée aux Grilles informatiques)

Big Data et Graphes : Quelques pistes de recherche

ViSaGe. Virtualisation du Stockage dans les Grilles. Informatiques. RenPar 16, 6-8 Avril 2005 Thiebolt François

Conclusions de la 9ème réunion du Groupe Consultatif du SYGADE

ORACLE 10g Découvrez les nouveautés. Jeudi 17 Mars Séminaire DELL/INTEL/ORACLE

de gestion de stock Inventaire, achats

Architectures en couches pour applications web Rappel : Architecture en couches

AA-SO5 KIDA/GSOV/VAMDC

VISIOCONFÉRENCE AVEC RENATER

PASS v2.0 : solution d authentification unique basée sur les composants Shibboleth Service Provider v2.5.1 et Identity Provider v2.3.

Calcul Haute Performance & Données

Un exemple de cloud au LUPM : Stratuslab

IBM Tivoli Monitoring, version 6.1

ES Enterprise Solutions

SPECIFICATION ET DESCRIPTION DU MULTICAST FIABLE DANS ETOILE

GUIDE D UTILISATION DU PORTAIL FAMILLE S E J. Mairie/SEJE/CG 1 Guide d utilisation du portail famille

Mendeley, pour gérer sa bibliographie et la partager. Patricia Volland-Nail

Avec sauvegardez sans y penser, partagez et bougez, vos données vous suivent! Retrouvez tous vos services du cloud pro en cliquant ici.

Middleware et services de la grille

MEDLINE BANQUE DE DONNÉES EN MÉDECINE INTERFACE PUBMED INITIATION

Cloud Computing : quels intérêts et quelles solutions pour les développeurs?

Rapport de certification

Tableau Online Sécurité dans le cloud

Virtual Data Center d Interoute. Prenez la main sur votre Cloud.

Installation Client (licence réseau) de IBM SPSS Modeler 14.2

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

Directives pour les fournisseurs concernant:

Les journées SQL Server 2013

«L utilisation d un intranet permet-il la mise en place d un travail collaboratif et/ou coopératifs? Pour quelles compétences?»

Contenu de la version 3.4 C I V I L N E T A D M I N I S T R A T I O N

IIS, c est quoi? Installation de IIS Gestion de base de IIS Méthodes d authentification. Edy Joachim,

Bibliographie Introduction à la bioinformatique

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

RC SOFT. SaaS RC SOFT. / solution de gestion à la demande RC SOFT OUTILS D'ANALYSE ACCESSIBILITÉ GESTION DE LA TVA SAISIE & DONNÉES ÉDITIONS & EXPORT

Que signifie être membre du Programme de l OMS pour la pharmacovigilance internationale

Formation continue BNF // Programme des cours 2015

Rapport de certification

Infrastructures de recherche: Positions de la France dans Horizon 2020

Sage Déclarations Sociales

Transcription:

L analyse C. JOBIM Blanchet, 2002 de protéines C. Combet sur une et G. grille Deléage de ressources informatiques Résumé L'analyse de séquences de protéines sur une grille de ressources informatiques Protein analysis and GRID computing Christophe Blanchet * Christophe COMBET Gilbert Deléage Pôle BioInformatique de Lyon IBCP-CNRS/UCBL UMR 5086, 7 passage du Vercors, 69367 Lyon France GlaxoSmithKline R&D 10 Rte de l'aéroport, 1215 Geneva 15 Suisse Courriel : {Christophe.Blanchet,Gilbert.Deléage}@ibcp.fr, cxc21115@gsk.com A l'heure actuelle, de nombreux programmes de séquençage de génomes complets d organismes (Homme, Souris, végétaux, etc.) produisent de très grandes quantités de séquences. Ces données nouvelles en grande quantité et dont la croissance est exponentielle posent deux problèmes majeurs: leur stockage et leur utilisation. Nous essayons d apporter une réponse à ces deux contraintes : tout d abord à travers notre portail Web NPS@ (network Protein Sequence Analysis ; part «protéine» du Pôle BioInformatique de Lyon-PBIL) ; et ensuite à travers notre participation au projet européen DataGrid. Ce projet a pour objectif la mise en place d une grille informatique de ressources de calcul et de stockage pour l analyse des données scientifiques. L application bioinformatique développée au laboratoire dans le cadre de DataGrid est le portail Web d analyse de séquences de protéines GPS@ (Grid Protein Sequence Analysis). Ce portail a pour objectifs d évaluer et de proposer des solutions pour résoudre les contraintes spécifiques à l utilisation d algorithmes bioinformatiques dans un contexte de grille. Mots-clés : Protéine, séquence, grille informatique, DataGrid, portail Web. 1 Introduction A l'heure actuelle, de nombreux programmes de séquençage de génomes complets d organismes (Homme, Souris, végétaux, etc.) produisent de très grandes quantités de séquences. Ces données nouvelles en grande quantité et dont la croissance est exponentielle posent deux problèmes majeurs: leur stockage et leur utilisation. Nous essayons de répondre à la seconde problématique en proposant depuis 1998, au sein du Pole BioInformatique de Lyon (PBIL), un serveur Web d'analyse de séquences de protéine (NPS@-Network Protein Sequence Analysis, http://npsa-pbil.ibcp.fr) couplés à des logiciels d'analyse bioinformatique disposant de fonctions client-serveur (MPSA, AnTheProt). Ce serveur, mis gratuitement à la disposition des biologistes, leur propose une interface conviviale et efficace à l'utilisation chainée et à l'analyse des résultats de nombreuses méthodes d'analyse de séquences de protéine (BLAST, FastA, ClustalW, Proscan, Pattinprot, SOPMA, PHD,...) appliquées sur des données personnelles ou sur celles de banques internationales (SWISS-PROT, EMBL, PDB,...). Cependant, la demande en ressources informatiques (CPU, mémoire, disques,...) de certaines méthodes est très importante, de plus les méthodes disponibles sur NPS@, bien que nombreuses, ne sont pas exhaustives. Le concept de grille de calcul permettrait de pallier à ces limitations en proposant de réunir et de faire coopérer des ressources informatiques de calcul, de stockages et d'algorithmes dispersées géographiquement. Le projet DataGrid est un projet européen (5ème PCRD) de trois ans (2001-2003) visant à installer, développer et expérimenter une technologie de grille de calcul et de stockage sur des infrastructures de réseau à très haut débit au bénéfice d applications scientifiques. Les objectifs du serveur GPS@ (Grid Protein Sequence Analysis) sont d'évaluer et de résoudre les contraintes d'utilisation d'algorithmes bioinformatiques dans un contexte de grille de calcul et de stockage. 2 NPS@: serveur Web d analyse de séquence de protéines Nous avons mis en ligne le serveur NPS@ [1,2] (Network Protein Sequence @nalysis) en avril 1998. Le serveur NPS@, dans sa version 2, regroupe 24 méthodes d analyse de séquences de protéines. Ces méthodes sont intégrées en une seule interface Web pour une efficacité accrue. Ce serveur Web est la partie «protéine» du serveur du Pôle BioInformatique de Lyon [3] (PBIL). Le PBIL est une réalisation conjointe entre le Laboratoire de Bioinformatique et RMN Structurales (LBRS Pr Gilbert Deléage IBCP CNRS/UCBL UMR 5086) et le JOBIM 2002 289

C. Blanchet, C. Combet et G. Deléage laboratoire de Biométrie, Biologie Evolutive (BBE Pr Christian Gautier CNRS/UCBL UMR 5558). Il fut créé en janvier 1998. 2.1 Ressources bioinformatiques disponibles 2.1.1 Algorithmes bioinformatiques Les algorithmes disponibles sur notre serveur NPS@ couvrent plusieurs champs de l analyse de séquences de protéine (figure 1) : - Recherche de similitude : BLAST [4], PSI-BLAST, FASTA [5] et SSEARCH [6] - Recherche de sites et signatures fonctionnelles : ProScan et PattInProt [21] - Alignements multiples : Clustal W [7] et MultAlin [8] - Prédictions de structures secondaires : SOPMA [9], MLRC, HNN, PHD [10,11], Predator, DSC, Simpa 96 [12,13], GOR 1-2 et 4 [14], etc. - Consensus secondaire - Prédictions de profils physico-chimiques - Diverses méthodes : prédiction de structures «coiled-coil», de motif hélice-tour-hélice,etc. Fig. 1 : Page d accueil du serveur Web NPS@ 2.1.2 Banques de données biologiques De la même manière, nous proposons un accès sur un ensemble de banques internationales de données biologiques : - SWISSPROT [15], SP-TrEMBL, TrEMBL [15,16], banque non-redondante - Bacillus subtilis (CDS) - Protein Data Bank (PDB) en version complète et en version 25% et 95% d homologie. - PROSITE [17] 290 JOBIM 2002

L analyse de protéines sur une grille de ressources informatiques La maintenance des banques de données est réalisée sur le serveur par un mécanisme automatique mis en place par C. Geourjon. Les mises à jour sont obtenues depuis les sites de références de ces banques comme l Institut Suisse de Bionformatique [18] (SIB) ou l Institut Européen de Bioinformatique [19](EBI). L utilisateur peut ainsi effectuer ses analyses avec les dernières versions de ces banques sans avoir à se soucier de leur maintenance. 2.2 Intégration Un des objectifs principaux de la réalisation de NPS@ a été de fournir aux biologistes qui ne sont pas rompus aux techniques informatiques un outil puissant d analyse. Notamment, toutes les méthodes disponibles sur NPS@ sont interconnectées. Ainsi les séquences obtenues lors d une recherche de similarité avec BLAST, FASTA ou PattInProt peuvent être automatiquement alignées avec Clustal W ou Multalin. Ensuite, des prédictions de structure secondaire et leur consensus peuvent être incorporés à l alignement multiple. Le biologiste n a le plus souvent qu à suivre les liens hypertextes ou cliquer sur les boutons de choix. Un accent particulier a été mis sur l abstraction des formats bioinformatiques nombreux et différents : que ce soient pour les données en entrée mais également en sortie d un algorithme donné. Pour l utilisateur de NPS@, le transfert de données entre différents algorithmes se résume à un clic sur un lien hypertexte dans une page de résultats d une méthodes. Et ce clic l amène sur une nouvelle page de soumission des données à une autre méthode qui prendra les résultats précédents comme données à analyser. De la même manière de nombreux liens hypertextes sont proposés pour obtenir des détails supplémentaires sur certaines données à partir des sites Web originaux. Ces sites sont ceux des banques de séquences mondiales : SWISS-PROT, SP-TrEMBL, PDB, GenBank, Mais ce sont également d autres banques de données comme Medline, Prosite ou SCOP. De plus, afin de proposer un environnement complet entre tous nos outils, la majorité des résultats obtenus sur NPS@ peuvent être transférés à une session du logiciel MPSA [20,21] ou AnTheProt [22] sur la machine locale. Le biologiste clique sur le lien hypertexte intitulé «View data in MPSA». Un mécanisme basé sur MIME et le sous-type original «application/x-mpsa» ouvre une session locale de MPSA avec les données transmises depuis le serveur. 2.3 Statistiques d utilisation Le serveur NPS@ traite en moyenne 2 000 requêtes par jour, et à dépassé les 2 000 000 de requêtes traitées en février 2002. Elles se répartissent de façon relativement équitable entre la France, le reste de l Europe, les Etats-Unis et le reste du monde comme le montre la figure 2. Le site NPS@ est référencé par de nombreux sites Web internationaux comme par exemple ExPaSy [23], RCSB [33] et InfoBiogen [24]. 2500000 2000000 32% 20% 1500000 1000000 500000 Annuelles Cumulées 22% 26% France Europe (hors France) USA Reste du monde 0 1998 1999 2000 2001 2002 Fig. 2 : Statistiques d utilisation de NPS@ (14 février 2002) 2.4 Limitations actuelles dues au matériel Cependant, le serveur NPS@ subit des limitations importantes de la part de l infrastructure matérielle qui l héberge. NPS@ fonctionne actuellement sur un ordinateur quadriprocesseur i386 sous RedHat 7.2. Afin de ne JOBIM 2002 291

C. Blanchet, C. Combet et G. Deléage pas écrouler la machine et d obtenir des temps de réponses satisfaisant pour l ensemble des utilisateurs, différentes limitations ont dues être mises en places : Restriction à l utilisation des grandes banques de séquences (SwissProt, SP-TrEMBL, TrEMBL, Nr). Pas de génomes et leur banque CDS associée Restriction de la taille des données soumises à analyse : par exemple pour l alignement multiple avec CLUSTAL W, le biologiste ne pourra aligner plus de 50 séquence. Restriction des méthodes disponibles suivant le contexte : par exemple lors de l insertion de prédictions de structures secondaires dans un alignement multiple, le biologiste ne pourra pas utiliser toutes les méthodes : seules les 10 moins gourmandes seront disponibles. Ce qui peut tout de même représenter 500 calculs pour un alignement de 50 séquences. Restriction des requêtes automatiques et massives depuis les autres portails et méta-serveurs bioinformatiques : nous sommes obligés de limiter notre service ASP (Application Service Providing) pour la BioInformatique. 3 DataGrid : infrastructure de grille de ressources informatiques «European DataGrid» [25] (EDG) est un projet financé par la communauté européenne. Son objectif est de mettre en place une grille de ressources de calcul et de stockage pour l analyse des données issues des expérimentations scientifiques. Cette grille veut être capable de répondre aux attentes des sciences de la prochaine génération. En effet celles-ci nécessiteront le partage et la coopération de ressources pour l analyse de très grands jeux de données produits et stockés par de nombreux laboratoires appartenant à plusieurs institutions. 3.1 Le concept de «grille de ressources informatiques» Une grille de ressources informatiques concerne la mutualisation de ressources dispersées géographiquement [32]. Ces ressources peuvent être de différentes natures : puissance de calcul, espace de stockage, interface utilisateur, gestionnaire de ressources, etc. Une grille est constituée de nœuds reliés entre eux par un maillage réseau généralement à haut-débit, qu il soit de production (Renater et GEANT pour DataGRID) ou expérimental (réseau VTHD pour e-toile et l ACI-GRID en France). Un nœud propose à la communauté de la grille différentes ressources parmi celles citées. Les utilisateurs se connecte à la grille en souscrivant un abonnement et paient les ressources utilisées comme nous le faisont tous pour le courant électrique. En effet, comme nous branchons nos appareils électriques sur le réseau EDF et consommons l électricité produite par les centrales, nous pourrons brancher nos ordinateurs sur DataGRID et consommer de la puissance de calcul et de l espace de stockage fournis par les centres informatiques. 292 JOBIM 2002

L analyse de protéines sur une grille de ressources informatiques 3.2 Les partenaires du projet Fig. 3 : Etat des ressources disponibles sur la grille expérimentale européenne DataGRID Les partenaires du projet DataGRID regroupe différents établissements de recherche européens (CERN, CNRS-France, ESA/ESRIN, INFN-Italie, NIKHEF-Pays-Bas, PPARC-GB) et des industriels (. Les participants appartiennent aux différents domaines de l informatique, de la physique des hautes énergie, de la biologie et du domaine biomédical, de l astrophysique, etc. La grille actuelle (figure 3, Testbed 1 mars 2002) réunit de nombreuses ressources très diverses, allant de la ferme de quelques CPU (e.g. IBCP-PBIL, Lyon ; LCP-In2p3, Clermont-Ferrant) à des ensembles de plusieurs centaines de CPU et plusieurs centaines de Go de disque (e.g. Centre de Calcul de l In2p3, Lyon ; CERN, Genève). 3.3 Les groupes de travail Le projet est structuré en groupes de travail (WP pour «WorkPackage», tableau 1) qui se voient assignés un champ d application précis : «middleware», infrastructure, applications et gestion du projet. Middleware Infrastructure Applications Management Work Package 1 Grid Work Scheduling 2 Grid Data Management 3 Grid Monitoring Services 4 Fabric Management 5 Mass Storage Management 6 Testbed and Demonstrators 7 Network Services 8 HEP Applications 9 Earth Observation Applications 10 Biology Applications 11 Dissemination 12 Project Management Tab. 1 : Les groupes de travail de DataGrid Fig. 4 Organisation des WorkPackages Ces différents groupes de travail interagissent suivant un schéma qui est détaillé dans la figure 4 : JOBIM 2002 293

C. Blanchet, C. Combet et G. Deléage - Les WPs «middleware» ont en charge les développements logiciels des composants de la grille. Ils réaliseront les logiciels qui serviront d interface entre les technologies logiciels réseaux actuelles et les technologies logicielles des applications scientifiques. - Les WPs d infrastructure intègrent les développements logiciels du «middleware», et sont responsables de l interaction avec les infrastructures réseaux (Renater [26], GEANT [27], etc.). Ils ont la responsabilité de la mise en oeuvre, du test et du «monitoring» des différentes versions de la grille. - Les WPs de gestion du projet coordonnent les actions administratives et les rencontres d échange liées au projet (réunion de travail, présentations, revue de la Communauté Européenne). Il sont également chargés de faire connaître le projet aux différents acteurs nationaux académiques et industriels. - Les WPs des applications comprennent les disciplines de l observation de la Terre, de la Physique des Hautes Energies et de la Biologie. Le projet DataGrid a débuté en janvier 2001 et se terminera en décembre 2003. Il a donc 13 mois d existence à la date d écriture de cet article. Les développements réalisés dans le cadre du projet DataGrid par les différents WPs du «middleware» ont pour résultats la réalisation d un nouveau «toolkit» EDG, pour «European DataGrid, basé sur Globus [28], et il l améliore par l apport de différents outils pour une architecture de grille : gestion des réseaux, gestion des ressources disponibles de calculs et de stockage, gestion des accès, sécurité des données et des matériels, etc. 3.4 Le WP10 : «Applications biologiques» Nous participons aux applications biologiques de DataGrid regroupées au sein du WP10 [29,30]. Elles comprennent des applications d imagerie biomédicale, de bioinformatique moléculaire et de parasitologie. Le WP10 se distingue des autres applications par des contraintes propres au monde de la bioinformatique parmi lesquelles on peut citer l interactivité et la gestion des banques de données. En effet l interactivité de l accès aux données est fondamentale dans le domaine de l imagerie médicale, et à un degré moindre dans le domaine de l analyse moléculaire. Cette notion n a pas de raison d être dans les applications de la physique ou le traitement des données se fait en fonction des ressources disponibles sans contrainte de temps de réponses. De la même manière, les banques de données biologiques ont un besoin fort de mise à jour régulière, voire quotidienne. Se pose alors la question de la cohérence des données et de la synchronisation des versions de ces données sur la grille. A la différence, les physiciens ont pour l instant des données de plus grandes tailles que celle de la Biologie, mais par contre qui n évoluent pas après leur obtention. 4 GPS@: un portail DataGrid pour la bioinformatique des protéines 4.1 La problématique des grilles de calculs appliquées à l analyse de séquences de protéine Dans le cadre de la bioinformatique moléculaire, la majorité des analyses repose sur la soumission de données issues de banques de données ou d expérimentation à des algorithmes validés afin d extraire de nouvelles informations. Les données étant de plus en plus nombreuses, de grandes tailles et de types différents, leurs analyses sont de plus en plus coûteuses d un point de vue informatique. De plus les méthodes, elles-mêmes, sont de plus en plus complexes et donc coûteuses en ressources informatiques. Une grille de ressources informatiques peut répondre à plusieurs problématiques en Biologie : - un portail Web pour des milliers de biologistes soumettant autant de requêtes de calcul de façon concommittante, la grille doit dans ce cas répartir la charge de ces milliers de processus sur les nœuds disponibles, - un serveur d algorithmes pour des bioinformaticiens soumettant un très grand nombre de processus en un seul «run», ce cas se rapproche du précédent avec pour différence que les données résultats devront être rapatriées en un seul point du réseau (en autant de points qu il y a d utilisateurs pour le cas précédent), - un serveur d algorithmes pour des bioinformaticiens soumettant un faible nombre de processus voire un seul nécessitant de très grands calculs. Dans ce cas la grille permet de faire du calcul distribué à travers des mécanisme proches de MPI mais adaptés à une hiérarchie forte des nœuds, - un serveur de banques de données biologiques, en assurant la mise à jour et la cohérence de ces banques sur les différents nœuds. 294 JOBIM 2002

L analyse de protéines sur une grille de ressources informatiques 4.2 Etudes réalisées dans GPS@ Le portail Web GPS@ (1) (Grid Protein Sequence Analysis) en tant que point d entrée sur une grille de bioinformatique moléculaire a pour objectif d étudier la «gridification» du modèle d intégration des algorithmes de NPS@. Le portail GPS@ peut répondre aux problématiques de portail Web pour des milliers d utilisateurs ou de serveur d algorithmes biologiques pour des bioinformaticiens telles que définies dans le chapitre précédent. La gridification d un portail Web comme GPS@ a plusieurs contraintes : - cohérence et la synchronisation des banques de données (séquences, motifs, structures, ), notamment lors de leur mise à jour - différence des modèles algorithmiques des méthodes disponibles (tableau 2) - interactivité des analyses - sécurité des données lors des transferts et des calculs - authentification : le biologiste ou bioinformaticien connecté au portail Web n est pas l utilisateur réel. Le portail agit comme un fournisseur de service et est identifié comme tel sur la grille. 4.2.1 Gridification de NPS@ L objectif de GPS@ est de fournir aux biologistes la même interface Web que NPS@ afin que l apport de la grille ne se traduisent pas par un «chamboulement» des outils utilisés quotidiennement. Considérons tout d abord une requête sur le portail Web NPS@ (figure 5). Le biologiste se connecte à l aide de son navigateur favori (Netscape, Opéra, Internet Explorer, ), remplit les différents champs de la requête d analyse de séquences de protéines, puis soumet la requête au serveur. Son navigateur envoie les paramètres de la méthode au serveur Web qui réceptionnent les données envoyées par le navigateur du biologiste et les transmet à nos scriptsceux-ci récupèrent ces données et leur font subir différents traitements propres à l analyse demandée : vérification et formatage des données, validation des paramètres. Enfin, le script correspondant à l analyse lance l exécution du calcul de la méthode sur les données suivant les paramètres de l utilisateur. Une fois le processus terminé, nos scripts récupèrent les résultats bruts de la méthode, les mettent en forme de pages Web ou d images adéquates ; et les envoient au navigateur du biologiste par le mécanisme inverse. Fig. 5 : Requête Web avec ressources locales Fig. 6 : Requête Web avec ressources distribuées Dans GPS@, la gridification est réalisée au moment du lancement par le serveur des calculs des méthodes bioinformatiques sur la machine hôte. Le serveur GPS@ invoque, pour sa part, les mécanismes du «middleware» de DataGrid (EDG) pour lancer ses calculs (figure 6). 4.2.2 Processus de soumission d un calcul dans GPS@ Le serveur GPS@ s authentifie auprès de la grille et fait une demande de calcul auprès du «Resource Broker» (figure 7). Pour ce faire il lui indique les programmes et les données bioinformatiques à utilisés. Les données sont propagées sur les différents nœuds avec espaces de stockage «Storage Element», et les programmes sont alors envoyés sur la grille aux différents nœuds disponibles «Compute Element». Lorsque le calcul est terminé, un état est indiqué à GPS@ ainsi que le chemin d accès aux résultats. GPS@ récupèrent alors ces données et les met en forme pour une visualisation Web par le Biologiste. (1) future adresse : http://gpsa.ibcp.fr JOBIM 2002 295

C. Blanchet, C. Combet et G. Deléage Fig. 7 : Mécanisme de soumission d un calcul sur DataGRID Suivant les méthodes d analyses bioinformatiques, le mécanisme de soumission du calcul diffère sur quelques points. 4.3 Applications aux différents algorithmes de GPS@ sur DataGRID Les méthodes disponibles sur le serveur NPS@ pour l analyse de séquences de protéine peuvent être classées en 4 catégories suivant 2 critères : la taille des données à analyser et la complexité des calculs (tableau 2). Les grandes tailles des données concernent par exemple les méthodes qui analysent ou basent une partie de leur analyse sur des banques de séquences ou des génomes complets. La complexité des calculs est quant à elle due à l emploi ou non d heuristiques dans les algorithmes considérés. Complexité des calculs Faible Grande Taille des données traitées Faible Grande certaines prédictions de structures BLAST secondaires (GOR, DPM, Homologue, ) ProScan (motifs protéiques) prédictions de profils physico-chimiques etc. etc. alignements multiples avec CLUSTAL FASTA, SSEARCH W ou Multalin PattInProt (motifs protéiques) etc. prédictions de structures secondaires (SOPMA, PHD, ) CLUSTAL W (génomes complets). etc. Tab. 2 : Différenciation des algorithmes de NPS@ suivant la taille des données analysées et la complexité de l analyse. Les conséquences pour l emploi de ces méthodes sur une grille informatique sont très diverses : cela va du cas où de nombreux petits processus traitant une petite taille de données pourront être répartis individuellement sur les différents nœuds de la grille (différentes prédictions appliquées à une base de séquences); au cas ou un seul processus traitant des données de grande taille (alignement multiple de génomes). Le cas le plus simple est celui d une méthode avec peu de données en entrée et en sortie mais répétée en un grand nombre d occurrences indépendantes. Dans ce cas les données seront transférées suivant des mécanismes de type «sandbox». Par exemble lorsque le biologiste désire insérer dans un alignement multiple de plusieurs centaines de séquences, des prédiction de structures secondaire comme DPM, GOR1-2 et 4, ou SIMPA 96, des prédictions de profils physico-chimiques ou de motif «hélice-tour-hélice». D autres méthodes, compatibles avec la soumission en sous-processus indépendants, peuvent avoir des fichiers de grandes tailles comme données d entrée. Ces données sont généralement des banques de séquences aux différents formats bioinformatiques. Du fait de leur taille, ces données nécessitent des transferts plus 296 JOBIM 2002

L analyse de protéines sur une grille de ressources informatiques complexe du type «replica catalog». Ce mécanisme sera également invoqué pour la récupération des fichiers résultats qui peuvent également atteindre une grande taille : par exemple le traitement de SWISSPROT contre elle-même avec BLAST produit plus de 2 Go de données à rapatrier à l issue d un temps de calcul conséquent (tableau 3). Type de calcul Matériel de test Taille des calculs Durée de calcul Machine monocpu SwissProt vs SwissProt 8,1.10 9 BLAST[31] 228 heures (estimation) Local Machine SMP quadriprocesseur SwissProt vs SwissProt (IBCP-Lyon) 8,1.10 9 BLAST[31] 49 heures Ferme de 100 CPU SwissProt vs SwissProt (CC In2p3-Lyon) 8,1.10 9 BLAST[31] 3 heures Grille DataGRID Tesbed 1 100 séq. vs Yeast DB (Revue Européenne [34], 1 er 0,9. 10 6 BLAST mars 2002) 4 minutes Tab. 3 : Temps de calcul obtenus pour des études avec BLAST Le troisième grand type d algorithme est celui qui produit un seul processus de grande taille. Ce processus doit alors être réparti sur la grille avec des mécanisme du type MPI, avec passage de messages entre les différentes sous-instances du processus. C est le cas par exemple d un alignement multiple de plusieurs génomes avec CLUSTAL W ou d une recherche de motifs protéiques très dégénérés avec PattInProt sur une grande banque de séquences comme TrEMBL. A cette problématique s ajoute bien souvent celle de la gestion des données de grandes tailles en entrée et/ou sortie comme évoqué dans le paragraphe précédent. 5 Conclusion Les objectifs du serveur GPS@ (Grid Protein Sequence Analysis) sont d'évaluer et de résoudre les contraintes d'utilisation d'algorithmes bioinformatiques dans un contexte de grille de calcul et de stockage. Les algorithmes concernés (BLAST, ClustalW, GOR4,...) sont ceux utilisés massivement dans l'analyse à grande échelle de séquences de protéine afin d'extraire les informations des données brutes issues de nombreuses expérimentations (dont les programmes de séquençage de génomes). Leurs applications sont par exemple l'annotation des données, leur incorporation dans les bases de données existantes ou la construction de nouvelles banques, des analyses à vocation thérapeutique et pharmaceutique, etc. Le modèle de GPS@ combine différents challenges de la Bioinformatique Moléculaire avec notamment la distribution et la cohérence des grandes banques de données entres les sites bioinformatiques et la diversité des algorithmes bioinformatiques pour leur modèles de calculs (batch ou MPI). Le développement de GPS@ permettra de dépasser les limitations actuelles de NPS@ grâce aux ressources informatiques alors accessibles. GPS@ permettra par exemple de réaliser de plus grands alignements multiples et de pouvoir insérer dans l alignement des prédictions de structures secondaires suivant l ensemble des méthodes disponibles. Une autre amélioration concernera le nombre des banques des données disponibles et les requêtes portant sur plusieurs banques simultanémént. Ces études sont actuellement en cours dans le cadre du projet European DataGrid qui se terminera fin 2003. Mais elles pourront également être rattachées à d autres projets de grille de ressources informatiques en cours comme l ACI-GRID (projet GriPPS), e-toile (RNTL) sur VTHD (RNRT) ; ou à venir par exemple dans le cadre du 6 e PCRD. Références [1] NPS@: Network Protein Sequence Analysis, http://npsa-pbil.ibcp.fr [2] NPS@: Network Protein Sequence Analysis. Combet C., Blanchet C., Geourjon C. et Deléage G. Tibs, 2000, 25, 147-150. [3] PBIL - Pôle BioInformatique de Lyon, http://pbil.univ-lyon1.fr [4] Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (1990) Basic local alignment search tool. J. Mol. Biol. 215, 403-410 [5] Pearson WR, Lipman DJ (1988) Improved tools for biological sequence comparison. Proc. Natl. Acad. Sci. USA 85, 2444-2448. [6] Smith TF, Waterman MS (1981) Identification of common molecular subsequences. J. Mol. Biol. 147, 195-197. JOBIM 2002 297

C. Blanchet, C. Combet et G. Deléage [7] Thompson JD, Higgins DG, Gibson TJ (1994) CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22, 4673-4680. [8] Corpet F (1988) Multiple sequence alignment with hierarchical clustering. Nucl. Acids Res. 16, 10881-10890 [9] Geourjon C, Deléage G (1995) SOPMA: significant improvements in protein secondary structure prediction by consensus prediction from multiple alignments. Comput. Appl. Biosci. 11, 681-684 [10] Rost B, Sander C (1994) Combining evolutionary information and neural networks to predict protein secondary structure. Proteins 19, 55-72 [11] Rost B (1996). PHD : predicting one-dimensional protein structure by profile-based neural networks. Methods Enzymol. 266, 525-539. [12] Levin, JM (1997) Exploring the limits of nearest neighbour secondary structure prediction. Prot. Eng. 7, 771-776 [13] Donnelly D, Overington JP, Blundell TL (1994) The prediction and orientation of a helices from sequence alignments: then comined use of environment-dependent substituion tables, Fourier transform methods and helix capping rules. Prot. Eng. 7, 645-653 [14] Garnier J, Gibrat J-F, Robson B (1996) GOR method for predicting protein secondary structure from amino acid sequence. Methods Enzymol. 266, 540-553 [15] Bairoch A, Apweiler R (1999) The SWISS PROT protein sequence data bank and its supplement TrEMBL in 1999. Nucleic Acids Res. 27, 49-54 [16] Stoesser G, Tuli MA, Lopez R, Sterk P (1999) the EMBL nucleotide sequence database. Nucleic Acids Res. 27, 18-24. [17] Hofmann K, Bucher P, Falquet L, Bairoch A (1999), The PROSITE database, its status in 1999. Nucleic. Acids Res. 27, 215-9 [18] SIB Swiss Institute of Bioinformatics, http://www.isb-sib.ch [19] EBI European Bioinformatics Institute, http://www.ebi.ac.uk [20] MPSA: Integrated System for Multiple Protein Sequence Analysis with client/server capabilities?. Blanchet C., Combet C., Geourjon C. et Deléage G. Bioinformatics, 2000, 16, 286-287. [21] Blanchet (C.) Logiciel MPSA et ressources bioinformatiques client-serveur Web dédiées à l analyse de séquences de protéine, thèse de doctorat, Ecole Doctorale Interdisciplinaire Sciences-Santé (EDISS - UCBLyon 1), 1999. [22] Deléage G, Clerc FF, Roux B, Gautheron DC (1988) ANTHEPROT : a package for protein sequence analysis using a microcomputer. Comput Applic Biosci. 4, 351-356. [23] ExPASy - Expert Protein Analysis System, http://www.expasy.ch [24] InfoBioGen, http://www.infobiogen.fr [25] EDG - European DataGrid project, http://www.eu-datagrid.org [26] Renater - Réseau National de Télécommunications pour la Technologie, l'enseignement et la Recherche, http://www.renater.fr [27] GEANT, http://www.dante.net/geant [28] the GLOBUS Project, http://www.globus.org/ [29] DataGrid WorkPackage 10, http://marianne.in2p3.fr/datagrid/wp10 [30] DataGrid WP10 Deliverable 10.2, http://marianne.in2p3.fr/datagrid/wp10/documents/datagrid-10- D10_2-0109-2-0.pdf [31] Legré (Y.), Météry (R.) et Vernet (G.), DataGrid WP10 meeting 6, 2001 [32] IAN FOSTER AND CARL KESSELMAN, The Grid: Blueprint for a New Computing Infrastructure, édité par Ian Foster et Carl Kesselman, 1998. [33] RCSB - Research Collaboratory for Structural Bioinformatics, http://www.rcsb.org [34] DataGRID, Bilan de la 1 e Revue Européenne. http://web.datagrid.cnr.it/servlet/page?_pageid=1228&_dad=portal30&_schema=portal30&_mode=3 298 JOBIM 2002