Intégration de Sources de Données Génomiques du Web Christine Froidevaux, Sarah Cohen Boulakia {chris, cohen}@lri.fr LRI, CNRS UMRS 8623, Bât 490, Université Paris-Sud, 91405 Orsay Cedex 1 Introduction La nécessité en bioinformatique de recourir à un nombre toujours croissant (plusieurs milliers aujourd'hui) d'outils disponibles sur le Web et de banques de données génomiques -elles-mêmes toujours plus volumineuses-, rend urgent le besoin d'aider l'utilisateur par des procédures automatiques. C'est le thème de workshops internationaux tels que le 5ème Annual Bio-Ontologies Meeting qui porte sur le Semantic Web of Bioinformatics Resources. Cette automatisation devrait aboutir à une véritable coopération entre le biologiste et la machine, pour une recherche plus ecace des informations et une meilleure exploitation des résultats. Cela suppose, d'une part, de rendre le contenu des sources génomiques du Web compréhensible à la fois par une machine et par un humain, et d'autre part, de pouvoir combiner les informations provenant de diérentes banques. Le premier point est habituellement résolu par la création de terminologies (langage partagé destiné à la communication) et d'ontologies (description de la signication des termes), tandis que le second concerne le problème de l'intégration de sources hétérogènes et réparties. Nous donnons dans la section 2 un bref panorama des diérents types de banques génomiques disponibles sur le Web. Nous exposons ensuite dans la section 3 les diérents niveaux d'hétérogénéité à prendre en compte pour une bonne intégration des sources. Dans la section 4, nous évoquons la nécessité de concevoir des ontologies et présentons brièvement les solutions actuelles en termes de systèmes d'intégration. Nous concluons en dégageant les dés qui restent à relever pour obtenir un véritable Web Sémantique de ressources en bioinformatique. 2 Banques de données génomiques Dans la recherche médicale, les banques sont interrogées de façon hebdomadaire pour chercher, par exemple, des informations sur les gènes qui peuvent être associés à certaines tumeurs cancéreuses. Plus globalement, les laboratoires sont aujourd'hui amenés à interroger les banques du Web pour analyser leurs résultats expérimentaux en y recherchant des données proches des leurs. Ces banques génomiques sont extrêmement variées au niveau de leur contenu. Les données biologiques de base sont les informations relatives aux gènes et aux protéines. Elles sont récoltées auprès de grands laboratoires de séquençage qui fournissent à certaines banques des fiches d'annotation. Celles-ci contiennent les séquences du gène ou de la protéine découverts -suite de lettres alphabétiques caractérisant le gène ou la protéine-, les noms donnés à ceux-ci par le laboratoire, leur localisation dans la cellule, mais aussi et surtout, des commentaires sur ces données, comme la fonction biologique putative d'une protéine ou encore les maladies pouvant être impliquées par un gène. Ces données sont rassemblées dans des banques dites de séquences ou encore généralistes : Swiss-Prot 1, GenBank 2, DDBJ (DNA Data Bank of Japan) 3, EMBL (European Bioinformatics Ins- 1 http ://www.expasy.org/sprot/ 2 http ://www.nco.nlm.nih.govgenbank/genbankstats.html 3 http ://www.ddbj.nig.ac.jp/
titute, Nucleotide Sequence Database) 4 qui sont massivement utilisées. Néanmoins, le génomiste doit interroger d'autres banques plus spécialisées pour obtenir des informations plus précises ou pour confronter entre elles les informations récupérées de diverses sources. Notons aussi que selon le domaine d'activité ou de recherche du génomiste, il n'interrogera pas les mêmes banques. Les informations présentes sur les diérentes banques génomiques publiques sont de diérents types, elles peuvent concerner : certaines caractéristiques des protéines ou des gènes telles que la localisation du gène dans la cellule : LocusLink 5, la structure 3D de la protéine : Protein Data Bank (PDB) 6 et Molecular Modeling DataBase (MMDB) 7 ou encore sa fonction biologique. On trouve dans ce dernier cas des banques de données contenant uniquement des protéines dont la fonction biologique appartient à une famille précise : par exemple la banque Enzyme 8 (ne contient que des protéines dont la fonction est enzymatique). Ces informations sont par ailleurs souvent présentées sous la forme de schémas ou de graphiques interactifs; certains phénotypes (manifestation apparente d'un ensemble de gènes : trait morphologique, syndrome clinique...) ou plus précisément certaines maladies génétiques (souvent chez l'homme) : Online Mendelian Inheritance in Man (OMIM) 9 ; certaines espèces particulières ou familles d'espèces : FlyBase 10, Reptilia 11, Saccharomyces Genome Database (SGD) 12, Mouse Genome Database (MGD) 13 ; les publications médicales (banques d'abstracts) : Medline, PubMed 14. Le génomiste qui souhaite obtenir des informations de ces banques doit les interroger une à une, puis recouper les données récupérées, faire la part des redondances et des complémentarités des informations et gérer les éventuelles incohérences. 3 Problèmes d'intégration L'intégration a pour objectif d'assurer à l'utilisateur un accès à des sources multiples, réparties et hétérogènes, essentiellement accessibles par le Web, à travers une interface unique (accès transparent). On va s'intéresser plus particulièrement, dans cette section, au caractère hétérogène des sources génomiques à intégrer, en mettant en évidence les diérents niveaux d'hétérogénéité. L' hétérogénéité syntaxique se manifeste tout d'abord au niveau des formats pour décrire le contenu de sources. On trouve souvent le format ASN.1 (notation formelle pour décrire les données transmises lors de protocoles d'échanges), (e.g. Entrez), mais aussi des formats plus standard tels que XML (e.g. GenBank). A noter que les banques proposent souvent diérents formats d'exportation de leurs données. Cette hétérogénéité de formats est accompagnée par une diversité des modèles de données : relationnel (e.g. Swiss-Prot), objet (e.g. GUS) ou semi-structuré (e.g. GenBank). L'hétérogénéité sémantique recouvre plusieurs aspects. Elle concerne en premier lieu le focus. Chaque base se focalise sur un type d'objet biologique (e.g., le focus de Swiss-Prot est la protéine, celui de GenBank le gène, celui de PDB la structure 3D de la protéine). Par ailleurs, comme le souligne B. Eckman [15], les sources de données peuvent diérer dans leur représentation des concepts clés. Ainsi "GenBank représente un gène comme une annotation sur une séquence [un gène est vu comme une 4 http ://www.ebi.ac.uk/embl/index.html 5 http ://www.ncbi.nlm.nih.gov/locuslink/ 6 http ://www.rcsb.org/pdb/ 7 http ://www.ncbi.nlm.nih.gov/structure/mmdb/mmdb.shtml 8 http ://www.expasy.ch/enzyme/ 9 http ://www.ncbi.nlm.nih.gov/entrez/ 10 http ://ybase.bio.indiana.edu/ 11 http ://www.embl-heidelberg.de/ uetz/livingreptiles.html 12 http ://genome-www.stanford.edu/saccharomyces/ 13 http ://www.informatics.jax.org/mgihome/overview.shtml 14 http ://www.ncbi.nlm.nih.gov/pubmed
séquence qui le caractérise et sur laquelle on a des informations -les annotations-] tandis que MGD représente un gène comme un locus qui confère un phénotype" [un gène est vu comme une portion de chromosome -locus- qui peut être lié à un caractère morphologique observable ou à un syndrome clinique chez un individu -phénotype-]. Ensuite, selon les bases, une même information n'est pas représentée avec le même niveau de détail : certaines bases sont généralistes (e.g. Swiss-Prot sur les protéines en général) tandis que d'autres sont plus spécialisées (e.g. SGD sur les protéines de la levure). Le dernier aspect de l'hétérogénéité sémantique est relatif à la diversité des modes de désignation des entités. Diérents vocabulaires sont utilisés pour annoter les séquences et la conance accordée à ces annotations est rarement totale (mais le degré de conance accordé n'est pas toujours mentionné). Par ailleurs, il existe pour une même entité (protéine, gène) plusieurs noms, et ce, à l'intérieur d'une même banque. On retrouve cette variabilité du nom à travers les bases et les espèces. Le nom d'une entité peut dépendre de la maladie à laquelle elle est liée ou de son inventeur etc. C'est uniquement en comparant les séquences de deux entités, que l'on peut savoir si ces deux entités sont en fait un même objet biologique. Une autre forme d'hétérogénéité provient des langages de requêtes. Souvent les langages sont de simples formulaires (combinaisons de mots à chercher dans un texte), dans le cas de portails ou de simples banques de données. Mais on peut aussi trouver des langages structurés tels que SQL (Discovery Link, Genopage [6]) ou OQL (GUS, Kleisli, IGD-GID). Mentionnons aussi la diversité des protocoles de rapatriement des données : CGI/http ou FTP etc. Une dernière forme d'hétérogénéité concerne les outils proposés par le Web. Parmi ceux-ci, on trouve des outils de recherche textuelle et des algorithmes de comparaison de séquences tels que BLAST (Basic Local Alignment Search Tool), FASTA 15, [17] ou LASSAP 16. Toutes les banques ne proposent pas les mêmes variantes pour ces outils (heuristiques diérentes par exemple). 4 État de l'art 4.1 Eléments de standardisation Le besoin de recourir à des ontologies pour capturer les notions biologiques présentes à travers le Web et pour pouvoir traiter de façon automatique des annotations généralement écrites en langage naturel s'est fait rapidement sentir, conduisant à de nombreuses ontologies. Des consortiums ont alors vu le jour [11], en vue d'établir une terminologie pour décrire les données et des hiérarchies pour classier les concepts. Ainsi, le souci de standardisation de l'attribution de noms est pris en compte par le consortium HGNC (HUGO Gene Nomenclature Committee) [23] qui propose une terminologie particulière pour les nouvelles séquences. Le projet GO (Gene Ontology) 17 vise à fournir un ensemble structuré de vocabulaires pour des domaines biologiques spéciques permettant de décrire des produits de gènes (protéines ou ARNs) dans un organisme donné. Il a donné naissance à trois ontologies respectivement consacrées aux fonctions moléculaires, aux processus biologiques et aux composants cellulaires. Il est à noter que Gene Ontology est de plus en plus utilisée par la communauté des biologistes. Des propositions pour permettre à la communauté biologique de spécier et d'échanger des ontologies ont aussi vu le jour. Mentionnons tout particulièrement le standard OIL [16] qui est un langage à la conuence de XML, RDF, des Logiques de Descriptions et des langages de frame. 15 http ://www.ebi.ac.uk/fasta33/ 16 http ://bioweb.pasteur.fr/seqenal/interfaces/lassap.html 17 http ://www.geneontology.org/
4.2 Systèmes d'intégration Depuis quelques années, de nombreuses solutions au problème de l'hétérogénéité des sources génomiques et à leur intégration ont été proposées. Certaines suivent une approche "non matérialisée" dans laquelle les données restent au niveau des sources : ce sont des portails, APIs, médiateurs ou bases de données fédérées. D'autres suivent une approche "entrepôt" (Datawarehouse) dans laquelle les données sont extraites des diérentes sources et combinées dans un schéma global. Grosso modo, l'approche non matérialisée est bien adaptée à l'ajout ou au retrait de sources et aux mises à jour de données, tandis que l'approche entrepôt permet un accès direct, rapide aux données en permettant d'en rester propriétaire. Nous présentons d'abord les projets qui suivent l'approche "non matérialisée" en les classant par niveau d'intégration croissant, puis les projets qui suivent l'approche "entrepôt". Dans l'approche "non matérialisée", on distingue tout d'abord des plate-formes qui orent la possibilité d'accéder à plusieurs sources, telles que [1] [21] et des portails dans lesquels est regroupé sur un même site Web l'accès à diverses banques. Ainsi, les banques de données du NCBI sont toutes accessibles par le portail Entrez. De même, ExPASy construit autour de Swiss-Prot accède à un ensemble de banques. SRS (Sequence Retrieval System) [24] (de l'ebi) est un portail qui semble évoluer aujourd'hui vers un réel système d'intégration. Il est basé sur un modèle objet et permet d'interroger 130 banques biologiques de façon uniforme par mots clés. L'originalité et la puissance de ce portail vient du fait qu'il propose à ses utilisateurs de naviguer à travers les bases comme dans un réseau, en combinant les index des bases et en exploitant leurs références croisées. Il se développe aussi des sites Web dans lesquels sont rassemblées des données issues de plusieurs banques permettant à l'utilisateur d'avoir des informations regroupées sous la forme de ches simples et synthétiques. GeneCard est un site dédié au regroupement d'informations sur les gènes liés à des maladies humaines. Certains projets d'intégration proposent, non seulement une unication des formats, mais aussi des modèles de données comme K2/Kleisli [12], [13] et DiscoveryLink [19]. K2/Kleisli [12], [13], projet de l'université de Pennsylvanie, est une API qui permet d'interroger un ensemble de sources de données génomiques en utilisant un unique langage de requêtes, OQL, avec un modèle de données objet. Le projet DiscoveryLink [19] est lui plus récent et propose la mise en forme des sources sous un schéma relationnel, leur interrogation en SQL et l'intégration d'une dizaine d'applications bioinformatiques. D'autres projets proposent une intégration qui va jusqu'au niveau sémantique, comme par exemple, ABCKB [9], P/FDM [20], [5] et TAMBIS [3]. ABCKB est une base de connaissances très spécialisée contenant des données relatives à une famille de protéines (les transporteurs ABC) développée à l'université de Marseille. P/FDM, [5] et TAMBIS proposent tous les trois une architecture de médiateur. P/FDM est un projet de l'université d'aberdeen qui est encore à l'état de prototype; il est basé sur un modèle fonctionnel; il gère ses requêtes à partir du langage Prolog et permet l'accès aux sources via CORBA. Le projet d'intégration de O. Boucelma et Z. Lacroix [5] a choisi le modèle semi-structuré et propose une description des sources les unes par rapport aux autres, l'interrogation des sources se faisant par un langage de requêtes proche de XQuery. De façon indéniable, ce projet a pour atouts majeurs la prise en compte de l'intégration des outils biologiques et de l' optimisation des plans de requêtes. TAMBIS est un projet de l'université de Manchester basé sur la construction d'une ontologie complète des concepts biologiques apparaissant dans les banques génomiques (TaO). Ces concepts sont classés de façon automatique grâce à l'utilisation d'une logique de description : GRAIL. Il propose un accès transparent aux bases (l'utilisateur n'a pas à citer les bases qu'il souhaite interroger) et son langage de requêtes est simple, fondé sur le vocabulaire induit par l'ontologie.
D'autres systèmes suivent une approche de type bases de données fédérées comme TINet [15] et [10] de Cheung et al.. D'autres projets encore suivent une approche multi-agent comme IGD- GID. TINet suit le modèle objet OPM, propose un langage de requêtes proche de SQL et ore aussi la possibilité de stocker les résultats des opérations bioinformatiques (coûteuses) eectuées sur les données (BLAST...). IGD-GID [8] est un projet très original fondé sur la notion de réseau d'agents, orant, dans une version objet, une totale modularité et exibilité quant au choix des formats, des modèles de données ou encore des langages de requêtes. Enn, citons aussi le projet [22] de l'université de Washington qui propose une approche intéressante avec la construction d'un schéma de haut niveau de type entité-association pour intégrer les données des banques du NCBI en se basant sur les références croisées des banques. Il propose de les interroger par des requêtes simples sous forme d'expressions de chemin. Dans l'approche entrepôt, on retrouve diérents modèles de données. Les projets GUS [12] et GEDAW [18] sont construits sur un modèle objet, le projet BioMolQuest [7] sur un modèle relationnel et grna [4] sur un modèle semi-structuré. GUS [12] est un entrepôt construit à l'université de Pennsylvanie qui prend en compte le besoin d'avoir systématiquement accès à l'origine des données (notamment dans le cas d'informations obtenues par manipulation de données expérimentales, on garde trace de l'algorithme qui a été utilisé), mais aussi le fait d'historiser les données. GEDAW [18] est un entrepôt développé à l'irisa de Rennes qui est spécialisé dans les données du transcriptome hépatique. BioMolQuest [7] propose un langage de requêtes simple : ensemble de formulaires adaptés aux requêtes les plus fréquemment posées. Son approche est relativement originale au sens où c'est le seul entrepôt qui exploite les références croisées des banques de données. 5 Conclusion Les diérents systèmes brièvement présentés ont de plus en plus le souci de prendre en compte les liens entre les diérentes bases. Ils résolvent tous le problème de l'hétérogénéité syntaxique et orent à un degré plus ou moins élevé une intégration sémantique. Mais résoudre les problèmes d'hétérogénéité n'est pas le seul dé à relever. Comme souligné par S. Davidson dès 1995 [14], [13], le système d'intégration doit être réactif aux changements des sources en traitant à la fois les mises à jour des schémas et les mises à jour des données. Ce point est crucial pour les banques de données génomiques car les sources évoluent très vite. (On peut même envisager de capturer les transformations de schémas dans un langage déclaratif de haut niveau). Par ailleurs, le choix d'une architecture, matérialisée ou non, peut être guidé par des soucis d'ecacité et de sécurité des transactions. Le besoin d'obtenir des techniques d'optimisation des requêtes adéquates est réel, eu égard au grand volume des données. En raison des problèmes de compétition entre laboratoires, il importe aussi pour chacun de ne pas dévoiler ses sujets de recherche (essentiellement, les gènes auxquels il s'intéresse). Pouvoir travailler en local est alors un avantage précieux. Cela entraîne cependant l'existence d'un certain nombre de bases de données secondaires, rendant l'intégration plus dicile, en l'absence de standardisation pour la représentation des données. Par ailleurs, il est souhaitable de garder l'historique des données et de garder trace de la source d'où elles proviennent. En outre, on a vu la nécessité d'intégrer des outils qui peuvent être vus comme des sources [15], [5]. Au-delà de ces outils, il peut être utile aussi d'intégrer des chaînes de traitements, lors d'applications ciblées. Ainsi, le projet européen HKIS [2] vise à concevoir une architecture d'intégration qui prenne en compte à la fois des données privées - biologiques (données de transcriptome) ou médicales (ches cliniques de patients) - et des banques publiques (GenBank), le tout combiné avec une formalisation des scénarios d'analyse des données du transcriptome des tumeurs cancéreuses. La variété et la richesse des problèmes liés à l'interrogation des diérentes banques et ressources pour la génomique font de la bioinformatique un domaine tout à fait pertinent pour l'étude du Web
Sémantique en général. De plus, les solutions qui commencent à émerger sont tout à fait prometteuses et pourraient s'appliquer à d'autres domaines. Références [1] GENOSTAR (web site). http ://www.org.genostar.org/. [2] HKIS : Integrated Software Platform For Biological and Biomedical Data Processing in Cancerology. European Institute of Oncology of Milan, Institut Curie, Isoft, LRI, Research Center for Bioinformatics of the University of Ulm. [3] P. G. Backer, C. Goble, S. Bechhofer, N. W. Paton, R. Stevens, and A. Brass. An ontology for bioinformatics applications. Bioinformatics, Vol. 15, Num. 6, pp. 510-520, 1999. [4] S. S. Bhouwmick, P. Cruz, and A. V. Laud. Warehousing and Querying Biological Data using grna. Bioinformatics Workshop, ISMIS, 2002. [5] O. Boucelma and Z. Lacroix. Mediation-based Integration of Heterogeneous Biological Ressources. Bioinformatics Workshop, ISMIS, 2002. [6] S. Cohen Boulakia, Ch. Froidevaux, E. Waller, and B. Labedan. Genopage : A database of all protein modules encoded by completely sequenced genomes. Actes de JOBIM, pp. 187-193, 2002. [7] Y. V. Bukhman and J. Skolnick. BiomolQuest : integrated database-based retrieval of protein structural and functional information. Bioinformatics, Vol. 17, Num. 5, pp. 468-478, 2001. [8] E. Burger, J. Link, and O. Ritter. A Multi-Agent Architecture for the Integration of Genomic Information. First Int. Workshop on Intelligent Information integration, KI'97, 1997. [9] J. Chabalier, C. Capponi, Y. Quentin, and G. Fichant. A knowledge base for integrated biological systems developed under AROM. Bioinformatics Workshop, ISMIS, 2002. [10] K. Cheung, P. M. Nadkarni, and D. Shin. A metadata approach to query interoperation between molecular biology databases. Bioinformatics, Vol. 14, Num. 6, pp. 486-496, 1999. [11] The Gene Ontology Consortium. Gene Ontology : tool for the unication of biology. Nature Genetics, Vol. 25 pp. 25-29, 2000. [12] S. B. Davidson, J. Crabtree, B. Runk, J. Schug, V. Tannen, G.C. Overton, and C.J. Stoeckert. K2/Kleisli and GUS : Experiments in Integrated Access to Genomic Data Sources. IBM Systems Journal, Vol.40, Num. 2, pp. 512-531, 2000. [13] S. B. Davidson, H. Liefke, and L. Wong. Creating and Maintaining Curated View Databases. Knowledge Discovery and Data Mining in biological Databases, 2001. [14] S.B. Davidson, C. Overton, and P. Buneman. Challenges in Integrating Biological Data Sources. Journal of Comp. Biology, Vol.2, Num 4, pp. 557-572, 1995. [15] B. Eckman, A. Kosky, and L. Laroco. Extending traditional query-based integration approaches for functional characterization of post-genomic data. Bioinformatics, Vol. 17, pp. 587-601, 2001. [16] D. Fensel, I. Horrocks, F. van Harmelen, S. Decker, M. Erdmann, and M. C. A. Klein. OIL in a Nutshell. Knowledge Acquisition, Modeling and Management, pp. 1-16, 2000. [17] E. Glemet and J.-J. Codani. LASSAP : a LArge Scale Sequence comparison Package. Bioinformatics, Vol. 13, Num. 2, 137-143, 1997. [18] E. Guerin, F. Moussouni, B. Courselaud, and O. Loréal. Modélisation d'un entrepôt de données dédié à l'analyse du transcriptome hépatique. Actes de JOBIM, pp. 319-324, 2002. [19] L. Haas, P.Schwarz, P. Kodali, E. Koltar, J. Rice, and W. Swope. DiscoveryLink : A system for integrated access to life sciences data sources. IBM Syst. J., Vol.40, Num.2, pp.489-511, 2000. [20] G. Kemp, N. Angelopoulos, and P. Gray. A schema-based approach to building a bioinformatics database federation. IEEE Int. Symposium on Bio-Informatics and Biomedical Engineering, BIBE 2000, pp 13-20, 2000. [21] C. Médigue, F. Rechenmann, A. Danchin, and A. Viari. Imagene : an integrated computer environnement for sequence annotation and analysis. Bioinformatics, Vol. 15 Num. 1, pp. 2-15, 1999. [22] P. Mork, A. Halevy, and P. Tarczy-Hornoch. A Model for Data Integration Systems of Biomedical Data Applied to Online Genetic Databases. Symp. of the Am. Medical Informatics Assoc., 2001. [23] H.M. Wain, R.C. Lovering, E.A. Bruford, M.J. Lush, M.W. Wright, and S. Povey. Guidelines for Human Gene Nomenclature. Genomics, Vol. 79, Num. 4, pp. 464-470, 2002. [24] E. M. Zdobnov, R. Lopez, R. Apweiler, and T. Etzold. The EBI SRS server - recent developments. Bioinformatics, Vol. 18, Num. 2, pp. 368-373, 2002.