THÈSE. Présentée devant. devant l Université de Rennes 1. pour obtenir. par. Olivier Bedel

Transcription

1 N o d ordre: 3838 THÈSE Présentée devant devant l Université de Rennes 1 pour obtenir le grade de : Docteur de l Université de Rennes 1 Mention Informatique par Olivier Bedel Équipe d accueil : Equipe LIS - IRISA École Doctorale : Matisse Composante universitaire : IFSIC Titre de la thèse : GEOLIS : Un Système d information logique pour l organisation et la recherche de données géolocalisées soutenue le 22 Janvier 2009 devant la commission d examen M me Florence Le Ber Rapporteurs M. Alain Bouju M me Marie Aude Aufaure Examinateurs M. Daniel Herman M. Thomas Devogele M. Olivier Ridoux Directeur M. Sébastien Ferré Invités M. Erwan Quesseveur

2

3 Remerciements Pour commencer, je tiens à remercier les différents membres de mon jury pour l intérêt qu ils ont porté à mon travail. Je remercie Daniel Herman, Professeur à l Université de Rennes 1, qui m a fait l honneur de présider avec enthousiasme mon jury. Je remercie mes deux rapporteurs, Florence Le Ber, Maître de conférence à l École Nationale du Génie de l Eau et de l Environnement de Strasbourg, et Alain Bouju, Maître de conférence à l Université de La Rochelle, pour s être plongés dans mon manuscrit et m avoir fait part de leur remarques assidues. Je remercie également Marie-Aude Aufaure, Professeur à l Ecole Centrale Paris, pour avoir bien voulu apporter son regard extérieur sur mes travaux. Enfin, je remercie particulièrement Thomas Devogele, maître de conférence à l Institut de Recherche de l Ecole Navale pour avoir suivi ma thèse depuis ses débuts et m avoir fourni de bonnes références lorsque j en avais besoin. Plus que tout, je remercie Olivier Ridoux et Sébastien Ferré, mes deux directeurs de thèse, pour l encadrement dont j ai bénéficié au cours de ces trois années. Olivier est une personne d une grande valeur humaine et scientifique. Cela explique sans doute qu il soit si demandé. Olivier m a fait confiance en me suggérant des voies de recherche et en me laissant la liberté de les explorer à ma manière. Olivier m a fait profiter de son expérience, notamment au travers de conseils imagés et remplis de poésie. Il m a convaincu de ne pas s arrêter aux règles pré-établies, mais d aller bien au delà. Je l en remercie. Sébastien est l une des personnes les plus intelligentes et les plus gentilles que je connaisse. C est un vrai chercheur. Sa tête fourmille d idées qu il n hésite pas à mettre en œuvre et à partager. Travailler à ses côtés fut à la fois enrichissant, motivant et très agréable. Nos discussions quotidiennes sur la science et la vie en générale me manqueront. Je tiens également à remercier sincèrement Mireille Ducassé pour sa clairvoyance et ses conseils avisés. Mireille a de nombreuses qualités dont celle d identifier tout de suite ce qui ne va pas et de vous remotiver lorsqu il le faut. Je remercie tout particulièrement Peggy Cellier, ma «jumelle» de thèse et ma râleuse préférée. Peggy est une personne attachante, généreuse, drôle et par dessus tout un modèle d organisation! Pendant ces trois ans, elle fut toujours présente dans les moments drôles, comme les moins drôles, rendant le quotidien toujours plus agréable. Définitivement, il y a un avant et un après Peggy... 1

4 2 Remerciements Cette thèse n aurait sans doute jamais commencé si je n avais pas un beau jour mis les pieds au laboratoire de géographie sociale de l Université de Rennes 2. Parmi mes amis géographes, je tiens à remercier partivulièrement les deux Erwans. Tout d abord Erwan Bocher. Il m a transmis sa passion de la géomatique qui depuis ne me quitte plus. J ai beaucoup appris à ses côtés. Ensuite, Erwan Quesseveur. Erwan m a incité à postuler à cette thèse et l a ensuite accompagnée avec un entrain et une passion toujours renouvelés. Nos réunions du matin au «bistrot» furent aussi constructives qu agréables. Je remercie mes différents collègues de bureau, Benjamin Sigonneau, Yohann Boichut et Pierre Allard pour la bonne ambiance quotidienne et les services rendus. Une mention spéciale à Pierre pour sa blague du matin mais aussi pour avoir pris le temps de relire ce manuscrit et de traquer pas mal de fautes. Un grand merci aux membres des équipes LIS et Lande pour leur accueil et les moments de détente partagés. Un merci tout particulier à Camille Constant et Christian Brunette. Camille a le don d égailler les journées les plus grises. Christian est un ami surlequel on peut toujours compter. Je remercie également la Région Bretagne pour avoir financé ma thèse pendant ces trois années. Enfin, je remercie ma famille et la famille de Frédérique, ma deuxième famille. Je remercie mon père pour m avoir donné envie de toucher à tout. Je remercie ma mère pour sa persévérence et son dévouement. Je remercie bien sûr ma petite sœur (et non je ne t oublie pas Delphine...). Des coins paradisiaques où elle aime vagabonder, elle me rapporte toujours une grande bouffée d oxygène. Mes ultimes remerciements vont à Frédérique qui m accompagne et me [sup]porte depuis tant d années. Fred, cette thèse te doit beaucoup...

5

6

7 Table des matières Remerciements 1 Table des matières 4 Introduction 9 1 Données géographiques Introduction Caractéristiques de l information géographique Systèmes de coordonnées Modèles de représentation Relations Notion d échelle Organisation et stockage Modèle relationnel Modèle Objet Représentation de Connaissances Manipulation Analyse spatiale dans les SIG Analyse spatiale et entrepôts de données géolocalisées Interrogation par requêtes Interrogation visuelle Navigation Discussion Systèmes d information logiques Introduction Théorie : L Analyse de concepts logiques Décrire et Organiser Interroger Naviguer Synthèse sur l Analyse de concepts logiques Pratique : Les outils logiciels Camelis

8 6 Table des matières LisFS Transducteurs LogFun Application : Les données géographiques? Un cadre adéquat Des spécificités à prendre en compte Une approche orientée Recherche et Visualisation Intermède 87 3 Représentation des données géographiques et raisonnement spatial Modèle de données Description des objets géographiques La propriété géométrie Les propriétés spatiales dérivées de la géométrie Représentation des propriétés Mise en relation des objets géographiques Relation de distance Relations topologiques Relations non-spatiales Représentation des relations Travaux connexes Conclusion Visualisation et recherche d information Représentation par les vues : Visualiser La requête : vue intensionnelle concise L index de navigation : résumé structuré Cartes et diagrammes : projections dédiées Interaction avec les vues : Interroger et Naviguer Interrogation Navigation Cohérence et corrélation des vues Scénario d exploration Travaux connexes Outils de recherche d information Outils d exploration de données géographiques Conclusion Réalisation pratique et expérimentations Organisation des données Le système de fichiers logique : moteur de GEOLIS Les transducteurs : producteurs de descriptions Les logiques spatiales : dimension géographique de GEOLIS

9 Table des matières Une interface web à base de composants Requête Index de navigation Vue cartographique Vue graphique Communication entre composants Expérimentations Exploration de la base «rongeurs» Comparaison expérimentale de GEOLIS avec ArcExplorer Conclusion Conclusion 173 Bibliographie 186 Table des figures 187 Table des tableaux 189 Index 191

10 8 Table des matières

11 Introduction Ce manuscrit présente nos travaux de recherche sur la définition d «un Système d information logique pour l organisation et la recherche de données géolocalisées». Ce titre rappelle les deux disciplines qui sont traitées dans cette thèse : tout d abord, l informatique car nous nous intéressons aux systèmes d information, et plus particulièrement aux Systèmes d information logiques (SIL) développés au sein de l équipe LIS 1 ; ensuite, la géographie ou plus précisément la géomatique, c-à-d. la discipline résultant de la fusion de concepts issus des sciences géographiques et de l informatique [LT92], puisque nous traitons du problème de l organisation et de la recherche de données géographiques sous leur forme numérique. Ce projet de recherche, baptisé GEOLIS par Olivier Ridoux, a reçu le soutien financier de la Région Bretagne. Sa nature bi-disciplinaire fut l occasion d une collaboration entre les géographes du laboratoire RESO 2 de l Université de Rennes 2 et les informaticiens de l équipe LIS de l Université de Rennes 1. Cette collaboration fut l occasion de riches échanges autour de la problématique de l organisation et de la recherche de données géographiques et suscita un enthousiasme commun qui, nous l espérons, ressort tout au long de ce manuscrit. Contexte L information géographique désigne la représentation des objets et des phénomènes localisés dans l espace terrestre. Dans cette thèse, nous nous intéressons à la description d espaces géographiques par l ensemble des objets qui les composent. Par exemple, une ville est composée entre autre par un ensemble de bâtiments, de routes et de parcs possédant chacun leur description. Ces objets géographiques sont caractérisés d une part par leur nature et les propriétés diverses qui constituent leur description sémantique, et d autre part, par leur positionnement sur la surface terrestre qui constitue leur description géométrique. Par exemple, une route est décrite par son revêtement, son nombre de voies ou encore son nom, mais aussi par son tracé. Le stockage, l analyse et la diffusion de l information géographique sont assurés via des systèmes d information dits géographiques (SIG). Aujourd hui, grâce au développement des technologies d observation de la Terre (ex. : imagerie satellite, aérienne ou radar) et des outils de géolocalisation (ex. : GPS 1 Équipe LIS, IRISA UMR 6074 CNRS 2 Laboratoire RESO UMR ESO 6590 CNRS 9

12 10 Introduction ou bientôt Galiléo), le volume et la précision des données géographiques numériques ne cessent de croître. Cette augmentation des données produites s accompagne également d un engouement croissant du grand public et d une volonté de démocratisation de l information géographique. Le succès rencontré par l application GoogleEarth 3 lors de sa sortie, la multiplication des ventes de dispositifs GPS ou encore l application de la directive européenne INSPIRE [Par07] visant à rendre accessibles les données géographiques publiques en sont de parfaits exemples. Aujourd hui si la production, le stockage ou la diffusion de l information géographique ne rencontrent pas de problèmes techniques majeurs, son exploitation par le plus grand nombre pose encore des questions. La structuration de l information géographique en couches thématiques est le modèle d organisation le plus usité en géomatique. Une couche décrit un ensemble d objets géographiques appartenant à une même thématique, par exemple, un ensemble de fleuves, un ensemble de villes ou un ensemble de bâtiments. Cette organisation de l information géographique en couches est un héritage de la cartographie : une carte est une représentation du monde réel construite par la superposition de calques graphiques représentant chacun une thématique particulière. Cette organisation se justifie pleinement par l exploitation des données géographiques dans les SIG. Par exemple, la production de cartes repose sur la superposition de couches, ou l analyse spatiale s appuie parfois sur une combinaison algébrique de couches. Cependant, les caractéristiques du modèle en couches, imposées principalement par sa structuration dans les bases de données, en font un modèle d organisation rigide : en effet, l information géographique est répartie en un ensemble de thématiques prédéfinies qui correspondent à des regroupements choisis en fonction de certains besoins, mais qui ne peuvent satisfaire toutes les utilisations possibles. De la même manière, les SIG sont très proches des systèmes de gestion de bases de données. La sélection d objets géographiques se fait par l évaluation d une requête impliquant éventuellement des critères spatiaux. Cependant, la construction d une requête pertinente nécessite une certaine connaissance des données interrogées et du langage de requêtes, or les SIG traditionnels n offrent pour l instant aucun dispositif pour faciliter la familiarisation d un utilisateur avec un nouveau jeu de données. Depuis 2000, Ferré et Ridoux défendent l idée d un Système d information basé sur la logique, baptisé Système d information logique (SIL) et offrant un cadre générique pour une organisation flexible des données et une recherche d information combinant étroitement interrogation et navigation. Les SIL sont des systèmes d information centrés sur les objets que l utilisateur souhaite classer et retrouver. La logique est utilisée pour décrire les objets, les classer et les retrouver : les descriptions des objets et de leurs relations sont des formules logiques, le raisonnement sur ces descriptions s appuie sur la déduction logique. Le paradigme des SIL ne présuppose aucune décomposition à priori de l information, mais tout regroupement exprimable par une formule logique peut être considéré. La recherche d information dans les SIL s appuie sur trois vues d un même ensemble d objets : la requête qui décrit les objets recherchés, la sélection qui correspond à l en- 3 http ://earth.google.com

13 Introduction 11 semble des objets recherchés et l index de navigation qui fournit un résumé organisé des formules logiques décrivant les objets de la sélection. Les formules de l index servent de liens de navigation pour modifier la requête et ainsi atteindre une nouvelle sélection d objets. La théorie des SIL garantit la pertinence des liens de navigation, c-à-d. que que tout lien de l index mène à un ensemble non vide d objets. Thèse Le point de départ de cette thèse réside dans l opportunité d appliquer le paradigme des SIL à la gestion de données géographiques. Le système que nous proposons, GEOLIS, offre à la fois un modèle d organisation flexible des données géographiques, et de nouvelles modalités d accès à ces données facilitant la recherche d information. Dans un premier temps, nous nous sommes attachés à proposer un modèle de données adapté aux données géographiques. Pour cela, nous avons défini des logiques spécialisées pour représenter les caractéristiques des données géographiques. La prise en compte de la dimension spatiale nécessite la définition de logiques spatiales permettant de décrire et de raisonner sur les géométries des objets, mais aussi sur d éventuelles relations spatiales (ex. : relation topologique ou relation de distance). Le modèle de données de GEOLIS centré sur l objet géographique permet de considérer tout regroupement d objets décrit par une formule logique comme une couche virtuelle. Il offre ainsi une grande flexibilité dans la description et le regroupement des objets. Dans un second temps, nous avons travaillé sur la représentation de l information et les modalités d accès aux données. Nous avons proposé de nouvelles vues dérivées de la sélection des objets : la vue cartographique adaptée à la nature géographique des données manipulées dans GEOLIS, et la vue «nuage de points» correspondant à une projection graphique selon deux dimensions. Pour ces nouveaux types de vue, nous avons proposé des liens de navigation exprimés dans le langage graphique de la vue. Ces liens ont un comportement identique à ceux de l index de navigation et autorisent ainsi dans les LIS une combinaison des méthodes de navigation géographique, graphique et par les formules de l index. Enfin, nous avons aussi montré l intérêt de l index de navigation pour l exploration de données géographiques. Il constitue tout d abord un résumé organisé des descriptions individuelles et relationnelles des objets de la sélection courante. C est ensuite un support pour la navigation permettant notamment lors de la traversée de relation de construire de façon incrémentale des requêtes complexes. Les Systèmes d information géographiques sont souvent présentés comme des systèmes dont les fonctionnalités satisfont la règle des «5 A» [DS96] : Abstraction, Acquisition, Archivage, Analyse et Affichage. L abstraction correspond à la modélisation du monde et des phénomènes géographiques. L acquisition désigne la fonction de produire des données géographiques ou de récupérer des données existantes, alors que l archivage est lié à la capacité du système à stocker ces données. L analyse est synonyme de raisonnement, et comprend notamment la capacité du système à répondre à des requêtes. Enfin, l affichage correspond à la restitution graphique des données. Ces «5 A» défi-

14 12 Introduction nissent en quelque sorte une chaîne de traitement partant des données géographiques brutes (l Acquisition) et menant à une information interprétable par l utilisateur (l Affichage). Dans le cadre de cette thèse, nous ne cherchons pas à faire de GEOLIS un SIG complet. Cependant, il est pour nous essentiel dans notre approche de lier les deux extrémités de cette chaîne pour pouvoir aller des données du monde réel vers les utilisateurs du monde réel. Cela suppose d une part de pouvoir traiter des données géographiques existantes. D autre part, notre système doit être en mesure de fournir une visualisation graphique adaptée des données recherchées. Comme nous le verrons dans la suite de cette thèse, le système GEOLIS lie non seulement les deux extrémités de cette chaîne, mais satisfait également partiellement les autres fonctionnalités des «5 A». Organisation du manuscrit Dans cette thèse, nous nous sommes attachés à décrire le système GEOLIS selon une architecture «Modèle-Vue-Contrôleur» (MVC) [BMR + 96], employée dans la conception de systèmes interagissant avec des utilisateurs : Le modèle contient les données manipulées par le système. Il assure la gestion de ces données et garantit leur intégrité. Le modèle peut autoriser plusieurs vues partielles sur les données. La vue fait l interface avec l utilisateur. Elle permet à la fois d afficher les données récupérées auprès du modèle et de recevoir les actions de l utilisateur (ex. : sélection d une donnée). Ces différents événements sont ensuite pris en charge par le contrôleur. Le contrôleur est chargé de la synchronisation du modèle et de la vue. Il traite tous les événements de l utilisateur et enclenche les actions à effectuer. Le cœur de cette thèse présente successivement les aspects modèle, vue et contrôleur de GEOLIS. Le modèle général des Systèmes d information logiques est présenté dans le chapitre 2. Son application aux données géographiques par notamment la prise en charge de la dimension spatiale est décrite dans le chapitre 3. Les aspects représentation (partie vue) et interaction avec l utilisateur (partie contrôleur) sont détaillés l un après l autre dans le chapitre 4. Le premier chapitre est une introduction générale aux données géographiques, ainsi qu aux outils et méthodes qui leur sont dédiés. Nous présentons la dimension spatiale de ces données, leur mode de représentation. Nous nous intéressons aussi plus particulièrement aux modes de structuration et aux modalités d accès relatif à ces données, et nous en discutons les limites. Le chapitre 5 présente une contribution pratique : la réalisation d un prototype de GEOLIS par la composition modulaire d un système de fichiers logiques (LISFS) et d un ensemble de composants logiciels du domaine des SIG ou des SIL. Ce prototype nous a permis de confronter notre approche au monde réel lors de deux expérimentations impliquant des jeux de données réels et des utilisateurs réels.

15 Chapitre 1 Données géographiques Everything is related to everything else, but near things are more related than distant things Tobler s First Law of Geography 1.1 Introduction Dès le début de l humanité, les hommes ont cherché à représenter l espace qui les entoure. La plus ancienne carte portée à notre connaissance actuelle a été retrouvée en Mésopotamie et daterait de 2500 ans avant J.C. Il s agit d une plaque de terre cuite où figure la vallée d un fleuve. Utilisée au départ pour tracer des itinéraires ou indiquer les limites d un territoire, la carte est un support privilégié pour la représentation de l information propre au monde terrestre, l information géographique. Elle permet leur mémorisation, leur diffusion, et bien sûr leur exploitation. Au fil des âges, la connaissance locale puis globale de notre environnement s est améliorée. Les progrès scientifiques associés au développement des outils de mesure nous ont permis de cartographier avec une précision croissante le territoire. De la même façon, les modes et les supports de représentation de l information spatiale ont évolué. Des croquis cartographiques de Mésopotamie, en passant par les premiers globes terrestres au XVème siècle et la carte de Cassini au XVIIIème siècle, l information géographique est aujourd hui complètement intégrée à l ère numérique. La numérisation a permis d accentuer la distinction entre les concepts de données géographiques et de carte. Les données géographiques décrivent une réalité de terrain, alors qu une carte correspond à l une des représentations graphiques possibles de ces données. Les systèmes informatiques qui sont dédiés à la gestion des données géographiques sont les Systèmes d information géographique (SIG). Si les premiers SIG étaient principalement dédiés à la conception assistée de cartes, les systèmes actuels permettent une gestion complète des données géographiques en assurant un ensemble de fonctions : l acquisition, le stockage, la manipulation, l accès, la diffusion et l analyse spatiale de données géographiques [LT92]. La discipline associée à l utilisation des moyens informatiques pour le traitement de 13

16 14 Chapitre 1 : Données géographiques l information géographique s appelle la géomatique 1. Aujourd hui, avec la multiplication des dispositifs d acquisition (imagerie satellite, radar, aérienne, mais aussi GPS, numérisation de plan,...), le volume de données géographiques produites ne cesse de croître. Ces données sont également de plus en plus accessibles pour les professionnels et le grand public. La disponibilité et l accessibilité des données géographiques est en effet une volonté affichée de l Union Européenne. Ainsi, la directive européenne INSPIRE [Par07] a pour objectif de rendre aussi accessible que possible toutes les données géographiques publiques à un coût minimal. Cette augmentation des données disponibles s accompagne également d un engouement croissant du grand public pour l information géographique. En témoigne le succès qu a rencontrée l application GoogleEarth 2 lors de sa sortie, ou l euphorie du marché des systèmes de guidage par GPS ces dernières années. Les utilisateurs de systèmes géographiques élémentaires ou complexes sont de plus en plus nombreux et doivent faire face à la quantité, la diversité et l hétérogénéité des données géographiques disponibles. Dans ce contexte, disposer d un modèle d organisation permettant une manipulation aisée de l information géographique, notamment pour la recherche d information, devient crucial. Dans la suite de ce chapitre, nous allons introduire le cadre pratique de cette thèse : l organisation et la recherche d information géographique. Pour cela, nous commençons par présenter les caractéristiques des données géographiques (section 1.2). Il peut paraître évident que toute information géographique possède une composante spatiale, cependant l expression de cette composante peut susciter un certain nombre de questions, comme par exemple : comment exprimer une position? Comment décrire la géométrie d un bâtiment? Quelle est la précision de la donnée? Quelles informations puis-je extraire de mon jeu de données? Nous détaillons dans la section suivante quelques éléments de réponse. Dans la suite, nous proposons un état de l art des modes d organisation et des principes de manipulation de l information géographique (sections 1.3 et 1.4). Dans ces parties, nous nous intéressons tout particulièrement à la prise en compte des relations (spatiales et autres) dans les données géographiques, ainsi qu aux modalités de recherche d information géographique, ces deux aspects faisant partie de ceux développés dans notre approche. Loin d être exhaustives, ces parties fournissent un aperçu représentatif des modèles et des techniques employés actuellement dans les SIG, et qui servira de base pour comparer nos travaux. Nous concluons ce chapitre par une discussion (section 1.5) sur les limites des approches actuelles en terme d organisation et de recherche d information géographique, et auxquelles cette thèse tente d apporter un début de réponse. 1 D après l Office québécois de la langue française, le terme géomatique est formé du préfixe géo- et du mot informatique. 2 http ://earth.google.com

17 Caractéristiques de l information géographique Caractéristiques de l information géographique La caractéristique principale des données géographiques est de qualifier des éléments du monde réel localisés sur la surface terrestre 3. On parle de données géoréférencées, c-à-d. renseignées par une série de coordonnées qui identifient de façon non ambiguë une position exprimée dans un système de coordonnées bien défini. Les données géographiques décrivent tout type d élément concret ou abstrait ayant une emprise spatiale : par exemple, une étendue de territoire, une ville, un bâtiment, un fleuve, une zone d influence, ou encore un itinéraire. Ces différents éléments interviennent dans de multiples systèmes géophysiques, sociaux, ou encore politiques et leurs interactions peuvent être décrites par des relations liées ou non à leur dimension géographique. Selon la nature des éléments décrits et l utilisation envisagée des données, les choix de représentation ne sont pas les mêmes. Le modèle de représentation d une donnée géographique, de ses relations, tout comme le niveau de précision qui leur est associé sont donc également des caractéristiques essentielles de cette donnée. Dans la suite de cette section, nous détaillons ces différentes caractéristiques qui sont d autant plus importantes qu elles conditionnent l exploitation des données dans les logiciels SIG Systèmes de coordonnées Principalement, deux types de systèmes de coordonnées sont utilisés : les systèmes géographiques et les systèmes projetés [LT92]. Dans un système géographique, la surface de la Terre est approximée par un ellipsoïde de révolution. Une position sur cette surface est exprimée dans un repère cartésien tournant avec la planète et dont l origine est confondue avec le centre de la Terre (voir la figure 1.1). Les coordonnées géographiques correspondent à des mesures angulaires : abscisse et ordonnée sont exprimées en degrés de latitude et de longitude, respectivement par rapport à l équateur et à un méridien d origine. Au besoin, une troisième coordonnée, l altitude permet de renseigner la distance normale séparant l ellipsoïde de révolution de la position à exprimer. Par convention, le niveau de la mer correspond à l altitude 0. Le système géographique le plus répandu actuellement est le système WGS84 (Word Geodetic System 1984). Il est utilisé notamment dans le système de positionnement par satellite GPS. Un système géographique permet généralement d exprimer toutes les positions de la surface terrestre. Cependant, pour tracer des itinéraires, mesurer des distance ou des surfaces, les représentations planes de l espace (cartes papiers, cartes numériques en 2 dimensions), sont souvent privilégiées. Étant donné qu une surface sphérique, même partielle, n est pas développable 4, il faut appliquer une transformation mathématique pour projeter des coordonnées géographiques sur un plan. Il n existe pas de projection qui soit à la fois équivalente et conforme, c-à-d. qui permette de conserver globalement 3 Le préfixe géo- de géographique est relatif à la planète Terre. Cependant, les données relatives à d autres lieux astronomiques comme la Lune (données sélénographiques) ou Mars (données aréographiques) présentent des caractéristiques similaires aux données géographiques, et il est tout à fait envisageable de proposer des systèmes d information pour ces astres. 4 Intuitivement, une surface développable peut se construire entièrement à partir d une feuille de papier plane. Un cône, un cylindre ou un ruban de Möbius sont des surfaces développables.

18 16 Chapitre 1 : Données géographiques Fig. 1.1 Système de coordonnées géographiques. Les coordonnées d un point sur la Terre sont exprimées en degrés de longitude (λ), et latitude (φ), et éventuellement complétées par une distance d altitude (h). les surfaces et les angles respectivement. Par exemple, dans le cas de la projection de Mercator (voir la figure 1.2), ce sont les angles qui sont conservés. À proximité des pôles, les distances et les surfaces sont exagérément étirées. Dans le cas de la projection cylindrique équivalente de Lambert, les proportions entre les différentes surfaces traduisent la réalité, mais plus on s éloigne de l équateur, plus les formes sont aplaties. Cependant, selon les paramètres de la projection choisie, il est possible d assurer localement, à l échelle d un pays notamment, un minimum de déformations des surfaces, des distances et des angles. Pour les cartes de France Métropolitaine par exemple, la projection officielle est le Lambert 93. C est une projection conforme qui garantie une altération linéaire 5 ne dépassant pas 4m/km [IGN00]. Toute donnée géographique doit être considérée avec son système de coordonnées associé car ce système impacte directement la mise en correspondance spatiale des données, ainsi que les calculs géométriques tels que la distance ou la superficie Modèles de représentation Nous avons vu que les données géographiques permettent de décrire le monde réel. Dans le domaine des SIG, deux visions de la réalité se côtoient : la première, discrète, est centrée sur les objets géographiques qui composent l espace. Parmi ces objets, ou entités, facilement délimitables, citons par exemple des bâtiments, des routes, ou encore les limites administratives d une commune. la seconde est dédiée à la représentation d une propriété ou d un phénomène continu sur une portion de territoire. C est le cas de la topographie, d une distribution de températures ou de l occupation du sol 6. 5 En cartographie, l altération linéaire désigne l écart entre une distance mesurée sur la carte et une distance réelle. 6 L occupation du sol peut être succinctement définie comme la couverture biophysique (eau, bois, ville, territoire agricole,...) de la surface des terres émergées (source : Food and Agricultural Organisation - FAO).

19 Caractéristiques de l information géographique 17 Projection de Mercator (conforme) Projection cylindrique équivalente de Lambert Fig. 1.2 Projection de Mercator et projection cylindrique équivalente de Lambert (d après [Sil00]). Les ellipses superposées aux cartes sont les indicatrices de Tissot, elles représentent les déformations liées à la projection. Chaque ellipse sur la carte correspond à un cercle de même superficie. Dans la projection de Mercator qui est conforme, les distances et les superficies sont exagérées lorsque l on s éloigne de l équateur. Dans la projection de Lambert, qui est équivalente, ce sont les angles qui sont aplatis à mesure que l on se rapproche des pôles.

20 18 Chapitre 1 : Données géographiques Ces deux visions se traduisent par les deux principaux modèles de représentation de l information géographique dans les SIG : le modèle vectoriel, dédié à la représentation discrète des objets, et le modèle maillé axé sur la représentation de phénomènes continus (voir figure 1.3). Fig. 1.3 Représentation vecteur et représentation maillée (raster) (d après [BGI08]). Dans le modèle vectoriel, un objet géographique est associé à chaque entité qui occupe une portion de territoire du monde réel. Dans le modèle raster, l information sur la nature du sol est discrétisée au niveau de chaque maille Modèle maillé Le modèle maillé permet de qualifier la continuité d un phénomène propre à une zone géographique sans s intéresser aux détails des objets qui la composent. Dans ce modèle, le territoire est représenté sous la forme d un maillage. Deux principaux types de maillage sont utilisés : les maillages irréguliers s appuyant sur un réseau de triangles irréguliers (Triangle Irregular Network ou TIN). Les mailles de bases sont des triangles dont la forme et la taille sont variables. Ces maillages dont l irrégularité est adaptée à la représentation de la topographie servent principalement de support pour des modèles de simulation (hydrologique, entre autres). les maillages réguliers s appuyant sur un quadrillage carré de l espace, également appelés raster. Un raster est une grille régulière de cellules, souvent représentée par une image. Le modèle raster est le modèle maillé le plus répandu. Chaque pixel ou cellule décrit une portion carrée de territoire à l aide d une valeur. Ces valeurs traduisent une altitude moyenne (modèle numérique de terrain), la moyenne d une réponse spectrale (image satellite, photographie aérienne) ou peuvent correspondre à un code numérique spécifique

21 Caractéristiques de l information géographique 19 décrivant le territoire (occupation du sol). Un pixel ne pouvant prendre qu une valeur, plusieurs images raster sont nécessaires pour caractériser diverses informations sur un même territoire (occupation du sol, pluviométrie,...). Cependant, la simplicité de ce modèle permet une combinaison simple des informations par des opérations algébriques élémentaires (addition, soustraction, produit) sur les images raster. Nous venons de présenter brièvement le modèle maillé, cependant dans la suite de cette thèse, nous nous focaliserons exclusivement sur l organisation et la recherche d information parmi des données vectorielles. Le lecteur intéressé par une présentation plus approfondie du modèle raster pourra consulter les ouvrages de référence ([Col92] pour un tour d horizon des SIG en mode raster, et [Tom90] pour une présentation de l analyse spatiale raster) Modèle vectoriel Le modèle vectoriel permet de décrire finement un territoire au travers des objets qui le composent. Chaque objet est décrit selon deux aspects complémentaires : sa composante thématique et sa composante spatiale. La composante thématique regroupe des attributs non spatiaux propres à l objet géographique, alors que sa composante spatiale décrit sa géométrie. Par exemple, une parcelle pourra avoir comme attributs thématiques un identifiant cadastral, le nom de son propriétaire et le type de culture pour l année en cours, et pour description spatiale, un polygone. Les valeurs des attributs thématiques sont généralement utilisées pour paramétrer la représentation cartographique des objets : symbole, couleur, taille, orientation, etc. La composante spatiale comprend la position de l objet ainsi que ses limites qui sont décrites par sa géométrie. Trois primitives permettent de décrire de façon plus ou moins abstraite la géométrie des objets géographiques : le point (une unique coordonnée) permet de décrire une position sans détailler sa forme. Un arrêt de bus ou une ville sur une carte à petite échelle sont généralement représentés par un point. la ligne (suite ordonnée de coordonnées), aussi appelée polyligne, correspond à une ligne brisée (suite de segments adjacents), et est utilisée pour les objets de nature linéaire comme les voies de transport ou les réseaux hydrographiques. le polygone (surface délimitée par une suite fermée de coordonnées) peut être utilisé pour décrire tout objet ayant une surface non nulle, comme une parcelle, une route si on s intéresse à son emprise au sol, ou à la représentation cartographique d une ville à grande échelle. La géométrie des objets est généralement numérisée à partir d images géoréférencées (photos aériennes, images satellites). Les traces GPS sont aussi de plus en plus utilisées pour reconstruire la géométrie d objets géographiques comme les routes. Il existe plusieurs façons d encoder la description géométrique dans le modèle vectoriel. Elles sont principalement caractérisées par la prise en compte, ou non, de la topologie locale, c-à-d. des parties communes aux objets. Nous présentons brièvement les deux principaux modèles associés : le modèle spaghetti et le modèle topologique.

22 20 Chapitre 1 : Données géographiques Le modèle spaghetti est le plus répandu. Il est relativement simple et destiné au départ à faciliter le dessin des géométries. Les primitives utilisées sont le point, la ligne et le polygone (éventuellement troué). Chacune des géométries y est décrite indépendemment des autres (voir figure 1.4). Les chevauchements de polygones sont autorisés, les lignes peuvent se croiser sans que leur intersection soit indiquée par un point particulier (à l image des pâtes italiennes). Dans le modèle topologique, les connexions entre les géométries sont explicitées. Deux niveaux peuvent être considérés : la topologie de réseau qui permet de matérialiser les connexions d entités linéaires, représentant par exemple un réseau routier, hydrologique ou électrique. la topologie planaire où sont prises en compte en plus les connexions des surfaces avec leurs lignes frontières. Elle est utilisée notamment pour représenter des couvertures cadastrales. Dans la topologie de réseau, chaque ligne est orientée et délimitée par un nœud initial et un nœud final. Il est possible pour chaque ligne de retrouver la liste des lignes qui sont connectées en amont et en aval. Dans la topologie planaire, l ensemble des géométries est représenté par un graphe planaire reliant des faces, des arcs et des nœuds. Une face est une surface délimitée par une suite fermée d arcs. Un arc est une chaîne orientée de points dont les extrémités sont des nœuds. Un nœud est un point isolé ou à l extrémité d un ou plusieurs arcs. En plus de la topologie de réseau, un arc connaît sa face à droite et sa face à gauche. Les autres connexions entre faces, arcs et nœuds sont illustrées dans la figure 1.4. Généralement, une face particulière est introduite pour représenter l espace extérieur à tous les polygones Relations Pour bien décrire un système réel, il faut non seulement décrire les entités qui le composent ou les propriétés qui le caractérisent, mais également décrire les relations qui lient de façon explicite et implicite ces entités ou ces propriétés. Dans le modèle vectoriel, les entités géographiques sont avant tout des entités qui possèdent une dimension particulière, la dimension spatiale. Comme dans les modèles entité-relation ou UML [Alh98], par exemple, il est possible de définir dans le modèle vectoriel des relations entre ces entités et d autres entités, qu elles soient ou non géographiques. Considérons par exemple le système partiel où un propriétaire possède une parcelle rattachée à une exploitation agricole à l origine de pratiques agricoles impactant la qualité des cours d eau à proximité de cette parcelle. Des entités géographiques (parcelle, exploitation, cours d eau) et non géographiques (propriétaire, pratique agricole) sont en relation spatiale (être à proximité) et non spatiales (posséder, être rattachée, être à l origine, impacter). Les relations peuvent nécessiter une définition explicite ou être déduites de propriétés des objets. C est le cas des relations spatiales qui sont déductibles de la géométrie des entités. Deux entités qui sont géolocalisées ont une position relative l une par rapport à l autre. Cette position relative peut se caractériser selon plusieurs aspects, notamment la

23 Caractéristiques de l information géographique 21 Fig. 1.4 Modèles géométriques : Spaghetti versus Topologiques.

24 22 Chapitre 1 : Données géographiques direction, la distance, et la topologie (adjacence, inclusion, intersection). Ce sont autant de relations spatiales qui peuvent ensuite être utilisées dans un SIG pour interroger ou réaliser des traitements spatiaux. Ces relations spatiales peuvent s exprimer sous deux formes : quantitative ou métrique : A est distant de 3m de B, l azimut 7 de A par rapport à B est de 30. qualitative : A est proche de B, A est au Nord de B, ou encore A est inclus dans B. Ces relations sont définies pour chaque paire d entités d un jeu de données, et peuvent être calculées à la demande. Elles ne sont donc en général pas stockées de façon explicite dans les SIG. Une exception concerne les modèles de structuration topologique de la géométrie (présentés dans la section précédente) qui permettent de représenter la topologie locale des entités. Dans ces modèles, le lien d adjacence entre une face et ses arcs frontières, entre un arc et ses nœuds extrémités est explicite. Cela permet notamment d accélérer le calcul des relations topologiques entre objets géographiques par rapport au modèle purement géométrique [ZS06]. Le modèle raster est centré sur la cellule. Les relations entre les différentes propriétés d une zone spatiale s expriment à l échelle de la cellule : au sein d un même raster entre une cellule et ses cellules voisines, ou entre deux cellules de même position dans des rasters différents. Par exemple, dans le cas de l étude d un système de ruissellement, la quantité d eau s accumulant dans une cellule (raster accumulation) peut s exprimer comme une relation entre les quantités d eau s accumulant dans les cellules voisines (raster accumulation) et la direction de la pente dominante sur ces cellules voisines (raster direction) Notion d échelle Au sens mathématique, l échelle correspond au facteur d homothétie entre la taille des objets sur le terrain et la taille de leur représentation sur une carte. Plus l échelle est petite, plus les objets apparaîtront petits sur une carte, jusqu à se confondre avec un point. La notion d échelle n est donc pas à priori liée à la description des objets géographiques mais à leur représentation visuelle. Cependant, la géométrie dans une donnée géographique va décrire la réalité avec un certain niveau de détail, on parle aussi de résolution. Dans le modèle raster, la résolution correspond à la taille de la maille et fournit une information sur la taille minimale des objets pouvant être décrits. Dans le modèle vectoriel, la résolution regroupe de façon ambiguë plusieurs notions [Rua02] : la distance minimale entre 2 points, l écart maximal entre la géométrie représentée et la géométrie de l objet réel, ou encore la taille minimale des objets représentés. Nous préférons considérer la résolution dans le modèle vectoriel comme un ordre de grandeur [Rua02] des objets mesurés, que l on désigne par un intervalle d échelle d utilisation. Par exemple, les plans de ville ou de cadastre ont généralement une échelle d utilisation comprise entre le 1 : 1000 et le 1 : La description géométrique des bâtiments et des parcelles, ne peut être mise en relation avec un tracé de routes issu 7 L azimut est l angle horizontal entre la direction d un objet et une direction de référence.

25 Organisation et stockage 23 d une carte régionale (intervalle d échelle du 1 : au 1 : ) sans engendrer des incohérences géométriques. Les données à mettre en relation doivent posséder des échelles d utilisation compatibles. 1.3 Organisation et stockage Dans les systèmes d information, l organisation des éléments passe souvent par leur regroupement. Par exemple, dans un système de fichiers, les fichiers sont regroupés au sein de répertoires; dans une base de données, les enregistrements appartiennent à une table ; sur le web, les pages sont rattachées à un site. La granularité introduite par ces groupes facilite l exploitation des données. En effet, un groupe désigne l ensemble de son contenu et permet souvent de le manipuler directement : il est possible de déplacer un répertoire ou de réaliser le produit cartésien de deux tables. Pour la recherche d information, cela permet aussi de réduire l espace de recherche en considérant un nombre restreint d éléments. Ainsi, il est possible de limiter une recherche internet à un site particulier avec la clause «site:». Par exemple le résultat de la requête «LIS site: contient les pages associées au mot clef «LIS» et hébergées sur un serveur de l IRISA. Ce principe d organisation est également présent en géomatique et très exploité dans les SIG. Les données géographiques y sont majoritairement structurées en couches d information. Une couche décrit un ensemble d éléments d une zone géographique déterminée. Pour les données raster, la couche correspond simplement à la matrice de pixels. Pour les données vectorielles, la couche est une collection d objets géographiques partageant des propriétés communes. De façon générale, la couche constitue l unité de manipulation pour la recherche d information, les opérations géométriques et sur les attributs, les traitements cartographiques, l import et l export des données géographiques. L organisation en couches a des origines historiques. Au cours des années 1960, la cartographie fut de plus en plus utilisée pour la gestion des ressources naturelles. À l époque, pour confronter les connaissances spatiales issues de plusieurs disciplines (biologie, géographie, géologie, hydrologie,...) et stockées sur des cartes distinctes, la manière la plus simple consistait à reproduire l information sur des calques. La superposition des calques permettait ainsi de mettre en relation les différentes sources de données. La couche était aussi une unité de fractionnement du travail de fabrication des cartes. Avec le développement des systèmes informatiques, ce principe d organisation en couche d information fut transposé aux premiers logiciels de cartographies puis aux premiers SIG. Cette vision calque graphique est d ailleurs toujours utilisée dans les applications actuelles de DAO (Dessin Assisté par Ordinateur, ex. : Photoshop ou Illustrator) et de CAO (Conception Assistée par Ordinateur, ex. : Autocad). Selon le logiciel SIG utilisé, une couche géographique va être désignée comme une couche thématique, une classe d entités géographiques, un thème, un calque ou encore une table. Traditionnellement, une couche géographique regroupe un ensemble d objets de même nature qui possèdent une thématique commune. Par exemple, dans une thématique «hydrographie» seront rassemblés les fleuves, les lacs; dans une thématique

26 24 Chapitre 1 : Données géographiques «tourisme», les points d intérêts comme les musées, les restaurants, les lieux historiques. Au sein d une couche, tous les objets partagent le même schéma de description, c-à-d. qu ils sont décrits par le même ensemble d attributs. De la même façon, si certains logiciels SIG permettent de mixer les représentations spatiales surfaciques, linéaires et ponctuelles dans une même couche (MapInfo [Pit08], notamment), dans la majorité des cas, la primitive géométrique est fixée et unique pour tous les objets d une couche. L encapsulation en couches fournit une interface commune pour manipuler données raster et données vectorielles dans les SIG. La décomposition de l information géographique dans ces couches se traduit par une représentation verticale du monde réel (voir la figure 1.5). Fig. 1.5 Organisation en couches thématiques (d après [ESR04]). Une couche ne décrit qu une portion de territoire et avec un certain niveau de détail géométrique et thématique. Ces informations constituent des métadonnées qui sont rattachées à la couche. Son emprise spatiale, c-à-d. la limite de la zone géographique couverte, est exprimée par une enveloppe rectangulaire. Son niveau de détail géométrique est caractérisé par son échelle d utilisation ou un intervalle autour de cette échelle. Le découpage des couches selon leur échelle d utilisation est un moyen de combiner plusieurs représentations de plus en plus détaillées des mêmes objets géographiques : par exemple, à une échelle de 1 : (1 cm pour 25 km), une représentation ponctuelle de la ville de Rennes est adaptée, mais à plus grande échelle 1 : (1 cm pour 2.5 km), il est possible de fournir plus de détails sur les limites de l agglomération avec une représentation polygonale. Ce principe est essentiellement mis en oeuvre dans la plupart des outils de visualisation cartographique en ligne (GoogleMaps, Virtual Earth) et les globes virtuels (GoogleEarth, Worldwind, ArcGlobe). Le niveau de détail théma-

27 Organisation et stockage 25 tique apparaît au travers du schéma de description. L organisation en couches se traduit par une discrétisation de l information géographique selon 3 dimensions : 1. sémantique : les objets sont regroupés par thématique, 2. spatiale : l espace géographique est décomposé horizontalement en un ensemble de tuiles, 3. scalaire : la représentation des objets varie selon le niveau de détail considéré. Le modèle d organisation en couches est adapté aux fonctionnalités de cartographie et d analyse spatiale des SIG. En effet, la construction de cartes synthétiques se fait rapidement en superposant des couches et en leur appliquant des règles de symbologie graphique. Concernant l analyse spatiale, la combinaison topologique de couches (vector overlay [BE97]) permet de faire des choix sur la base de critères spatiaux exprimés dans plusieurs thématiques. Par exemple, le lieu d implantation potentiel d une usine peut être défini comme l intersection des zones : d une superficie comprise entre 1 ha et 3 ha, situé à moins de 10 min d une autoroute, situé à plus de 700 m de tout quartier résidentiel, dont le sol n est pas argileux. Dans la suite de cette section, nous présentons tout d abord deux paradigmes d organisation utilisés aujourd hui pour structurer les données géographiques : le modèle relationnel (section 1.3.1) et le modèle objet (section 1.3.2). Dans la présentation de ces modèles de données généraux, nous développons principalement les aspects concernant la réalisation du concept de couche, la prise en charge de la dimension spatiale et le codage des relations. Dans la dernière partie de cette section, nous nous intéressons à un aspect particulier de l organisation de données, la représentation de connaissances (section 1.3.3). Le principe est de décrire pour un domaine particulier un ensemble de connaissances générales au delà de leur manifestation particulière dans les données. Par exemple, l assertion «Une région est composée d un ensemble de départements» désigne une caractéristique du découpage administratif français, alors que l assertion «L Ille-et-Vilaine est un département rattaché à la région Bretagne» en est une manifestation concrète. Nous présentons brièvement quelques formalismes dédiés à la représentation de connaissances et qui ont été appliqués à plusieurs reprises au domaine de la géomatique : la Représentation de connaissance par objets (RCO), les Logiques de description (LD) ou les ontologies Modèle relationnel Historiquement, la structure de couche est liée au monde des bases de données. En effet, dès les premiers SIG, le stockage des données géographiques s est appuyé sur des bases de données relationnelles. La description thématique des entités d une couche géographique se prête assez naturellement à une structuration tabulaire (schéma de description fixe, données alpha-numériques). Cependant les premières versions des systèmes de gestion de bases de données (SGBD) ne permettaient pas de gérer nativement des valeurs complexes comme des descriptions géométriques. Les trois architectures qu ont

28 26 Chapitre 1 : Données géographiques proposées Vijlbrief et van Oosterom [VvO92] témoignent de l évolution de la gestion des données spatiales dans les SIG. L architecture des premiers systèmes est duale : la description thématique est stockée dans une base de données et la description spatiale de façon séparée dans un fichier, un identifiant unique permettant de faire le lien entre les deux descriptions. Ce mode de stockage est encore très répandu et correspond notamment aux formats d export fichier des logiciels SIG commerciaux (format shapefile pour ESRI [Env98], format TAB pour Mapinfo [Map08]) Par la suite, la description spatiale est transférée dans une base de données relationnelle en s appuyant, soit sur une décomposition des géométries, soit sur une représentation binaire brute (format BLOB). Dans l approche décomposition, utilisée notamment pour les modèles topologiques (voir section ), chaque forme géométrique est codée comme une suite d arcs, chaque arc étant codé par un nœud initial et un nœud final. Cette approche suppose l existence d au moins trois tables pour le stockage respectif des liens entre formes et arcs, des liens entre arcs et nœuds, et de la position de chaque nœud. L inconvénient de ces codages est que la plupart des opérations usuelles des requêtes spatiales (calcul de distance, de superficie, d inclusion ou d intersection) ne peuvent être directement prises en charge par un SGBD relationnel de l époque. Ces opérations nécessitent une reconstruction en mémoire des géométries qui est réalisée par une couche logicielle intermédiaire entre le SGBD relationnel et l application SIG. Dans les années 1990, le développement des Types abstraits de données (TAD) dans les bases de données a permis l émergence des premiers SGBD spatiaux. De façon générale, un TAD permet de définir une représentation structurée complexe et de lui associer des traitements spécifiques. En géomatique, les TAD ont été utilisés pour définir des types géométriques et des opérations spatiales. Depuis les années 2000, l Open Geospatial Consortium (OGC 8 ) propose des normes pour la modélisation de l information géographique vectorielle (OGC [Her01] pour la spécification abstraite, OGC [Her06] pour les recommandations d implantation). Ces normes définissent notamment un modèle géométrique (voir figure 1.6), ainsi que des opérations spatiales : par exemple, opérations topologiques, calcul de distance, calcul de superficie, ou encore construction de zones tampons 9. Aujourd hui la majorité des SGBD spatiaux sont compatibles avec ces normes. Les bases de données spatiales se déclinent principalement en deux catégories : les bases de données relationnelles étendues par un type géométrique et des opérations associées (ex. : extension spatiale POSTGIS pour PostgreSQL [Ram08], mysql [MyS08]). les bases de données orientées-objet (ex. : cartouche spatiale d Oracle [Mur05], Géodatabase d ESRI [PSG05]) que nous présentons dans la prochaine section. 8 L Open Geospatial Consortium (OGC) est une organisation internationale à but non lucratif qui regroupe les principaux acteurs du marché de l information géographique et qui est en charge du développement des normes concernant les données géographiques et les services géo-localisés. 9 Une zone tampon, ou buffer, est une surface entourant un obget géographique. Elle est définie à partir d un rayon r et d une géométrie de référence g, comme l ensemble des points de l espace à une distance d r de g.

29 Organisation et stockage 27 Fig. 1.6 Représentation UML du modèle de géométries de l OGC (d après [Her06]). Dans une base de données spatiale relationnelle, une couche est décrite par une table, une entité géographique par un enregistrement et la description spatiale par une colonne de type géométrique. Comme évoquée dans la section 1.2.3, les relations spatiales pouvant être calculées à la demande, elle ne sont pas stockées dans la base. Les autres relations entre entités sont gérées de manière classique dans le SGBD, sous la forme d un mapping entre les identifiants d entités exprimés sous la forme de clefs étrangères. Il est ainsi possible de coder des relations n-aires potentiellement valuées, le SGBD garantissant l intégrité du modèle (suppression d une relation lorsque l un des objets en relation est supprimé, par exemple) Modèle Objet La représentation vectorielle de l information géographique correspond par nature à une vision objet du monde réel. Du point de vue informatique, le paradigme objet semble donc un bon choix pour modéliser les entités géographiques. Dans le modèle objet, un objet est un élément caractérisé par : une identité qui permet de l identifier de façon unique, un ensemble de propriétés qui définissent son état, un ensemble d opérations, appelées méthodes, qui permettent d interagir avec son état. Une classe est la définition d un schéma de propriétés et d un ensemble de méthodes, qui caractérisent plusieurs objets de même nature. Ces objets sont instances de la classe.

30 28 Chapitre 1 : Données géographiques La description d une entité géographique s exprime naturellement dans ce modèle : une entité est unique, ses attributs thématiques et sa composante spatiale sont des propriétés, et des méthodes telles que le calcul de superficie peuvent lui être associées. Le schéma de description d une couche correspond à une classe. Nous allons maintenant détailler deux formes d utilisation du modèle objet dans le domaine de la géomatique : la première dans les bases de données spatiales orientéesobjet, la seconde dans les formats de fichiers géographiques Bases de données spatiales orientées-objet Dans certaines bases de données spatiales orientées-objets, l aspect objet est utilisé principalement pour décrire la composante spatiale. C est le cas par exemple dans la cartouche spatiale d Oracle [Mur05], où le type de donnée «géométrie» est encodé comme une classe d objet. Le fonctionnement de ces bases orientées-objet est très proche de celui des bases relationnelles spatiales présentées précédemment, le paradigme objet offrant en plus les mécanismes d héritage de type (un polygone est une géométrie particulière), de composition d objets (une géométrie peut regrouper plusieurs géométries élémentaires) et de définition de méthodes rattachées aux objets (bien que cette dernière possibilité ne soit pas exploitée dans Oracle, par exemple). D autres bases de données spatiales comme la Géodatabase d ESRI [AZ04] s appuient pleinement sur une modélisation objet des entités, de leur regroupement en couches et de leur relations. L un des avantages est de pouvoir manipuler les relations comme des individus de premier ordre, au même titre que les objets géographiques. La Géodatabase reprend les concepts généraux de modélisation présents dans UML [Obj01] ou dans d autres langages comme HDBS (Hypergraph Based Data Structure) [PSG05]. Nous rappelons brièvement les aspects propres aux relations tels qu ils sont implémentés dans la Géodatabase. Le méta-modèle de la Géodatabase permet de définir des modèles, des schémas de bases de données adaptées à des applications particulières. Dans ce méta-modèle, les couches géographiques correspondent à des classes d entités géographiques (FeatureClass) et il est possible de définir des classes de relations (RelationshipsClass) pour associer entre eux les objets de 2 classes d entités. Les relations exprimables sont exclusivement binaires (une particularité de la Géodatabase), orientées et peuvent être valuées par une ou plusieurs propriétés. Lors de la création de la relation, l utilisateur précise les classes d entités origine et destination de la relation, ainsi que son type : simple ou composite. Dans une relation simple les objets existent de façon indépendante, dans une relation composite, l existence de l objet destination est conditionnée par celle de l objet origine. Par exemple, des transformateurs électriques seront liés par une relation composite au pylône qui les porte : la suppression du pylône dans la base entraîne la suppression des transformateurs. Trois catégories de cardinalités peuvent être choisies (1-1, 1 - n, n - m) à la création de la relation. Par la suite, les cardinalités minimales et maximales peuvent être fixées au travers de règles associées à la relation. Deux étiquettes permettent de décrire les deux sens de lecture de la relation : par exemple, un pylône porte un transformateur et un transformateur est localisé sur un pylône. De la

31 Organisation et stockage 29 même façon, chaque modification d un objet origine est signalé à ses objets destination par un message, et vice versa. L utilisateur contrôle le sens de propagation des messages (origine vers destination, destination vers origine, les deux ou aucun) et leur attribue des traitements. Par exemple, le déplacement d un pylône entraîne de façon automatique le déplacement des transformateurs qui lui sont associés. Les propriétés d une classe de relations restent consultables et modifiables après sa création. Les fonctionnalités offertes par la Géodatabase facilitent la définition de relations, le maintien de la cohérence du système en automatisant certaines vérifications et mises à jour, et aussi la consultation des données liées comme nous l évoquons dans la section Format de fichier géographique L OGC a défini un format de fichier XML standard pour l échange et le partage de données géographiques : le Geographic Markup Language (GML) [CDL + 04]. Le GML est une grammaire XML qui permet de décrire les caractéristiques thématiques et spatiales d objets géographiques, selon le modèle de représentation proposé par l OGC. Le squelette d un fichier GML est défini au moyen de schémas XML [FW04]. Un schéma XML permet de définir des types de données structurés, de les composer (ensembles, listes) et de les enrichir au besoin grâce à un mécanisme d héritage. Les types définis dans un schéma peuvent être vus comme des classes dont les instances sont les éléments des fichiers GML associés à ce schéma. Les principales balises XML de la grammaire GML sont présentées dans l exemple de la figure 1.7. La notion de regroupement (collection d objets définie par la balise <gml:featurecollection>) est dans le GML découplée du schéma de description des objets (type ou sous-type de l élément <gml:featuremember>). La grammaire du GML offre donc une structuration plus flexible que l approche en couche en autorisant des collections d entités de types différents. Dans la pratique cependant, toutes les entités d une collection sont généralement du même type. Les données géographiques étant par nature assez volumineuses et la représentation de données sous forme d arbres XML n étant pas compacte, le format GML n est pas utilisé dans les logiciels SIG pour le stockage effectif des données. Ce format sert essentiellement pour l échange de données entre applications, et plus particulièrement pour le transport d information dans les web-services géographiques. L OGC a également adopté le format KML [Wil08], format natif des applications GoogleEarth et Google- Maps, pour le stockage et la représentation des données géographiques. Le GML et le KML ont un aspect complémentaire : la grammaire du KML n est pas aussi riche que celle du GML en terme de description géométrique, mais le KML stocke la symbologie graphique (rendu visuel) qui est associée aux objets géographiques sur une carte Représentation de Connaissances Un même phénomène peut être décrit à plusieurs niveaux d abstraction. Dans les modèles relationnel et objet, la structuration en couche se place à un faible niveau d abstraction. Par exemple une couche sur l hydrologie en France contient à priori une

32 30 Chapitre 1 : Données géographiques Fig. 1.7 Exemple de fichier GML. Le fichier décrit un gîte étape représenté spatialement par un polygone. entité qui décrit la Loire. Cependant les caractéristiques générales d un fleuve, comme le fait qu un fleuve soit un cours d eau qui se jette toujours dans une mer, ne sont pas explicitées dans cette couche, celle-ci étant composée d exemples de fleuves. De même, il n est pas possible d exprimer la différence entre un ruisseau et une rivière ou une définition des relations amont et aval. D autres formalismes comme les Logiques de description (LD), la Représentation de connaissance par objet (RCO) ou les ontologies s appuient sur un niveau d abstraction plus élevé pour exprimer une base de connaissances propres à un domaine particulier. Par exemple, les LD utilisent les notions de concepts, de rôles et d individus. Un concept désigne une catégorie d individus. Un individu est une instance de concept, c-à-d. un représentant concret de ce concept. Un rôle est une relation binaire entre concepts. Concepts et rôles caractérisent de façon générique un domaine d application, ils relèvent du niveau terminologique. La description des individus relève du niveau factuel. La RCO et les ontologies s appuient sur des principes de représentation similaires et sur la même dualité, même si les notions sont parfois exprimées par des termes différents. La structuration des données en couches présentée précédemment ne fait apparaître que la dimension factuelle. Les systèmes à base de connaissances introduisent en plus la dimension terminologique, support à des descriptions et des raisonnements au niveau du domaine d application et non plus seulement des données. Dans la suite nous présentons plus en détails les particularités de ces différentes approches et comment elles ont été appliquées au domaine géographique.

33 Organisation et stockage Logiques de description Comme évoqué précédemment, les Logiques de description s appuient sur deux niveaux de description : le niveau terminologique, désigné par la T-Box où sont définis concepts et rôles, le niveau factuel, désigné par la A-Box qui regroupe un ensemble d assertions associant des objets aux concepts dont ils sont instances, et des couples d objets aux rôles dont ils sont instances. Le couple (T-Box, A-Box) forme une base de connaissance. Le raisonnement dans une base de connaissance s appuie principalement sur des mécanismes d inférence fournis par un raisonneur (démonstrateur automatique) dont la relation de subsomption entre concepts ( ). La relation C D signifie que C est un concept plus spécifique que D, ou encore que toute les instances de C sont aussi des instances de D. Cette relation permet d ordonner partiellement tous les concepts de la T-Box dans une taxonomie de concepts. La relation de subsomption est définie en accord avec la sémantique associée aux LD. Comme pour les logiques classiques, la sémantique des LD repose sur la notion d interprétation. Dans les logiques classiques, une formule est interprétée par une valeur de vérité (Vrai ou Faux). Dans les LD, l interprétation d un concept est un ensemble d individus. Si I désigne une interprétation et C un concept, alors C I représente l ensemble des individus décrits par C dans cette interprétation. La relation est en fait formellement définie par : C D ssi C I D I pour toute interprétation I. Dans la T-Box, les connaissances sont exprimées par des axiomes de la forme : C D où C et D sont des concepts expression conceptuelle, r s où r et s sont des rôles. Les concepts (et les rôles) sont construits à partir d un langage regroupant des concepts primitifs, des rôles primitifs et de constructeurs et des objets. Il existe plusieurs langages de description de concepts et de rôles offrant chacun une variété différente de constructeurs et donc une expressivité différente. La table 1.1 donne la grammaire du langage de la logique ALCN R largement utilisée [Nap97]. Voici un exemple de T-Box appliqué au domaine géographique, inspiré de [WHM00] (les noms de relations sont entièrement en minuscule, alors que les noms de concepts commencent par une Majuscule) :

34 32 Chapitre 1 : Données géographiques Grammaire C, D A C D C D C r.c r.c n r n r Signification des constructeurs : concept le plus général : concept le plus spécifique : conjonction de concepts : disjonction de concepts : négation d un concept : en relation r exclusivement avec des instances de C : en relation r avec au moins une instance de C : au moins n fois en relation r : au plus n fois en relation r C et D désignent des expressions conceptuelles, A est un nom de concept primitif, r est un nom de rôle primitif. Tab. 1.1 Langage de description des concepts de la logique ALCN R. La grammaire est incomplète car elle ne présente pas les expressions de constructions de rôles. connecté contenu connecté touche connecté Bâtiment Rivière Forêt Cabane Bâtiment Cabane_pêcheur Cabane touche. Rivière Forêt_sans_moustique Forêt connecté. Rivière Coin_paradisiaque Cabane contenu. Forêt contenu. Forêt_sans_moustique Le concept «Coin_paradisiaque» désigne une cabane qui est située à l intérieur d une forêt et qui est située exclusivement à l intérieur de forêts sans moustique. Dans la T-Box, le test de subsomption permet de classifier entre eux les concepts, c-à-d. déterminer pour un concept donné ses ascendants et ses descendants directs dans la taxonomie de concepts. Par exemple, un concept de cabane rurale défini par l expression «Cabane contenu. Forêt» sera classifié entre le concept «Cabane» et le concept «Coin_paradisiaque». Une autre fonctionnalité offerte par les raisonneurs des LD concerne le test de satisfiabilité d un concept qui consiste à s assurer qu il existe au moins une interprétation pour ce concept. Une base est cohérente si tous les concepts de sa T-Box sont satisfiables. Dans notre exemple, si dans la définition de «Coin_paradisiaque», «Cabane» était remplacée par «Cabane_pêcheur», la base ne serait plus cohérente : il est en effet impossible de trouver une interprétation où une

35 Organisation et stockage 33 cabane à la fois touche une rivière et est à l intérieur d une forêt déconnectée de toute rivière (conformément à la sémantique des relations spatiales «touche» et «contenu» que nous présentons plus tard dans la section 1.4.1). Dans la A-Box, les relations d instanciation entre objets et concepts et entre couples d objets et rôles sont exprimées par des assertions de la forme : i : C signifiant que l individu i est instance du concept C, (i, j) : r signifiant que l individu i est en relation r avec l individu j. Voici un exemple de A-Box associée à notre T-Box précédente : c : Cabane r : Rivière f : Forêt (c,f) : contenu (f,r) : connecté Le mécanisme d instanciation permet de retrouver les concepts les plus spécifiques dont un individu est une instance. La définition de la A-Box repose à la fois sur l hypothèse du nom unique, c-à-d. que c, f et r désigne des individus différents, et sur l hypothèse du monde ouvert, c-à-d. qu un fait n est faux que lorsque cela a été clairement établi ou, autrement dit, les assertions de la A-Box sont partielles et non définitives. Dans notre exemple, cela signifie qu un raisonneur ne pourra déduire que c est une instance de «Coin_paradisiaque». En effet, il faudrait changer la déclaration de f par «Forêt connecté. Rivière» pour assurer qu aucune rivière ne traversera jamais la forêt f et qu ainsi la cabane c soit à l abri des moustiques. Du point de vue de l organisation de données, les LD permettent de décrire dans un style déclaratif des données (la A-Box) et un schéma de structuration complexe de ces données (la T-Box). Avec la classification et l instanciation, les LD offrent en plus des mécanismes d organisation automatique des données. Les LD n offrent pas à l origine de facilité pour représenter la dimension spatiale des objets. Cependant, Haarslev et al [HLM99] ont proposé une extension des LD pour la définition et le raisonnement sur des relations spatiales topologiques entre polygones : la logique ALCRP(S 2 ). Des prédicats (composante P de la logique) exprimés sur un domaine concret de région de l espace (S 2 ) sont utilisés pour définir et manipuler des objets spatiaux et leur relations topologiques. Les huit relations spatiales du modèle RCC8 [RCC92] sont exprimables (Voir le chapitre 3 pour une présentation de ce modèle). Cette logique est utilisée dans le système VISCO [WHM00] et dans son successeur DLMAPS [WM07] qui sont dédiés à l interrogation d une base de données géographiques urbaines. Ces systèmes exploitent le raisonneur de logique de description Racer [HM01] Représentation de connaissances par objets Les systèmes de Représentation de connaissances par objets (RCO) présentent des similitudes avec les LD tout en partageant de nombreux concepts avec les langages de programmation orientée-objet. Un concept y est représenté par une classe qui désigne une catégorie d objets et dont les représentants concrets sont des instances. Une classe

36 34 Chapitre 1 : Données géographiques est définie au moyen de propriétés, qui caractérisent la catégorie d objets à représenter et sont exprimées sous la forme d attributs. L ensemble des attributs d une classe constitue son intension, l ensemble de ces instances constitue son extension. Les différentes classes sont organisées dans une taxonomie selon une relation de spécialisation équivalente à la relation d héritage des langages objets et qui correspond à la subsomption des LD. Des relations sémantiques explicites entre classes à la manière des rôles des LD sont habituellement exprimées comme des spécialisations d une structure de classe particulière appelée relation ou association. Cependant, les approches LD et RCO se différencient sur quelques aspects. Par exemple, la variété des constructeurs des LD permet entre autres de définir des concepts par disjonction ou négation d autre concepts, alors que la définition d une classe en RCO est limitée à une conjonction d attributs. Mais la définition des attributs en RCO présente des particularités intéressantes. Un attribut est constitué d un nom et d un ensemble de facettes : par exemple, une facette de typage précise le domaine de l attribut, des facettes réflexes permettent de déclencher un traitement lorsque l on accède à l attribut, et des facettes d inférence indiquent comment calculer la valeur d un attribut lorsque celle ci n est pas présente (valeur par défaut ou résultat d une formule faisant intervenir d autre attributs). Les facettes réflexes et d inférence offrent donc des fonctionnalités procédurales absentes des LD. Concernant l inférence, les systèmes de RCO offrent des mécanismes de classification et d instanciation similaire à ceux des LD. Ces mécanismes reposent sur l unification entre les couples (attribut, domaine) du modèle et les couples (attribut, valeur) de l élément à classer. Classifier une classe consiste à la positionner dans la taxonomie de classes entre sa super-classe la plus générale et sa sous-classe la moins spécialisée. L instanciation d un objet est réalisée en parcourant la taxonomie de classes depuis la classe générale décrivant l objet vers la classe la plus spécialisée la décrivant le plus finement, en calculant au besoin les valeurs des attributs manquants via les facettes d inférence. Tout comme pour les LD, instanciation et classification permettent d automatiser en partie l organisation des données. Les facettes procédurales ajoutent en plus des possibilités de traitements automatiques à la manière des triggers des bases de données relationnelles automatiques qui facilitent le maintien de la cohérence du modèle de données. La RCO a été appliquée à plusieurs reprises au domaine géographique. Leber et Napoli ont utilisé le système de RCO Y3 pour la représentation et la classification de schémas d organisation agricole [LN02]. Pour cela, ils ont enrichi le modèle de relations du RCO avec plusieurs relations topologiques élémentaires (connexion, superposition, inclusion,...). Moisuc et al. ont proposé une extension spatio-temporelle du système RCO AROM (acronyme d Allier Relations et Objets pour Modéliser) pour la gestion de données géographiques [MGZ + 06]. Cette extension s appuie sur un langage de modélisation algébrique (LMA) qui permet d exprimer les types géométriques usuels spécifiés par l OGC (point, ligne, polygone), de définir des opérateurs sur ces types (superficie, opérations topologiques,...), et de représenter des relations spatiales qualitatives (topologiques, de distance, de direction) [MGVOM07b]. Nous reviendrons plus en détails dans le chapitre 3 sur les choix de représentation

37 Organisation et stockage 35 des relations spatiales adoptées dans ces travaux Ontologies géographiques L utilisation des ontologies pour représenter la connaissance est actuellement un domaine de recherche en plein essor. Tout comme les LD et les systèmes de RCO, les ontologies sont, du point de vue informatique, des outils permettant de représenter un corpus de connaissances propres à un domaine particulier sous une forme exploitable de façon automatique par une machine. De manière plus concrète, une ontologie peut être vue comme un réseau sémantique reliant des concepts (catégorie d objets) par des relations sémantiques et une relation de spécialisation (appelée subsomption). L une des perspectives majeures des ontologies concerne le web sémantique qui vise à décrire formellement les ressources internet pour les rendre accessibles et exploitables par des agents logiciels. Les travaux sur le web sémantique ont conduit à la définition d un langage standard pour exprimer des ontologies utilisables et échangeables sur le web : OWL (Web Ontology Language). OWL permet de décrire dans une syntaxe XML une ontologie compatible avec le formalisme des LD. Il est donc possible d utiliser les raisonneurs propres aux LD pour classifier de nouveaux concepts ou déterminer le concept d appartenance d un individu. Nous faisons un parallèle entre les notions des LD et leur correspondance en OWL : OWL Logique de description Individu Objet Classe Concept Propriété Rôle SubClassOf/SubPropertyOf Subsomption La multiplication des ressources géolocalisées disponibles en ligne a suscité l émergence d une branche spécifique du web sémantique, le web sémantique géospatial [Bis06]. Bien que le web sémantique géospatial en soit encore à ses balbutiements, les principales perspectives envisagées concernent l utilisation des ontologies 1. pour annoter sémantiquement les données géolocalisées existantes et ainsi favoriser l échange et le partage de ressources, 2. comme support au raisonnement spatial qualitatif pour permettre l utilisation de relations spatiales dans les moteurs de recherche du web [MGVOM07b]. Outre l expression générale des concepts géographiques, l une des applications des ontologies en géographie concerne la représentation de l organisation spatiale des lieux. Dans ce contexte, une ontologie géographique, parfois appelée géo-ontologie, traduit explicitement l imbrication géographique des lieux, par exemple : Rennes est une ville en Bretagne, la Bretagne est une région de France, la France est un pays d Europe. L intérêt de ce type d ontologie est également d associer à chaque lieu les différents noms qui le désignent, par exemple : Bretagne, Breizhoneg, Brittany. Une ontologie de ce type a été construite dans le cadre du projet SPIRIT (Spatially-Aware Information Retrieval on the Internet) [JAF + 04]. L objectif de ce projet est de proposer un moteur

38 36 Chapitre 1 : Données géographiques de recherche pour le web spécialisé dans l accès aux données géolocalisées. La géoontologie de SPIRIT permet d exprimer en plus de la relation d inclusion, l adjacence et la superposition. Elle permet aussi d associer plusieurs emprises spatiales pour un même lieu, allant d une représentation ponctuelle simple à une représentation polygonale précise. 1.4 Manipulation Nous avons évoqué au début de ce chapitre (section 1.1) les différentes fonctionnalités d un SIG. Certaines sont traditionnelles aux systèmes d information : le stockage des données, leur mise à jour, la consultation et la recherche d information. D autres comme l analyse spatiale ou la production cartographique sont plus directement liées à la nature géographique des données. Nous venons de présenter dans la section précédente les aspects d organisation des données géographiques. Nous nous intéressons maintenant aux usages de l information géographique. Plus particulièrement, nous développons ici de façon générale l aspect analyse spatiale, qui caractérise sans doute le plus les SIG par rapport aux autres systèmes d information et aux logiciels de DAO, et l aspect recherche d information, qui est l une des thématiques de cette thèse. L analyse spatiale regroupe l ensemble des traitements permettant de dériver une nouvelle information des données géographiques. Albrecht [Alb99] a proposé une catégorisation de ces différentes opérations propres aux SIG en 20 classes. Parmi les plus communes nous pouvons citer : les opérations de mesure : distance, direction, superficie, périmètre, forme,... la re-classification : le regroupement d objets sur des critères thématiques, le regroupement de valeurs thématiques, le calcul de zones tampons, la combinaison de géométries et l algèbre de cartes raster : union, intersection,... les opérations de réseau : recherche de plus court chemins, le calcul de pente, de bassins d alimentation, la recherche de plus proches voisins. La recherche d information dans un SIG recouvre principalement 2 aspects [Buc02] : la localisation et l adressage. La localisation consiste à retrouver la position d un ou plusieurs objets satisfaisant une condition. La localisation s exprime au travers de questions «Où?». Par exemple, Où se trouvent les cinémas de Rennes? Où se trouve la rue Le Bastard? L adressage, à l inverse, a pour objectif de qualifier les objets situés à un endroit précis, pointés sur une carte ou déterminés par une condition. L adressage s exprime généralement par la question «Quoi?». Par exemple, Quelles sont les villes possédant une gare ferroviaire dans cette région? Quels sont à Rennes les musées à moins de 200 m d une bouche de métro?

39 Manipulation 37 Les conditions exprimées pour réduire l espace de recherche peuvent porter sur la description thématique des objets recherchés, sur leur description spatiale ou sur les deux. Une condition spatiale s exprime par une contrainte sur les propriétés géométriques des objets (superficie, longueur, forme), ou sur leur relations spatiales (distance, direction, inclusion, intersection,...). Dans la suite de cette section, nous présentons plus en détails quelles sont les opérations d analyse spatiale offertes par les SIG actuels (section 1.4.1). Nous nous intéressons également à la technologie SOLAP (acronyme pour Spatial - On Line Analytical Processing) permettant l analyse spatiale et, de manière plus générale, la manipulation de données dans les entrepôts de données géolocalisées (section 1.4.2). Nous détaillons ensuite les modalités de recherche d information géographique. Dans les outils SIG actuels, la recherche d information s appuie de manière presque exclusive sur l interrogation. Nous commençons par présenter l interrogation du monde des bases de données, étendue au domaine géographique (section 1.4.3). Puis nous détaillons des approches plus expérimentales d interrogation visuelles (section 1.4.4), que nous trouvons à la fois justifiées et pertinentes car tirant partie de la nature graphique intrinsèque aux données géographiques. Enfin, nous évoquons la recherche d information par navigation (section 1.4.5) qui est encore peu exploitée dans ce domaine Analyse spatiale dans les SIG Dans la presque totalité des SIG, la couche définit la granularité sur laquelle sont appliquées les opérations d analyse spatiale. Cette encapsulation permet une approche flots de données des opérations. Un opérateur d analyse spatiale prend en entrée une ou plusieurs couches, des paramètres et fournit en sortie une couche résultat. Pour ne pas appliquer un opérateur sur l ensemble des objets d une couche d entrée, il est possible de définir une sélection d objets à traiter. Mais il est cependant impossible de définir une telle sélection d entrée à partir d objets appartenant à différentes couches. Une solution consiste à créer physiquement une nouvelle couche d entrée où sont regroupés les objets à traiter. Les opérateurs spatiaux dans le modèle vectoriel sont essentiellement des opérateurs géométriques. Ces opérateurs définis sur une où deux géométries mesurent une propriété (surface, distance) ou produisent une nouvelle géométrie (zone tampon ou buffer, intersection). Par exemple, la dimension est une valeur numérique qui caractérise le type de géométrie : un point a une dimension de 0, une ligne, une dimension de 1 et un polygone, une dimension de 2. La dimension de l espace vide est notée -1. Les opérateurs spatiaux sont généralement complétés par un ensemble de prédicats topologiques permettant de tester la configuration spatiale de deux objets (superposition, inclusion, adjacence). Les principaux opérateurs et prédicats spatiaux disponibles actuellement dans les SIG sont récapitulés dans la table 1.2. L étude des relations topologiques planaires de 2 géométries a fait l objet de plusieurs formalisations (voir [Coh97] pour une étude comparative des différentes approches). Aujourd hui, la représentation de relations topologiques recommandée par l OGC [Her06] s appuie sur un modèle composé de 8 prédicats binaires : égalité, déconnexion, intersection, adjacence, traversée, inclusion (être inclus/inclure) et chevauchement. Il est

40 38 Chapitre 1 : Données géographiques Opérateurs Unaires Type résultat Géométrie Numérique Opérateur Convexhull Buffer Centroid Boundary Area Length Dimension Opérateurs Binaires Type résultat Géométrie Numérique Opérateur Intersection Union Difference Symdifference Distance Prédicats Equals Disjoint Intersects Touches Crosses Within Contains Overlaps Relates Tab. 1.2 Prédicats et opérateurs spatiaux définis par l OGC (d après [Her06]). possible de tester des relations topologiques complexes en combinant ces prédicats (inclusion et adjacence, par exemple). La sémantique des prédicats topologiques présentés précédemment repose sur la décomposition d une géométrie g en trois ensembles de points : son intérieur noté I(g), sa frontière notée B(g) et son extérieur noté E(g). La frontière d une géométrie est une géométrie de dimension inférieure. Par définition, la frontière d un point ou d un ensemble de points est l ensemble vide. La frontière d une courbe non fermée est constituée de ses deux points extrémités, celles d une courbe fermée est vide. La frontière d un polygone est l ensemble des courbes qui déterminent son pourtour. L intérieur d une géométrie est défini comme l ensemble des points de la géométrie qui n appartiennent pas à sa frontière : I(g) = def g \ B(g). L extérieur d une géométrie est l ensemble des points qui ne sont ni à l intérieur, ni sur sa frontière : E(g) = def R 2 \ (I(g) B(g)). Une relation topologique entre deux géométries g 1 et g 2 est ensuite exprimée en considérant les intersections deux à deux de chaque ensemble de points de g 1, I(g 1 ), B(g 1 ) et E(g 1 ), avec chaque ensemble de points de g 2. La dimension de chaque intersection est représentée dans sa case correspondante de la matrice d intersection DE-9IM (acronyme pour Dimension Extended - 9 Intersection Matrix). Nous donnons une représentation de la matrice DE-9IM de ce modèle appelé modèle des 9 intersections dans la table 1.3. g 2 g 1 Intérieur I(g 2 ) Frontière B(g 2 ) Extérieur E(g 2 ) Intérieur I(g 1 ) dim(i(g 1 ) I(g 2 )) dim(i(g 1 ) B(g 2 )) dim(i(g 1 ) E(g 2 )) Frontière B(g 1 ) dim(b(g 1 ) I(g 2 )) dim(b(g 1 ) B(g 2 )) dim(b(g 1 ) E(g 2 )) Extérieur E(g 1 ) dim(e(g 1 ) I(g 2 )) dim(e(g 1 ) B(g 2 )) dim(e(g 1 ) E(g 2 )) Tab. 1.3 Matrice DE-9IM (9 Intersection Matrix). Pour simplifier son écriture, la matrice DE-9IM est souvent linéarisée en une chaîne de 9 caractères, les 3 premiers caractères représentant la première ligne de la matrice,

41 Manipulation 39 les 3 suivants la seconde et les 3 derniers, la dernière. Dans cette chaîne, 0, 1 et 2 désigne la dimension de l intersection, le caractère T désigne une intersection non vide, F ou -1, une intersection vide et * est une valeur générique pour toutes les valeurs précédentes. Nous donnons dans la table 1.4 les expressions de matrices correspondant aux 8 prédicats topologiques. Un neuvième prédicat, Relates permet de comparer la matrice Prédicat Géométries en entrée Matrices DE-9IM Equals pas de restriction TFFFTFFFT Disjoint pas de restriction FF*FF**** Touches A/A, L/L, L/A, A/L, P/A, A/P, P/L, L/P FT******* ou F**T***** ou F***T**** Crosses P/L, P/A, L/A T*T****** Crosses L/L 0******** Within pas de restriction T*F**F*** Overlaps A/A, P/P T*T*** T** Overlaps L/L 1*T***T** Contains Contains(g 1, g 2 ) est équivalent à Within(g 2, g 1 ) Intersects Intersects(g 1, g 2 ) est équivalent à Disjoint(g 1, g 2 ) Tab. 1.4 Définition de prédicats topologiques dans le modèle des 9 instersections. La seconde colonne indique les restrictions éventuelles sur les dimensions des géométries testées par le prédicat. A/A signifie que le prédicat est défini pour des couples (polygone, polygone). L désigne une géométrie linéaire, P, une géométrie ponctuelle. d intersection des deux géométries avec un masque de matrice passé en paramètre. Ce prédicat générique permet ainsi de tester toute relation topologique exprimable dans le modèle DE-9IM Analyse spatiale et entrepôts de données géolocalisées Nous nous intéressons dans cette section aux entrepôts de données géolocalisées et aux opérations d analyse spatiale qui leur sont associées. Ces opérations sont liées à la technologie SOLAP, qui est une déclinaison spatiale de la technologie OLAP (On Line Analytical Processing). Avant de poursuivre, nous invitons le lecteur non familiarisé avec les concepts de base liés à l analyse d entrepôts de données à consulter l encart sur l analyse OLAP. Dans les années 1990, il a été estimé qu environ 80% des données stockées dans les bases de données des entreprises ont une composante géographique, qu elle soit implicite ou explicite [Fra92]. Les entrepôts de données sont donc par essence des entrepôts de données géolocalisées. Cependant les outils OLAP classiques ne sont pas équipés pour manipuler la dimension spatiale que ce soit en terme d agrégation ou de visualisation. De même, les SIG se révèlent être d une manipulation souvent trop complexe pour être employés dans un contexte d aide à la décision [BMH01]. Pour permettre l analyse

42 40 Chapitre 1 : Données géographiques Entrepôt de données et analyse OLAP L ensemble des données numériques produites par une entreprise (ex. : données clients ou état des stocks) sont traditionnellement organisées et archivées dans des bases de données. Cependant, si les SGBD gèrent de gros volumes de données, ils ne permettent pas de façon native d analyser des données dispersées dans différentes bases, de croiser ces données selon plusieurs dimensions ou de produire des indicateurs pour l aide à la décision. Pour répondre à ces besoins, les concepts d entrepôts de données et de technologie OLAP ont été proposés [Cod93]. Un entrepôt de données désigne une base de données «métiers» (ex. : bancaires ou de la grande distribution) composée de mesures (ex. : le solde d un compte ou le volume des ventes) et organisée selon plusieurs dimensions comprenant parfois plusieurs niveaux de détail (ex. : le temps ou les catégories de produits). Une mesure est donc une valeur déterminée en fonction de différentes dimensions. OLAP est une technologie pour l analyse de l entrepôt et regroupe des «outils destinés à l exploration et l analyse rapide des données par une approche multidimensionnelle avec plusieurs niveaux d agrégation» [Car98]. Dans la terminologie OLAP, un ensemble de mesures agrégées selon un ensemble particulier de dimensions constitue un cube. Chaque case du cube correspond à un fait (ex. : «330 écrans plats ont été vendus dans le magasin de Rennes en Décembre 2008»). La figure suivante (d après [RBPN03]) donne un exemple de cube OLAP. Le cube est une représentation des données de l entrepôt destinée à une analyse interactive. Plusieurs opérations lui sont associées parmi lesquelles [Car98] : rotate : sélection d un couple de dimensions à croiser, drill-up ou roll-up : agrégation des mesures sur une dimension particulière, par exemple, passer d une mesure détaillée par jour à une mesure agrégée par mois, drill-down : raffinement de l information sur une dimension (inverse du drill-up), drill-across : glissement sur une dimension à un même niveau de détails, par exemple passer de «Rennes» à «Brest» sur la dimension localisation. La technologie OLAP repose sur une architecture à trois composants : un entrepôt de données, un serveur OLAP depuis lequel le cube est accessible et modifiable par les opérations OLAP, une interface client offrant des possibilités d interrogation et de visualisation graphique des faces du cube, sous la forme de diagrammes ou de tables.

43 Manipulation 41 d entrepôts de données géolocalisées, Bédard introduit la notion d outil SOLAP, qu il définit comme «une plateforme visuelle spécialement conçue pour supporter l analyse et l exploration spatio-temporelles rapides et faciles des données multidimensionnelles composées de plusieurs niveaux d agrégation à l aide d affichages cartographiques aussi bien qu à l aide de tableaux et diagrammes statistiques» [Béd97, RBPN03]. L analyse spatiale dans SOLAP permet d agréger des mesures selon une ou plusieurs dimensions spatiales [RBPN03], par exemple : déduire le prix moyen du loyer d un appartement dans les zones proches des stations de métro à partir du prix des loyers de l ensemble des appartements d une ville. Mais l analyse SOLAP suppose aussi de pouvoir considérer des mesures spatiales. La description géométrique est un premier exemple de mesure spatiale. Une géométrie peut correspondre au résultat de l agrégation d autres valeurs géométriques (définie comme leur union, par exemple). Une géométrie peut aussi être définie comme le résultat d une fonction de plusieurs dimensions spatiales : par exemple, le croisement d une dimension spatiale «découpage administratif» et d une dimension spatiale «limites de bassins versants» fournit une mesure correspondant à l intersection des géométries de chaque dimension. Un autre exemple de mesures spatiales correspond aux propriétés numériques dérivées des représentations géométriques (ex. : surface ou distance). Dans SOLAP, comme dans OLAP, la recherche d information peut souvent être assimilée à une exploration des données dans la mesure où l objectif visé est généralement plus d étudier les corrélations entre les différentes dimensions du jeu de données que d identifier un certain nombre de faits particuliers. Cette exploration s appuie sur la navigation dans le cube de données au moyen des opérations OLAP standards que l on peut qualifier de spatiales lorsqu elles s appliquent à la dimension géographique des données (ex. : spatial drill-down, spatial roll-up ou spatial drill-across) Interrogation par requêtes Nous avons vu dans la section que les bases de données relationnelles servaient de support privilégié pour l organisation des attributs thématiques, mais permettaient aussi de plus en plus de gérer les propriétés spatiales. Par extension, l accès à l information dans les SIG est directement influencé par le formalisme des bases de données relationnelles. L interrogation est le mode d accès privilégié : l utilisateur exprime dans une requête la description des objets qu il souhaite obtenir. Le langage SQL, langage d interrogation normalisé des bases de données relationnelles, a été étendu pour prendre en compte la dimension spatiale. L extension au spatial, généralement dénommée spatial- SQL [Ege94], intègre un ensemble de prédicats et d opérateurs spatiaux désormais normalisés par l OGC et récapitulés en partie dans le tableau 1.2. Les prédicats permettent principalement de tester des configurations spatiales. Les opérateurs permettent de dériver des propriétés spatiales (superficie, périmètre, distance) et de nouvelles géométries (frontière, zone tampon, intersection,...), et offrent un pouvoir d expression nécessaire à l interrogation de données géographiques. Voici un exemple de requête en spatial-sql où sont sélectionnées les parcelles de plus de 1 ha :

44 42 Chapitre 1 : Données géographiques SELECT p.id, area(p.the_geom) AS superficie FROM tbl_parcelles AS p WHERE area(p.the_geom)>=10000 Comme les autres opérateurs SQL (arithmétiques, sur les chaînes de caractères), les opérateurs géométriques peuvent être utilisés pour définir le résultat (partie SELECT) ou la sélection (partie WHERE). Il est également possible de combiner les opérateurs comme dans l exemple suivant : SELECT p.id, area(difference(p.the_geom, buffer(h.the_geom,5.0))) AS superficie_cultivable FROM tbl_parcelle AS p, tbl_hydro AS h WHERE distance(p.the_geom, h.the_geom)<=5.0 Ici, lorsqu une parcelle est située à moins de 5 m d un cours d eau, dans le calcul de sa superficie, une bande de 5 m de côté autour de ce cours d eau est retirée. Comme dans tout processus d interrogation dans une base de données, la rédaction d une requête suppose une connaissance du langage SQL (notamment des opérateurs disponibles) et du schéma des tables à interroger. Dans les SIG actuels, des interfaces graphiques assistent l utilisateur dans la construction de ses requêtes. Il s agit de compléter un squelette de requête prédéfini. L utilisateur commence par déterminer sur quelle couche va porter son interrogation, puis pour la construction de la condition de sélection, le système suggère des attributs possibles, des opérateurs de comparaison compatibles, et un ensemble de valeurs issues des données. La sémantique des opérateurs spatiaux est également souvent explicitée par des pictogrammes. Le niveau d expertise nécessaire, que ce soit au niveau du langage d interrogation ou du schéma des couches, est donc réduit par ces assistants. Cependant leur expressivité reste limitée. Tout d abord, l interrogation ne peut se faire en général que sur une seule couche. Ensuite, la construction directe de requêtes complexes basées par exemple sur la composition d opérateurs n est pas possible. Pour cela, il est souvent nécessaire de réaliser successivement plusieurs sous-requêtes Interrogation visuelle Au delà des assistants graphiques SQL, d autres approches ont été proposées pour exprimer des requêtes géographiques, notamment dans le domaine des langages d interrogation visuelle. Les langages visuels s appuient sur des métaphores pour décrire les concepts : par exemple une icône avec des immeubles pour désigner une ville ou un diagramme de Venn pour qualifier une relation spatiale. Ils semblent donc tout indiqués pour faciliter la construction de requêtes spatiales. L interrogation est basée sur une recherche par l exemple : pour définir les critères de sélection spatiale, l utilisateur construit un motif visuel correspondant à sa vision mentale de l organisation géographique recherchée. Les requêtes ainsi construites sont ensuite traduites dans le langage natif d interrogation de la base de données. Plusieurs prototypes ont été développés, pro-

45 Manipulation 43 posant à l utilisateur de faire des croquis (système Sketch! [Mey94]), lui demandant de composer un schéma à partir d icônes statiques (système CIGALES [AP92]), ou mixant les 2 approches (système VISCO [WHM00]). Le système VISCO est de notre point de vue le plus abouti. Il fera l objet d une présentation plus détaillée dans le chapitre 4 de cette thèse. Si l approche visuelle semble intuitive, elle présente cependant quelques inconvénients. Le principal est sans doute l ambiguïté d interprétation d une métaphore combinant plusieurs opérateurs : la représentation graphique ne permet pas d abstraction dans l expression des relations spatiales, et impose une précision de description dont l utilisateur n a pas toujours conscience. Un exemple de représentation ambiguë est présentée à la figure 1.8. Certains travaux [APB99] visent à traiter les ambiguïtés en proposant à l utilisateur de choisir parmi des représentations visuelles spécialisées. Une A B L Fig. 1.8 Ambiguïté d une métaphore visuelle (d après [APB99]). Dans le schéma, il est évident que la région A intersecte la région B et la ligne L traverse la région A. Mais la position de L par rapport à B doit elle être interprétée comme «L ne doit pas traverser B» ou «le fait que L traverse B est sans importance»? autre limitation de ces langages concernent leur expressivité et notamment la difficulté d exprimer une négation ou une disjonction. Enfin, l interprétation des schémas visuels et les éventuels raisonnements de désambiguïsation entraînent des temps de calculs supplémentaires comparés à une interrogation directe d une base de données. Ces raisons expliquent peut être en partie pourquoi cette approche ne s est pas concrétisée dans les SIG commerciaux Navigation Avec le développement des technologies de présentation cartographique en ligne (web mapping), les cartes servent de plus en plus de support de présentation et d accès à l information géolocalisée. Ces cartes interactives, appelées hypermaps [LT92], présentent à l utilisateur des éléments ponctuels linaires ou zonaux auxquels sont associés des hyperliens. Un clic sur l élément permet de suivre le lien et généralement d accéder à un nouveau contenu web, ou d afficher une fiche descriptive en rapport avec l élément. Un exemple d hypermap est disponible sur le site de Météo-France 10 où le clic sur une zone 10 http ://

46 44 Chapitre 1 : Données géographiques géographique de la carte des prévisions permet d accéder à une carte plus détaillée. La présentation par hypermap est aussi utilisée dans l application Google Maps 11 pour localiser les résultats d une recherche de lieux ou de services avec la fonctionnalité «à proximité». Chaque résultat est localisé sur une carte par une punaise dont la sélection permet l affichage d une description avancée à base de texte, d images et très souvent, d autres hyperliens. Les hypermaps permettent d accéder à l information géographique par navigation. Ce mode d accès alternatif et très intuitif a cependant une expressivité très limitée comparé à l interrogation puisque l ensemble des liens de navigation est défini de façon statique. Il n est donc pas possible de rechercher sur un critère pour lequel aucun hyperlien n a été défini. L interface cartographique des SIG permet aussi souvent une interrogation directe des données depuis leur représentation graphique. Un pointeur d information, généralement illustré par un «i» ou un «?», permet de désigner sur la carte, par un clic ou le tracé d une zone rectangulaire, un objet ou un ensemble d objets et d afficher leur identifiant et leurs propriétés thématiques. Ce mécanisme s apparente aux hypermaps, à la différence que les liens de navigation correspondent ici à des requêtes généralement construites à la demande à partir de la position des objets sélectionnés. Les systèmes comme le SIG ArcGIS d ESRI 12 et sa gestion avancée des relations dans la Géodatabase, étendent cette visualisation aux identifiants des objets reliés ainsi qu à leurs propriétés thématiques. 1.5 Discussion Nous avons présenté dans ce chapitre le modèle d organisation des données géographiques en couches d information thématiques. La couche constitue une unité homogène de regroupement et de manipulation des données géographiques au format vectoriel utilisée par la quasi-totalité des SIG. Le regroupement des entités géographiques décrivant une même thématique, appartenant à une même catégorie, est parfaitement légitime et constitue d ailleurs l un des fondements de l approche objet pour l organisation des données. De plus, le regroupement en couches se justifie également pleinement par l exploitation des données géographiques dans les logiciels SIG : production de cartes par superposition de couches, analyse spatiale basée sur une combinaison algébrique de couches. Cependant les caractéristiques du modèle en couches imposées principalement par sa structuration dans les bases de données, en font un modèle d organisation rigide. La couche peut globalement être assimilée à une table dans une base de données, et présente donc les mêmes limites en terme d organisation des données : 1. Un partitionnement fixe de l information géographique selon un ensemble de thématiques prédéfinies par le producteur des données. Une même entité géographique ne peut appartenir à deux couches différentes sans duplication de l information. Cependant, concrètement une même entité géographique joue souvent 11 http ://maps.google.fr 12 Fonctionnalités disponibles dans les versions ArcEditor 8.1 et supérieures.

47 Discussion 45 plusieurs fonctions. Un fleuve par exemple est une ressource en eau (thématique hydrologie), mais peut également servir de voie de navigation (thématique transport). L ensemble des thématiques prédéfinies ne correspond qu à un petit nombre de regroupements qui ont été choisis en fonction de certains besoins, mais ne peut a priori satisfaire toutes les utilisations possibles. 2. Un même niveau de description imposé pour tous les objets d une couche, le schéma de description d une couche étant fixe. Il n est donc pas possible d apporter une description plus précise à seulement un sous-ensemble d objets si cette description n est pas compatible avec le schéma initial. Un schéma de description très précis (nombreux attributs) ne peut souvent être complété pour tous les objets de façon homogène, alors qu un schéma moins précis ne traduit pas pleinement la particularité de certains objets. 3. Une gestion des relations au niveau base de données qui impose à l utilisateur une connaissance de la structuration des données pour l expression et la manipulation de relations. Les relations ne sont pas manipulables comme des individus de premier ordre. Pour tirer partie d une relation dans une requête par exemple, il faut exprimer explicitement une jointure entre les données, ce qui suppose une connaissance globale des schémas de description des différentes couches et du codage des relations. La définition et la modification des relations sont parfois facilitées par certains SIG (par exemple, ArcGIS), mais ces relations ne sont pas directement accessibles pour la construction de requêtes. Bien souvent, il serait avantageux de pouvoir définir une couche comme une vue flexible sur les données facilitant leur manipulation, alors que dans les faits, les utilisateurs sont souvent contraints de penser leur processus de manipulation de l information géographique en fonction des thématiques et des schémas des couches existantes. De manière plus générale, dans leur article «Why are GIS so hard to use?» [TW95], ainsi que dans leur travaux ultérieurs [TW01], Traynor et Williams ont observé que l architecture et la complexité des logiciels SIG en font l apanage de spécialistes qui ont su adopter un formalisme de pensée qui reflète l architecture du système. Si cette vision un peu extrême est à relativiser et doit sans doute être réévaluée au regard de la démocratisation récente de l information géographique, elle traduit cependant l impact des choix d organisation et des méthodes de manipulation sur les interactions entre l utilisateur et le SIG. Concernant la recherche d information, nous pouvons émettre les critiques suivantes concernant les systèmes actuels : 1. Le partitionnement de l information en couches ne permet pas une recherche simultanée d objets issus de différentes thématiques. La décomposition d une requête en sous-requêtes s avère donc souvent nécessaire. Il serait intéressant par exemple de disposer d un opérateur de création d une couche à partir d objets issus de couches dont les schémas de description sont différents. Cela nécessite au préalable de définir la fusion de deux schémas de description. 2. L interrogation est le mode exclusif de recherche d information dans les SIG. Les SIG proposent aujourd hui des interfaces graphiques pour assister

48 46 Chapitre 1 : Données géographiques l utilisateur dans la construction de requêtes simples, syntaxiquement et sémantiquement correctes vis-à-vis du jeu de données. Cependant ces assistants ne sont pas en mesure de garantir que la requête ainsi construite retournera un ensemble de résultats à la fois non vide, et pas trop grand. 3. La représentation cartographique n est que très peu exploitée pour la recherche d information. Une utilisation interactive des cartes étendant le principe de navigation des hypermaps peut contribuer à rendre la recherche d information géographique plus intuitive pour les utilisateurs. Les approches représentation de connaissances comme les LD, la RCO ou les ontologies, de même que certaines approches orientées-objet comme la Géodatabase d ESRI, répondent en partie aux limites précédemment évoquées. La notion de concept (ou de classe) correspond à une catégorie d objets, l extension du concept, au même titre que la notion de couche. La possibilité de définir un concept à partir d autre concepts (de même que l héritage, voire l héritage multiple, entre classes dans les RCO) offre un cadre flexible où un même objet peut appartenir à la fois à plusieurs groupes. La spécialisation de concepts (subsomption ou héritage) permet de préciser au besoin la description des objets. La définition explicite de relations au même niveau que la définition de concepts (ou de classes) facilite la description des systèmes réels et l interrogation des données. Cependant, concernant la recherche d information, ces approches, comme les SIG classiques orientés bases de données relationnelles, ne proposent qu un accès à l information basé sur l interrogation. Dans notre vision d un SIG «idéal», un utilisateur doit pouvoir s affranchir de l organisation des données en couche lorsqu il recherche une information. De plus, cet utilisateur ne doit pas non plus posséder une connaissance parfaite de ces données et de leur organisation pour pouvoir formuler une requête. Le SIG «idéal» doit fournir une assistance à l utilisateur pour l informer sur le contenu de ces données et l assister dans sa recherche d information. Nous allons voir dans le chapitre suivant que les Systèmes d information logiques (SIL) proposent un cadre qui semble adapté pour la réalisation d un tel SIG «idéal». Les SIL proposent en effet une organisation flexible des données et une recherche d information couplant à la fois interrogation et navigation incrémentale. Après avoir présenté les fondements des SIL, nous allons en particulier voir dans quelles mesures leurs caractéristiques intéressantes peuvent être appliquées à la gestion de données géographiques.

49 Chapitre 2 Systèmes d information logiques 2.1 Introduction Du fait du développement continu des technologies numériques, notre société est souvent qualifiée de société de l information et de la communication. Dans cette société, les Systèmes d information (SI) constituent des organes indispensables qui assurent la gestion de l information sous ses différentes formes. Les Systèmes d information géographiques (SIG) présentés au chapitre précédent sont un exemple de SI, dédiés à la gestion des données géographiques. Les SI se matérialisent par des outils informatiques (ex. : systèmes de fichiers, bases de données, intranets et internet) que nous utilisons quotidiennement dans les milieux professionnel et personnel. Actuellement, trois modèles d organisation sont utilisés de façon pré-dominante : le modèle hiérarchique, le modèle relationnel et le modèle du web. Le modèle hiérarchique est celui des systèmes de fichiers entre autres. L information y est organisée de façon arborescente. Chaque branche (répertoire) est constituée de sous-branches plus petites (sous-répertoires) et de feuilles locales (fichiers). Elle est renseignée par une étiquette (nom du répertoire) qui qualifie généralement son contenu. La succession des branches à emprunter depuis la racine pour arriver à une donnée particulière définit le chemin d accès à cette donnée. Dans ce modèle, la recherche d information se fait par navigation, en sélectionnant au fur et à mesure les branches qui mènent aux données désirées. Ce type d organisation arborescente n est pas réservé à la gestion de fichiers, mais est au contraire très répandu. Citons par exemple la gestion de mails, de signets internet ou encore la structuration de composants logiciels (bibliothèques, packages, classes dans le langage Java). Le modèle relationnel est celui des bases de données. Les données y sont structurées dans des tables (également appelées relations). Une table regroupe un ensemble d enregistrements (lignes de la table) qui sont décrits selon un ensemble d attributs (colonnes de la table). L ensemble des attributs d une table constituent son schéma de description. L algèbre relationnelle permet de créer de nouvelles tables en sélectionant des lignes, des colonnes ou en combinant des tables. La recherche d information dans ce modèle se fait par interrogation au moyen de langage de requêtes de type SQL. 47

50 48 Chapitre 2 : Systèmes d information logiques Le web ne suit pas un modèle hiérarchique. L organisation arborescente y est certes localement présente : un site est un ensemble de pages qui sont éventuellement regroupées en sections. Cependant, d un point de vue global, les liens hypertextes tissent entre les pages un réseau transversal qui ne suit aucune logique d organisation définie a priori. Les pages web sont donc organisées sous la forme d un graphe. Pour faciliter la recherche d information, chaque page est indexée par un certain nombre de mots clés. Les moteurs de recherche permettent de formuler des requêtes en combinant ces mots clés avec des opérateurs booléens (et, ou, non). Le résultat d une recherche est un ensemble de liens hypertexte menant à des pages satisfaisant une requête. Ces liens sont classés selon une fonction de pertinence («ranking») propre à chaque moteur de recherche. Les liens hypertextes d une page permettent aussi de naviguer dans cette page et vers d autres pages. Chaque modèle d organisation possède ses contraintes de structuration et ses modalités de recherche d information. Nous comparons les avantages et les inconvénients de chaque modèle en nous intéressant au problème concret de gestion d une collection de photos personnelles. Dans notre cas, nos photos sont décrites par trois propriétés : la date (ou l année) de la prise de vue, la sphère sociale concernée (amis, famille, travail) et un descriptif de l occasion (mariage, anniversaire, naissance,...). Dans un système de fichiers, une solution consiste à définir un répertoire par année, puis dans chaque répertoire «année», un sous-répertoire par sphère concernée, et dans chaque sous-répertoire ainsi créé, un répertoire par occasion. Un premier problème se pose lorsque l on essaie de classer une photo où apparaissent à la fois des amis et des membres de la famille. Pour classer la photo à la fois dans les deux répertoires «famille» et «amis», il faut la dupliquer. Une photo ne peut être qu à un endroit à la fois, le modèle hiérarchique partitionne l ensemble des données. Un autre inconvénient concerne toute recherche qui ne suit pas l ordre de classification. Par exemple, trouver les photos d un évènement sans en connaître l année ou trouver toutes les photos de famille quelqu en soit l année ne sont pas des opérations directes, mais nécessitent un parcours de plusieurs répertoires. Le découpage en années est prédominant sur les autres propriétés. La structure de navigation du modèle hiérarchique est statique et prédéfinie. Dans une base de données, chacune des trois propriétés peut être décrite par un attribut dans une table où chaque ligne désigne une photo. Il est aussi possible de remplacer l attribut «sphère concernée» par trois attributs booléens «amis», «famille» et «travail» pour pouvoir rattacher une photo à plusieurs sphères sociales. Cependant, une fois défini, le schéma de description est fixe et identique pour toutes les photos. Il n est pas simple de rajouter un attribut «lieu» pour un nombre limité de photos. La modification du schéma d une base de données est certes possible, mais c est une opération de la responsabilité de l administrateur de la base, et non d un utlisateur occasionnel. Le langage d interrogation des bases de données est expressif mais aucun mécanisme n empêche qu une requête proposée soit trop générale (renvoie un grand nombre de photos) ou trop spécifique (ne renvoie aucune photo). Depuis quelques années sur le web sont apparus des sites comme Flickr 1 dédiés au 1 http ://

51 Introduction 49 partage et à la diffusion de photos. Ces sites appliquent en partie le modèle du web à la gestion d une collection de photos. Chaque photo est décrite par un ensemble de mots clés, appelés tags. Il n y a pas de restriction sur le nombre de tags. Du point de vue des descriptions, ce modèle est plus flexible que les précédents, bien qu il ne soit pas possible d organiser les tags en facettes (ex. : date, localisation, ou encore occasion), ni de les hiérarchiser des plus généraux aux plus spécifiques (ex. : Europe > France > Bretagne). La recherche de photos peut se faire par interrogation depuis le moteur de recherche du site, ou en sélectionnant un tag parmi le nuage des tags les plus répandus dans la collection de photos. Il est également possible ensuite de naviguer en suivant les tags d une des photos résultats. Cependant, contrairement au modèle hiérarchique où la navigation de répertoires en sous-répertoires permet de réduire le nombre de photos, la navigation par tags permet de se déplacer entre ensembles de photos mais ne fournit aucune information sur la taille des ensembles atteints. Elle est équivalente à la navigation par hyperliens : sélectionner le tag «amis», puis «2006» mènera à toutes les photos prises en 2006, pas seulement celles où apparaissent des amis. Proposés en 2000 par Ferré et Ridoux [FR00], les Systèmes d information logiques (SIL) sont une alternative aux modèles hiérarchiques, relationnels et web. Ils combinent les avantages des différentes approches en terme d organisation et de recherche d information. En voici les principales caractéristiques : Le modèle est centré sur les objets que l utilisateur souhaite classer et retrouver. Il n y a pas de regroupements a priori de ces objets, et donc pas de tyrannie de la décomposition prédominante [TOHS99]. Chaque objet est décrit par un ensemble de descripteurs logiques formant une formule logique. Ces descripteurs offrent la même flexibilité de description que les tags mais en plus, ils peuvent être hiérarchisés par une relation de déduction logique. L expressivité de la logique permet de définir des descripteurs de type varié (par exemple, chaîne de caractères, nombre, ou encore date), le raisonnement logique permet de les hiérarchiser entre eux, et d associer automatiquement aux objets des descripteurs déduits de leur description initiale. Interrogation et navigation peuvent être combinées librement au sein d une même recherche. La requête courante est une formule logique. La réponse à cette requête est un ensemble d objets, la sélection courante, ainsi qu un ensemble de liens de navigation menant à des requêtes plus générales ou plus spécifiques. Chaque lien de navigation est en fait un descripteur partagé par au moins un objet de la requête courante. L ensemble de ces liens constitue donc un résumé détaillé des différents objets satisfaisant la requête courante. La structure de navigation est automatiquement dérivée et mise à jour en fonction de la sélection courante et de la description des objets. Chaque lien de navigation est pertinent, c-à-d. mène à une sélection d objets élargie, en relation, ou réduite mais non vide. Le cadre formel des SIL est donné par l Analyse de concepts logiques (ACL). Nous consacrons la majeure partie de ce chapitre à la présentation de cette théorie sous l angle de l organisation des données et de la recherche d information. Nous décrivons ensuite des implémentations concrètes des SIL. Enfin, nous discutons de l opportunité d appli-

52 50 Chapitre 2 : Systèmes d information logiques quer le paradigme des SIL à l organisation et à la recherche de données géographiques. 2.2 Théorie : L Analyse de concepts logiques L ensemble des opérations d un SIL peut être complètement défini de façon formelle dans le modèle théorique de l Analyse de concepts logiques (ACL). Nous présentons donc maintenant l ACL, en nous appuyant sur un ensemble de définitions qui fixent les notions que nous exploitons dans la suite de cette thèse. L ACL est une une extension logique de l Analyse de concepts formels (ACF). L Analyse de concepts formels est une théorie mathématique permettant d identifier des groupements d objets ayant des attributs communs. Ces groupements constituent des concepts formels. Ils sont classifiés automatiquement dans un treillis 2 selon une relation de généralisation/spécialisation qui définit un ordre partiel sur ces concepts. Le treillis permet une représentation riche de la relation binaire liant objets et attributs sous la forme d une hiérarchie de concepts. Les fondements mathématiques de L ACF pour l analyse de données ont été posés par Ganter et Wille [GW99]. Godin et al. [GMA93] ont montré expérimentalement que l utilisation de l ACF pour la recherche d information permettait de combiner les avantages de la recherche par interrogation des systèmes de bases de données, et de la recherche par navigation des systèmes hiérarchiques. L ACL proposée par Ferré et Ridoux [FR00] poursuit les mêmes objectifs en terme de recherche d information mais offre en plus une généricité dans la description des objets. En ACF, la description des objets est limitée à un ensemble d attributs booléens, alors que les données réelles sont majoritairement décrites par des attributs à valeur non binaire, comme une date par exemple. L ACL répond à cette limite en apportant un langage de description défini sous la forme d une logique paramétrable. L expressivité de la logique permet de représenter des domaines concrets variés (nombres, chaînes de caractères, dates...), tout en exploitant les propriétés d organisation classiques de l analyse de concepts. Cette section constitue en quelque sorte une encapsulation des travaux théoriques issus de différents membres de l équipe LIS sur l Analyse de concepts logiques. À l image du principe d héritage caractéristique en Programmation orientée objet (POO), cette formulation hérite des formulations initiales de l ACL [Fer02] et de son extension relationnelle [FRS05]. Les définitions ont été au besoin réécrites, développées et même étendues, notamment pour proposer un cadre théorique pertinent pour la navigation relationnelle. En plus de rappeler les notions fondamentales de l ACL, cette section présente donc également quelques apports à la théorie, développés dans le cadre de cette thèse. La part de ces apports est détaillée dans la conclusion de cette section. Dans la suite, nous présentons l ACL selon trois aspects fonctionnels des SIL : la description des données d abord, puis la recherche d information, par interrogation dans un premier temps, par navigation dans un second temps. 2 Un treillis est un ensemble partiellement ordonné dans lequel chaque couple d éléments admet une borne supérieure et une borne inférieure.

53 Théorie : L Analyse de concepts logiques Décrire et Organiser Dans un système d information, les données sont organisées dans le but de permettre leur recherche ultérieure à partir d une description fournie par l utilisateur. Organisation et description sont donc étroitement liées. En ACL, description et organisation reposent conjointement sur la notion de logique. Dans un SIL, la logique détermine à la fois l expressivité du langage de description et les capacités de raisonnement permettant de rechercher l information. Dans la suite, nous commençons par qualifier la notion de logique en ACL. Ensuite, nous introduisons la notion de contexte qui sert de structure de description des objets en ACL, puis la notion de treillis de concepts qui est une représentation partiellement ordonnée de l information du contexte. Le treillis de concepts sert de support aux principales opérations de navigation en ACL La logique : un langage de description, un outil de comparaison La logique est le paramètre formel de l ACL qui définit l espace de description des objets et des relations entre objets, ainsi que le mécanisme de comparaison de ces descriptions permettant l accès aux données dans un SIL. Comme pour les Logiques de description (LD), une logique en ACL combine un aspect syntaxique rattaché à l expression de formules et à leur comparaison (la signature de la logique), et un aspect sémantique à base d interprétation et de modèles (la sémantique de la logique). Dans la suite de cette thèse, nous employons le terme logique pour désigner la combinaison d une signature et d une sémantique associée. Nous nous appuyons sur la définition générale d une signature de logique pour introduire dans la suite les structures et les mécanismes à la base de l organisation, l interrogation et la navigation dans les SIL. Définition 2.1 (signature d une logique) Une logique est un couple L = (L, ) où : L est un langage de formules utilisées pour décrire les objets. L définit toutes les expressions permettant de construire une formule, par exemple formules atomiques ou connecteurs. est une relation d ordre partiel sur les formules de L, appelée relation de subsomption. correspond à une relation de généralisation/spécialisation entre formules. Une relation d équivalence est définie sur L : pour toute formule f, g L, f g ssi f g et g f. La sémantique d une logique L permet d associer une interprétation aux formules de L. Dans la majorité des cas, cette sémantique définit le domaine concret représenté par la logique. Définition 2.2 (sémantique d une logique) La sémantique d une logique associée à une signature L est un couple (I, =) tel que : I est un domaine d interprétation. = P(I L) est une relation de satisfaction entre les interprétations de I et les formules de L. Soient f L et i I, i = f signifie que i est un modèle de f. M(f) = {i I i = f} désigne l ensemble de tous les modèles de f.

54 52 Chapitre 2 : Systèmes d information logiques La relation de subsumption est cohérente et complète pour la sémantique (I, =) ssi et f, g L f g M(f) M(g) (cohérence) f, g L f g M(f) M(g) (complétude) La relation de est définie indépendemment de la sémantique. Lors de la définition d une logique, il est donc essentiel de garantir la cohérence et la complétude de la relation vis à vis de la sémantique. Le but de la relation est de tester si une formule est ou non plus spécifique qu une autre. La cohérence permet d éviter les faux positifs, c-à-d. d éviter que le test de subsomption entre deux formules ne rende vrai si la relation de spécialisation n est pas vérifiée entre leur interprétation. La complétude assure qu il n y a pas de faux négatifs, c-à-d. que toutes les relations d inclusion entre les ensembles de modèles de deux formules sont bien traduites au niveau logique par la subsomption de ces formules. Nous présentons maintenant trois exemples de logiques élémentaires : une logique représentant un ensemble de valeurs symboliques organisées dans une taxonomie, ainsi que deux logiques dédiées à la représentation de domaines concrets usuels : le domaine des chaînes de caractères, le domaine des entiers. Nous détaillons ensuite comment, à partir de ces logiques élémentaires, composer au besoin des logiques plus complexes pour des applications particulières. Nous considérons une logique L lieux permettant de raisonner sur un certain nombre de termes symboliques représentant des lieux. Ici, le domaine d interprétation et le langage de formules sont égaux : L lieux = I lieux = def {Rennes,Brest,Bretagne,France,Europe} L ensemble des modèles d une formule f est défini comme l ensemble des lieux qui sont géographiquement inclus dans le lieu désigné par f. Ainsi, M lieux (France) = {France, Bretagne, Rennes, Brest} et M(Brest) M(France). La relation de subsomption lieux traduit l ordre de la taxonomie de lieux. Par exemple : Brest lieux France, Bretagne lieux Europe Dans ce type de logique taxonomique, la relation de subsomption traduit la position relative de deux termes dans un graphe orienté, défini de façon plus ou moins arbitraire par le concepteur de la logique. Nous allons voir dans les deux exemples suivants des relations de subsomption définies par un calcul sur les formules. La logique L string est la logique spécialisée dédiée aux domaine des chaînes de caractères. Le domaine d interprétation I string contient tous les mots qui peuvent être construits à partir d un ensemble de caractères alphanumériques. Une formule de L string est une expresssion régulière 3 r et ses modèles sont toutes les chaînes appartenant au langage défini par r. La relation de subsomption string est équivalente à un test d inclusion de langages définis par des expressions régulières, c-à-d. de langages réguliers. Ce test est donc décidable en 3 Dans les exemples qui suivent, nous avons adopté la syntaxe des expressions régulières PERL [Vro].

55 Théorie : L Analyse de concepts logiques 53 temps exponentiel. Elle permet d ordonner les formules de L string qu elles soient des valeurs (expressions issues de I string ) ou des motifs (expression régulières) : "brave Margot" string "brave Margot" string ".*brave.*" string ".*[Bb]rave.*" La logique L int correspond au domaine des entiers relatifs (I int = Z). Ici, aucun motif n est défini en plus des valeurs de Z, c-à-d. L int = I int. De facto, la subsomption ne permet de tester que l égalité entre valeurs : i, j Z, i int j = def i = j Dans la pratique, les descripteurs utilisés dans les applications sont plus complexes que des entiers ou des chaînes de caractères isolées. Par exemple, pour pouvoir exprimer des motifs plus riches sur les entiers, nous considérons une logique L [int] d intervalles sur les entiers. Les formules de L [int] sont les intervalles de la forme [i, j] (i, j Z). Les modèles de [i, j] sont tous les entiers compris dans cet intervalle. Pour aider à l expression de valeurs exactes et d intervalles ouverts, les formules suivantes sont introduites : i désigne l intervalle [i, i], i l intervalle ], i], et i l intervalle [i,+ [. La relation [int] teste l inclusion d intervalles d entiers. Voici un exemple de formules ordonnées de L [int] : 228 [int] 228 [int] [100,300] [int] 100 Les deux logiques L int et L [int] ont été présentées de façon indépendantes, mais en réalité, L [int] peut être considérée comme une logique d intervalles générique paramétrée par la logique d entiers L int : L [int] = Interval(L int ). De même, à partir d une logique de réels L real, il est possible de définir une logique d intervalles sur les réels L [real] = Interval(L real ). Ici, à l image des composants logiciels, Interval joue le rôle d un composant logique paramétrable par une autre logique, et L int et L real jouent le rôle de composants logiques élémentaires. Chaque concepteur d application peut donc définir ses propres combinaisons de logiques et ainsi disposer de descripteurs riches et adaptés à ses besoins. Cependant, pour garantir le bon fonctionnement des logiques, il faut être en mesure de prouver la cohérence et la complétude de la subsomption des logiques ainsi construites par combinaison. Ce travail n est pas forcément à la portée de l utilisateur cherchant à produire de nouveaux descripteurs, mais Ferré et Ridoux ont montré que la production de ces preuves pouvait être largement automatisée dans le processus de combinaison des logiques [FR02]. La composition de logiques permet de vérifier automatiquement, par un mécanisme de typage, que la relation de la logique composée a les bonnes propriétés de cohérence et de complétude, sans qu il soit toujours nécessaire que ces propriétés soient vérifiées sur les logiques composantes. Si les propriétés de la logique résultante ne peuvent être garanties automatiquement dans le mécanisme de composition, il faut les vérifier de façon manuelle. Il existe deux principales catégories de composants logiques : les logiques atomiques qui correspondent aux logiques élémentaires telles que L int, L real, L string ou L lieux.

56 54 Chapitre 2 : Systèmes d information logiques les logiques paramétrables qui permettent de définir de nouvelles logiques par combinaison de logiques existantes. Par analogie avec les mécanismes de composition de modules des langages de programmation fonctionnelle (notamment CAML [Ler05]), les logiques paramétrables sont aussi appelées foncteurs logiques. Les foncteurs logiques les plus utilisés sont Interval que nous avons déjà présenté, Prod, Sum, Option, Set et Prop. Nous présentons quelques foncteurs en détaillant la forme du langage composé et le fonctionnement de la nouvelle relation de subsomption. Par exemple, le foncteur Prod définit le produit de deux logiques : L 3 = Prod(L 1, L 2 ). Les formules de L 3 sont des couples (v 1, v 2 ), avec v 1 L 1 et v 2 L 2. La relation de subsomption 3 est définie par : (v 1, v 2 ) 3 (v 1, v 2 ) = def v 1 1 v 1 v 2 2 v 2 Le foncteur Prod est utile pour représenter des attributs valués : L 1 désigne les noms d attributs, et L 2 le domaine des valeurs pouvant être prises par ces attributs. Le foncteur Option rend optionnelles les formules de la logique d entrée. Combiné au foncteur P rod, il permet d exprimer des attributs potentiellement sans valeurs : Prod(L 1, Option(L 2 )). Le foncteur Sum correspond à l union disjointe de deux logiques : L 3 = Sum(L 1, L 2 ). Les formules de L 3 sont des formules soit de L 1, soit de L 2. La relation de subsomption 3 est définie par : x 3 x = def x 1 x ssi x, x L 1 x 2 x ssi x, x L 2 false sinon Les foncteurs Set et P rop sont utilisés pour combiner plusieurs formules d une même logique dans une description. En particulier, le foncteur Set permet de raisonner sur des ensembles de formules d une logique. Si L 3 = Set(L 1 ) alors L 3 = P(L 1 ) et : X 3 X = def x X, x X, x 1 x Le foncteur P rop fournit une forme paramétrée de la logique propositionnelle, où les atomes sont remplacés par les formules de la logique d entrée. Le langage de la logique résultante correspond à la clôture syntaxique du langage d entrée par les trois connecteurs booléens AND, OR et NOT. Ces connecteurs sont très utiles pour définir des requêtes. Le détail des opérations associées à ce foncteur et aux autres foncteurs introduits dans cette section est consultable dans le rapport interne de Ferré et Ridoux [FR06] Le contexte : une structure pour décrire objets et relations L ACL permet d une part de décrire un ensemble d objets O de façon individuelle, et d autre part de représenter un ensemble R de relations binaires qui lient ces objets. Le contexte logique désigne la structure où les éléments, objets ou relations, sont associés à leur description. Nous commençons par présenter le contexte objet qui permet de décrire les objets individuellement. Pour décrire de façon explicite des relations entre paires d objets, nous introduisons ensuite le contexte relationnel. Enfin, nous montrons comment combiner ces deux types de description dans un contexte mixte.

57 Théorie : L Analyse de concepts logiques 55 Définition 2.3 (contexte objet) Un contexte objet est un triplet K 1 = (O, L 1, d 1 ), où : O est un ensemble d objets. L 1 = (L 1, 1 ) désigne une logique. d 1 : O L 1 est une fonction associant aux objets leur description. Object context type titre année style nom âge sexe f 1 Film "Pulp Fiction" 1994 Policier f 2 Film "Planet Terror" 2007 Action f 3 Film "Die Hard 4" 2007 Action f 4 Film "Death Proof" 2007 Action p 1 Artiste "Bruce Willis" 52 M p 2 Artiste "Robert Rodriguez" 39 M p 3 Artiste "Quentin Tarantino" 44 M p 4 Artiste "Rose McGowan" 34 F Tab. 2.1 Un exemple de contexte objet cinématographique. Les objets désignent soit des films, soit des artistes. Exemple 1 (contexte objet) Nous considérons le contexte objet cinématographique présenté dans la table 2.1. Les objets désignent des films ou des personnes ayant collaboré à un film. Pour des raisons de simplicité, les informations sont présentées sous forme tabulaire, cependant, la première ligne doit être lue : d 1 (f 1 ) = {titre: PulpFiction,année:1994,genre:Policier} La logique L 1 associée à ce contexte cinématographique peut s exprimer comme la composition : L 1 = Set(Prod(L Att, Option(Sum(L [int], L String, L Style, L Type, L Sexe )))) avec : L Att, la logique décrivant les noms d attributs : I Att = {type,année,style,nom,âge,sexe} L Style, une taxonomie de styles filmographiques : I Style = {Action,Policier,Comédie,Horreur,Drame,Thriller} L Type, une logique précisant le type des objets : I Type = {Film,Artiste} L Sexe, une logique qualifiant le genre d un individu : I Sexe = {M, F } L opération permettant d associer à une formule q 1 de L 1 l ensemble des objets qu elle décrit est appelée extension. Dans les LIS, le calcul de l extension est l opération qui permet de calculer la réponse à une requête. Définition 2.4 (extension objet) Soit K 1 = (O, L 1, d 1 ) un contexte objet et q 1 une formule de L 1. L extension objet de q 1 dans K 1 est définie par : ext 1 (q 1 ) = def {o O d 1 (o) 1 q 1 }

58 56 Chapitre 2 : Systèmes d information logiques Suite de l exemple 1 (extension objet) Dans le contexte objet cinématographique, pour savoir quels sont «les hommes de plus de 40 ans», il suffit de calculer l extension : ext 1 ({sexe:m,âge: 40}) = {p 1, p 2 } c-à-d. (Bruce Willis, Quentin Tarantino) L opération inverse permettant d obtenir la formule la plus spécifique de L 1 décrivant un ensemble d objets O O est appelée intension. L opération de calcul de l intension objet n est pas utilisée dans les LIS. Définition 2.5 (intension objet) Soit K 1 = (O, L 1, d 1 ) un contexte objet et O un ensemble d objets de O. L intension objet de O dans K 1 est définie par : int 1 (O) = def min 1 {f L 1 o O d(o) 1 f} La définition que nous venons de proposer est en fait une définition naïve de l intension objet, c-à-d. une définition ne permettant pas directement un calcul efficace. Il est plus naturel de définir l intention à partir d une relation borne-sup définie sur l ensemble ordonné de formules (L, ) : int 1 (O) = def 1 {d 1(o) o O} 4 Cependant, cette dernière approche suppose une définition plus complexe de la signature d une logique que nous n avons pas trouvée justifiée dans le cadre de cette thèse. Les détails de cette définition s appuyant sur la borne-sup peuvent être trouvés entre autre dans [FR04] ou [FRS05]. Suite de l exemple 1 (intension objet) Dans le contexte objet cinématographique, Les propriétés communes aux films f 2 (Planet Terror) et f 4 (Death Proof) sont obtenues à partir de l intension : int 1 ({f 2, f 4 }) = {type:film,année:2007,style:action} À partir des opérations d extension et d intension objet de l ACL, nous sommes en mesure de définir une connexion de Galois entre les ensembles ordonnés d objets (P(O), ) et l ensemble ordonné de descriptions (L 1, 1 ). Ce résultat fondamental de l ACF [GW99] est également vrai en ACL. Définition 2.6 (connexion de Galois) Considérant le contexte objet K 1 = (O, L 1, d 1 ), le couple (ext 1,int 1 ) définit une connexion de Galois entre (P(O), ) et (L 1, 1 ), c-à-d. que pour tout couple (O, f 1 ) P(O) L 1, la propriété O ext(f 1 ) int(o) f 1 est vérifiée. Cette connexion de Galois nous permet de définir la notion de concept logique. Un concept, qu il soit défini dans le cadre de l ACF ou de l ACL, désigne un ensemble maximal d objets partageant une description commune. C est en quelque sorte une unité de sens sur le contexte dont il est issu. 4 F 1 est bien défini car O est fini.

59 Théorie : L Analyse de concepts logiques 57 Définition 2.7 (concept logique objet) Dans le contexte K 1 = (O, L 1, d 1 ), tout couple (O, f 1 ) P(O) L 1 tel que O = ext(f 1 ) et f 1 = int(o) constitue un concept logique objet. L ensemble des concepts dérivés d un contexte peuvent être partiellement ordonnés par la relation de subsomption sur les intentions. Un théorème fondamental de l ACL nous assure que cet ensemble ordonné de concepts forme un treillis complet que nous appelons le treillis de concepts. Théorème 2.1 (treillis de concepts objet) L ensemble des concepts logiques du contexte objet K 1 muni de la relation d ordre partiel, tel que (O, f 1 ) (O, f 1 ) = def f 1 f 1, forme un treillis complet sur K 1, noté C 1. Le treillis de concepts est une représentation duale de l information décrite dans le contexte. La structure du treillis traduit une relation de spécialisation/généralisation entre concepts : pour tout c = (O, f 1 ) C 1, c = (O, f 1 ) C 1, c c signifie que c est plus précis que c, c-à-d. que la description de c est plus précise que la description de c (f 1 1 f 1 ) et dualement que c caractérise moins d objets que c (O O ). En ACL, le treillis est utilisé comme un espace de navigation entre les groupements d objets désignés par les concepts. Cependant, en fonction du nombre d objets et de la complexité des formules qui les décrivent, la taille du treillis peut devenir si importante que sa représentation effective en mémoire devient problématique. C est pourquoi le parti pris en ACL est de ne jamais construire entièrement le treillis, mais de considérer une vue locale de ce dernier, centrée sur un concept. Suite de l exemple 2 (treillis de concepts objet) La figure 2.1 présente le treillis de concepts logiques objet issu du contexte cinématographique. La lecture de ce treillis nous montre par exemple que dans notre contexte : tous les films d action sont sortis en salle en 2007 (intention du concept 5), «Pulp Fiction» est le seul film policier sorti en 1994 (concept 10). Le treillis de concepts permet de mettre en évidence des relations implicites entre les objets comme les associations d objets partageant une description commune par exemple. Cependant dans de nombreuses applications, il est crucial de pouvoir décrire des relations explicites entre objets, qui ne peuvent être déduites de la description individuelle de ces objets. Par exemple, exprimer qu un individu est propriétaire d un appartement, qu un enseignant est responsable d un cours ou encore qu un acteur joue dans un film. Pour prendre en compte ce type de relations, nous augmentons la description individuelle des objets fournie par le contexte objet par une description relationnelle fournie par un contexte relationnel. Le contexte relationnel est un contexte où les objets sont des paires d objets du contexte objet. Une paire d objets représente un lien binaire orienté et est décrit par une formule logique. Définition 2.8 (contexte relationnel) Soit K 1 = (O, L 1, d 1 ) un contexte objet. Un contexte relationnel est un triplet K 2 = (R, L 2, d 2 ) où :

60 58 Chapitre 2 : Systèmes d information logiques Fig. 2.1 Treillis de concepts logiques issus du contexte cinématographique objet. Les concepts sont identifiés par les nœuds du treillis.

61 Théorie : L Analyse de concepts logiques 59 R est une relation, c-à-d. un ensemble de paires (o 1, o 2 ) O O. Chaque paire (o 1, o 2 ) représente un lien orienté de o 1 à o 2. Deux fonctions start et end permettent d accéder aux extrémités d un lien : start((o 1, o 2 )) = def o 1 et end((o 1, o 2 )) = def o 2. De plus, la relation R est close par une opération inverse 1, c-à-d. que pour chaque paire r R, start(r 1 ) = end(r) et end(r 1 ) = start(r). L 2 = (L 2, 2,. 1 ) est une logique dont les formules décrivent un lien entre un objet o 1 et son image o 2. (. 1 ) est une opération inverse sur les formules, en correspondance avec l opération inverse sur les relations, et vérifiant les axiomes suivant : f 2, g 2 L 2 (f2 1 ) 1 2 f 2 f 2 2 g 2 f2 1 2 g2 1. d 2 : R L 2 est une fonction associant à un lien (paire d objets) la formule logique de L 2 la décrivant. d 2 est compatible avec les opérations inverses, i.e. r R, d 2 (r 1 ) 2 d 2 (r) 1. Relation context joue réalise joue 1 réalise 1 (p 1, f 1 ) x (f 1, p 1 ) x (p 1, f 2 ) x (f 2, p 1 ) x (p 1, f 3 ) x (f 3, p 1 ) x (p 2, f 2 ) x x (f 2, p 2 ) x x (p 3, f 1 ) x (f 1, p 3 ) x (p 3, f 2 ) x (f 2, p 3 ) x (p 3, f 4 ) x x (f 4, p 3 ) x x (p 4, f 2 ) x (f 2, p 4 ) x Tab. 2.2 Un exemple de contexte relationnel cinématographique. Les relations joue 1 et réalise 1 sont précisées, mais peuvent être inférées de la partie gauche du contexte. Exemple 2 (contexte relationnel) Nous considérons le contexte relationnel de la table 2.2, qui est complémentaire du précédent contexte objet cinématographique. Ce contexte décrit quels sont les acteurs, les réalisateurs d un film, et vice versa. Il nous indique par exemple que Bruce Willis joue dans Pulp Fiction, que le film Planet Terror est réalisé par Robert Rodriguez et que ce même Robert Rodriguez y tient un rôle : d 2 ((p 3, f 1 )) = {réalise} et d 2 ((f 2, p 2 )) = {joue 1,réalise 1 }. La logique L 2 employée dans ce contexte peut s écrire à l aide de foncteurs : L 2 = Set(L Role ) où L Role est une logique décrivant une relation liant un film et un artiste de cinéma : I Role = {joue,joue 1,réalise,réalise 1 }. Les formules de L 2 sont des ensembles de relations, partiellement ordonnables par 2. Par exemple, {joue,réalise} 2 {r éalise}. L inverse d un ensemble de relations est défini comme l ensemble des relations inverses. Par exemple, {joue} 1 = {joue 1 }. L extension d une formule q 2 dans un contexte relationnel est l ensemble des liens (paires d objets) dont la description est subsumée par q 2.

62 60 Chapitre 2 : Systèmes d information logiques Définition 2.9 (extension relationnelle) Soit K 2 = (R, L 2, d 2 ) un contexte relationnel, et q 2 L 2 une formule. L extension relationnelle de q 2 est : ext 2 (q 2 ) = def {r R d 2 (r) 2 q 2 } Suite de l exemple 2 (extension relationnelle) Dans le contexte des relations cinématographiques, nous nous intéressons aux réalisateurs qui ont aussi participé en tant qu acteurs à leurs films, c-à-d. : c-à-d. ext 2 ({réalise,joue}) = {(p 2, f 2 ), (p 3, f 4 )} {(Robert Rodriguez, Planet Terror), (Quentin Tarantino, Death Proof)} Dualement, l intension d un ensemble de liens R de la relation R (R R) correspond à la formule la plus spécifique de L 2 décrivant l ensemble des liens de R. Définition 2.10 (intension relationnelle) Soit K 2 = (R, L 2, d 2 ) un contexte relationnel, et R R un ensemble de relations. L intension relationnelle de R est définie par : int 2 (R) = def min 2 {f 2 L 2 r R, d 2 (r) 2 f 2 } Suite de l exemple 2 (intension relationnelle) Dans le contexte des relations cinématographiques, nous nous intéressons à «la participation de Quentin Tarantino dans le film Pulp Fiction» : int 2 ({(p 3, f 1 )}) = {réalise} De la même manière que pour le contexte objet, nous sommes en mesure à partir des opérations d extension et d intension relationnelles de définir une connexion de Galois et d en déduire la notion de concept logique relationnel. Nous ne détaillons pas plus ces notions car elles ne sont pas essentielles pour la suite. Le contexte objet contient les descriptions individuelles des objets et le contexte relationnel décrit les relations explicites entre des paires d objets. Cependant, il n est pas possible pour l instant à partir de ces contextes séparés de lier facilement les deux types de descriptions. Pour raisonner à la fois sur les objets et les relations qui les lient, nous définissons donc un contexte mixte K = (K 1, K 2 ), réunion du contexte objet et du contexte relationnel, ainsi qu une logique mixte L associée. Définition 2.11 (contexte et logique mixte) Soit K 1 un contexte objet et K 2 un contexte relationnel, le contexte mixte K = (K 1, K 2 ) est la réunion des objets, des relations et de leur description logique. La logique intermédiaire L = (L, ) associée au contexte mixte K est définie par : L L 1 L 2.L f, g L f g = def false f 1 g si f, g L 1 f 2 2 g 2 f g si f = f 2.f, g = g 2.g sinon (avec f, g L )

63 Théorie : L Analyse de concepts logiques 61 Représenter des relations n-aires Nous faisons ici une parenthèse pour discuter du cas des relations impliquant plus que 2 objets. Nous avons montré que l ACL permettait de représenter des relations orientées, potentiellement valuées, mais exclusivement binaires. Les relations n-aires avec n 2 ne sont donc pas directement modélisables en ACL. Cependant cette contrainte n est pas une limitation forte dans la mesure où toute relation n-aire peut se représenter par un ensemble de n relations binaires après réification, c-à-d. après transformation de la relation n-aire en un objet. Ce processus classique de transformation du modèle logique de représentation des données est illustrée dans le schéma de la figure suivante avec la réification d une relation ternaire. La logique mixte L = (L, ) associée au contexte mixte K permet de raisonner sur des descriptions d objets composées d ensembles de formules de L. Elle est définie par : L = P(L ) F, G L F G = def g G, f F, f g La formule f 2.f signifie avoir au moins une image par la relation f 2 qui satisfait la formule f. La formule correspond à la formule la plus générale de L, c-à-d. f L, f. La formule f 2. désigne donc le domaine de f 2, la formule f2 1., le domaine de f 1 2, c-à-d. le co-domaine de f 2. On peut également remarquer que f 2 L 2, g L, f 2.g f 2.. Les opérations d extension et d intention sont étendues en concordance avec la nouvelle relation. Définition 2.12 (extension mixte) L extension mixte d un ensemble de formules F L dans le contexte K = (K 1, K 2 ) est l ensemble d objets défini par ext(f) = def f F ext (f) avec : ext (f) = def ext 1 (f) si f L 1 {o O r ext 2 (f 2 ), (start(r) = o end(r) ext(f ))} si f = f 2.f O si f = Exemple 3 (extension mixte) Nous considérons le contexte mixte sur le cinéma composé des contextes objet et relationnel présentés précédemment. Le calcul de l ex-

64 62 Chapitre 2 : Systèmes d information logiques tension mixte nous permet de nous intéresser aux «acteurs de sexe masculin ayant joués dans un film de Quentin Tarantino» : ext({ joue.( réalise 1.nom: QuentinTarantino,sexe:M }) = {p 1, p 3 } c-à-d. {Bruce Willis, Quentin Tarantino} Définition 2.13 (intension mixte) L intension mixte d un ensemble d objets O O dans K = (K 1, K 2 ) est l ensemble de formules défini par : int(o) = def min {f F O ext (f)} Telle que nous venons de la définir, une intention mixte contient presque toujours un ensemble infini de formules du fait de la présence de cycles relationnels entre objets. En effet, à partir du moment où un objet o 1 est en relation r avec un objet o 2, alors il est décrit par la formule r.. De la même façon, o 2 étant en relation r 1 avec o 1, o 2 est décrit par la formule r 1.. Donc la formule r. r 1., et de manière générale toute formule ( r. r 1 ) n., fait partie de l intention de o 1 (int({o 1 })). Dans la pratique, Ferré, Ridoux et Sigonneau ont montré qu il était possible d approximer avec une précision arbitraire toute formule d une intention relationnelle par une formule contenant un nombre fini de quantificateurs [FRS05]. Nous présentons maintenant le principe de ces approximations. Tout d abord, nous définissons L (n) comme le sous-langage de L restreint aux formules contenant au plus n quantificateurs. Définition 2.14 (intention mixte approximée de profondeur n) Soit le contexte mixte K = (K 1, K 2 ) et la logique mixte associée L = (L, ). L intention mixte approximée de profondeur n d un ensemble d objet O O est définie de façon récursive par : int(0)(o) = int 1 (O) int(n + 1)(O) = int(n)(o) { int 2 (R).f R R, f L (n). O = start(r) int(n)(end(r)) f } Le nombre d objets dans O et donc le nombre de relations dans R étant fini, chaque approximation contient un nombre fini de formules. Suite de l exemple 3 (intension mixte approximée) Dans le contexte cinématographique mixte, Nous nous intéressons aux propriétés communes aux films «Planet Terror» et «Death Proof». les propriétés communes aux films peuvent être obtenues, c-à-d. : int(1)({f 2, f 4 }) = {type:film,style:action,année:2007, joue 1., réalise 1., joue 1.type:Artiste, joue 1.nom: QuentinTarantino, réalise 1.type:Artiste}

65 Théorie : L Analyse de concepts logiques 63 La précision des approximations (au sens de ) croît avec n, c-à-d. que int(n + 1)(O) int(n)(o) et lorsque n tend vers l infini, int(n)(o) tend vers l intention mixte complète int(o). Cette définition approximée de l intention mixte nous permet d introduire une connexion de Galois approximée à partir de laquelle nous pouvons ensuite définir un concept mixte approximé. Définition 2.15 (Connexion de Galois et concept mixte approximés) Considérant le contexte mixte K = (K 1, K 2 ) et une profondeur d approximation n, le couple (ext, int(n)) définit une connexion de Galois entre (P(O), ) et (L(n), ) avec L(n) = P(L (n)) (voir [FRS05] pour la preuve de ce résultat). Par conséquent : O O, F L, O ext(f) int(n)(o) F Nous appelons concept logique approximé de profondeur n tout couple (O, F) O L(n) tel que O = int(n)(f) et F = ext(o). Il est donc possible de définir avec une précison n arbitraire une connexion de Galois et donc d en dériver avec ce même niveau de précision un treillis de concepts mixtes noté C(n). Les concepts mixtes approximés sont organisés dans le treillis C(n) selon la relation d ordre partiel, tel que (O, F) (O, F ) = def F F. Le treillis C(n) offre une représentation alternative de l information contenue dans le contexte mixte K. Il est important de noter que chaque concept porte dans son intension à la fois les descriptions individuelles des objets de son extension (formules issues de K 1 ), mais aussi les descriptions des relations dans lesquelles interviennent ces objets (formules de la forme f 2.f). Suite de l exemple 3 (treillis de concepts mixtes approximés) La figure 2.2 présente le treillis de concepts mixtes approximés (n = 1) dérivé du contexte cinématographique. Comparé au treillis de la figure 2.1, ce treillis intègre des descriptions relationnelles : joue., joue 1., réalise., réalise 1.. La lecture des concepts de ce treillis nous apprend que pour le contexte cinématographique : tous les réalisateurs sont des acteurs (le concept 7 désignant les réalisateurs est un sous-concept du concept 2 désignant les acteurs), le réalisateur du film «Die Hard 4» n est pas connu (le concept 13 représentant le film «Die Hard 4» n est pas un sous-concept du concept 6 représentant les films dont le réalisateur est connu). De plus, les formules relationnelles nous donnent des informations sur le domaine et le co-domaine des relations. Par exemple, le domaine de r éalise est représenté par les sous-concepts du concept 7, et son co-domaine par les sous concepts du concept 6. En traversant la relation réalise depuis l un des sous-concepts de 7, on arrive sur l un des sous-concepts de 6. Par mesure de commodité dans la suite de ce chapitre, les notions de contexte, concept, intension, extension et treillis se rapportent par défaut au contexte mixte à moins que cela ne soit précisé explicitement.

66 64 Chapitre 2 : Systèmes d information logiques Fig. 2.2 Treillis des concepts mixtes du contexte cinématographique (approximation de profondeur 1, limitée aux formules relationnelles du type r. et r 1. ).

67 Théorie : L Analyse de concepts logiques Interroger L interrogation consiste à retrouver un ensemble d objets à partir d une description exprimée sous la forme d une requête. En ACL, les requêtes prennent naturellement la forme de formules logiques. Le calcul de la réponse d une requête correspond donc au calcul de l extension de la formule associée. Pour pouvoir exprimer de façon naturelle des requêtes combinant plusieurs formules logiques, un langage d interrogation L q étend le langage de la logiques L avec les opérateurs de conjonction, disjonction et négation. Définition 2.16 (langage d interrogation) Soit K = (K 1, K 2 ) un contexte. Le langage d interrogation est défini par : L q L 1 L 2.L q L 2.L q L q L q L q L q L q. La formule f 2.q correspond à l assertion dont toutes les images par la relation f 2 satisfont la formule q. Une requête q du langage d interrogation L q peut s exprimer sous forme normale conjonctive comme une formule du type : q = q 1 q 2... q n. Dans la suite de ce chapitre lorsque nous sommes amenés à discuter de la syntaxe des requêtes, nous représentons parfois cette forme normale conjonctive comme l ensemble de ses opérandes, c-à-d. q = {q 1, q 2,...,q n }. Exemple 4 (requête sous forme normale conjonctive) Dans le contexte mixte cinématographique, les deux expressions suivantes correspondent à la même requête : q = type:film style:policier style:comédie année:2007 q = {type:film, style:policier style:comédie, année:2007 } Le langage L q est équivalent au langage de la Logique de description ALC [DLNN97] dans lequel les concepts atomiques on été remplacés par des formules objet (issues de L 1 ) et les rôles atomiques par des formules relationnelles (issues de L 2 ). Cependant les sémantiques des deux langages diffèrent. L Analyse de concepts logiques s appuie sur l hypothèse du monde clos (ce qui n est pas décrit comme vrai est faux) alors que les Logiques de description considèrent l hypothèse du monde ouvert (ce qui n est pas encore connu peut être vrai ou faux). Cette différence se traduit par le fait que les connecteurs, et du langage d interrogation L q sont des connecteurs extensionnels. Lors du calcul de l extension d une requête, ils sont interprétés par des opérations ensemblistes. Par exemple, l extension de la négation d une formule est toujours le complément de l extension de cette formule. Pour ne pas introduire de nouvelles notations, nous étendons la fonction ext définie sur les formules de L aux formules de L q, et notons ext(q) l extension de la requête q. Définition 2.17 (extension de requête) Soit le contexte K = (K 1, K 2 ). L extension d une requête dans K est définie récursivement par : ext( ) = def O ext(q 1 ) = def ext 1 (q 1 ), avec q 1 L 1

68 66 Chapitre 2 : Systèmes d information logiques ext( f 2.q) = def {o r ext 2 (f 2 ), (start(r) = o end(r) ext(q))}, avec f 2 L 2 ext( f 2.q) = def {o r ext 2 (f 2 ), (start(r) = o end(r) ext(q))}, avec f 2 L 2 ext(q q ) = def ext(q) ext(q ), avec q, q L q ext(q q ) = def ext(q) ext(q ), avec q, q L q ext( q) = def O \ ext(q), avec q L q L interrogation ainsi définie est centrée sur les objets et non sur les relations. La réponse d une requête est bien un ensemble d objets et non un ensemble de paires d objets. Quelles que soient les caractéristiques de la relation f 2 L 2, les propriétés suivantes sont vérifiées sur le langage de requête L q : q, q L q, ext( f 2.q) = ext( f 2. q) ext( f 2.(q q )) ext( f 2.q) ext( f 2.q ) ext( f 2.(q q )) = ext( f 2.q) ext( f 2.q ) (2.1) De plus, si la relation f 2 est une fonction injective, c-à-d. que f 2 associe à tout élément de son ensemble origine au plus une image (relation fonctionnelle), et garantit que tout élément de l ensemble arrivée possède au plus un antécédent (relation injective), alors : q L q, ext( f 1 2.( f 2.q)) = ext(q) Comme l illustrent les diagrammes de Venn de la figure 2.3, si f 2 n est pas une fonction injective, c-à-d que dans son extension un élément de l ensemble image peut avoir plusieurs antécédents, l égalité f 1 2.( f 2.q) = q peut ne pas être vérifiée. Exemple 5 (interrogation) Dans le contexte mixte sur le cinéma, le langage d interrogation permet de combiner des critères de recherche sur les films et les artistes ayant collaboré à ces films. Par exemple : q = type:film année: 2007 joue 1.( réalise. ) La requête q qualifie les films sortis avant 2008 et dont au moins l un des acteurs est un réalisateur. Son extension ext(q) = {f 2, f 4 } nous indique que seuls deux films vérifient ce critère : «Planet Terror» et «Death Proof». Pour pouvoir raisonner sur les différentes sous-formules composant une requête, nous étendons la relation de susbsomption définie pour les formules de L aux formules de L q. Définition 2.18 (subsomption de requête) Soit le contexte K = (K 1, K 2 ). La relation de subsomption sur les formules du langage d interrogation L q est définie

69 Théorie : L Analyse de concepts logiques 67 Fig. 2.3 Extension d une relation et de son inverse. Chaque région du schéma représente l extension de la formule qui l étiquette. Les arcs pointillés relient deux paires d objets en relation f 2. Dans cet exemple, l extension de la requête initiale q f 2. n est pas équivalente à celle de la requête finale q = f 2.( f 1 2.q) obtenue après traversée de f2 puis de f 1 2. par : f, g L q, f g = def true si g = f 1 g si f, g L 1 f 2 2 g 2 f g si f = f 2.f et g = g 2.g false sinon avec f 2, g 2 L 2 et f, g L q Naviguer De manière générale, naviguer consiste à se déplacer d un lieu vers un autre lieu en suivant un chemin donné. Une requête peut être interprétée comme une formule menant à un ensemble d objets. De ce point de vue, la navigation en ACL consiste à partir d une requête pour atteindre une autre requête au moyen d un lien de navigation. La navigation peut donc être définie comme une transformation de requête. La réponse d une requête, c-à-d. son extension, est un ensemble d objets. Un autre point de vue consiste donc à considérer la navigation d un ensemble d objets vers un autre ensemble d objets. Nous avons vu qu en ACL les ensembles d objets correspondent à l extension de concepts organisés dans un treillis. Ce treillis définit un espace de navigation entre les concepts, et donc entre les ensembles d objets associés à ces concepts. Le treillis de concepts peut donc servir de support pour la navigation. Un ensemble d objets O extension d une requête q L q peut être associé dans le treillis à un concept c. Ce concept c désigne la sélection courante d objets O, nous l appelons concept courant. Les arcs du treillis partant de c mènent à d autres concepts c qui sont soit plus spécifiques que c (c c) et caractérisent un sous-ensemble de la

70 68 Chapitre 2 : Systèmes d information logiques sélection courante, soit plus généraux que c (c c ) et caractérisent un sur-ensemble de la sélection courante. L intension d un concept c plus spécifique que le concept courant c contient au moins une formule x L qui ne décrit pas toute l extension de c et qui n appartient pas à l intention de c. Cette formule x peut être utilisée pour raffiner la requête q en une requête q = q x et ainsi réduire la sélection courante. Elle joue le rôle de lien de navigation. Nous venons de voir que la navigation du concept courant vers les concepts plus spécifiques permet de raffiner la requête. Mais la navigation dans le sens inverse, vers les concepts plus généraux, est aussi possible. Dans ce cas, un lien de navigation y va être utilisé pour élargir la requête q et ainsi augmenter la sélection courante. Dans le treillis, la navigation selon l axe défini par la relation d ordre entre les concepts permet de raffiner ou généraliser la requête q. Parmi les liens de navigation offerts, les formules relationnelles de la forme r.p permettent de réduire ou d élargir la sélection courante à l ensemble des objets qui ont au moins une image par la relation r qui est décrite par p. Cependant ces formules relationnelles peuvent être utilisées pour réaliser un autre mode de navigation : naviguer à partir des objets de la sélection courante qui sont en relation r vers leurs images par cette relation r, c-à-d. traverser la relation r. Ce mode de navigation est transversal à la structure du treillis. Il permet de transformer la requête q en une requête q = p r 1.q. Nous venons de présenter de façon informelle trois modes de navigation. Pour cela, nous avons utilisé le treillis comme support de navigation. Cependant comme nous l avons déjà évoqué, le treillis n est jamais construit entièrement en ACL. Seule une vue partielle du treillis centrée sur les objets de la sélection courante est considérée à chaque étape de navigation. Dans la suite, nous allons d abord montrer comment déterminer et calculer un ensemble de liens de navigation pertinents pour la sélection courante d objets. Comme nous allons le montrer, le calcul de ces différents liens ne fait pas intervenir le calcul d intention, mais repose des opérations extensionnelles. Nous présentons ensuite une définition formelle des différentes opérations de navigation réalisables à partir de ces liens Les liens de navigation Nous fournissons une première définition des liens de navigation pour une requête q comme l ensemble des formules de L décrivant tout ou partie de l extension de q : Définition 2.19 (liens de navigation) Soit K un contexte, L la logique associée et q L q une requête sur K, l ensemble des liens de navigation associés à q est : nav(q) = def {x L ext(q) ext(x)} Sans restriction sur la complexité des formules relationnelles, l ensemble nav(q) peut être infini. Cependant, il est facile de démontrer que pour toute requête q L q et toutes formules f 2 L 2, f L :

71 Théorie : L Analyse de concepts logiques ( f 2.f) nav(q) ( f 2. ) nav(q) 2. ( f 2.f) nav(q) f nav( f2 1.q) La propriété (1) fournit une approximation grossière pour tous les liens de navigation relationnelle : tout objet de q en relation f 2 avec un objet satisfaisant f, est avant tout en relation f 2 avec quelque chose. La propriété (2) nous indique que ce quelque chose correspond en fait aux liens de navigation propres aux objets images de q par f 2, c-à-d. ext( f2 1.q). Pour une requête q et une relation f 2 données, l accès aux objets images de q par f 2, consiste à traverser la relation f 2. Ce mode de navigation relationnelle est détaillé dans la suite de cette section. La transformation associée à un lien de navigation relationnelle complexe peut donc être décomposée en une succession d étapes de navigation plus élémentaires : traversées de relations f 2. et transformations basées sur les formules de L 1. Nous restreignons donc le calcul des liens de navigation à un sous-ensemble fini de formules de L, le vocabulaire de navigation dont les éléments sont appelés des traits. Définition 2.20 (Vocabulaire de navigation) Soit le contexte K = (K 1, K 2 ). Le vocabulaire de navigation est défini comme le sous ensemble de traits : feat(k) = def feat 1 (K 1 ) { x 2.x x 2 feat 2 (K 2 ), x feat(k 1 )}. La fonction feat 1 5 (resp. feat 2 ) permet d extraire un vocabulaire de navigation propre feat 1 (K 1 ) (resp. feat 2 (K 2 )). Par défaut, la fonction feat 1 retourne l ensemble fini des formules de L 1 utilisées pour décrire les objets de K 1, ainsi que d éventuels motifs de L 1 déjà utilisés dans des requêtes saisies par l utilisateur (idem pour feat 2 ). L ensemble des liens de navigation devient donc nav(q) = def {x feat(k) ext(q) ext(x)}. Il est peu probable dans la pratique que les formules relationnelles faisant intervenir plus d un niveau d indirection soient réellement exploitées par un utilisateur humain. Ce dernier préférera a priori décomposer sa navigation. Pour chaque requête exprimée par un utilisateur, un SIL est en mesure de calculer : 1. l extension de la requête, c-à-d. l ensemble des objets dont la description satisfait la requête, 2. un ensemble fini de liens de navigation. Nous avons vu que les liens de navigation permettent à partir d une requête courante de construire de nouvelles requêtes. Ils sont exprimés sous la forme de formules logiques, qui sont partagées par au moins un objet de la requête courante. Ils fournissent donc également une information sur la diversité des objets sélectionnés par la requête courante. Du point de vue de la navigation, les formules relationnelles f 2.f 1 avec f 1 L 1 \ { }, n augmentent pas l espace des requêtes qui sont atteignables en se limitant uniquement aux formules f 2.. Cependant elles fournissent une description 5 Feature est le terme anglais désignant un trait caractéristique.

72 70 Chapitre 2 : Systèmes d information logiques supplémentaire sur l image des objets en relation, qui est facilement interprétable par un utilisateur (car ne comportant qu une seule indirection relationnelle, c-à-d. un seul symbole ) Les différentes opérations de navigation Nous explicitons maintenant les transformations de requête associées aux différentes opérations de navigation réalisables dans le treillis C : le raffinement de requête, l élargissement de requête, la traversée de relation et le retournement de requête. Nous considérons particulièrement deux classes parmi les liens de navigation : 1. ceux qui permettent de passer d un concept à un concept plus spécifique ( au sens de la relation d ordre sur le treillis de concepts), que nous appelons incréments de requête. Un incrément de requête permet de transformer une requête en une requête plus spécifique, c-à-d. de réduire strictement le nombre d objets sélectionnés. 2. ceux qui à l inverse permettent d atteindre un concept plus général, et que nous appelons décréments de requêtes. Un décrément transforme une requête en une requête plus générale, c-à-d. décrivant un nombre égal ou supérieur d objets. Définition 2.21 (incréments de requête) Les incréments de la requête q L q dans le contexte K sont définis par : incr(q) = def {x feat(k) ext(q) ext(x) ext(q)} Définition 2.22 (décréments de requête) Les décréments de la requête q L q dans le contexte K sont les liens : decr(q) = def {x feat(k) q x} Les incréments et les décréments définissent un ensemble disjoint de liens de navigation : incr(q) decr(q) =. Un incrément x d une requête q permet de raffiner cette requête en combinant x et q par : refine(q, x) = q x). Cette égalité est toujours vérifiée sur le plan logique. Théorème 2.2 (raffinement de requête) Le raffinement d une requête q L q par un incrément x incr(q) vérifie toujours : refine(q, x) q x Cependant lorsque qu une requête q est composée de sous-formules q plus générales que l incrément x, il est plus élégant de remplacer directement ces formules par x. Nous proposons une définition fonctionnelle du raffinement comme une opération de réécriture syntaxique.

73 Théorie : L Analyse de concepts logiques 71 Définition 2.23 (raffinement de requête) Le raffinement d une requête q L q, considérée sous sa forme normale conjonctive, par un incrément x incr(q) correspond à l opération de réécriture : refine(q, x) = def (q \ {q q x q }) {x} La figure 2.4 illustre l opération de raffinement d un point de vue extensionnel. Fig. 2.4 Raffinement d une requête par un incrément x. La flèche illustre le passage de l extension d une requête initiale à l extension de la requête raffinée. Le cas général d une requête q raffinée par un incrément x est présenté à gauche. Le cas particulier d une requête q y où la sous formule y est spécialisée par x est présenté à droite. A l inverse d un incrément, un décrément x d une requête q permet d élargir cette requête soit (1) en retirant la sous-formule x de q si x apparaît dans q, soit (2) en généralisant chaque sous-formule de q plus spécifique que x par x sinon. L élargissement ne s exprime que par une opération de réécriture syntaxique : à la différence du raffinement, il n est pas possible de lier logiquement une requête q et le résultat de son élargissement par un décrément x. Définition 2.24 (élargissement de requête) L élargissement d une requête q L q, considérée sous sa forme normale conjonctive, par un décrément x decr(q) correspond à l opération de réécriture : widen(q, x) = def { (q \ {x} si x q (q \ {q q q x}) {x} sinon L élargissement de requête en ACL peut être comparé à l opération de navigation cd.. dans un système de fichiers hiérachiques. Cette opération permet de généraliser le chemin courant en un chemin où le répertoire le plus profond a été enlevé, c-à-d. par exemple passer du chemin /a/b/c au chemin /a/b/. L élargissement de requête q par x

74 72 Chapitre 2 : Systèmes d information logiques offre le même service sur une sous-formule de la requête q logiquement liée au décrément x. La figure 2.5 traduit graphiquement l opération d élargissement de requête. Fig. 2.5 Élargissement d une requête par un décrément x. Le cas général d une requête q = q x généralisé en q est présenté à gauche. Le cas particulier d une requête q = q y où y est une formule plus spécifique que x est présenté à droite : q est généralisée en q x. Un lien de navigation f 2.f 1 pour une requête q indique que certains objets de ext(q) sont en relation f 2 avec des objets décrits par la formule f 1. Il peut être utilisé pour raffiner q si c est un incrément, ou pour la généraliser si c est un décrément. Cependant il peut aussi être utilisé pour traverser la relation f 2 et atteindre l ensemble des objets images de la requête par cette relation. Définition 2.25 (traversée de relation) Pour toute requête q L q, et tout lien de navigation f 2.f 1 nav(q), la traversée de la relation f 2 correspond à la transformation : trav(q, f 2.f 1 ) = def f 1 f 1 2.q Si q est exprimée sous sa forme normale conjonctive, alors cette transformation s exprime de la façon suivante : trav(q, f 2.f 1 ) = def {f 1, f 1 2.q} Comme illustrée dans la figure 2.6, la navigation par traversée de relation à partir du lien de navigation f 2.f 1 nav(q) se décompose en 2 étapes successives : tout d abord un raffinement pour sélectionner parmi les objets de l extension de q, ceux en relation f 2 avec des objets satisfaisant f 1, puis la traversée à proprement dit de la relation f 2 pour atteindre l image de ces objets. Traverser une relation permet de changer de point de vue sur la requête en passant du côté origine au côté image de la relation. Une fois la relation traversée, il est possible de

75 Théorie : L Analyse de concepts logiques 73 Fig. 2.6 Navigation de la requête q à la requête q par traversée de la relation f 2. L étape 1 désigne le raffinement de q par f 2.f 1, l étape 2, la traversée de la relation f 2. raffiner, d élargir la requête caractérisant le côté image, mais aussi de traverser d autres relations pour changer à nouveau de point de vue sur la requête. Il est donc également possible de retraverser notre relation de départ en sens inverse (ou de façon équivalente, traverser la relation inverse), pour revenir au point de vue initial sur la requête. En partant d une requête q, la traversée successive d une relation f 2 et de son inverse mène à la requête : trav(trav(q, f 2. ), f 1 2. ) = f 2.( f 1 2.q) = f 2. f 1 2.q Nous avons vu précédemment que lorsque f 2 est une fonction injective, f 2. f2 1.q = q f 2.. Dans le cas général, la traversée de f 2 puis de f2 1 en partant de q mène à l ensemble de tous les objets qui partagent une image commune par f 2 avec un objet réponse de q. D un point de vue pratique, ce résultat peut être troublant pour un utilisateur. C est cependant un résultat tout à fait normal. Par exemple, ayant sélectionné des immeubles (q = immeuble), puis traversant la relation architecte ( architecte. ) pour connaître les architectes qui les ont construits, on peut traverser la relation architecte dans l autre sens ( architecte 1. ) pour sélectionner tous les immeubles dont l architecte est connu (q = Immeuble.architecte. ). Pour étendre le principe de changement de point de vue par navigation aux relations n étant pas des fonctions injectives, nous introduisons une dernière opération, le retournement d une requête sur une de ses branches relationnelles. L idée est de passer d une requête comme «les immeubles dont l architecte est américain» à «les américains ayant conçu des immeubles». Cette opération de navigation est entièrement définie à partir de la syntaxe de la requête, et ne s appuie pas du tout sur l espace de navigation du treillis. Définition 2.26 (retournement de requête) Le retournement de la requête q = q 1 f 2.q 0 avec q 0, q 1 L q sur sa partie f 2.q 0 est défini par : rev(q 1 f 2.q 0, f 2.q 0 ) = def q 0 f 1 2.q 1

76 74 Chapitre 2 : Systèmes d information logiques Si q est exprimée sous sa forme normale conjonctive, alors le retournement correspond à : rev({q 1, f 2.q 0 }, f 2.q 0 ) = def {q 0, f 1 2.q 1} Comme l illustre la figure 2.7, le retournement de la requête q = q 1 f 2.q 0 est équivalent sur le plan extensionnel à la traversée de la relation f2 1 : f2 1.(q 1 f 2.q 0 ), suivie de la restriction aux objets satisfaisant q 0 : f2 1.(q 1 f 2.q 0 ) q 0. Fig. 2.7 Requête q retournée sur sa branche relationnelle f 2.q 0 en q. Exemple 6 (Navigation) A l aide du contexte cinématographique, nous illustrons maintenant comment construire une requête complexe en appliquant successivement différentes opérations de navigation. Nous commençons par la requête la plus générale : q 0 =, qui décrit tous les objets du contexte. 1. Nous effectuons un premier raffinement avec le lien de navigation style:action pour ne sélectionner que les films d action : q 1 = style:action 2. Ensuite, nous effectuons un autre raffinement avec le lien de navigation relationnel joue 1.(nom: Quentin Tarantino ). La nouvelle requête nous fournit les films d action dont Quentin Tarantino est un acteur : q 2 = style:action joue 1.(nom: Quentin Tarantino ) 3. Puis, en utilisant le lien de navigation relationnel joue.( ), nous traversons la relation joue depuis la requête précédente pour passer au point de vue Artiste, et sélectionner les acteurs apparaissant dans un film d action où apparaît aussi Quentin Tarantino : q 3 = joue.q 2 q 3 = joue.(style:action joue 1.(nom:"Quentin Tarantino"))

77 Théorie : L Analyse de concepts logiques Nous restreignons notre sélection aux actrices avec le lien sexe:f : q 4 = joue.(style:action joue 1.(nom: Quentin Tarantino )) sexe:f 5. Enfin, nous revenons au point de vue film en retournant la requête sur sa branche joue.q 2. La requête finale décrit alors les films d action où Quentin Tarantino a joué aux côtés d une actrice : q 5 = style:action joue 1.(nom:"Quentin Tarantino") joue 1.(sexe:F) Index de navigation Pour faciliter la navigation de l utilisateur, les liens de navigation nav(q) lui sont présentés de façon ordonnée dans un index de navigation. De plus, chaque lien de navigation x est renseigné par 2 comptes n q et n O qui indiquent le nombre d objets décrits par x respectivement dans la sélection courante et dans l ensemble du jeu de données. Chaque triplet (x, n q, n O ) est un nœud de navigation. Définition 2.27 (nœud de navigation) l ensemble des nœuds de navigation N d(q) associé à la requête q est défini par : Nd(q) = ({(x, n q, n O ) x nav(q), n q = card(ext(q) ext(x)), n O = card(ext(x))}) Les deux comptes n q et n O peuvent être interprétés de la façon suivante : n q correspond au nombre d objets réponses de q qui sont décrits par x. Il permet de quantifier l impact d un raffinement. n O correspond au nombre total d objets de O qui sont décrits par x. La proportion n q /n O indique dans quelle mesure la part des objets décrits par x dans la requête q est représentative de l ensemble des objets décrits par x dans l ensemble O. Par construction, n q n O. Si n q /n O est proche de 1 cela signifie que q sélectionne la plupart des objets qui ont propriété x. Au contraire, si n q /n O est proche de 0 cela signifie que q exclut la plupart des objets décrits par x. A l occasion du chapitre 4, nous discutons de l interprétation de ces comptes en terme de probabilités conditionnelles. La relation d ordre partiel est étendue en pour permettre d organiser les nœuds des plus généraux aux plus spécifiques dans l index de navigation. Définition 2.28 (index de navigation) L index de navigation associé à la requête q est l ensemble de nœuds partiellement ordonné : avec la relation d ordre définie par : index(q) = (Nd(q), ) (x, n q, n O ), (x, n q, n O) Nd(q) (x, n q, n O ) (x, n q, n O) ssi x x L index est construit dynamiquement et étendu à la demande de l utilisateur : initialement, l index ne contient qu un premier niveau de nœuds correspondant aux liens

78 76 Chapitre 2 : Systèmes d information logiques les plus généraux. Puis pour chaque nœud (x, n q, n O ) de l index, l utilisateur peut demander le calcul de ses sous-nœuds directs, c-à-d. les nœuds correspondant aux liens y maximaux strictement plus spécifiques que x au sens de. Ces liens sont donnés par la formule : sublinks(q, x) = Max {y nav(q) y x, x y} À chaque action de navigation ou d interrogation de l utilisateur, l index de navigation est mis à jour, de sorte que seuls les liens de navigation nav(q) pertinents pour la requête q courante sont présentés à l utilisateur. L index de navigation index(q) est un outil de navigation, mais au delà, il fournit également une description détaillée et organisée des sous-ensembles d objets décrits par q. En effet, chaque sous-ensemble est décrit par la formule d un lien de navigation, sa taille par les comptes associés. Plus globalement, l ensemble des formules et des comptes de l index de navigation constitue en quelque sorte un résumé structuré des objets décrits par la requête courante. L index de navigation est donc à la fois un outil de navigation et une structure de représentation de l information. Ce principe de navigation et d organisation de l intention d un ensemble d objets est similaire au modèle des Taxonomies dynamiques [Sac00]. Dans ce modèle, une sélection courante d objets est décrite par une taxonomie de descripteurs, c-à-d. un ensemble de descripteurs ordonnés selon une relation de subsomption. Comme dans l index de navigation, chaque descripteur est renseigné par le nombre d objets qu il décrit. Les descripteurs sont des éléments que l utilisateur peut sélectionner pour modifier la sélection courante par des opérations équivalentes au raffinement et à l élargissement en ACL. Le modèle des taxonomies dynamiques est dynamique au sens où chaque modification de la sélection courante entraîne la reconstruction de la taxonomie. Comme pour les liens de navigations en ACL, ne sont conservés que les descripteurs qualifiant au moins un objet de la sélection courante. Cependant, vis à vis de l ACL, la principale limitation des taxonomies dynamiques dans leur forme actuelle [Sac07] tient dans l abscence de prise en compte des relations explicites entre objets et d inférence logique Synthèse sur l Analyse de concepts logiques L Analyse de concepts logiques est un cadre offrant une organisation flexible des données. Aucune décomposition des données n est favorisée a priori. Au contraire, tout regroupement d objets peut être considéré, allant de la granularité minimale où l on considère l ensemble de tous les objets, à la granularité maximale où l on distingue tous les ensembles d objets dont la description est identique. Concernant la recherche d information, l ACL fournit trois vues complémentaires sur l ensemble d objets à explorer : 1. une vue intensionnelle compacte : la requête. 2. une vue extensionnelle : l ensemble des objets sélectionnés, défini comme l extension de la requête. 3. une vue intensionnelle détaillée : l index de navigation, qui organise toutes les formules décrivant au moins un objet de la sélection.

79 Pratique : Les outils logiciels 77 La cohérence des trois vues est garantie par le modèle. Ce principe est illustré dans la figure 2.8 : toute modification de la requête entraîne la mise à jour de l extension et de l index de navigation. De plus, les interactions entre les vues requêtes et index de navigation permettent de combiner librement interrogation et navigation dans un même processus de recherche d information. En effet, chaque étape de navigation modifie la requête courante et donc déclenche une interrogation. Fig. 2.8 Interaction entre les trois vues de l Analyse de concepts logiques. Comme évoqué en début de section, la présentation de l Analyse de concepts logiques qui vient d être faite est une synthèse de différentes extensions apportées à la forme initiale de l ACL formalisée dans la thèse de Ferré [Fer02]. Plus précisément, la prise en compte des relations explicites dans la description des objets, ainsi que leur utilisation pour la navigation par traversée de relation ont été formalisées par Ferré, Ridoux et Sigonneau dans [FRS05]. Les contributions propres de cette thèse concernent l introduction de la navigation par retournement de requête, la formalisation des différentes opérations de navigation, ainsi que la présentation des liens de navigation sous la forme d un index [BFR08]. 2.3 Pratique : Les outils logiciels On appelle Système d information logique (SIL) un système qui met en œuvre les opérations de l Analyse de concepts logiques. Du point de vue d un utilisateur, un SIL a pour objectif de faciliter la gestion de ses données. Nous avons vu précédemment que pour répondre à cette demande, l ACL fournit un cadre où sont formalisées une organisation flexible des données et des modalités de recherche d information par interrogation

80 78 Chapitre 2 : Systèmes d information logiques et par navigation. Cependant pour représenter une alternative intéressante aux systèmes d information classiques (bases de données, systèmes hiérarchiques), les services offerts par un SIL ne doivent pas se faire au détriment de son utilisabilité. Notamment, les temps de réponse du système doivent être acceptables, et les interfaces de manipulation adaptées au paradigme des SIL. D où l importance de proposer des implémentations pratiques de SIL pour confronter ces systèmes à la gestion de véritables jeux de données et tester leur interface utilisateur. Dans la suite de cette section, nous présentons deux implémentations différentes de SIL, Camelis et LisFS. Camelis est un SIL orienté utilisateur dédié à la gestion d une collection de données personnelles comme par exemple des photos, des fichiers musicaux ou des signets internet. C est une application totalement conforme au modèle de l ACL et qui dispose d une interface graphique s appuyant sur un index de navigation. LisFS est une autre implémentation d un SIL sous la forme d un système de fichiers Linux. Les structures de données et les appels systèmes ont été modifiés pour satisfaire la sémantique d un SIL. L un des avantages de cette approche est d offrir de façon transparente les services d un SIL à toute application accédant au système de fichiers : gestionnaire de fichiers, lecteur multimédia, éditeur de texte, etc. Cependant, pour des raisons d efficacité, la logique de LisFS n est pas complètement générique : la logique propositionnelle a été privilégiée, d autres logiques pouvant être ajoutées au système sous forme de plugins. Nous présentons ensuite deux outils logiciels qui permettent de paramétrer un SIL pour une application ad hoc : les transducteurs et la librairie de foncteurs logiques LogFun. Les transduceurs sont des plugins permettant d extraire automatiquement la description d objets. LogFun est une bibliothèque de foncteurs logiques qui permet de construire des logiques ad hoc en composant des briques logiques élémentaires. Les logiques ainsi créées sont ensuite intégrées au moteur logique d un SIL Camelis Camelis 6 est un SIL programmé en Objective Caml, d où son nom CAMeL-LIS. Il se présente comme une application autonome assistant l utilisateur dans l organisation et la recherche de ses données personnelles telles que photos, fichiers musicaux, signets internet ou encore s. Camelis ne manipule pas directement de données utilisateurs. Les objets de son contexte sont des références vers des objets réels (fichiers, parties de fichiers) stockés dans un système de fichiers classique. Toutes les opérations effectuées sur le contexte (ajout, suppression d objets, modification de description) n ont pas de conséquences sur les objets réels. Cependant, les objets sélectionnés dans l application peuvent être utilisés comme entrée d un programme externe (visionneur d images ou lecteur multimédia par exemple). Pour chaque type de fichier pris en compte, Camelis s appuie sur un transducteur qui extrait automatiquement la description intrinsèque des objets de ce fichier. Cette description peut ensuite être complétée par l utilisateur dans l interface de Camelis. La logique de Camelis est construite au moyen des foncteurs de LogFun, permettant 6 http ://

81 Pratique : Les outils logiciels 79 ainsi d exploiter des domaines concrets variés dans la description des objets : chaîne de caractères, nombre, date, ou encore ensemble de valeurs symboliques. Au travers de l interface graphique de Camelis, l utilisateur peut visualiser son jeu de données selon les trois vues de l ACL : la requête courante, la sélection courante (extension de la requête) et l index de navigation. Cette interface graphique sert de support pour expérimenter le paradigme SIL dans la gestion d une collection de données personnelles, notamment en terme de navigation et de représentation graphique [Fer07]. La version actuelle de l application ne permet pas de représenter les relations explicites entre objets LisFS LisFS 7 [PR03] est un SIL construit come un système de fichiers et offrant l interface d un système de fichiers Linux. LisFS s appuie sur le module Fuse 8 qui redirige les appels systèmes du noyau vers l espace utilisateur. Le système est donc programmé au niveau utilisateur et n est pas par conséquent lié intrinsèquement au système Linux. Le système LisFS se monte comme un système de fichiers classique sur un répertoire de l arborescence Linux. Tout accès et toute opération réalisée sur la branche partant de ce point de montage est ensuite gérée par le système LisFS. Toute application cliente réalisant des appels systèmes sur cette branche bénéficie donc gratuitement de l organisation d un SIL La sémantique du système de fichiers LisFS LisFS est avant tout un système de gestion de fichiers. La sémantique associée aux éléments (fichier, répertoire) et aux opérations (cd, ls, mkdir...) d un système de fichiers traditionnel a donc été modifiée pour satisfaire le paradigme SIL. Les fichiers sont les objets du SIL, les répertoires sont les attributs descriptifs de ces objets. Un chemin absolu est une requête, le répertoire de travail (retourné par la commande shell pwd) correspond à la requête courante. Les sous-répertoires du répertoire de travail sont les incréments de la requête courante. Une requête peut inclure des conjonctions, disjonctions ou négations d attributs qui sont interprétées par une logique propositionnelle câblée dans le système. La commande shell cd path permet de modifier la requête courante par interrogation (path est un chemin absolu), ou par navigation (path est un chemin relatif). ls renvoie l extension de la requête courante et ses incréments, c-à-d. les fichiers du répertoire de travail et ses sous-répertoires. mkdir rep et rmdir rep permettent de créer et de supprimer des attributs décrivant des objets. Dans le cas d un attribut rel correspondant à une relation, la syntaxe est : mkdir rel>true et rmdir rel>true. La commande mv f path associe une description (chemin path) à un objet (fichier f). mv f1 rel>=f2 associe la relation rel à la paire d objets (f1,f2). touch f (resp. rm f) crée (resp. supprime) un objet. 7 http ://lfs.irisa.fr/download/ 8 http ://fuse.sourceforge.net/

82 80 Chapitre 2 : Systèmes d information logiques Une des conséquences de ce changement de sémantique est que dans LisFS un même objet est accessible depuis plusieurs chemins. Par exemple, les chemins /a/b et /b/a sont équivalents. L interface d un système de fichier Linux n offre pas de structure permettant de représenter directement un index de navigation. Cependant, LisFS dispose pour la commande ls d un mécanisme de vue sur les attributs. Ce mécanisme offre un service équivalent à l opération sublinks présenté précédemment : pour un attribut donné, le calcul des incréments est restreint à ses attributs plus spécifiques maximaux, au regard de la logique de LisFS. Il est donc possible de construire pour chaque requête l arbre de navigation associé en effectuant une suite de commandes ls PofFS : Un système de parties de fichiers En plus d être un système de fichiers, LisFS dispose d un mode de fonctionnement lui permettant de gérer des parties de fichiers. Dans ce mode baptisé PofFS [PR05] (pour Parts-of-file File system), les objets sont les lignes d un fichier. Les attributs extraits de chaque ligne du fichier par un transducteur spécial sont des répertoires. Le résultat d une requête est donc un ensemble de lignes qui définissent une vue particulière sur le fichier d origine. Les lignes non sélectionnées par la requête sont masquées dans la vue associée. Le mode PofFS permet par exemple de ne considérer que les entêtes de section d un fichier L A TEX, de masquer tous les commentaires d un code source, ou encore de n afficher que certaines parties d une page HTML. Ce mode n est pas seulement limité à la consultation des parties de fichiers, il permet aussi leur mise à jour : toute modification d une vue sur un fichier est répercutée sur l ensemble des autres vues Performances Le temps de réponse du système LisFS dépend directement de la taille du contexte, c-à-d. du nombre de paires (objet, attribut), et de la complexité de la comparaison entre attributs. Dans le pire des cas, les opérations d un LIS sont de complexité polynomiale en temps de calcul. Cependant, sous l hypothèse d indépendance (voir encart page 81), ces opérations sont de complexité linéaire. Dans la pratique, le temps de réponse de LisFS à une requête est linéaire avec la taille du contexte. Ce temps reste acceptable jusqu à n une taille de contexte de (n objets décrits par attributs chacun). En revanche, les opérations de mise à jour du contexte sont plus coûteuses en temps. La consultation des données a pour l instant été privilégiée sur la mise à jour qui reste une piste d amélioration du système Transducteurs Pour importer des données existantes, les SIL s appuient sur des transducteurs, des composants logiciels permettant d extraire automatiquement des descriptions logiques d objets représentés par des fichiers ou des parties de fichiers d un type particulier. Par exemple, un transducteur de fichiers photos s appuie sur les informations EXIF du fichier pour former une description logique renseignant le type d appareil utilisé, les

83 Pratique : Les outils logiciels 81 Hypothèse d indépendance Un contexte vérifie l hypothèse d indépendance si la description de chacun de ces objets ne dépend pas de celles des autres objets. En particulier, la description d un objet ne dépend pas de son rang d insertion dans le contexte. Les contextes qui mettent en évidence la complexité polynomiale de l ACL ne respectent pas cette hypothèse, par exemple lorsque l objet de rang n a la description de l objet de rang (n 1) plus un attribut nouveau. Quand une application modélisée par l ACL respecte l hypothèse d indépendance, on peut parler de taille moyenne des descriptions. Celle-ci ne dépend que de l application et non du nombre d objets représentés. Cette hypothèse est automatiquement satisfaite quand le processus qui attribue une description à chaque objet est sans état : il décrit un objet sans connaître les autres objets. En réalité, la description des objets d une application ACL peut dépendre de l historique de cette application sans que cela soit explicite pour le SIL qui implémente l application. Il convient donc alors de vérifier expérimentalement l hypothèse d indépendance. En pratique, tous les jeux de données qui ont pu être traités dans l équipe LIS ont vérifié cette hypothèse : par exemple, des message électroniques décrits par leurs champs «From, To et Object» afin de les classer automatiquement dans des folders et de filtrer les spams [Fer02], des méthodes de packages Java décrites par leur type, celui de leur classe et des mots clés extraits de leur identificateur et des commentaires afin de réutiliser plus facilement ces composants logiciels [SR04], des captures de rongeurs sahéliens décrites sur plus de 100 ans par l IRD (Institut de Recherche pour le Développement) par une position, une date, et une description du rongeur afin de vérifier des hypothèses de répartition (voir chapitre 5). On peut montrer que sous cette hypothèse, la complexité des opérations de l ACL est linéaire [Fer02]. Algorithmiquement, cette hypothèse revient à considérer le contexte logique comme une matrice creuse alors que les coûts pathologiques sont obtenus avec des matrices pleines.

84 82 Chapitre 2 : Systèmes d information logiques réglages, la date de prise de vue et les caractéristiques de l image. Un transducteur de fichiers musicaux lit l entête des fichiers et en extrait le titre du morceau, le nom de l album, du groupe ou encore la durée du morceau. Un transducteur BIBT E X crée un objet pour chaque entrée présente dans le fichier BIBT E X et leur associe une description formée à partir des différents champs BIBT E X. Les descriptions issues des transducteurs ne dépendent que de la forme et du contenu des objets qu elles caractérisent, ce sont des descriptions intrinsèques. En complément de ces descriptions intrinsèques, l utilisateur peut étiqueter les objets avec des formules ne pouvant être facilement extraites automatiquement, comme par exemple le nom des personnes apparaissant sur une photo. Ces descriptions propres à un utilisateur particulier sont appelées descriptions extrinsèques et permettent de traduire un système de classification particulier ou un jugement de valeur ; l utilisateur peut utiliser la formule «top50» pour décrire ses morceaux de musique préférés LogFun Dans le modèle théorique de l ACL, les logiques utilisées pour décrire les objets et les relations sont génériques. La bibliothèque LogFun 9 est une implémentation sous forme de composants logiciels des foncteurs logiques introduits dans la section Ces foncteurs logiques permettent à tout utilisateur, a priori non spécialiste en logique, de construire une logique dédiée à un domaine concret complexe (en bio-informatique, par exemple) par composition de logiques existantes. L un des avantages de cette approche est que les propriétés de cohérence et de complétude de la logique construite sont vérifiées lors de la composition. Les foncteurs logiques sont implémentés dans le langage de programmation OCaml [Ler05] sous la forme de modules paramétrés. Dans OCaml, un module paramétré est également appelé un foncteur de modules. C est un module qui prend en argument un ou plusieurs modules. La composition de modules en OCaml est relativement simple et ne nécessite pas de compétence particulière en programmation, comme nous allons l illustrer dans la suite. La bibliothèque fournit un certain nombre de logiques atomiques (ou initiateurs) : Atom (désigne un ensemble de propriétés atomiques), Int, String ou encore Float (logique sur les nombres réels, à virgule flottante). Parmi les logiques paramétrables (ou combinateurs) à disposition, Prod, Sum, Option, Set, Prop, Interval, Vector (les formules de la logique résultat sont des tuples de formules de la logique argument), BinaryTree (les formules résultats représentent des arbres binaires dont les feuilles sont des formules de la logique argument). Les détails techniques sur l implémentation des différents foncteurs ainsi que les preuves des propriétés sont disponibles dans le rapport interne [FR06]. Voici un exemple de composition de foncteurs logiques : module L_FLOAT = Interval (Float) module L_AV = Prod (Atom) (Option (L_FLOAT)) module L = Set (L_AV) 9 http ://

85 Application : Les données géographiques? 83 La logique L_FLOAT correspond à une logique d intervalle sur les réels. L_AV est une logique d attributs valués ou les attributs sont désignés par des atomes et les valeurs, facultatives, par des formules de L_FLOAT. Enfin, L permet d utiliser un ensemble d attributs valués de L_AV dans une formule. Chaque foncteur logique embarque un démonstrateur automatique chargé de vérifier à partir des propriétés garanties par les logiques arguments les bonnes propriétés de la logique résultante (principalement la cohérence et la complétude de la subsomption). En plus, chaque foncteur possède un parser et un pretty printer qui font au besoin appel aux parsers et aux pretty-printers des logiques arguments. Les opérations de subsomption, de parsing et de pretty-printing constituent l interface au travers de laquelle le moteur d un SIL appelle la logique. 2.4 Application : Les données géographiques? Nous avons montré au cours de ce chapitre que les SIL offraient un cadre générique pour l organisation et l exploration de données. Nous nous interrogeons dans cette section sur l opportunité de les appliquer à la gestion de données géographiques Un cadre adéquat La flexibilité de regroupement permise par le modèle des SIL est une alternative à la rigidité de structuration imposée par les modèles hiérarchiques et les bases de données. De plus, l approche SIL permet de combiner librement les avantages de chacun des deux systèmes en terme de recherche d information : la navigation, propre aux systèmes hiérarchiques, et l interrogation, caractéristique des bases de données. Dans le chapitre précédent, nous avons souligné les similarités entre le modèle d organisation traditionnel des données géographiques en couches et le modèle des bases de données. Un SIL apporte donc aux données géographiques une liberté de structuration absente des bases de données, et qui permet de considérer : un modèle de couche dynamique, définie comme la collection d objets décrits par une requête donnée. Ce modèle peut se substituer au modèle de couche statique où l affectation d une information à une couche est statique et rigide. une description indépendante et libre de chaque objet. Le modèle de données des SIL est centré sur l objet et non sur la collection d objets, il n y a pas de schéma de description imposé comme dans le modèle en couches. De plus, la logique des SIL fournit un cadre générique pour représenter les différentes caractéristiques (spatiales et thématiques) des objets géographiques. Nous détaillons dans la section suivante les principaux domaines concrets et types de relation qu un SIL appliqué au domaine géographique doit prendre en charge. Concernant la recherche d information, en plus de garantir l accès classique aux données géographiques par interrogation, un SIL introduit une nouvelle modalité d accès par navigation. La navigation définie dans l ACL peut potentiellement étendre le principe de navigation des hypermaps (présenté à la section 1.4.5) selon plusieurs axes :

86 84 Chapitre 2 : Systèmes d information logiques en proposant des liens de navigation calculés automatiquement en fonction du contexte de navigation, en étendant la navigation aux différentes facettes des données géographiques : sa représentation spatiale et ses différents attributs thématiques Des spécificités à prendre en compte La logique constitue la pierre angulaire des SIL. C est elle qui détermine l expressivité des descriptions et donc du langage d interrogation et de navigation. Dans le cadre d une application au domaine géographique, il est donc essentiel d identifier les caractéristiques à extraire des données pour, au minimum, satisfaire les usages courant de l information géographique. Dans la section 1.4, nous avons vu que deux fonctionnalités élémentaires concernant les données géographiques sont : 1. l adressage qui consiste à qualifier sémantiquement les objets à partir de leur position (la question associée est : Qu y a-t il là?), 2. la localisation qui vise à déterminer la position d un objet en partant de sa sémantique (la question associée est : Où se trouve cela?). Dans le cas de l adressage, il est essentiel de pouvoir représenter une position et la comparer aux positions des objets gérés par le système. L approche classique pour manipuler des positions consiste à s appuyer sur la géométrie des objets. Une logique «géographique» doit donc pouvoir intégrer des descriptions géométriques. Localisation et adressage sont souvent exprimés par des conditions sur les attributs thématiques et sur la description géométrique des objets géographiques. La logique d un SIL dédié aux données géographiques doit donc permettre de raisonner sur les valeurs des attributs thématiques, exprimées dans les types de données standards des bases de données : nombre (entier, réel), chaîne de caractères, date et booléen. des propriétés géométriques : enveloppe convexe, centroïde, frontière... des propriétés dérivées des géométries : superficie, longueur, ou encore indicateurs de forme (dimension, nombre de côtés, convexité...). La plupart des opérations d analyse spatiale s appuient directement sur la géométrie des objets géographiques. Si cette géométrie est déjà prise en charge par la logique d un SIL, il devient envisageable de déléguer directement certains traitements spatiaux à cette logique (dérivation de géométrie, extraction de propriétés). Les relations entre objets sont également utilisées pour exprimer des requêtes. Dans le cas de données géographiques, il faut tout particulièrement pouvoir raisonner sur les relations spatiales. Les relations spatiales basiques 10 utilisées dans les SIG sont principalement les relations de distance, de direction et les relations topologiques entre deux objets. Ce sont exclusivement des relations binaires qui peuvent être valuées. Le 10 Nous ne nous intéressons pas ici aux opérations d analyse spatiale tels que la recherche de plus courts chemins ou de plus proches voisins qui permettent de déterminer des relations plus complexes entre un nombre variable d objets.

87 Application : Les données géographiques? 85 modèle des relations en ACL semble donc bien adapté pour représenter ce type de relations spatiales. Enfin, la logique d un SIL géographique doit aussi a priori représenter et traiter les systèmes de coordonnées et les échelles d utilisation associés aux données géographiques pour autoriser, interdire, voire réaliser les transformations nécessaires à la comparaison d objets géographiques. Nous présentons dans le chapitre suivant comment, dans le cadre d un SIL, intégrer ces contraintes dans la construction d une logique et de façon plus générale d un modèle de données adaptée aux données géographiques Une approche orientée Recherche et Visualisation L organisation flexible propre aux SIL peut impacter en aval la façon de traiter l information géographique. Nous avons déjà évoqué la réalisation de certaines opérations spatiales au sein de la logique. Parallèlement, en amont, d autres modalités de représentation de l information géographique peuvent aussi être envisagées. Par exemple, l expressivité de la logique permet a priori d associer plusieurs représentations spatiales à un même objet géographique. Le mécanisme de déduction logique pourrait alors être utilisé pour déterminer la ou les représentations pertinentes pour un contexte donné. La définition de la logique pourrait également être étendue pour offrir en plus de la relation de subsomption, des opérations d agrégation, de généralisation ou de simplification géométrique. Dans la suite de cette thèse, nous avons fait le choix de développer un aspect particulier concernant la gestion de données géographiques avec un SIL : la recherche d information géographique. La recherche d information, par interrogation ou par navigation, est la fonctionnalité ayant suscité à l origine le développement des SIL. C est également une des principales fonctionnalités offertes par les systèmes manipulant des données géographiques. Il semble donc prometteur d appliquer le paradigme SIL à la recherche d information géographique. Nous développons cette piste de recherche dans le chapitre 4 où nous montrons que la navigation à la SIL combinée à une visualisation ad hoc des trois vues de l ACL fournit un outil adapté à l exploration des données géographiques.

88 86 Chapitre 2 : Systèmes d information logiques

89 Intermède Nous avons achevé le chapitre précédent en montrant que l ACL constitue un cadre adéquat pour l organisation et la manipulation de données géographiques. Entre autre, le modèle de données flexible de l ACL centré sur l objet est une réponse à la structure figée des couches géographiques. De plus, le principe de navigation de l ACL appliqué aux données géographiques constitue un mode d accès alternatif et complémentaire à l interrogation des SIG. Nous poursuivons cette thèse en présentant les différents aspects d un SIL dédié à l organisation et à la recherche de données géographiques. Nous avons baptisé ce système GEOLIS (acronyme pour GEOgraphical Logical Information System). Comme nous l avons vu dans le chapitre précédent, les SIL sont des systèmes d information : ils assurent la gestion de données, proposent un accès à l information articulé autour de différentes vues et sont de par leur nature sujet à de nombreuses interactions avec l utilisateur. Un SIL comme GEOLIS peut donc être considéré comme un système défini selon une architecture «Modèle-Vue-Contrôleur». Dans les chapitres suivants, nous présentons le système selon chacun de ces trois aspects. Tout d abord, le chapitre 3 détaille l aspect «Modèle» et caractérise notamment la prise en charge de la dimension spatiale des données géographiques. Ensuite, le chapitre 4 présente l un après l autre les aspects «Vue» et «Contrôleur». La notion de vue extensionnelle des SIL est étendue avec entre autre une représentation cartographique adaptée à la visualisation de la géométrie des objets géographiques. Les opérations de navigation et d interrogation sont également étendues à ce nouveau type de vue, augmentant ainsi les possibilités d interaction du système. Enfin, le chapitre 5 présente les caractéristiques techniques d un prototype qui réalise l ensemble des propositions du système GEOLIS. Ce prototype nous permet d illustrer l apport du système GEOLIS lors d expérimentations menées sur des jeux de données réels avec de vrais utilisateurs. 87

90 88 Intermède

91 Chapitre 3 Représentation des données géographiques et raisonnement spatial Les données géographiques décrivent des espaces réels au cœur de nombreuses interactions naturelles et humaines. À ce titre, une même donnée est susceptible d être exploitée pour des usages très variés. Il est donc a priori important de fournir une représentation et une organisation de ces données qui ne soient pas trop spécialisées pour un usage particulier. Nous avons vu au chapitre 1 que dans les SIG traditionnels ce biais est une conséquence de la structuration rigide des données géographiques en couches. Les SIL présentés au chapitre 2 disposent de la grande expressivité des logiques et d une organisation flexible, ce qui en font des candidats intéressants pour la représentation des données géographiques. Cependant pour la création d un SIL géographique, un GEOLIS, se pose le problème de la représentation logique des données géographiques. Comme nous l avons évoqué précédemment (section 2.4.2), ces données possèdent des caractéristiques géospatiales (géométrie, système de coordonnées, échelle d utilisation) et partagent des relations spatiales qui ne sont pas exprimables directement par des types de données simples (ex. : entier, chaîne de caractères, booléen). Une première approche consiste à construire le système GEOLIS comme une combinaison minimale d un SIL et d un SIG, en faisant du SIL un instrument de sélection des entités géographiques du SIG. Même minimaliste, ce couplage a le mérite de s affranchir de la structuration en couches des objets du SIG, et constitue en soi un progrès. Cependant, il est possible de faire mieux en intégrant réellement la dimension géospatiale dans les capacités de raisonnement du SIL. Pour cela, le modèle de données de GEOLIS doit être équipé de logiques spécialisées pour prendre en compte la géométrie des objets et leurs relations spatiales. C est ce modèle de données au centre de la représentation logique des données géographiques dans GEOLIS que nous présentons dans ce chapitre. Nous nous concentrons ici sur les logiques du modèle et leur mécanisme de raisonnement, et non sur le pro- 89

92 90 Chapitre 3 : Représentation des données géographiques et raisonnement spatial cessus de création des descriptions logiques 1. En d autres termes, nous nous intéressons dans ce chapitre aux fonctionnalités d «abstraction» et d «archivage» du système GEOLIS, mais nous ne développons pas la partie «acquisition» des descriptions. Les descriptions logiques sont extraites automatiquement des données géographiques au moyen de transducteurs spécialisés que nous présentons au chapitre 5. Dans la suite de ce chapitre, après une description générale du modèle de données (section 3.1), nous traitons de façon plus détaillée des logiques associées aux propriétés individuelles des entités géographiques (section 3.2), puis nous traitons des logiques associées aux relations (section 3.3). Ces logiques caractérisent en fait les contextes objet et relationnel de GEOLIS (voir chapitre 2). Pour chacun de ces deux contextes, nous développons particulièrement les aspects spatiaux essentiels pour la prise en charge de la représentation spatiale. Ensuite, nous comparons notre approche de représentation logique des données géographiques aux autres travaux du domaine (section 3.4). Enfin, nous concluons ce chapitre en indiquant quelques extensions possibles du modèle de données de GEOLIS (section 3.5). 3.1 Modèle de données Dans l approche vectorielle de représentation des données géographiques (voir section 1.2.2), l information est portée par un ensemble d entités géographiques. Chaque entité géographique décrit une entité du monde réel, par exemple un bâtiment, une route, ou encore un arrêt de bus. L entité géographique peut donc être considérée comme l élément de description atomique. De la même façon, l entité géographique tient une place centrale dans les opérations élémentaires de recherche d information que sont l adressage et la localisation (voir section 1.4) : la localisation consiste en effet à retrouver un ensemble d entités et leur position à partir d une description, alors qu à l inverse, l adressage vise à qualifier la description d un ensemble d entités données. L un des principes du paradigme d organisation des SIL est de centrer l information sur les objets intéressants pour l utilisateur, c-à-d. ceux qu il souhaite classer et retrouver grâce au système. Nous avons donc choisi assez naturellement de centrer le modèle de données de GEOLIS sur l entité géographique : une entité géographique est représentée par un objet dans le SIL. L organisation traditionnelle des données géographiques repose sur le regroupement d entités de nature homogène au sein d une même couche d information. Cette structuration induit deux niveaux de description des données, l entité et la couche. Chaque entité géographique traditionnelle porte une description individuelle composée d un ensemble de valeurs, chacune d elles décrivant une facette de l entité, c-à-d. un attribut défini dans son schéma de description. Dans cette description, la nature géographique d une entité est exprimée par une facette géospatiale à laquelle est associée une position exprimée généralement par une description géométrique 2. Les autres facettes, désignées 1 Les descriptions logiques sont les formules des logiques de GEOLIS qui permettent de décrire les objets et ne sont pas à confondre avec les Logiques de description (LD) présentées au chapitre 1. 2 De manière générale, une position ne s exprime pas forcément pas une suite de coordonnées géogra-

93 Modèle de données 91 comme les attributs thématiques, sont de même nature que les champs d une table dans une base de données relationnelles, et sont décrites par des types de données standard (ex. : entier, booléen ou encore chaîne de caractères). À l opposé, dans GEOLIS, les facettes spatiales et thématiques sont toutes exprimées dans le même formalisme au moyen de propriétés logiques. Les SIL disposent de logiques adaptées à la représentation des attributs thématiques. Cependant pour représenter et comparer des valeurs géométriques, nous avons défini des logiques spécialisées au domaine spatial. Les entités d une couche partagent un ensemble de caractéristiques communes qui sont traditionnellement rattachées à la couche à laquelle elles appartiennent. Ces propriétés sont, pour une partie, exprimées dans les méta-données de la couche : par exemple, le système de coordonnées. Cependant, l appartenance à une couche traduit également de façon implicite une caractéristique commune des entités qui la composent. Par exemple, une couche regroupe souvent des entités d un même type (ex. : bâtiment, parcelles ou zones) et localisées dans une zone géographique particulière (ex. : pays, commune ou ville). Au contraire, dans le modèle de données de GEOLIS, ces différentes caractéristiques propres à la couche géographique, et donc à ses entités, sont exprimées par des propriétés logiques qui sont rattachées à chaque objet de la couche. Le niveau de description est unique ; chaque objet porte de façon explicite sa description complète. L un des avantages de ce modèle centré sur l objet vis à vis des approches «base de données» est qu il n y a pas de schéma de description imposé. Chaque entité peut donc être décrite avec une précision arbitraire indépendemment des autres entités. La dimension spatiale propre à une entité s exprime au travers de sa description géométrique. Cependant dans de nombreuses applications d analyse spatiale, il est essentiel de pouvoir raisonner sur l arrangement spatial d un ensemble d entités les unes par rapport aux autres. Une solution consiste à exprimer pour chaque entité, les relations spatiales, par exemple de distance ou de topologie, qui la lient aux autres entités. Dans les SIG traditionnels, ces relations sont calculées au besoin et ne sont donc pas intégrées à la description des entités. Dans le modèle de GEOLIS, les relations spatiales, au même titre que les relations non spatiales, sont explicitées par des propriétés logiques relationnelles portées par les entités. Là encore, l ensemble standard de logique de relations des SIL a été enrichi avec des logiques de relations spatiales. De plus, contrairement aux SIG classiques où une relation est décrite par une table d une base de données relationnelles, GEOLIS offre une intégration explicite des relations dans la description des objets. Cela permet de considérer les propriétés logiques relationnelles (spatiales) comme des liens de navigation, au même titre que les autres propriétés logiques. Le formalisme des SIL enrichi de logiques spécialisées au domaine du géospatial offre donc toute l expressivité nécessaire à la description de données géographiques, et fournit en plus une flexibilité d organisation absente des SIG classiques. En effet, la combinaison des propriétés logiques permet de définir des requêtes complexes. Chacune de ces requêtes peut être considérée comme une couche virtuelle : l extension de la requête phiques. Par exemple, il est possible d utiliser un nom de lieu, ou de qualifier la position en utilisant une relation spatiale (ex. : «le bâtiment en face de la cafétaria»). Cependant la description géométrique est la représentation de la géolocalisation la plus usitée dans les logiciels SIG actuels.

94 92 Chapitre 3 : Représentation des données géographiques et raisonnement spatial définit l ensemble des entités de la couche virtuelle, et l intension de cet ensemble d entités regroupe les attributs du schéma de description. Ainsi, au lieu d avoir des couches déterminées à l avance qui s imposent à tous les usages futurs du SIG, l organisation SIL simule un nombre indéterminé de couches (non-borné si la logique le permet) que les utilisateurs pourront définir implicitement au fur et à mesure de leurs interrogations et de leurs navigations. La table 3.1 récapitule la correspondance entre le modèle de données de GEOLIS, et les concepts liés à la structuration en couches des données géographiques. GEOLIS Ensemble d objets O Structuration en couches Jeu de données géographiques (entités issues de plusieurs couches) Langage logique (L GEOLIS 1 et L GEOLIS 2 ) Schémas de description des couches Requête Couche virtuelle Objet Entité géographique Propriété logique Attribut thématique, description spatiale, couche, méta-donnée Tab. 3.1 Correspondance entre la structuration en couches et le modèle de données de GEOLIS. Dans les deux sections suivantes, nous détaillons concrètement l application des logiques des SIL pour la prise en charge des données géographiques en introduisant des logiques spécialisées pour la représentation des propriétés spatiales et des relations spatiales. 3.2 Description des objets géographiques Pour exprimer la dimension spatiale, nous commençons par définir une logique de valeurs géométriques, que nous complétons ensuite par des logiques de valeurs spatiales dérivées de la géométrie (ex. : superficie, longueur, forme). Puis, nous montrons comment combiner ces logiques spatiales aux logiques existantes des SIL pour former la logique L GEOLIS 1, dans laquelle la description thématique et spatiale d une entité géographique peut être exprimée par un ensemble de couples (attribut, valeur). Pour instancier les formules des logiques que nous présentons, nous nous appuyons sur un jeu de données composé d une couche listant les pays du continent africain. Ce jeu de données est partiellement présenté dans la figure La propriété géométrie Nous avons vu que dans le modèle vectoriel (section 1.2.2), la description spatiale d un objet géographique est encodée comme une forme géométrique délimitée par une

95 Description des objets géographiques 93 Fig. 3.1 Couche «Afrique» : représentation spatiale, schéma de description et quelques enregistrements décrivant des pays du continent africain. L attribut FID est un identifiant unique attribué à chaque objet. suite de coordonnées exprimées dans un système de coordonnées identifié. Cette description permet de représenter graphiquement cet objet sur une carte ou de réaliser des opérations d analyse spatiale, mais ces traitements peuvent être envisagés en stockant la description spatiale dans l objet, indépendemment du système d organisation de GEO- LIS. Cependant, pour pouvoir rechercher un objet dans GEOLIS sur la base de critères spatiaux, il faut faire apparaître ces critères dans la description logique de l objet. Dans GEOLIS, la logique L Geom définit un domaine de valeurs géométriques. Les formules de L Geom décrivent d une part la géométrie de l objet, mais également le système de coordonnées dans lequel elle est exprimée. Cette logique est définie comme la composition de deux autres logiques au moyen du foncteur Prod (voir section ) : L Geom = Prod(L Coord, L G ) La logique L Coord est une logique d identifiants de systèmes de coordonnées. Nous utilisons les identifiants de la base EPSG (European Petroleum Survey Group) 3 qui sont utilisés dans la majorité des outils SIG. Les formules de L Coord sont des expressions de la forme EPSG:srid où srid est un entier identifiant un système de coordonnées. Pour les systèmes les plus répandus, ces expressions ont un équivalent symbolique. Par exemple, WGS84 ESPG:4326, ou encore Lambert93 ESPG:2154. Le langage L Coord contient également deux motifs particuliers : PROJCS qui désigne l ensemble des identifiants de systèmes projetés, et GEOGCS, l ensemble des systèmes géographiques. Le domaine d interprétation I Coord est la liste des identifiants EPSG; le modèle d une formule EPSG:srid est l identifiant EPSG srid. La relation de subsomption Coord de cette logique vérifie les propriétés suivantes : 3 La norme EPSG (European Petroleum Survey Group) liste un ensemble de systèmes de coordonnées, leurs caractéristiques et leurs identifiants disponibles à l adresse http ://ww.epsg.org. Cette norme est détenue par l OGP (Oil and Gas Producers) Surveying and Positioning Committee.

96 94 Chapitre 3 : Représentation des données géographiques et raisonnement spatial EPSG:i Coord EPSG:i ssi i = i EPSG:i Coord PROJCS ssi i désigne un système projeté EPSG:i Coord GEOGCS ssi i désigne un système géographique La logique L G est une logique de forme géométrique dans un espace à deux dimensions. Les formules de L G sont des expressions du langage WKT (acronyme pour Well Known Text) [Her06] qui offrent une représentation textuelle du modèle de géométrie proposé par l OGC (voir section 1.3.1). Voici des exemples de géométries décrites dans le format WKT : POINT(6 10) Un point est une coordonnée à deux composantes. LINESTRING(3 4,10 50,20 25) Une ligne brisée est une séquence de coordonnées. POLYGON((1 1,5 1,5 5,1 5,1 1),(2 2, 3 2, 3 3, 2 3,2 2)) Un polygone est une suite d anneaux (lignes brisées fermées); le premier anneau désigne la frontière extérieure du polygone, les suivants, sa frontière intérieure. Il est ainsi possible de définir des polygones à trous. MULTIPOINT( , ) MULTILINESTRING((3 4,10 50,20 25),(-5-8,-10-8,-15-4)) MULTIPOLYGON(((1 1,5 1,5 5,1 5,1 1),(2 2,3 2,3 3,2 3,2 2)), ((3 3,6 2,6 4,3 3))) Les multi-géométries sont des ensembles de géométries d une même nature. GEOMETRYCOLLECTION(POINT(4 6),LINESTRING(4 6,7 10)) Une collection de géométries est un ensemble de géométries qui peuvent être de natures différentes. POINT EMPTY MULTIPOLYGON EMPTY Le suffixe EMPTY désigne une géométrie vide. La sémantique de la logique L G s exprime en terme de l appartenance d un point à une géométrie. Définition 3.1 (Sémantique de la logique géométrique L G ) Soit R 2 l ensemble des points de l espace à 2 dimensions. Soit x une géométrie au format WKT, alors nous notons x la région de l espace, c-à-d. l ensemble de points, délimitée par x. La sémantique (I G, = G ) est définie par : I G = def R 2 = G : g WKT, p = (x, y) R 2, p = G g ssi p g Les modèles d une formule de L G sont donc tous les points de R 2 inclus dans la géométrie correspondante. Plus précisément, le modèle d une géométrie vide, c-à-d. se terminant par le suffixe EMPTY, est l ensemble vide, le modèle d une expression POINT est un point de l espace, et les modèles d une autre expression géométrique g (par exemple,

97 Description des objets géographiques 95 G G G Fig. 3.2 Relation d ordre sur les représentations géométriques. Les géométries grisées désignent les géométries incluses. LINESTRING ou POLYGON) sont tous les points de l espace contenus dans la géométrie décrite par g. La relation de subsomption G ordonne les expressions WKT selon la relation d inclusion entre géométries : g 1, g 2 L G g 1 G g 2 ssi g 1 g 2 Cette relation d ordre sur les géométries est illustrée à la figure 3.2. Dans la logique L G, chaque expression WKT peut être employée comme un motif spatial d inclusion. Comme nous l illustrons dans le chapitre suivant, ces motifs spatiaux permettent par exemple de limiter la recherche d information à une zone d intérêt tracée par un utilisateur sur une carte. Du fait de la combinaison du système de coordonnées et de la représentation géométrique dans la logique L Geom, la relation de subsomption entre géométries ( Geom ) n est satisfaite que si ces géométries sont exprimées dans des systèmes de coordonnées compatibles au sens de la logique L Coord, c-à-d. égaux. Voici un exemple de comparaison de formules de L Geom : (WGS84, POINT( )) Geom (WGS84, POLYGON(( , , , , )) Lorsque deux géométries sont exprimées dans des systèmes de coordonnées différents, une solution consiste à exprimer les coordonnées de chaque géométrie dans un système de coordonnées «pivot» défini pour une zone géographique englobant les deux géométries à comparer. Le schéma de la figure 3.3 illustre le principe de changement de système de coordonnées. Le système géographique WGS84, défini sur l ensemble du globle terrestre, est le candidat naturel pour ce pivot. La transformation de coordonnées est associée à l opération de comparaison de géométries, ce qui suppose donc de redéfinir la relation Geom, par exemple en proposant une version géospatiale du foncteur Prod. Comme nous allons le voir dans la prochaine section, la logique L Geom permet aussi de prendre en compte le type du système de coordonnées (géographique ou projeté) dans le calcul de propriétés spatiales dérivées comme la superficie ou la longueur.

98 96 Chapitre 3 : Représentation des données géographiques et raisonnement spatial Fig. 3.3 Changement de systèmes de coordonnées. Les systèmes de coordonnées sc1 et sc2 n étant pas compatibles, les géométries de chacun de ces systèmes sont exprimées dans un système sc3 pour pouvoir être comparées. Le système sc3 fait office de système «pivot» Les propriétés spatiales dérivées de la géométrie La géométrie correspond à la représentation spatiale la plus précise d un objet géographique : elle décrit précisément sa position et sa forme. La logique L Geom permet dans une certaine mesure de raisonner sur la position des objets géographiques (plus précisément, l inclusion de position). Cependant pour rechercher une entité géographique comme une parcelle ou un bâtiment, il est souvent utile de considérer des critères spatiaux plus abstraits comme par exemple la superficie, le périmètre ou encore la forme générale de sa géométrie (ex. : nombre de côtés, convexité, compacité). Ce sont des descriptions abstraites de la représentation spatiale, non liées à la position, et qui sont dérivables de la géométrie des objets mais non représentables sous la forme d une géométrie. Nous définissons trois logiques L Area, L Length et L Shape qui permettent de représenter respectivement la superficie, la longueur d une entité géographique, et sa forme générale au moyen de descripteurs prédéfinis Logique de superficie La logique L Area permet de comparer des superficies qui sont soit exprimées par une valeur de superficie (un nombre réel positif ou nul suivi d une unité de superficie), soit dérivées d une formule de L Geom utilisée comme un motif. La grammaire du langage L Area est : L Area L Geom REAL+ AREA_UNIT avec REAL+ désignant une valeur de R + AREA_UNIT m 2 km 2 ft 2 yd 2 ac avec ft 2 pour square feet, yd 2 pour square yards, et ac pour acre 4. 4 L acre est une unité de mesure de superficie anglo-saxonne qui vaut environ m 2.

99 Description des objets géographiques 97 Il est possible d exprimer une superficie par une formule de L Geom, c-à-d. par une description géométrique à partir de laquelle va être calculée cette superficie. Pour la recherche d information, cela permet de rechercher tous les objets ayant la même superficie qu une géométrie donnée. Dans ce cas, une fonction d Area : L Geom R + permet d associer à la géométrie décrite sa valeur de superficie exprimée en m 2. L information sur le système de coordonnées est utilisée pour déterminer la méthode de calcul de la superficie (sphérique ou plane) et les éventuelles conversions d unités. Le domaine d interprétation I Area est L Geom = L Coord L G, c-à-d. l ensemble des formules géométriques exprimables par une formule WKT dans un système de coordonnées donné. L ensemble des modèles d une formule f L Area est l ensemble des géométries de I Geom dont la superficie est égale à celle de la géométrie décrite par f. De façon plus formelle, I Area = def = L Geom, = Area : a L Area, g L Geom, g = Area a d Area (g) = d Area (a) si a L Geom d ssi Area (g) = conv m2 (a) si a (R + AREA_UNIT) avec conv m2 : (R + AREA_UNIT) R +, une fonction de conversion de superficie en m 2. Pour pouvoir formuler des requêtes sur des intervalles de superficie, nous appliquons le foncteur générique Interval (voir section ) à la logique L Area pour former la logique L [Area] Logique de périmètre La logique L Length est construite de façon identique à la logique L Area. C est une logique de périmètre qui permet de représenter des longueurs exprimées en m, km, ft (feet), yd (yards) ou encore mi (miles). La relation d ordre sur les formules de ces deux logiques est illustrée dans la figure 3.4. La logique L Length est également étendue en L [Length] en exploitant la généricité du foncteur Interval Logique de forme Pour caractériser la forme générale d une représentation géométrique, nous proposons un ensemble D de descripteurs de forme. Chaque famille de descripteurs permet de caractériser une propriété élémentaire de forme géométrique, invariante par homothétie, translation et rotation. Certaines propriétés sont symboliques, d autres ont une composante numérique. La logique de forme L Shape s appuie sur l ensemble D = {empty, point, line, polygon, convex, concave,...} avec l interprétation suivante : empty, point, line et polygon caractérisent la dimension de la géométrie, convex indique qu aucune droite prolongeant les côtés de la géométrie ne l intersecte, concave, le contraire, equilateral traduit que tous les côtés de la géométrie sont de même longueur, rightangle signifie posséder au moins un angle droit.

100 98 Chapitre 3 : Représentation des données géographiques et raisonnement spatial Length Length Length 352m 381.5yd Area Area 49.4ac Area 2 0.2km Shape Shape { 4 edge convex equilateral rightangle polygon regular } Shape { rightangle } Fig. 3.4 Relations d ordre entre formules des logiques de superficie, de périmètre et de forme. Les expressions de L Geom sont représentées graphiquement, sans indication du système de coordonnées. regular correspond à equilateral avec en plus tous les angles égaux, n-edge précise le nombre n de côtés de la géométrie. Sur le même principe que L Area ou L Length, la logique L Shape permet de comparer des formes de géométries qui sont soit exprimées par un ensemble de descripeurs S P(D), soit dérivées d une formule de L Geom utilisée comme un motif. Voici la grammaire du langage L Shape : L Shape L Geom P(D) Lorsqu une formule de L Geom est utilisée pour fournir un exemple de forme, une fonction d Shape : L Geom P(D) permet d associer à la géométrie décrite son ensemble S P(D) de descripteurs de formes. Le domaine d interprétation I Shape est L Geom. L ensemble des modèles d une formule f L Shape est l ensemble des géométries de L Geom qui possèdent la même forme ou une forme plus précise, c-à-d. qui est décrit par plus de descripteurs de D, que f. Cette sémantique peut être définie formellement par : I Shape = def L Geom, = Shape : s L Shape, g L Geom, g = Shape s { d ssi Shape (g) d Shape (s) si s L Geom d Shape (g) s si s P(D) Le test de subsomption entre formules est équivalent au test d inclusion des ensembles de descripteurs de ces formules (voir figure 3.4).

101 Description des objets géographiques 99 L ensemble D que nous avons présenté est donné à titre d exemple, et peut être enrichi en fonction des applications par d autres descripteurs de forme. Dans le domaine de la géographie naturelle par exemple, la plupart des objets (ex. : forêt, lacs, île) possèdent une géométrie concave à une échelle suffisamment précise, alors qu ils ont une géométrie convexe à une échelle plus grossière. On peut donc préférer une mesure de concavité plus stable vis à vis du changement d échelle. L indice de compacité de Gravelius [Roc63] est une réponse possible. Cet indice utilisé en hydrologie est défini comme le rapport du périmètre de la géométrie à celui d un cercle de même surface. Nous avons donc complété L Shape avec une logique L Compacite Représentation des propriétés Nous venons de présenter quatre logiques L Geom, L [Area], L [Length] et L Shape définissant des domaines de valeur pour exprimer la dimension spatiale. Les données géométriques ont une description spatiale et une description thématique exprimées par des valeurs dont les types (ex. : chaîne de caractères, entier, réel) sont déjà pris en charge par les logiques des SIL (voir chapitre 2). La description thématique d une entité géographique est généralement structurée dans une table d une base de données relationnelle. Cette organisation se prête assez naturellement à une représentation des propriétés de l entité par une logique L AV d attributs valués dont les formules sont des couples (attribut, valeur) où attribut désigne par exemple un champ de la table attributaire d une couche et valeur, la valeur associée à un objet de cette couche. Cette logique est définie comme le produit d une logique d attributs L T 1 et d une logique de valeurs LV 1 : L AV = Prod(L T 1, Option(LV 1 )) La définition de L AV permet d associer à un même attribut des valeurs issues de domaines différents, même si dans la pratique, il n y a qu un domaine de valeurs rattaché à un attribut donné. La logique L T 1 est une taxonomie de termes symboliques incluant les différents noms d attributs. La logique L V 1 définit les différents domaines de valeurs associés aux attributs. Le langage L AV autorise les formules composées d un attribut sans valeur associée (foncteur Option, voir section ). Dans ce cas, pour un attribut donné, l absence de valeurs (notée ) désigne l ensemble des valeurs possibles. Autrement dit : t L T 1, v LV 1 (t, v) AV (t, ) La logique L V 1 est construite comme la disjonction de logiques spécialisées représentant les domaines concrets qui sont les domaines de valeurs possibles pour les attributs de L T 1 : L V 1 = Sum(L[int], L [real], L string, L Geom, L [Area], L [Length], L Shape ) Les formules du langage L T 1 regroupent par défaut des termes spécifiques au modèle de GEOLIS (ALL, geometry, area, length et shape), ainsi que l ensemble des noms d attributs issus des schémas de description d origine des objets géographiques. Le langage est enrichi au besoin lors de l ajout dans le système de nouveaux objets dont certains

102 100 Chapitre 3 : Représentation des données géographiques et raisonnement spatial attributs sont inconnus (ce mécanisme est détaillé dans le chapitre 5). Le terme ALL désigne la formule la plus générale de L T 1. Le terme geometry est associée à une représentation géométrique geom issue de L Geom dans une formule (geometry, geom). Il en est de même pour les termes area, length et shape qui sont associés à des valeurs des logiques L [area], L [length] et L Shape. Un exemple d organisation des formules de L T 1 est présenté dans la figure 3.5a ; dans cet exemple, le langage L T 1 a été déterminé à partir du schéma de description de la couche «Afrique» (figure 3.1). Notez que la couche considérée ici vient de la structuration des données d origine. Elle se dissoudra automatiquement quand ces données seront importées dans GEOLIS. La taxonomie des termes de L T 1 est construite par défaut, mais peut être réorganisée et enrichie par l utilisateur. Dans l exemple de la figure 3.5b, les termes economie et spatial ont été introduits pour regrouper une partie des attributs valués en deux catégories. Fig. 3.5 Logique L T 1 associée issue du jeu de données «Afrique», construite par défaut (à gauche), enrichie (à droite). La logique L T 1 combine à la fois des connaissances issues des données (les schémas de description des couches), mais aussi dans une certaine mesure des connaissances propres à un domaine particulier (par exemple, le fait que la monnaie courante et la population soient des informations de nature économique). L ensemble des formules de L AV décrivant chacune une propriété individuelle d objet géographique sont regroupées au sein d une formule unique de la logique L GEOLIS 1. Cette logique est la logique du contexte objet de GEOLIS (voir chapitre 2) et est construite de la façon suivante : L GEOLIS 1 = Set(L AV ) Nous pouvons maintenant exprimer la description d un pays de notre couche «Afrique», le Tchad par exemple, dans le modèle de données de GEOLIS : d 1 (o Tchad ) GEOLIS 1 { FID:23, Nom:"Tchad", Sigle:"TCD", Population: ,

103 Mise en relation des objets géographiques 101 Monnaie:"Franc_CFA", Enclave:"O", geometry:(wgs84, POLYGON(( , (...) ))) area: km2, length:5968km, shape:{concave, polygon, 417-Edge} } 3.3 Mise en relation des objets géographiques Nous avons vu au chapitre 2 que les SIL permettent de représenter de façon explicite des relations binaires entre des paires d objets. Dans le domaine géographique, comme dans la plupart des domaines, certaines relations entre objets doivent être représentées de façon explicite car elles ne peuvent pas être déduites par raisonnement. C est le cas par exemple du lien qui existe entre une parcelle et son propriétaire, ou encore entre un pays et sa capitale. Cependant dans le cas d une relation spatiale, ce lien peut être calculé directement à partir de la description spatiale des objets. Il n est généralement pas stocké explicitement dans les structures de données géographiques, mais évalué à la demande lors de traitements spatiaux dans les SIG. Parmi les relations spatiales, certaines comme la distance ou la direction sont souvent qualifiées par une mesure, on parle alors de relations quantitatives. D autres relations à caractère topologique comme l adjacence, la superposition ou l inclusion traduisent une organisation spatiale abstraite, mais souvent proche de notre perception cognitive de l espace [Mar05]. Ces relations sont qualifiées de qualitatives. Les relations de distance et de direction sont aussi exprimables sur un plan qualitatif. Pour la relation de distance, les trois valeurs «précisément là», «proche» ou «loin» sont souvent utilisées; pour la relation de direction, en fonction du référentiel, plusieurs bases de direction sont disponibles : cardinales («Nord», «Sud», «Est», «Ouest»), centrées sur l utilisateur «Devant», «Derrière», «Gauche», «Droite» ou encore «Amont», «Aval». Pour qualifier pleinement une relation spatiale entre deux entités géographiques, les deux aspects sont souvent nécessaires : alors que la dimension qualitative définit la nature de la relation spatiale, la dimension quantitative permet de la raffiner. Nous récapitulons ici certaines propriétés caractéristiques des relations spatiales : ce sont des relations déductibles de la géométrie des objets géographiques (forme et position), certaines ont une dimension quantitative et s expriment sous la forme d une relation valuée, d autres une dimension qualitative qui s exprime par une relation symbolique, certaines relations sont plus adaptées pour qualifier des objets disjoints (ex. : distance, direction), alors que d autres précisent une relation de connexion (ex. : inclusion, superposition et adjacence), le calcul des relations spatiales est générateur d une combinatoire importante. L organisation des représentations spatiales (structures de données, index) est souvent cruciale pour obtenir des coûts de calculs faibles ou du moins acceptables. Dans l état actuel du système GEOLIS, les relations spatiales sont représentées de

104 102 Chapitre 3 : Représentation des données géographiques et raisonnement spatial façon explicite dans la description des objets. Pour une relation spatiale r, il faut donc définir en plus d une logique spécialisée pour représenter le domaine de valeurs de la relation, l opération qui détermine si deux objets donnés sont ou non en relation r. Cette explicitation des relations spatiales est automatisée lors de la création du contexte relationnel, nous en présentons les détails techniques dans le chapitre 5. Comme nous l avons précisé précédemment, les relations spatiales étant calculables, elles ne sont généralement pas explicitées dans la description des données géographiques, limitant ainsi la taille de ces dernières. L objectif visé dans nos travaux est d étudier l expressivité des descriptions spatiales pour favoriser la recherche d information en proposant notamment des liens de navigation construits sur la base de relations spatiales. Le mode de calcul des relations spatiales (pré-calcul ou à la demande) n a pas d incidence sur leur utilisation pour la navigation. Nous nous appuyons dans cette thèse sur des relations spatiales décrites de façon explicite et nous ne traitons pas le problème du calcul à la demande de relations spatiales. Le calcul des relations spatiales à la demande pour la navigation constitue cependant une perspective à nos travaux. Dans la suite de cette section, nous commençons par présenter deux exemples de logiques de relations spatiales. Tout d abord, nous présentons une logique quantitative de distance, L dist, puis nous nous intéressons à des relations spatiales qualitatives qualifiant la topologie de deux entités géographiques avec la logique L Topo. Nous donnons ensuite un exemple de logique pour l expression de relations non-spatiales entre deux objets, avant de proposer une synthèse de ces différentes logiques au sein de la logique de contexte relationnel L 2 (voir section ). Comme nous allons l illustrer dans la suite, les logiques de relations peuvent être construites de façon similaire aux logiques du contexte objet sur la base de foncteurs et de logiques spécialisées Relation de distance Nous présentons une logique quantitative de distance, où la distance entre deux géométries est une valeur numérique exprimée en unité métrique. Nous commençons par définir l opération de calcul de distance appliquée lors de la phase de construction du contexte relationnel. Pour que la distance puisse être calculée entre deux géométries, ces géométries doivent être exprimées dans le même système de coordonnées. Dans le cas contraire, une opération de transformation de coordonnées dans un système commun est nécessaire, mais pour la présentation de cette logique nous nous cantonnons à l hypothèse de systèmes de coordonnées identiques. Nous définissons la distance dist g entre deux géométries g 1 et g 2 comme la distance dist minimale «à vol d oiseau» entre un point p 1 de g 1 et un point p 2 de g 2 : g 1, g 2, dist g (g 1, g 2 ) = min{dist(p 1, p 2 ) p 1 g 1, p 2 g 2 }. Il s agit de la définition de distance communément utilisée dans les SIG. Cependant, d autres définitions sont envisageables, par exemple, nous aurions pu définir la distance entre deux géométries comme la distance entre leur barycentre.

105 Mise en relation des objets géographiques 103 La formule de calcul de la distance dist dépend du système de coordonnées associé aux géométries g 1 et g 2. Si ce système est un système projeté, alors dist correspond à la distance Euclidienne : p1 : (x 1, y 1 ), p2 : (x 2, y 2 ), dist(p1, p2) = (x 1 x 2 ) 2 + (y 1 y 2 ) 2. Si le système est géographique, alors dist est calculée en utilisant la formule de Haversine (les coordonnées de p1 et p2 sont exprimée en radians, R = m est le rayon de la Terre) : p1 : (λ1, φ1), p2 : (λ2, φ2), λ = λ1 λ2 φ = φ1 φ2 a = sin 2 ( φ 2 ) + cos(φ1)cos(φ2)sin2 ( λ c = 2 arcsin(min(1, a)) dist(p 1, p 2 ) = R c Une fois calculée la valeur de distance séparant deux géométries, il nous reste à définir la logique L dist permettant de décrire et de comparer ces valeurs de distance. La distance dist g est une longueur séparant deux géométries, donc nous pouvons utiliser une logique de périmètre pour représenter ces valeurs. De ce fait, la logique de L dist est équivalente à la logique L [length] avec un langage de formules légèrement modifié. Les formules de L dist sont celles de L [length] préfixées par le mot clé distance:. De plus, par rapport au langage L [length], L dist a été enrichi d une fonction d inversion de formules (. 1 ) nécessaire pour tout langage de formules relationnelles en ACL. Une relation de distance est une relation symétrique, par conséquent la fonction d inversion de formules est l identité : f L dist f 1 = f. Voici quelques exemples d utilisation de formules de L dist, de leur inverse, et de la relation d ordre dist 2 : distance:100m dist 2 distance: (être distant de 100 m implique être à une certaine distance) 2 ). distance:1km distance:1km (distance:1km ) 1 dist 2 distance:1000m (1km est équivalent 1000 m) dist 2 distance:[10m,1km] dist 2 distance:>=10m dist 2 distance:1km La logique L dist permet de définir des requêtes de la forme (distance:<=d).q, qui sélectionnent tous les objets à une distance inférieure ou égale à d d au moins un objet décrit par q. Ce type de requête est une fonctionnalité élémentaire des SIG qui correspond à l expression d une zone tampon (buffer) [LT92], c-à-d. une région déterminée à la fois par un ensemble d objets origines (ext(q )) et un rayon moyen d autour des ces objets.

106 104 Chapitre 3 : Représentation des données géographiques et raisonnement spatial Relations topologiques Les relations topologiques spatiales, que nous nommons simplement relations topologiques, sont des relations binaires qualifiant la position spatiale d un objet par rapport à un autre. Des exemples de relations topologiques sont l inclusion d un objet dans un autre, la connexion de deux objets, ou encore la superposition de deux objets. Ces relations sont qualitatives par nature ; elles qualifient une organisation spatiale par des propriétés invariantes par transformation topologique comme la rotation, la translation ou le changement d échelle. La modélisation des relations topologiques est un domaine de recherche qui a été très étudié au cours de ces vingt dernières années [Ege89, RCC92, Coh97]. Nous discutons brièvement des différents modèles de représentation des relations topologiques avant de présenter la logique L Topo Discussion sur les modèles topologiques Plusieurs modèles de représentation de relations topologiques ont été proposés. Parmi ces modèles, le modèle RCC (Region Connexion Calculus) fut l objet de nombreux développements dans le domaine des SIG. La théorie du modèle RCC définit le concept de région comme primitif et non comme une construction à partir d ensemble de points. Le modèle RCC considère un ensemble de relations entre deux régions à partir d une relation élémentaire et axiomatique C de connexion entre deux régions. La figure 3.6 présente l ensemble des n relations du modèle ordonnées selon la relation C. Parmi ces relations, un sous-ensemble de huit relations appelé RCC-8 (voir figure 3.7) possède des propriétés intéressantes : il forme une partition totale des relations exprimables entre deux régions (Jointly Exhaustive and Pairwise Disjoint ou JEPD), le même ensemble de relations a été identifié de manière indépendante comme un ensemble de relations utiles dans le domaine des SIG [Ege89]. Le Ber et Napoli se sont intéressés à l organisation dans un treillis de Galois des relations RCC-8 étiquetées par des propriétés calculatoires [NL07]. En fonction du sousensemble de propriétés choisi et du treillis dérivé, ils sont en mesure par exemple de déterminer le nombre minimal d opérations calculatoires pour tester une relation particulière entre deux régions. Le modèle RCC n est défini que pour des régions (géométries de dimension 2). Le modèle des 9 intersections (DE-9IM) présenté au chapitre 1 (voir section 1.4.1) n a pas cette restriction et qualifie tout type de relations entre 2 géométries de dimension quelconque (point, ligne, région). Le modèle CBM (Calculus Based Method) définit une base de 5 relations élémentaires («Disjoint», «Touch», «Within», «Overlap» et «Cross») entre deux géométries, et à partir desquelles d autres relations plus complexes peuvent être composées. Il a été montré que CBM et DE-9IM sont équivalents en terme d expressivité [Coh97]. De même, RCC-8 est exprimable dans chacun des ces deux modèles.

107 Mise en relation des objets géographiques 105 Interprétation des 8 Relations RCC8 DC(a, b) Disconnected a disjoint de b EC(a, b) Externally Connected a touche b par l extérieur PO(a, b) Partially Overlaps a recouvre partiellement b =(a, b) Equals a et b sont égaux (recouvrent le même espace) TPP(a, b) Tangentially Proper Part a est à l intérieur de b et touche son bord NTTP(a, b) Externally Connected a est à l intérieur de b et ne touche pas son bord TPP 1 (a, b) Inverse of TPP a englobe b et le touche au bord NTTP 1 (a, b) Inverse of NTPP a englobe b et ne le touche pas au bord Fig. 3.6 Treillis des relations du modèle RCC ordonnées selon la relation de connexion C, d après [RCC92].

108 106 Chapitre 3 : Représentation des données géographiques et raisonnement spatial Fig. 3.7 Transitions topologiques entre les huit relations RCC-8, d après [RCC92] Logique de relations topologiques Dans le système GEOLIS, la représentation des relations topologiques doit être compatible avec la recherche d information par un utilisateur humain. Pour cela, nous cherchons à exprimer un ensemble de relations compréhensibles par cet utilisateur, et couvrant un maximum d organisations spatiales. Pour que l interrogation et la navigation soient aisées, l utilisateur doit être en mesure d identifier rapidement une relation décrivant une organisation donnée. Il faut donc disposer de relations élémentaires qui décrivent de façon non ambiguë une organisation spatiale particulière (à la manière des relations JEPD du modèle RCC-8). Pour réaliser une recherche incrémentale, il est également intéressant de disposer d un nombre plus restreint de relations intermédiaires plus abstraites, mais pouvant être précisées au besoin en un ensemble de relations élémentaires. Par exemple, une relation contains peut abstraire au sens logique les relations equals, constains_s (contient strictement) et contains_t (contient en touchant). On forme ainsi une hiérarchie de relations qui rend la navigation plus progressive. Nous avons choisi d adopter une taxonomie de relations topologiques proposée par Wessel, Haarslev et Möller [WHM00] (voir figure 3.8). Du point de vue de la recherche d information, cette taxonomie présente l avantage d être relativement simple (12 relations), d inclure les huit relations de base de RCC-8, et de disposer de relations intermédiaires facilement interprétables (connexion, inclusion, superposition). Cette taxonomie est initialement destinée à la représentation de relations entre des paires de régions, mais chacune des huit relations de base est étendue pour tout couple de géométries. La sémantique de chaque relation RCC-8 est celle associée à sa représentation dans le modèle DE-9IM. La logique L Topo est la logique de relations associée à ces relations topologiques. Les formules de L Topo sont les 11 termes associés aux relations de la figure 3.8, la relation d ordre Topo est définie par la taxonomie liant ces termes. Par exemple, equal Topo connected. La racine de la taxonomie ( ) représente la relation «être en relation spatiale» qui est vérifiée pour toute paire d objets géographiques. La relation inverse sur les formules (. 1 ) est définie conformément aux propriétés de symétrie

109 Mise en relation des objets géographiques 107 T Disjoint Connected A B DC Inside Contains Overlapping Inside_s Inside_t Equal Contains_s Contains_t Overlapping_s Touching A B A B A B B B A A B A B NTTP TPP = NTTP 1 TPP 1 PO EC Fig. 3.8 Une taxonomie de relations spatiales topologiques entre 2 régions, d après [WHM00]. Les feuilles de la taxonomie représentent les huit relations de base du modèle RCC-8. existantes entre les relations topologiques : inside 1 = contains, inside_t 1 = contains_t, inside_s 1 = contains_s, r 1 = r pour toutes les autres relations. La logique L Topo peut être vue comme une taxonomie de termes symboliques. Son domaine d interprétation I Topo est égal à son langage de formules L Topo. L ensemble des modèles d une formule désignant une relation r correspond donc à l ensemble des relations plus spécifiques que r au sens de la taxonomie. Lors de la description des objets, seules sept des huit relations de base sont éventuellement exprimées pour tout couple d objets dans le système. La relation disjoint n est pas exprimée, les objets déconnectés d un ensemble d objets pouvant être atteints par le lien de navigation connected.. Les relations intermédiaires peuvent être exploitées dans les requêtes ou proposées par le système comme liens de navigation Relations non-spatiales Les relations non-spatiales sont explicitées dans le modèle de données d origine des données géographiques. Nous présentons maintenant comment s expriment ces relations dans le modèle de données de GEOLIS. Nous nous intéressons à deux types de relation : les associations et les compositions. Une relation de type association entre un objet o1 et un objet o2 est traditionnellement représentée dans une base de données relationnelle par un tuple de la forme (id o1, id o2, desc rel ), où id o1 et id o2 identifient les objets extrémités de la relation et desc rel est un ensemble de valeurs décrivant la relation liant o1 et o2. Par exemple, la figure 3.9a présente une table associant un ensemble de parcelles à leurs propriétaires,

110 108 Chapitre 3 : Représentation des données géographiques et raisonnement spatial chaque possession, c-à-d. ligne de la table, étant décrite par un numéro d acte de propriété. Ce type de relation est représenté dans GEOLIS par une logique de relation valuée. Dans la relation «propriétaire» de l exemple précédent, il s agit d associer une valeur entière à chaque couple (parcelle, propriétaire). Pour cela, nous pouvons proposer une logique L Prop équivalente à L [int] avec un langage de formules enrichi par les préfixes propriétaire: et parcelle:= def propriétaire: 1 (voir figure 3.9b). Table «propriété» Contexte relationnel propriétaire ( o PA512, o PR228 ) ( o PA1513, o PR228 ) ( o PA28, o PR229 ) ( o PA402, o PR231 ) ( o PA335, o PR235 ) 9563 Fig. 3.9 Représentation d une relation de propriété dans une table de base de données relationnelles (à gauche) et dans un contexte relationnel (à droite). La relation parcelle:, inverse de la relation propriétaire: n est pas présentée ici, mais peut être déduite de la relation propriétaire: par symétrie. Les relations de composition, ou relations composites, sont caractéristiques du paradigme objet (voir section 1.3.2). Elles permettent d exprimer qu un objet (origine de la relation) fait partie intégrante d un autre objet (destination de la relation). Par exemple, des transformateurs électriques sont liés par une relation composite au pylone qui les supporte. Ce type de relation conditionne l existence de l objet origine à celle de l objet destination, et joue donc un rôle particulier lors des opérations de mises à jour des données. Dans le modèle de données de GEOLIS, les relations de composition sont exprimées par les formulesis-part-of ethas-part= def is-part-of 1 de la logique L Comp. Le domaine d interprétation I Comp est égal au langage L Comp = { is-part-of, has-part } Représentation des relations Nous venons de présenter plusieurs logiques spécialisées dédiées à l expression de relations spatiales et non-spatiales entre objets géographiques. Au sein du contexte relationnel de GEOLIS, les différentes propriétés relationnelles exprimées via ces logiques sont regroupées au sein d une formule de la logique de relation L GEOLIS 2. Cette logique est construite par la composition des logiques spécialisées nécessaires à la description des données. Elle peut par exemple prendre cette forme : 3.4 Travaux connexes L GEOLIS 2 = Set(Sum(L Dist, L Topo, L Prop, L Comp )) La représentation des propriétés et des relations spatiales appliqué aux données géographiques constitue un des principaux thèmes de recherche en géomatique. Dans cette section, nous nous intéressons aux travaux qui ont des objectifs comparables à celui du système GEOLIS, c-à-d. fournir une organisation de données géographiques

111 Travaux connexes 109 facilitant la recherche d information, ou présentant des similarités dans la représentation des connaissances. Dans le cadre du projet SPIRIT (voir section ) visant à proposer un moteur de recherche web avec des capacités d interrogation spatiale [JAF + 04], une géo-ontologie permet de décrire une terminologie des lieux et une structure de l espace géographique. À chaque lieu est associé un ensemble de noms (les différentes dénominations possibles de ce lieu), un descriptif du lieu (ex. : ville, région, pays) ainsi qu un ensemble d emprises spatiales décrivant la géométrie du lieu à différents niveaux de précision. L ensemble des lieux est ordonné de façon hiérarchique dans la géo-ontologie selon une relation d inclusion de lieux. Les relations d inclusion sont complétées par des relations de superposition et d adjacence entre lieux. La géo-ontologie intervient, entre autre, dans l interprétation des requêtes où elle permet : la désambiguïsation de requêtes. Par exemple, lorsque le terme «Paris» apparaît dans une requête, le système SPIRIT peut suggérer à l utilisateur «Paris, France» ou «Paris, Texas». la généralisation d un nom de lieu à l ensemble de ses dénominations connues (ex. : traduction dans différentes langues). l association d une emprise géographique à un nom de lieu ou à une expression décrivant un lieu, par exemple pour des expressions du type «en bordure de la ville de Rennes». En ne considérant que la relation d inclusion, la géo-ontologie de SPIRIT peut être considérée comme une taxonomie de lieux. À ce titre, cette taxonomie peut être approximée dans le modèle de GEOLIS par une logique de la forme : L SPIRIT 1 = Set(Sum(L TaxoGeo, L Geom )) La logique L SPIRIT 1 est une taxonomie dont chaque terme désigne un nom de lieu. La relation d ordre entre les termes traduit l inclusion des lieux. Le foncteur Set permet d associer plusieurs dénominations et plusieurs représentations géométriques à un même lieu. Les relations d adjacence et de superposition de la géo-ontologie peuvent être exprimées dans GEOLIS par réification des lieux, c-à-d. en introduisant dans le contexte un objet associé à chaque lieu. Les fonctionnalités de disambiguïsation et de généralisation correspondent respectivement au raffinement et à l élargissement de requête dans la navigation des SIL. Le modèle de GEOLIS fournit donc l expressivité suffisante pour encoder une géo-ontologie. Le système AROM-ST [MGZ + 06], extension spatio-temporelle du RCO AROM, proposé par Moisuc et al. présente des capacités de représentation des propriétés et des relations spatiales comparables à celles de GEOLIS. Il intègre un type de données géométrique compatible avec le modèle de l OGC dont l expressivité est similaire à celle de la logique L Geom. Le système AROM-ST dispose aussi d un système de type extensible autorisant la prise en charge de nouveaux domaines concrets au besoin. Son modèle de données est donc ouvert comme celui de GEOLIS où l extensibilité est permise par la définition de nouvelles logiques. Du point de vue de la description des

112 110 Chapitre 3 : Représentation des données géographiques et raisonnement spatial relations spatiales, AROM permet de qualifier des distances sur le plan quantitatif et des relations topologiques exprimées dans le modèle CBM. AROM permet en plus de qualifier du point de vue qualitatif des relations de direction (basées sur les huit directions cardinales «N, NE, E, SE, S, SW, W, NW»), et des relations de distance relatives (ex. : «V 3 est plus loin de V 1 que l est V 2») [MGVOM07a]. Le Langage de modélisation algébrique (LMA) d AROM permet également de définir des facettes d inférence à partir d opérateurs spatiaux (ex : union, intersection, différence de géométries) et d agrégats numériques (ex : somme, moyenne, compte). Notre système GEOLIS n offre pas encore de relations qualitatives de distance et de direction, cependant rien ne s oppose sur le plan théorique à la définition de logiques spécialisées pour prendre en compte ces relations. La définition de propriétés dérivées des valeurs de plusieurs objets, exprimées par exemple comme un agrégat, n est pas encore intégrée dans la théorie de l Analyse de concepts logiques. Cependant, c est une des pistes de recherche théorique pour le système GEOLIS en particulier, et pour les SIL en général. Nous en discutons plus en détails dans le chapitre 4, lorsque nous comparons GEOLIS aux systèmes SOLAP (voir section 4.4.2). Wessel et Möller ont proposé un cadre formel, largement influencé par la théorie des LD, pour la conception de systèmes d information à base d ontologie (Ontology Based Information Systems ou OBIS) [WM07]. L application DLMAPS est une instanciation concrète de ce type de système destinée à l interrogation spatio-thématique d une base de données spatiales urbaine. Elle est comparable au système GEOLIS en de nombreux points, notamment concernant le modèle d organisation des données. Dans les systèmes de type OBIS, la représentation extensionnelle des connaissances, c-à-d. la description des données, est organisée dans un substrat (Substrate). Un substrat est une structure générique pour la description des objets et des paires d objets, au sens où les langages de description sont paramétrables. Un substrat est l équivalent du contexte mixte des SIL, et offre la même expressivité. Dans le cadre de DLMAPS, Wessel et Möller ont expérimenté plusieurs combinaisons de substrats pour représenter et raisonner sur la dimension spatiale des données géographiques. La plus expressive en terme de descriptions spatiales repose sur l association d un substrat décrivant une A-Box et d un substrat dédié à la représentation du domaine spatiale (S-Box). La description thématique des objets géographiques est représentée dans la A-Box, leur description géométrique dans la S-Box. À la différence de GEOLIS, les relations spatiales entre objets ne sont pas stockées de façon explicite dans le substrat mais calculées à la demande lors de l évaluation d une requête. L interrogation porte à la fois sur la A-Box pour les critères thématiques et sur la S-Box pour les critères spatiaux. Les critères spatiaux incluent des propriétés dérivées de la géométrie des objets : superficie, longueur et dimension de la géométrie (polygone, ligne ou point), et des relations spatiales entre objets : relations topologiques entre polygones (RCC-8), plus courte distance entre deux géométries ou leur centroïde, inclusion dans une zone tampon. Le langage d interrogation de DLMAPS offre donc une expressivité spatiale presqu identique à celle des logiques spatiales de GEOLIS. Nous verrons plus en détails les différences concernant les capacités d interrogation des deux systèmes dans

113 Conclusion 111 le chapitre suivant. 3.5 Conclusion Nous venons dans ce chapitre de présenter un cadre pour l application du paradigme d organisation flexible des SIL aux données géographiques. Pour cela, nous avons défini un certain nombre de logiques de propriétés et de logiques de relations destinées à représenter la dimension spatiale des données géographiques et à y opérer des raisonnements par comparaison de valeurs. Il n existe pas d ensemble exhaustif de logiques spécialisées, aussi nous avons voulu plutôt montrer comment un cadre générique comme celui des foncteurs logiques permet de prendre en compte avec flexibilité la variété des demandes. Le mécanisme de définition de logiques par composition autorise l ajout de logiques ad hoc permettant d adapter le modèle de données du système GEOLIS aux besoins de l application. L organisation des données géographiques dans le système GEOLIS permet de s abstraire d un certain nombre de contraintes liées à la structuration traditionnelle des données géographiques en couches : le modèle de données est centré sur l objet géographique ; l information n est pas répartie entre les objets (descriptions attributaires et spatiales) et les couches (métadonnées) mais exclusivement portée par l objet, chaque objet peut être décrit avec une précision arbitraire ; il n y a pas de schéma de description imposé, chaque requête peut être considérée comme une couche virtuelle. Le nombre et la thématique des couches ne sont donc pas prédéfinis et peuvent s adapter aux besoins futurs des utilisateurs, Le modèle de données de GEOLIS tel que nous venons de le présenter ne constitue qu une première étape qu il est possible d étendre dans plusieurs directions de recherche. Premièrement, les relations spatiales sont pour l instant stockées de façon explicite dans la description des objets. Cette approche n est cependant pas envisageable pour des jeux de données de taille importante, le nombre de liens relationnels à mémoriser étant quadratique avec le nombre d objets considérés. Une amélioration assez immédiate consiste à calculer les relations spatiales à la demande lors de l exploration des données. Une autre piste de recherche concerne l intégration des agrégats dans le modèle des SIL, et des agrégats spatiaux dans le modèle de GEOLIS. Cela permettrait de définir des propriétés dérivées d un ensemble d objets, et non plus seulement d un unique objet. Par exemple, il serait possible de considérer le périmètre ou la superficie d un ensemble d objets (propriétés déduites de l union de ces objets). Les travaux sur le modèle de données décrits dans ce chapitre ont été présentés à la communauté géomatique lors de la conférence SAGEO 06 [BFRQ06] et à la communauté analyse de concepts lors du workshop ACKE 07 [BFRQ07]. L aspect représentation des relations spatiales dans les SIL a été introduit à la communauté analyse de concept lors de la conférence ICFCA 08 [BFR08]. Dans le chapitre suivant, nous montrons comment enrichir les interfaces de visualisa-

114 112 Chapitre 3 : Représentation des données géographiques et raisonnement spatial tion et d interaction des SIL dans le but d explorer un jeu de données géographiques. Le système résultant non seulement facilite l accès traditionnel aux données géographiques par interrogation, mais fournit également un nouveau mode de recherche d information géographique basé sur la navigation.

115 Chapitre 4 Visualisation et recherche d information Alice : Would you tell me, please, which way I ought to go from here? Cheshire Cat : That depends a good deal on where you want to get to. Lewis Carroll, Alice s Adventures in Wonderland, 1865 Selon Denègre et Salgé, après l acquisition, l abstraction et l archivage, l analyse et l affichage sont les deux autres fonctionnalités que doit garantir un SIG [DS96]. Dans ce chapitre, nous abordons le système GEOLIS selon ces deux aspects «affichage» et «analyse». L affichage correspond à la restitution graphique, le plus souvent sous la forme d une carte, d une information issue des données géographiques. Cette représentation graphique n est pas une représentation statique de l information, mais au contraire correspond le plus souvent dans les SIG à une visualisation interactive de l information. Par exemple, l utilisateur d un SIG à la possibilité de se déplacer sur sa carte, de zoomer ou encore de modifier les caractéristiques graphiques de cette carte (ex. : couleur, taille des symboles ou visibilité des éléments). Dans GEOLIS, l affichage est assurée par les trois vues de l ACL (présentées à la section 2.2.4) qui sont spécialisées au domaine géographique. Nous présentons en détail chacune de ses vues dans la section 4.1. L analyse est une fonctionnalité qui, dans le cadre du système GEOLIS, regroupe deux notions assez proches : la recherche d information et l exploration de données. La recherche d information est un processus dans lequel l utilisateur a un objectif de recherche relativement clair et précis et généralement une connaissance de l organisation des données. À l inverse, l exploration de données est un processus dans lequel l utilisateur ne sait pas caractériser initialement ce qu il cherche, mais va enrichir sa connaissance des données par un parcours incrémental du jeu de données. Ces deux modes d analyse s appuient sur la visualisation des données et sur l interaction entre l utilisateur et le système d information. Nous traitons dans la seconde partie de ce chapitre des différents mécanismes d interaction dans GEOLIS (l interrogation et la navigation) et de leur expression dans les différentes vues (section 4.2). Dans GEOLIS, la recherche d information et l exploration de données combinent deux phénomènes. Premièrement, l utilisateur va se voir proposer des pistes de navigation. En effet, il n y a pas de raisons 113

116 114 Chapitre 4 : Visualisation et recherche d information que le système sache mieux que l utilisateur ce que ce dernier cherche, mais en revanche le système a une meilleure connaissance que l utilisateur du contenu du jeu de données. Il est donc en mesure de fournir une aide à la navigation sous la forme d éléments de description à considérer ou non. Il s instaure ainsi un véritable dialogue entre l utilisateur et le système où ce dernier est toujours pertinent, c-à-d. précis et économe dans ces réponses. Par exemple, si l utilisateur recherche un sommet montagneux, le système ne va pas proposer en réponse une liste de tous les sommets. Il va plutôt répondre par des questions du type : «Plus ou moins de 4000 m?», ou «En Europe? En Asie? En Afrique?». Le second phénomène est que dans ce dialogue le système va utiliser tous les éléments de description disponibles dans le jeu de données, quelque soient les attributs et les couches auxquels ils auraient été associés dans un SIG classique. Dans la section 4.3, nous illustrons au moyen d un scénario concret ce principe de recherche d information basé sur un dialogue avec le système GEOLIS. Les différentes étapes du scénario étant relativement documentées, nous proposons aux lecteurs souhaitant avoir une première intuition des capacités de GEOLIS pour la recherche d information de commencer la lecture du chapitre par cette section. Enfin, avant de conclure et d évoquer des perspectives à ces travaux, nous comparons les capacités du système GEOLIS avec celles d autres outils destinés à la recherche ou à l exploration de données géographiques (section 4.4). Ce chapitre peut également être considéré selon la présentation «Modèle - Vue - Contrôleur» du système GEOLIS. La première section détaille l aspect «Vue» du système, alors que la seconde l aspect «Contrôleur». Après la présentation de l aspect «Modèle» dans le chapitre précédent, le système GEOLIS est maintenant complètement défini. 4.1 Représentation par les vues : Visualiser De manière générale, les SIL permettent à un utilisateur d organiser des données représentées par un ensemble d objets, et d explorer ces données, c-à-d. cet ensemble d objets, en fonction de critères définis préalablement. La recherche de données dans un SIL peut être définie comme un processus incrémental permettant de transformer (ex. : réduire/élargir) un ensemble initial d objets en un ensemble final correspondant aux desiderata de l utilisateur. À moins que l utilisateur ne sache exactement quelle requête fournir pour trouver les objets qu il souhaite, ce dernier est souvent amené à alterner librement interrogation et navigation au cours d étapes successives avant d atteindre le but de sa recherche. L état courant de la recherche est matérialisé en ACL et dans les SIL par trois vues sur le jeu de données (cf. section 2.2.4) : la requête courante, qui correspond à une vue intensionnelle sur les données. Dans les SIL, la requête courante est aussi appelée working query (wq) par analogie au working directory, le répertoire de travail courant d un système de fichiers, la sélection courante d objets, qui est une vue extensionnelle des données définie comme l extension de la requête courante (ext(wq)), l index de navigation, qui représente une vue intensionnelle détaillée des données,

117 Représentation par les vues : Visualiser 115 c-à-d. un résumé de la sélection courante, défini à partir de la requête courante (index(wq)). Chaque vue caractérise de façon différente la sélection courante : la requête est une description concise de la sélection, l index de navigation, au contraire, est une description exhaustive de cette sélection. Alors que les deux premières vues sont déduites des descriptions des objets, la troisième vue, extensionnelle, est construite à partir du contenu des objets. La vue extensionnelle a pour objectif de fournir une représentation concrète de chacun des objets sélectionnés. Cette représentation est donc très liée à la nature des objets manipulés. Par exemple dans le cadre d une collection de photos, la vue extensionnelle peut être composée d imagettes de chacune des photos; dans le cadre d une collection de fichiers musicaux, un extrait est associé à chaque objet. Dans le cadre des données géographiques manipulées par le système GEOLIS, la représentation extensionnelle la plus naturelle et la plus adaptée est la représentation cartographique. Nous montrons cependant dans la suite qu il est souvent utile de compléter cette représentation cartographique par d autres représentations graphiques à base de diagrammes pour faciliter l exploration des données. L observation conjointe de ces différentes vues permet une meilleure appréhension du jeu de données exploré. La figure 4.1 montre l organisation choisie pour montrer ces trois vues dans notre système GEOLIS. Nous détaillons les caractéristiques de chacune d entre elle dans les sections suivantes. Nous présentons d abord les vues «requête» et «index de navigation» qui bien qu appliquées ici au domaine géographique ont une forme générique et relativement indépendante du type de données manipulées. Nous continuons avec la vue extensionnelle qui est dans GEOLIS, au contraire, véritablement dédiée à la représentation géographique des données La requête : vue intensionnelle concise La requête courante wq traduit l objectif de recherche de l utilisateur exprimé sous une forme déclarative. C est une formule logique construite au fur et à mesure des étapes de recherche, par saisie manuelle de l utilisateur ou par transformation des requêtes précédentes lors d opérations de navigation (cf. section 2.2.3). La requête fournit un feedback à l utilisateur de l état courant de sa recherche, il est donc essentiel qu elle lui soit toujours présentée à chaque étape de l exploration du jeu de données. La zone requête de GEOLIS est comparable à la barre d adresse d un navigateur web ; on peut se passer de l éditer à la main, mais elle reste cependant utile pour montrer où en est le navigateur. La requête courante wq définit le contexte d exploration courant d où sont dérivées les deux autres vues ext(wq) et index(wq). Le modèle des LIS est centré sur les objets que l utilisateur souhaite organiser et retrouver. La réponse d une requête est donc un ensemble d objets et non un ensemble de tuples d objets ou de valeurs comme c est le cas dans le modèle relationnel. Pour cette raison, les descriptions relationelles utilisées dans le langage de requête (et dans l index de navigation) s appliquent à des objets et non des couples d objets. Une description relationnelle est une formule du type r.q et qui doit être interprétée comme «avoir au moins une image par r qui satisfasse la

118 116 Chapitre 4 : Visualisation et recherche d information Fig. 4.1 Une organisation possible des vues wq, index(wq) et ext(wq) dans l interface de GEOLIS.

119 Représentation par les vues : Visualiser 117 desription q» (voir section 2.2.2). Dans le système GEOLIS, les opérateurs et les formules du langage d interrogation, présentés à la section 2.2.2, doivent pouvoir être facilement saisis par l utilisateur. Ils sont pour cette raison exprimés dans une syntaxe alphanumérique qui rappelle la syntaxe des moteurs de recherche : q 1 q 2 q 1 OR q 2 disjonction de formules q 1 q 2 q 1 AND q 2 conjonction de formules q 1 NOT q 1 négation extensionnelle d une formule r.q r -> q avoir au moins une image par r qui satisfasse q r 1.q r <- q avoir au moins un antécédent par r qui satisfasse q ALL formule la plus générale Cette liste présente les opérateurs du langage d interrogation dans l ordre croissant de précédence, c-à-d. que NOT est prioritaire sur OR. Nous avons vu au chapitre 3 que les logiques de GEOLIS (L GEOLIS 1 et L GEOLIS 2 ) sont définies comme la combinaison de logiques spécialisées représentant des domaines concrets (ex. : L int, L Date, L Geom ) au moyen de foncteurs logiques, c-à-d. de logiques paramétrables (ex. : Interval, Prod, Set). Une formule de GEOLIS est une combinaison de formules de logiques spécialisées dont la syntaxe est déterminée par les foncteurs employés. La forme des formules produites est fixe pour un foncteur donné, mais sa syntaxe est paramétrable par l utilisateur. Par exemple, lors de la construction de la logique L GEOLIS, il est possible de choisir les délimiteurs d ensemble employés avec le foncteur Set, ou encore les symboles associés au codage d un intervalle dans le foncteur Interval. Pour faciliter la compréhension des formules présentées dans la suite de ce chapitre, nous donnons la syntaxe associée aux différents foncteurs employés dans GEOLIS (pour rappel, L GEOLIS 1 = Set(Prod(L T 1, LV 1 ))) : Foncteur Set {e 1 } e 1 {e 1, e 2,...e n } { e 1, e 2,... e n } Foncteur Prod (a, b) a:b ou ( a, b ) Foncteur Interval [ a, a] a [ a, b] [ a, b ] [ a,+ [ >= a ], b] <= b Voici un exemple de requête dans le cadre de la recherche d un gîte rural (les noms de relation sont entièrement en minuscules, alors que les noms de propriétés non relationnelles débutent par une Majuscule) :

120 118 Chapitre 4 : Visualisation et recherche d information q = Gîte AND Capacité:>=4 AND ( (distance:<=50.0m)->lac OR inside->bois ) AND NOT (réservation:[11/07/2009, 18/07/2009])<-ALL La requête q décrit les gîtes d une capacité d accueil d au moins 4 personnes situés à une distance inférieure à 50 m d un lac ou à l intérieur d un bois et pour lequel il n existe pas encore de réservation pour la période du 11 au 18 juillet L index de navigation : résumé structuré Comme son nom l indique, l index de navigation est un ensemble de liens de navigation. Mais c est également une vue qui décrit de façon détaillée l ensemble des objets qui satisfont la requête courante. Chaque lien de navigation correspond à une propriété logique (simple ou relationnelle) qui décrit au moins un objet de la sélection courante (cf. section 2.2.3). L index de navigation récapitule donc les descriptions partagées et discriminantes des objets de la sélection courante. À ce titre, l index de navigation peut être considéré comme un résumé de la sélection courante. Si la zone requête peut être vue comme la barre d adresse d un navigateur web, la zone index peut être vue comme «un plan du site» désigné par l url de la barre d adresse. À tout moment, le plan du site représente l espace de recherche qui est pertinent pour l url courante. Dans le système GEOLIS, ces liens sont structurés selon la relation d ordre définie et notée GEOLIS, mais abrégée par. Nous reprenons maintenant les définitions du chapitre 2 et discutons des particularités liées à la nature géographique des données manipulées. L index de navigation est composé d un ensemble de nœuds de navigation. sur le langage d interrogation L GEOLIS q Définition 4.1 (noeud de navigation dans GEOLIS) L ensemble des nœuds de navigation Nd(wq) associé à la requête courante wq dans GEOLIS est défini par : Nd(wq) = ({(x,n wq,n O ) x nav(wq),n wq = card(ext(wq) ext(x)),n O = card(ext(x))}) Chaque nœud de navigation est un triplet (x, n wq, n O ) où x est un lien de navigation pertinent pour wq et n wq et n O, deux comptes décrivant le nombre d objets décrits par x respectivement dans la sélection courante ext(wq) et dans l ensemble du jeu de données O. Ces nœuds sont ordonnés dans l index de navigation selon la relation d ordre GEOLIS sur les liens de navigations. Définition 4.2 (index de navigation dans GEOLIS) L index de navigation associé à la requête courante wq dans GEOLIS est l ensemble partiellement ordonné de nœuds : index(wq) = (Nd(wq), ) avec la relation d ordre définie par : (x,n wq,n O ),(x,n wq,n O) Nd(wq) (x,n wq,n O ) (x,n wq,n O) ssi x GEOLIS x

121 Représentation par les vues : Visualiser 119 L index de navigation se présente donc sous une forme arborescente. C est une structure dynamique car d une part, elle est actualisée à chaque modification de la requête courante, et d autre part, sa profondeur de description peut être à tout moment augmentée ou réduite par l utilisateur. Chaque nœud peut, en effet potentiellement, être déplié ou replié en actionnant l icône de dépliage de ce nœud (voir figure 4.2) : déplier un nœud entraîne le calcul de ses sous-nœuds maximaux (voir section 2.2.3). L index de navigation peut donc être construit progressivement en dépliant les nœuds des propriétés les plus générales jusqu aux nœuds des propriétés les plus spécifiques au sens de. Un nœud associé à une propriété sans propriétés plus spécifiques ne peut être déplié. replier un nœud consiste à rendre invisibles ses sous-nœuds. Un nœud relationnel, c-à-d. un nœud associé à un lien de navigation relationnel de la forme r.p, peut être déplié de deux façons : pour préciser la relation r ou pour préciser le co-domaine de la relation r, c-à-d. pour le lien considéré, la propriété p. Il possède donc deux icônes de dépliage/repliage. Par exemple, dans la figure 4.2, le nœud relationnel distance:>all caractérise tous les objets pour lesquels une relation de distance avec un autre objet est renseignée. D une part, ce nœud est déplié par rapport à la relation distance : des intervalles de distance sont proposés, par exemple distance:>=500.0m, distance:[0.0 m, 49.9 m] ou distance:[50.0 m, 99.9 m]. D autre part, ce nœud est également déplié par rapport à la propriété ALL pour laquelle des propriétés plus spécifiques sont proposées (ex. : distance:->categorie, distance:->description: ou distance:->equipement:). Dans l index de navigation du système GEOLIS, la relation d ordre traduit les relations d ordre propres à chaque logique composant les logiques L GEOLIS 1 et L GEOLIS 2. Ainsi la relation d ordre suivante est visible dans l index de la figure 4.2 : capacite:4 capacite:[0,4] capacite: tourisme ALL Les propriétés les moins profondes dans l index sont les plus générales et correspondent aux propriétés logiques simples de la taxonomie L V 1 (ex. : tourisme) et aux propriétés relationnelles des logiques de L GEOLIS 2. Viennent ensuite les propriétés valuées désignant un nom d attribut sans valeurs particulières associées (ex. : capacite: ou description:), puis les attributs suivis de motifs sur les valeurs (ex. : capacite:[0,4] ou description:".*acces.*") et enfin les attributs suivis d une valeur (ex. : capacite:4), qui correspondent aux feuilles de l index de navigation. Les propriétés associées à chaque nœud de l index caractérisent la sélection courante d objets, c-à-d. ext(wq). Certaines de ces propriétés x décrivent tous les objets de la sélection. Elles apparaissent dans l index de navigation avec une fonte soulignée et de couleur orange et jouent le rôle de décréments de la requête courante (x decr(wq), voir la section 2.2.3) ; par exemple dans la figure 4.2, ALL ou tourisme sont des décréments. D autres propriétés y de l index ne décrivent qu un sous-ensemble de la sélection courante. Elles jouent le rôle d incréments de la requête courante (y incr(wq)) et sont représentées par une fonte de couleur bleue. Le compte n wq d un décrément vérifie n wq = card(ext(wq)), celui d un incrément, n wq < card(ext(wq)). L observation des

122 120 Chapitre 4 : Visualisation et recherche d information Fig. 4.2 Vue d un index de navigation associé à la requête wq =acces_handicape:"oui". La ligne droite sous un noeud relationnel comme distance:->all représente le nom de la relation et évite ainsi de surcharger visuellement l index de navigation.

123 Représentation par les vues : Visualiser 121 couleurs des propriétés de l index de navigation permet donc instantanément de déterminer la description commune à l ensemble des objets de la sélection, fournie par l ensemble des décréments. Cette description peut faire apparaître des propriétés qui ne sont pas dans la requête courante. D un point de vue ACL, l ensemble des différents décréments fournit l intension du concept dont l extension est fournie par ext(wq). À l inverse, les incréments traduisent la diversité des objets présents dans la sélection courante. Les données géographiques sont principalement décrites par des attributs valués, de ce fait, la plupart des propriétés representées dans l index de navigation de GEOLIS sont des propriétés valuées. Dans le cadre d une propriété valuée, les incréments et les comptes associés donnent un aperçu de la distribution des valeurs pour cette propriété et pour l échantillon de la sélection courante. Par exemple dans la figure 4.2, la propriété capacite: a pour compte n wq = 8, indiquant que la capacité d accueil est renseignée pour huit bâtiments de la sélection courante. Les propriétés et les comptes associés aux sous-nœuds indiquent la répartition des bâtiments selon chaque valeur de capacité : 4 bâtiments d une capacité de 0, 1 d une capacité de 4, etc. Les différents comptes n wq fournissent donc un histogramme de la distribution des valeurs associées à un attribut. Les comptes associés à un lien de navigation peuvent aussi être interprétés en terme de probabilités conditionnelles. Pour mieux comprendre cette correspondance, nous introduisons les comptes N wq = card(ext(wq)) et N O = card(o) qui désignent respectivement le nombre d objets décrits par la requête courante et le nombre d objets dans le jeu de données. Les deux comptes N wq et N O correspondent en fait aux comptes n wq et n O associés au lien de navigation ALL. La figure 4.3 illustre par un schéma ensembliste la relation entre les différents comptes n wq, n O, N wq et N O. Si nous nous intéressons à la probabilité P(f) qu un objet du jeu de données soit décrit par un formule f, nous pouvons exprimer les probabilités suivantes : P(x) P(wq) = n O N O = N wq N O P(wq x) = n wq N O P(x wq) = P(wq x) = P(x wq) P(wq) P(x wq) P(x) = n wq N wq = n wq n O : la probablilité qu un objet soit décrit par la propriété x. : la probablilité qu un objet soit une réponse à la requête wq. : la probablilité qu un objet soit une réponse à la requête wq et soit décrit par x. : la probablilité qu un objet soit décrit par x sachant qu il est une réponse à la requête wq. : la probablilité qu un objet soit une réponse à la requête wq sachant qu il est décrit par x. En quelque sorte, la proportion n wq /N wq caractérise de façon numérique le fait qu appartenir à la sélection courante implique posséder la propriété x. Si n wq = N wq alors pour le jeu de données considéré, tous les objets décrits par wq sont aussi décrits par x que la relation wq GEOLIS x soit vérifiée ou non. De la même façon, la proportion n wq /n O indique si le fait d être décrit par x caractérise les objets de la sélection

124 122 Chapitre 4 : Visualisation et recherche d information Fig. 4.3 Relation entre l extension d un lien de navigation x et les comptes associés. courante, autrement formulé, dans quelle mesure l échantillon de la sélection courante est représentatif de l ensemble du jeu de données vis à vis de la propriété x. L index de navigation permet donc d avoir immédiatement un résumé organisé, synthétique et actualisé de la description de tout ensemble d objets exprimable par une requête dans le langage L GEOLIS. La description thématique des objets géographiques est traditionnellement représentée dans une table attributaire qui peut être assimilée à un contexte objet (voir la section 3.2 pour un exemple de table, et la section pour la définition du contexte objet). La représentation tabulaire est adaptée à la consultation de la description d un objet particulier (représentée par une ligne de la table), mais elle ne fournit pas une vision globale de l ensemble des objets décrits. À l inverse, l index de navigation fournit une description synthétique de l organisation des données. Pour un attribut donné, l ensemble des valeurs possibles, les plus fréquentes comme les moins fréquentes, sont automatiquement listées avec pour chaque valeur le compte des objets concernés. Toutes les informations présentes dans le contexte objet sont récapitulées dans l index de navigation. De plus, l index de navigation permet de définir différentes classes de valeurs sur les attributs au moyen de motifs variés. Par exemple, il est possible de regrouper des valeurs numériques par des intervalles, des chaînes de caractères par des expressions régulières, ou des géométries par une géométrie englobante. La classification de valeurs est une fonctionnalité utilisée en analyse spatiale et à des fins de représentations cartographiques dans les SIG, mais bien souvent uniquement limitée à des domaines numériques et réalisée de façon indépendante pour chaque couche géographique. Dans l index de navigation, chaque classe de valeurs définie par une propriété s applique à l ensemble des objets de la sélection courante indépendemment de leur couche d origine. La description spatiale d un objet géographique est représentée dans l index de navigation par les propriétés area:, length: et shape:. Cependant la propriété geometry: n est pas proposée comme un lien de navigation. En effet, la description géométrique est certes une propriété qu il est nécessaire d expliciter dans la description des objets pour réaliser par exemple une recherche à partir de la géométrie d une entité ou par zone englobante. Cependant, dans l index de navigation, les propriétés sont exprimées

125 Représentation par les vues : Visualiser 123 Fig. 4.4 Exemple d interface avancée de GEOLIS. La vue requête est située en haut de l interface. Au centre, la partie sélection courante est composée d une interface cartographique (à gauche) et d un diagramme «nuage de points» (scatter plot, à droite). En partie basse, la vue index de navigation est composée de trois index de navigation disposés en parallèle. sous forme textuelle, et une géométrie a une représentation au format WKT souvent volumineuse, difficilement interprétable par un utilisateur, et rarement exploitable pour la navigation. Nous verrons dans la section suivante que la vue extensionnelle est plus adaptée à la représentation des caractéristiques pour lesquelles la forme textuelle n est pas adaptée. Le nombre de propriétés logiques à visualiser dans l index de navigation peut être important. L utilisateur est donc parfois contraint de réaliser dans l interface graphique des défilements verticaux ou horizontaux pour visualiser les propriétés qui l intéressent. Pour faciliter la manipulation et l exploitation de cette vue, il est possible d employer au sein de la même interface plusieurs index de navigation et d en paramétrer la racine. La figure 4.4 montre une interface avancée de GEOLIS avec plusieurs index de navigation en parallèle. Cela permet par exemple d organiser et de distinguer des catégories de propriétés (ex. : simple/relationnelle ou thématique/spatiale) ou de visualiser simultanément la répartition des valeurs de deux attributs distincts.

126 124 Chapitre 4 : Visualisation et recherche d information Cartes et diagrammes : projections dédiées Nous avons présenté les vues «requête» et «index de navigation» qui sont toutes deux des vues intensionnelles, c-à-d. élaborées à partir de la description des objets. À l inverse, la vue extensionnelle est, comme son nom l indique, construite à partir des objets de la sélection courante. La vue extensionnelle peut être définie comme la projection dans un espace de représentation dédié de l ensemble des objets de la sélection courante. Cela signifie que dans cet espace un représentant est associé à chaque objet de la sélection courante. L espace de représentation le plus basique est une liste où chaque objet sélectionné par la requête courante est réprésenté par un identifiant propre. Cependant, une vue de ce type ne fournit que peu d information à l utilisateur sur le contenu de la sélection courante. D un point de vue recherche d information et exploration de données, les représentations basées sur les propriétés les plus caractéristiques des objets sont souvent plus intéressantes. Dans la plupart des systèmes de gestion et de recherche de documents utilisés aujourd hui, l image est très souvent une représentation adoptée pour matérialiser les réponses d une requêtes. Par exemple, dans le logiciel itunes dédié à la gestion d une bibliothèque musicale, un album de musique sera représenté par l image de sa pochette ; dans Flickr 1, une photo par une imagette ; sur le site marchand Amazon 2, un livre, par une photo de sa couverture. Dans ces exemples, chaque image fournit un aperçu d un objet recherché, mais elles ne sont pas organisées dans un espace de représentation qui traduirait une position respective des objets les uns par rapport aux autres et faciliterait la recherche d information. Nous pensons que le proverbe «Une image vaut mille mots» prend tout son sens lorsqu il s applique à la représentation de l organisation des objets, et non pas seulement à la description individuelle des objets. La carte est le support privilégié pour la représentation de l espace géographique et des phénomènes qui lui sont liés. Nous l exploitons dans GEOLIS comme espace de représentation des objets de la sélection courante et de leur organisation spatiale. La carte de GEOLIS correspond à la projection de la représentation géométrique des objets de la sélection courante dans un repère géographique à deux dimensions. Nous détaillons les caractéristiques de cette vue cartographique dans la suite de cette section. La représentation cartographique ne peut cependant traduire qu un nombre limité de corrélations entre objets géographiques. Il est donc souvent intéressant dans l exploration de données en général de pouvoir projeter les objets selon plusieurs dimensions. C est notamment l un des principes de base de l analyse OLAP (voir le chapitre 1). En complément de la représentation cartographique, nous discutons donc d autres formes d expression de la vue extensionnelle à l aide de diagrammes La carte : contexte géographique La représentation cartographique est construite à partir de la description géométrique des objets de la sélection courante. La vue cartographique permet de représenter 1 http :// 2 http ://

127 Représentation par les vues : Visualiser 125 les objets de la sélection courante dans un contexte géographique défini par : un système de coordonnées propre à la vue cartographique et déterminé pour le jeu de données exploré. Lorsque la géométrie des objets explorés est exprimée dans un système de coordonnées différent de celui la carte, les coordonnées de cette géométrie sont transformées dont le système de la carte avant affichage. un fond de plan qui définit le cadre cartographique dans lequel sont placés les objets de la sélection courante. Le fond de plan a pour objectif de définir un cadre géographique général. Il peut par exemple s agir d une image satellite ou d une photographie aérienne (voir figure 4.5). une légende qui qualifie la symbologie, c-à-d. la représentation graphique, associée à chaque catégorie d objets représentés sur la carte : le fond de plan et les objets de la sélection courante. Une même symbologie est appliquée à tous les objets issus de la même couche d origine. La vue cartographique n est pas une représentation statique. L utilisateur dispose des fonctionnalités de navigation cartographique standard (voir figure 4.5) : zoom avant (zoom in)/ zoom arrière (zoom out), zoom sur une zone rectangulaire (zoom box), déplacement du centre de la carte (pan). Une carte de situation (keymap) rappelle à l utilisateur l emprise du zoom courant sur une zone géographique plus large, correspondant traditionnellement au zoom initial. Lors d une recherche d information, il est important de savoir dans quelle mesure la sélection courante est représentative de l ensemble des objets du jeu de données. Dans l index de navigation cette information est donnée pour chaque propriété par la proportion n wq /n O. Au niveau de la vue cartographique, ce sont les élements de la sélection courante qui sont mis en relief par rapport à l ensemble des objets du jeu de données. Dans GEOLIS, nous avons choisi de mettre les éléments de la sélection courante en surbrillance par rapport aux autres éléments du jeu de données. La vue cartographique permet de visualiser la description géométrique des objets. Nous avons vu au chapitre 3 que cette description est exprimée au moyen de formules de la logique L Geom. Comme nous le détaillons plus loin dans le chapitre (voir section 4.2.2), certaines formules de L Geom peuvent aussi être considérées comme des motifs d inclusion de géométries et donc être utilisées pour représenter des zones géographiques particulières. Les zones ainsi définies ne sont pas associées à un objet particulier mais sont représentées dans la vue cartographique. Leurs limites apparaissent en surimpression sur la carte (voir figure 4.5). Ces motifs géométriques jouent le même rôle que les motifs d intervalles de la logique L [Area] par exemple. Ils peuvent donc être dépliés pour faire apparaître des motifs géométriques plus précis, ou replier pour les faire disparaître. Les icônes de dépliage/repliage ainsi que le code couleur de l index de navigation leur sont donc également associés (voir figure 4.5) : les motifs géométriques qui sont des décréments, c-à-d. qui englobent l ensemble des objets de la sélection courante, sont tracés en trait plein de couleur orange, les motifs géométriques qui sont des incréments, c-à-d. qui ne regroupent qu un sous ensemble de la sélection courante, sont tracés en pointillés de couleur bleu. Plusieurs motifs géométriques peuvent simultanément être pertinents pour la sélection courante. Pour éviter toute confusion visuelle sur la carte, seul un sous-ensemble

128 126 Chapitre 4 : Visualisation et recherche d information Fig. 4.5 Vue cartographique de GEOLIS. Le polygone de couleur orange entourant les objets en surbrillance sur la carte est un lien de navigation cartographique qui a été sélectionné. de ces motifs est représenté sur la vue cartographique. Cet ensemble est constitué : des décréments les plus précis, c-à-d. ceux appartenant à l ensemble défini par Min Geom{x L Geom ext(wq) ext(x)} et qui correspondent aux plus petits polygones englobant l ensemble des objets de la sélection courante, des incréments les plus généraux, c-à-d. ceux appartenant à l ensemble Max Geom{x L Geom ext(wq) ext(x) ext(wq)}, aux plus grands polygones englobant chacun un sous-ensemble différent de la sélection courante. Nous avons abordé dans cette thèse la carte comme un espace de représentation de la géométrie et de l organisation spatiale des objets géographiques. Cependant se limiter à cet usage de la carte serait réducteur. En effet, les différentes variables visuelles cartographiques (ex. : la forme, la taille, la couleur ou le motif de remplissage) peuvent servir de support pour représenter les propiétés non-spatiales des objets géographiques. Par exemple, il est possible d associer une couleur à l ensemble des lieux accessibles pour les personnes à mobilité réduite, de signaler par un symbole la possibilité de dormir dans un bâtiment et de quantifier sa capacité d accueil par la taille de ce symbole. La représentation d une information non spatiale sur une carte repose sur un ensemble de conventions graphiques qui sont définies par la sémiologie graphique 3 [Ber73, BP03]. L une des perspectives pour augmenter l expressivité de la vue cartographique de GEOLIS consiste à pouvoir paramétrer les variables visuelles associées à chaque objet de la sélection courante par une propriété de l index de navigation. 3 Plus précisément Béguin et Pumain définissent la sémiologie graphique comme «l ensemble des règles qui permettent l utilisation d un système graphique de signes pour la transmission d une information» [BP03].

129 Représentation par les vues : Visualiser Visualisation graphique de propriétés non spatiales La vue cartographique est une «projection» de la description des différents objets de la sélection courante dans un espace géographique. Cependant sur cette vue, les informations des facettes non-spatiales sont agrégées. Par exemple, considérons un jeu de données géographiques caractérisant la localisation d une espèce de rongeurs sur une période donnée : chaque objet géographique représente une observation d un rongeur et a pour description la position et la date de l observation. Pour ce jeu de données, l information temporelle est agrégée sur la carte, c-à-d. que toutes les observations sont représentées quelque soit la période considérée et que deux observations réalisées à un même endroit mais à des dates différentes ne sont pas distinguables. Naturellement, il est possible de restreindre la sélection courante à une période particulière, et donc de ne visualiser que les observations correspondantes sur la carte. Dans le cadre de données temporelles, il est également envisageable de produire une animation construite comme la séquence chronologique des cartes correspondant à chaque date d observation. Cependant, cette approche n offre pas une vision simultanée des observations à différentes dates données. Il est très courant dans le domaine de l analyse exploratoire de données (Exploratory Data Analysis ou EDA) [AA05] et de manière plus générale dans le domaine de la communication, de représenter des éléments en les projetant selon deux dimensions ou plus. Cela permet de visualiser sur un diagramme une tendance d évolution ou une corrélation entre ces dimensions par exemple. Les différentes dimensions définissent un système de coordonnées dans lequel chaque élément est positionné selon ses valeurs descriptives pour chaque dimension. Ce type de représentation impose qu un ordre total soit défini pour chaque dimension considérée. Les représentations de ce type les plus répandues sont les nuages de points (scatterplot). Dans GEOLIS, nous proposons en complément de la vue cartographique une vue «nuage de points». La vue nuage de points permet de visualiser les objets de la sélection courante dans un repère orthogonal à deux dimensions défini en fonction du jeu de données exploré. La figure 4.6 présente la vue nuage de points appliquée au jeu de données sur l observation de rongeurs : chaque point représente une observation indexée en abscisse par sa date et en ordonnée par la latitude de sa position géographique. La position d un objet sur le diagramme est un couple de valeurs (x, y) qui fait partie de la description de l objet. Cette position est renseignée dans la propriété valuée plot dont les valeurs sont exprimées par des formules de la logique L Plot = Prod(L [X],L [Y ] ) où L [X] et L [Y ] désignent les logiques associées aux propriétés à représenter respectivement sur l axe des abscisses et l axe des ordonnées. Les logiques L [X] et L [Y ] étant des logiques d intervalles, il est possible de caractériser une zone rectangulaire sur le graphique par un motif de la forme ([x 1, x 2 ], [y 1, y 2 ]). Tout comme la vue géométrique, la vue nuage de points de GEOLIS représente en surimpression des motifs graphiques correspondant soit à des incréments soit à des décréments pour la sélection courante. La vue nuage de points permet de visualiser la projection des objets de la sélection courante selon deux dimensions. Il est envisageable de l étendre à trois dimensions pour visualiser les données dans un cube comme le propose par exemple l outil de géovisua-

130 128 Chapitre 4 : Visualisation et recherche d information Fig. 4.6 Vue nuage de points sur un ensemble d observations de rongeurs. L axe des abscisses représente la date de l observation, l axe des ordonnées, la latitude de la position de l observation. Le rectangle bleu matérialise un incrément graphique de navigation vers un sous-ensemble d observations. lisation GeoDa [ASK06]. Cependant nous ne savons pas construire de représentation dans un repère à plus de trois dimensions. Pour visualiser un nombre de dimensions n 3, il est possible d utiliser un diagramme à coordonnées parallèles (voir figure 4.7). Les n dimensions sont représentées par n axes parrallèles sur un plan, chaque axe représentant une dimension. Ce type de représentation n est pas encore intégré dans le système GEOLIS, mais nous montrons comment il pourrait être introduit. Un objet de la sélection courante serait représenté par une ligne brisée reliant les coordonnées de l objet sur chaque axe. La description d un objet serait cette fois-ci un vecteur de n valeurs représenté par une formule d une logique L ParallelPlot = Prod(L [X 1],...,L [Xn] ). Un motif graphique correspondrait dans ce cas à un corridor traversant chaque axe du diagramme (voir figure 4.7). 4.2 Interaction avec les vues : Interroger et Naviguer L un des points forts de l ACL est de combiner interrogation et navigation pour rendre la recherche d information plus simple et plus rapide. Nous présentons dans la suite de cette section les différentes opérations d interrogation et de navigation disponibles dans le système GEOLIS. Ces opérations sont réparties dans les différentes vues «requête», «index de navigation» et «vue extensionnelle» pour permettre d opérer la commande d interrogation ou de navigation dans la vue où elle s exprime le mieux.

131 Interaction avec les vues : Interroger et Naviguer 129 Fig. 4.7 Exemple de diagramme en coordonnées parallèles. Chaque ligne brisée représente un objet de la sélection. Le corridor délimitté par les lignes bleu représente un motif graphique d inclusion de vecteurs descriptifs des objets de la sélection. Dans GEOLIS, nous qualifions la navigation comme le processus permettant de modifier la requête courante en sélectionnant un lien de navigation proposé par le système. L interrogation consiste à saisir manuellement un critère de recherche. L interrogation correspond à un mode de recherche «expert» où l utilisateur peut exprimer clairement son objectif de recherche. L interrogation permet aussi la saisie de critères non exprimables avec les liens de navigation disponibles. En effet, l ensemble des liens de navigation ne décrit pas par exemple l ensemble (souvent infini) de tous les motifs exprimables dans le langage d interrogation de GEOLIS Interrogation L interrogation est un processus dans lequel l utilisateur exprime de façon déclarative par une requête une description des objets qu il recherche. Dans GEOLIS, une requête peut être saisie manuellement en modifiant directement la vue requête ou alors complétée en limitant l espace de recherche par une sélection graphique d une région dans la vue extensionnelle. Nous détaillons maintenant ces deux modes d interrogation Interrogation par saisie de requête L interface de présentation de la vue requête (voir figure 4.1) permet à l utilisateur d éditer la requête courante wq en respectant la syntaxe du langage d interrogation (voir section 4.1.1). La validation de la saisie de la requête entraîne la mise à jour de wq et

132 130 Chapitre 4 : Visualisation et recherche d information conjointement des deux autres vues index(wq) et ext(wq). L édition manuelle de la requête courante permet à l utilisateur de saisir des expressions avec des motifs. Par exemple, distance:[100.0m,200.0m]>all pour exprimer une classe de distance ou encore description:".*pierre.*" pour désigner les expressions textuelles de l attribut description qui contiennent le mot pierre. Les motifs de logiques valuées ainsi introduits dans la requête et qui n étaient pas déjà présents dans la taxonomie de l index de navigation y sont automatiquement positionnés. Ces motifs permettent d une part de sélectionner et de définir de nouvelles classes de valeurs au fur et à mesure de l exploration des données. Étant enregistrés dans l index de navigation, ils peuvent également être ré-utilisés comme lien de navigation pour transformer la requête courante. Ce mode de saisie de motifs permet aussi d organiser l index de navigation par ajout de classes de valeurs sur les propriétés valuées. La requête wq désigne sous une forme textuelle et de façon complète la description de la sélection courante, elle peut donc à tout moment être copiée, enregistrée et transmise pour retrouver ultérieurement à partir du jeu de données la sélection correspondante d objets Interrogation graphique La vue «requête» permet de saisir des motifs d inclusion de valeurs. Nous avons vu à la section qu il est possible avec la logique L Geom de définir des motifs spatiaux d inclusion. Ces motifs peuvent être utilisés pour représenter une zone géographique d intérêt et désigner toutes les géométries incluses dans cette région. Ces motifs peuvent être saisis manuellement sous leur forme textuelle dans la zone requête, cependant il est très difficile pour la majorité des utilisateurs d exprimer une géométrie en énonçant une suite de coordonnées. Nous proposons donc une saisie graphique de ces motifs depuis la «vue cartographique». Nous avons déjà montré précédemment que ce type de motifs utilisés comme liens de navigation y avait une représention graphique (voir section 4.1.3). La figure 4.8 illustre une construction d un motif d inclusion directement sur la carte. L interface de GEOLIS offre la possibilité de construire des motifs de forme polygonale arbitraire. La saisie d un motif spatial d inclusion entraîne la transformation de la requête courante. La requête est raffinée (wq refine(wq, y geom )) ou élargie (wq widen(wq, y geom )) selon que le motif saisi x geom est ou non plus précis qu un motif y geom (x geom Geom y geom ) déjà présent dans wq. Le motif spatial d inclusion apparaît dans la requête courante sous sa forme textuelle. Par exemple, l expression du motif de la figure 4.8 dans la requête wq a pour forme (Lambert93,POLYGON((...)). La vue cartographique offre des outils graphiques facilitant la construction des motifs spatiaux, cependant, la saisie directe de motifs spatiaux sous leur forme textuelle dans la zone de requête permet par exemple de récupérer des motifs existants par copier/coller. Lorsqu un motif spatial est saisi, il est comme tout autre motif mémorisé par le système GEOLIS comme un lien de navigation. De par sa nature graphique, il est exprimé dans la vue cartographique et non dans l index de navigation. Le même principe de saisie graphique de motifs s applique à la vue nuage de points. Les motifs, saisis sous la forme d un rectangle sur le diagramme, sont traduits dans la

133 Interaction avec les vues : Interroger et Naviguer 131 Fig. 4.8 Construction d un motif géométrique dans la vue cartographique. requête courante en une expression de la forme plot:([x 1,x 2 ],[y 1,y 2 ]). De la même façon, ces motifs graphiques deviennent des liens de navigation accessibles depuis le diagramme nuage de points. Nous montrons dans la section suivante comment utiliser ces motifs graphiques pour la navigation, au même titre que les liens de navigation de l index Navigation La navigation dans les SIL consiste à proposer à l utilisateur des liens de navigation pertinents et explicites permettant de transformer la requête courante. Ici, comme on l a vu au chapitre 2, pertinent signifie que tous les liens proposés conduisent à des objets distinguables de ceux qui ne répondent pas à la requête courante. Explicite signifie que ces liens ont des noms symboliques exprimés dans le langage de description des données et sous une forme qui permet au système de les ordonner entre eux. Naviguer revient à passer de requête en requête. Dans le cadre de la recherche d information, la navigation permet de qualifier et de re-qualifier plus finement l objectif de recherche. Lors de l exploration de données, la navigation permet d enrichir sa connaissance du modèle de description des données (par exemple, découvrir le schéma de description, les valeurs descriptives utilisées et leur fréquence). Nous montrons maintenant comment les différentes opérations de navigation présentées au chapitre 2 peuvent être réalisées depuis les vues de GEOLIS.

134 132 Chapitre 4 : Visualisation et recherche d information Raffinement et élargissement Le raffinement de la requête courante wq par un incrément x a pour effet de restreindre la sélection courante aux objets décrits conjointement par wq et x. Formellement, refine(wq, x) = def (wq \ {y wq x y}) {x} À l inverse, l élargissement de la requête wq = q x par un décrément y plus général que x (x GEOLIS y) revient à étendre la sélection courante aux objets décrits par q et y, la propriété x a été généralisée par y. Si y = x, alors q est généralisée en enlevant x de q. Formellement, widen(q, y) = def { (q \ {y} si y q (q \ {x q x y}) {y} sinon Au niveau de l interface de GEOLIS, un raffinement est déclenché par la sélection d un incrément, c-à-d. par un clic sur un lien de navigation de couleur bleu. De façon analogue, un élargissement est déclenché par la sélection d un décrément, c-à-d. par un clic sur un lien de navigation de couleur orange. Le procédé est le même qu il s agisse d un lien de navigation textuel apparaissant dans l index de navigation, ou d un lien graphique tracé dans la vue géographique ou la vue nuage de points. Un raffinement à partir d un lien de navigation géométrique va permettre de réduire la sélection courante aux objets de la région géographique délimitée par ce lien de navigation. À ce titre, ce type de raffinement est qualifié de zoom logique par opposition au zoom géographique. Nous avons vu que les motifs apparaissant dans les liens de navigation pouvaient être introduits par l utilisateur au cours de l exploration des données. Ces motifs peuvent également avoir été définis préalablement pour faciliter la navigation. Par exemple, il est ainsi possible de définir des classes de distance au niveau de l index de navigation. Dans les vues cartographiques et nuages de points, ces motifs permettent de mettre en évidence des zones d intérêts particulières sur la carte ou de désigner des points particuliers du graphique, qui sont de ce fait sélectionnables par un simple clic. Ces motifs graphiques peuvent d ailleurs être imbriqués et fournir ainsi un support de navigation graphique incrémentale à l image des hypermaps (voir chapitre 1) Traversée de relation La navigation relationnelle correspond à un changement de point de vue sur le jeu de données. Utiliser le lien r.p pour traverser la relation r depuis la requête courante wq consiste à sélectionner les images par r de la sélection courante qui sont aussi décrites par p. Plus formellement, ( r.p) nav(wq) trav(wq, r.p) = def p r 1.wq La traversée d une relation est déclenchée en actionnant l icône de traversée associée à chaque lien de navigation relationnelle dans l index de navigation (voir figure 4.9).

135 Interaction avec les vues : Interroger et Naviguer Retournement de requête Fig. 4.9 Icone de traversée de relation. Lorsqu une expression relationelle r.q est présente dans la requête courante, c-à-d. wq = q r.q, la sélection courante correspond à l ensemble d objets décrits par q qui sont chacun en relation r avec au moins un objet décrit par q. La relation wq correspond à la vision centrée sur q de la relation r. Le retournement de requête consiste à pivoter autour de la relation r pour centrer la nouvelle requête sur q. Plus formellement, rev(q r.q, r.q ) = def q r 1.q La figure 4.10 illustre le changement de vue engendré par le retournement de requête. Le retournement de la requête wq = q r.q sur sa branche relationnelle r.q est réalisée depuis la vue «requête». Chaque branche relationnelle de la requête courante susceptible d être retournée est soulignée d un trait bleu dans la vue requête courante (voir figure 4.11). Ces branches sont actives, c-à-d. qu elles peuvent être sélectionnées par un clic qui a pour effet de retourner la requête Historique de requêtes Comme le font les navigateurs web ou les explorateurs de fichiers, le système GEOLIS conserve un historique des lieux déjà visités sous la forme d un historique de requêtes. Il est donc aussi possible de naviguer dans cet historique au moyen d opérateurs classiques «Suivant» et «Précédent». Un opérateur «requête d accueil» permet également à tout moment de remplacer la requête courante par une requête personnalisée et présélectionnée. Par défaut la requête d accueil est la requête ALL qui sélectionne la totalité du jeu de données. En s appuyant presqu exclusivement sur la navigation, il devient possible de définir des requêtes complexes par une suite d actions de navigation, c-à-d. par une série de clics. On peut même montrer une forme de complétude navigationnelle : tout objet décrit dans un contexte peut être atteint uniquement en suivant des liens de navigation

136 134 Chapitre 4 : Visualisation et recherche d information Fig Changement de point de vue par retournement. La relation r relie un sousensemble d objets de ext(q) à un sous-ensemble d objets de ext(q ). À gauche, la requête courante est centrée sur q (q r.q), mais après retournement à droite, le point de vue change et la requête est centrée sur q (q r 1.q). Fig Retournement de requête sur une branche relationnelle. Les branches relationnelles retournables sont soulignées d un trait bleu; la requête de l interface (a) désigne les voies situées à moins de 50 m d un bâtiment et traversant un bois (relation overlapping). Elle est retournée sur sa branche overlapping>bois pour donner la requête de l interface (b) qui désigne l ensemble des bois traversés par au moins une voie située à moins de 50 m d un bâtiment.

137 Scénario d exploration 135 Fig Principe de communication entre les différentes vues de GEOLIS. automatiquement générés par un LIS [FR04]. Nous illustrons ce mode de recherche d information par un exemple concret de navigation dans un jeu de données géographiques dans la section Cohérence et corrélation des vues Nous venons de présenter les différentes actions disponibles depuis l interface de GEOLIS. Chaque action a pour effet de modifier la vue requête, ce qui entraîne l actualisation des autres vues (voir section 4.1). Le schéma de la figure 4.12 résume ce principe de fonctionnement. L interactivité du système GEOLIS réside dans la multifonctionnalité de ses vues. Chaque vue permet de visualiser la sélection courante d objets sous une forme soit intentionelle soit extensionnelle, mais permet aussi de modifier cette sélection en offrant des commandes de navigation, d interrogation ou parfois les deux. 4.3 Scénario d exploration Pour illustrer l apport de la navigation dans l exploration de données géographiques, nous considérons un jeu de données réaliste, mais relativement simple, sur une île de la côte bretonne, et un objectif de recherche : préparer un séjour d un week-end pour une famille de 3 personnes sur l île. Le jeu de données 4 décrit l île de Milliau située au large de la commune de Trébeur- 4 L auteur tient à remercier Erwan Quesseveur de l UMR ESO à l université de Rennes 2 pour la

138 136 Chapitre 4 : Visualisation et recherche d information den dans les Côtes d Armor ( "N, "O). Il est composé de onze couches thématiques représentant les limites de l île, les bâtiments présents, les points d intérêt touristiques, les chemins et la végétation. En tout, 49 objets géographiques ont été décrits par en moyenne 3 attributs par objets. Les relations topologiques et de distance ont été calculées pour chaque paire d objets du jeu de données. Lors de l intégration du jeu de données dans GEOLIS, toutes les couches ont été fusionnées en un seul ensemble d objets. Chaque objet a été décrit par une propriété caractérisant son type (ex. : bâtiment, route ou rocher) déterminé à partir de sa couche d appartenance. La figure 4.13 donne l état de l interface avant l exploration. Au niveau de la vue cartographique, nous observons que deux zones remarquables de l île ont été identifiées par deux liens de navigation géométriques. Le premier, au centre de l île, englobe un ensemble de bâtiments, le second, au nord-ouest de l île, entoure une ruine (d après les indications fournies par la légende). Fig L interface de GEOLIS avant l exploration du jeu de données Milliau. Dans les copies d écran suivantes, pour améliorer la lisibilité, nous ne présentons plus la barre de navigation dans l historique, ni la partie droite de la vue cartographique (légende, et carte de situation). Nous nous intéressons à la zone remarquable au centre de l île en sélectionant le lien de navigation associé. La requête courante wq est modifiée et fait apparaître l expression textuelle du motif d inclusion géométrique (voir figure 4.14). Nous opérons un zoom cartographique pour centrer la carte sur la région considérée. En observant l index de navigation, nous obtenons directement un descriptif synthétique de l ensemble réalisation et la mise à disposition de ce jeu de données.

139 Scénario d exploration 137 des éléments géographiques de cette zone. En l occurrence, sous la propriété catégorie, nous pouvons lire qu il y a dans la sélection courante 6 batiments, 5 routes (voies) et 3 élements remarquables du patrimoine. En sélectionnant la propriété patrimoine dans l index de navigation, nous restreignons la sélection courante à ces éléments remarquables. En dépliant la propriété nature, nous apprenons que ces élements sont une fontaine, un lavoir et une allée couverte. En sélectionnant de nouveau la propiété patrimoine dans l index, nous revenons à la sélection précédente regroupant les éléments situés sur la zone centrale de l île. Fig Zoom logique puis cartographique sur la zone centrale de l île. Sous la propriété description, nous apprenons que cette zone de l île abrite plusieurs constructions en pierre. Nous éditons la requête pour restreindre la sélection courante à ces constructions en introduisant le motif.*pierre.* (wq wq AND description:".*pierre.*"). La validation de la requête entraîne l insertion du motif dans l index de navigation ainsi que la mise à jour de la carte (voir figure 4.15). Ce motif apparaît en souligné rouge : c est un décrément puisqu il décrit tous les objets de la sélection courante. En le sélectionnant, la requête courante est généralisée et sélectionne de nouveau tous les objets de la zone centrale de l île. En dépliant la propriété bâtiment, nous obtenons une classification plus spécifique : parmi les 6 bâtiments, 3 sont des gîtes et 3 sont des bâtiments de service. Nous sélectionnons la propriété gite pour restreindre la sélection courante, puis nous éditons la requête courante pour demander uniquement les gîtes offrant une capacité d accueil supérieure ou égale à trois personnes : wq wq AND capacite:(>=3) (voir figure 4.16).

140 138 Chapitre 4 : Visualisation et recherche d information Fig Les constructions en pierre du centre de l île. Seuls trois bâtiments sont maintenant visibles sur la carte. Dans l index de navigation, sous le motif capacite:(>=3), nous observons les capacités des gîtes qui peuvent chacun accueillir au moins trois personnes : plus précisément 4, 5 voire 6 personnes. Nous sélectionnons le gîte pour 4 personnes (clic sur le lien de navigation capacite:4), puis nous nous intéressons aux possibilités de ballade à proximité de ce gîte. Pour cela, nous déplions la propriété distance:>all, d abord sur la relation distance: pour faire apparaître des classes de distance, puis nous déplions la propriété ALL du lien relationnel distance:([0.0,49.99])>all pour visualiser, dans l index de navigation, les propriétés décrivant les objets situés à moins de 50 m du gîte. Nous utilisons le lien distance:([0.0,49.99])>voie pour traverser la relation distance et sélectionner ainsi les routes situées à moins de 50 m du gîte. La requête wq, la carte et l index de navigation sont mis à jour (voir figure 4.17) : seules les routes à proximité du gîte sont désormais visibles. Pour savoir ou mènent ces routes, nous déplions la propriété spatially_related>all dans l index de navigation et utilisons le lien de navigation overlapping>all pour traverser la relation overlapping et atteindre ainsi les éléments géographiques traversés par les routes partant du gîte. La figure 4.18 nous montre l état de l interface à ce stade de la navigation. La requête wq est composée d une branche relationnelle overlapping<(...) qu il est possible de retourner pour revenir aux routes que nous avions sélectionnées précédemment. L index de navigation nous indique que les routes mènent à d autres routes, à un point d accès de l île et à un

141 Scénario d exploration 139 Fig Les gîtes ayant une capacité d accueil supérieure ou égale à trois personnes. Fig Les routes passant à proximité du gîte (moins de 50m).

142 140 Chapitre 4 : Visualisation et recherche d information bois. Fig Les éléments géographiques traversées par les routes passant à proximité du gîte. Nous sélectionnons la propriété bois, ce qui entraîne la restriction de la sélection courante à cet objet : wq wq AND bois. Puis nous décidons de basculer la requête en sélectionnant depuis la vue «requête» la branche relationnelle overlapping<(...) pour recentrer la requête sur les routes (voir figure 4.19). Une fois le retournement effectué, la carte ne fait plus apparaître que les 2 seules routes passant à proximité du gîte et menant au bois : dans notre navigation, nous avons d abord changé de point de vue pour passer des routes aux objets traversés par ces routes, là nous avons opéré une restriction pour ne sélectionner que le bois puis nous avons rebasculé au point de vue initial. La traversée de relation et le retournement de requête nous ont donc permis de restreindre la sélection des routes par un critère portant sur la description des objets avec lesquels elles sont en relation, et ceci simplement par navigation, sans avoir à éditer de requête complexe. En fait, nous recherchons une route sur laquelle nous pourrions faire circuler une poussette. En observant l index de navigation, nous découvrons que parmi ces deux routes, seule une possède la propriété acces_handicape:"oui" et est donc accessible aux personnes à mobilité réduite. Nous sélectionnons le lien de navigation, ce qui entraîne la mise en surbrillance de la route correspondante sur la carte. En dépliant la propriété spatiale length, nous apprenons que cette route fait un peu de moins de 500 m. Nous avons donc lors de cette exploration pu préparer notre séjour sur l île de Milliau en choisissant un gîte à proximité duquel nous aurons la possibilité de faire une

143 Travaux connexes 141 promenade d environ 1 km (aller-retour), avec la poussette et en passant par le bois. Fig Retour sur le point de vue routes après sélection de la destination bois. 4.4 Travaux connexes Dans le chapitre précédent (voir section 3.4), nous avons présenté des systèmes offrant un modèle de description des données proche de celui GEOLIS. Nous montrons maintenant dans quelles mesures ces systèmes facilitent également la recherche d information et nous les comparons à notre système notamment sur le plan de l expressivité de l interrogation (section 4.4.1). Dans GEOLIS, la description détaillée de la sélection courante, ainsi que la mise à disposition de liens de navigation permettent aussi à l utilisateur d appréhender un nouveau jeu de données sans objectif de recherche particulier. De ce point de vue, le système GEOLIS se rapproche des systèmes d analyse exploratoire de données géographiques, comme par exemple SOLAP (voir chapitre 1). Nous discutons également dans cette section des parallèles et des différences existant entre les deux approches (section 4.4.2) Outils de recherche d information Wessel et Haarslev proposent avec le système VISCO (acronyme pour Vivid Spatial Constellation) un langage d interrogation spatiale visuelle pour les SIG. VISCO permet de construire une requête spatiale sous la forme d un schéma représentant un

144 142 Chapitre 4 : Visualisation et recherche d information arrangement spatial d éléments géographiques à l aide d un ensemble de métaphores graphiques : par exemple, un clou représente une position fixe, une bille désigne une position imprécise ou une élastique décrit une polyligne arbitraire, c-à-d. une ligne brisée étirable et mobile. Il est possible d associer à chaque objet graphique du schéma une sémantique, c-à-d. un type d objet géographique (ex. : parc, lac ou station de métro), ainsi que de qualifier la position des différents objets les uns par rapport aux autres par des relations topologiques ou de distance.tout comme le système DLMAPS proposé ultérieurement par ces mêmes auteurs (voir section 3.4), VISCO est un système reposant sur les LD pour la description et la recherche de données spatiales. Plus particulièrement, les requêtes visuelles de VISCO sont transcrites sous la forme d une A-Box de la logique ALCRP(S 2 ) [WHM00] qui offre une expressivité similaire aux logiques spatiales de GEOLIS (L Topo, L Distance, L Area ). Par opposition aux requêtes souvent complexes des bases de données spatiales, une requête visuelle dans VISCO est un tracé graphique d un arrangement spatial ressemblant aux arragements spatiaux recherchés. Ce type d interrogation suppose cependant de maîtriser le langage graphique, de qualifier sémantiquement les différents éléments du schéma et pose le problème des multiples interprétations associables à un schéma (voir section 1.4.4). Pour assister l utilisateur dans la résolution de ces tâches, Wessel et Haarslev proposent une complétion de requête basée sur le raisonnement terminologique [MW99]. Ce mécanisme de complétion permet au système de proposer automatiquement à partir d un schéma un ensemble de schéma plus précis dans lesquels par exemple une sémantique manquante sera complétée ou une relation spatiale ambiguë sera précisée. Le service offert semble donc proche de celui offert dans GEOLIS avec les incréments de navigation. Cependant, les différentes complétions d une requête de VISCO sont déduites d un ensemble de règles du niveau terminologique, et ne s appuient pas sur le jeu de données, comme le fait la navigation de GEOLIS. Le système ne peut donc garantir qu une complétion ne mènera pas à une extension vide dans le jeu de données exploré. Nous pouvons aussi comparer GEOLIS et DLMAPS/VISCO sur la forme des requêtes et la nature des résultats rendus. Dans GEOLIS, une requête est une formule logique décrivant un ensemble d objets. Cet ensemble d objets muni de l ensemble des liens de navigation qui lui sont associés constitue la réponse de cette requête. Dans DLMAPS/VISCO, une requête est un tuple de variables sur lesquelles ont été exprimées des contraintes spatiales et sémantiques qui définissent un arrangement spatial. La réponse à cette requête est un ensemble de tuples d objets satisfaisant cet arrangement spatial. Le langage d interrogation de GEOLIS permet également de rechercher des objets satisfaisant un arrangement spatial particulier. La réponse d une requête est un ensemble d objets ne correspondant qu à une composante de l arrangement, cependant, d une part, cette composante est décrite avec précision par l index de navigation, et, d autre part, le mécanisme de retournement de requête permet de basculer automatiquement vers les autres composantes de l arrangement. Sur un point particulier, l expressivité de DLMAPS/VISCO est cependant supérieure à celle de GEOLIS dans la mesure où l utilisation de variables permet d identifier les différents membres de l arrangement et de donc de rappeler ces membres dans l ex-

145 Travaux connexes 143 pression de contraintes. Par exemple, il est possible dans VISCO d exprimer la requête : «Quelles sont les cabanes situées à l intérieur d un bois, en bordure d un lac, de telle sorte que le lac soit entièrement inclus dans le bois?» Ces requêtes sont exprimables sous la forme d un graphe, alors que le langage d interrogation de GEOLIS ne permet d exprimer que des expressions relationnelles représentables par des arbres. Cette limitation tient à la représentation des propriétés relationnelles dans GEOLIS, inspirées des logiques de description. Il sera possible dans GEOLIS d exprimer la requête : «Quelles sont les cabanes situées à l intérieur d un bois b1, en bordure d un lac entièrement inclus dans un bois b2?» mais sans pouvoir identifier b1 à b Outils d exploration de données géographiques Les vues interactives de GEOLIS permettent à la fois de visualiser la sélection courante et d y naviguer. Ce principe d exploration visuelle des données rappelle l approche OLAP et dans le domaine géographique l approche SOLAP (voir section 1.4.2). SOLAP désigne une plateforme visuelle conçue pour l analyse et l exploration spatio-temporelles de données multidimensionnelles à priori géolocalisées [RBPN03]. Les données sont visualisées au moyen de vues prenant la forme de cartes, de tableaux, de diagrammes statistiques ou combinant au besoin ces différents modes de représentation (voir figure 4.20). Dans le modèle SOLAP, les données sont organisées dans un cube dont les axes portent des dimensions (ex. : localisation, classes d âge ou genre d une population), et les cases, la valeur d une mesure (ex. : la population) fonction des différentes dimensions du cube. Les dimensions sont traditionnellement organisées en taxonomie. Par exemple, un pays est décomposé en province, une année sera décomposée en douze mois ou une classe de produits en sous classes. L exploration dans SOLAP repose sur la visualisation graphique des faces du cube, c-à-d. la combinaison de deux dimensions, à différents niveaux de détails. Les principales opérations de navigation sont la spécialisation d une dimension (drill-down) et sa généralisation (drill-up). Ces opérations ont pour effet de désagréger ou d agréger les valeurs de mesures du cube selon les dimensions considérées. Nous nous intéressons aux correspondances entre le modèle SOLAP et celui de GEOLIS. Les dimensions SOLAP correspondent aux propriétés logiques de l index de navigation de GEOLIS. Une mesure est une variable exprimée en fonction de plusieurs dimensions et qu il est possible d agréger en généralisant ces dimensions. Les mesures disponibles dans GEOLIS sont les comptes n wq et n O indiquant pour chaque propriété le nombre d objets décrits dans la sélection courante et dans l ensemble du jeu de données (voir section 4.1.2). Les faces du cube n ont pas de représentation équivalente dans GEOLIS, mais chacune des propriétés de l index de navigation représente une rangée du cube surlaquelle les autres dimensions ont été agrégées. L opération drill-down (resp. drill-up) de spécialisation (resp. généralisation) de dimensions dans SOLAP correspond au dépliage (resp. repliage) des propriétés dans GEOLIS. Dans SOLAP, les opérations drill-down et drill-up modifient la structure des faces du cube (agrégation ou décomposition de cases), et ont donc un impact sur les affichages cartographiques ou les diagrammes associés car ce sont des représentations graphiques de ces faces. Comme

146 144 Chapitre 4 : Visualisation et recherche d information Fig Vue cartographique du logiciel JMap Spatial OLAP [KHE05]. Chaque portion de diagramme circulaire représente l effectif de population pour une province du Canada et pour une tranche d âge. Cette représentation permet de visualiser la distribution d une mesure (la population) selon deux dimensions (la localisation géographique et l âge des individus). dans GEOLIS, ces opérations de navigation sont accessibles depuis les différentes vues, par exemple en agissant sur une représentation géométrique dans une carte ou sur une barre dans un histogramme. Les vues de GEOLIS et les vues SOLAP ne portent cependant pas la même information. Dans GEOLIS, une vue graphique (carte ou diagramme nuage de points) est une vue extensionnelle : elle associe un élement graphique à chaque objet de la sélection courante. Dans une vue graphique SOLAP, un élément graphique est associé à une valeur pouvant être un agrégat représentant plusieurs objets (voir figure 4.20). Comme nous avons pu l illustrer, les approches GEOLIS et SOLAP partagent un certain nombre de considérations communes vis à vis de l exploration de données : ne pas imposer la maîtrise d un langage d interrogation complexe, ou la connaissance de la structuration interne des données [RBPN03], permettre une exploration incrémentale des données par navigation, exploiter les visualisations cartographiques et graphiques pour mieux comprendre l organisation du jeu de données, naviguer directement depuis les différentes vues cartographiques et graphiques. Cependant, fondamentalement, les deux systèmes n explorent pas des espaces de même nature. GEOLIS permet de naviguer dans une collection d objets géographiques dans le but premier d isoler un sous-ensemble d objets d intérêt. OLAP ou SOLAP permettent de naviguer dans un ensemble de valeurs d une propriété caractéristique du jeu de données exploré (la mesure) organisées et agrégées selon différentes dimensions et différents niveaux de granularité. Le but d une exploration OLAP est de déterminer un certain

Montrer encore