Développement d un moteur de recherche sémantique : une contribution au projet Ethnosiris dédié à la préservation du patrimoine populaire vendéen

Transcription

1 Développement d un moteur de recherche sémantique : une contribution au projet Ethnosiris dédié à la préservation du patrimoine populaire vendéen A. Lagarde - C. Renaudineau mémoire soutenu le 09 Juin 2009 Mémoire de Master 1 en Informatique Faculté des Sciences et Techniques - Université de Nantes LINA - Laboratoire d Informatique de Nantes Atlantique (UMR CNRS 6241) Equipe Connaissances et Décision Partenaire institutionnel : EthnoDoc-AREXCPO (Association de Recherche et d EXpression pour la Culture POpulaire)

2 Table des matières I Recherche d information sémantique : fondements théoriques 7 1 Recherche d informations dans un fond documentaire Principe d un système de recherche d informations L indexation lexicale : un procédé d optimisation de SRI efficace Importance des meta-informations dans un SRI Indexation lexicale : définition et principes Un exemple d indexation lexicale : Lucène La recherche d informations syntaxique : un mécanisme limité la recherche d information syntaxique : un mécanisme s appuyant fortement sur l indexation lexicale Limites d une recherche d information syntaxique Une solution potentielle : recherche d informations sémantique Ontologies et recherches d informations sémantiques Les Ontologies : un moyen de structurer des concepts Thésaurus : un dictionnaire introduisant des relations inter-termes Ontologie : définition Les concepts : une vue sémantique d une entité Les gradients de prototypicalité : des outils pour pondérer les relations entre concepts, labels, instances et propriétés Le gradient de prototypicalité conceptuelle Composante expressionnelle du gpc Composante extensionelle du gpc Composante intentionelle du gpc Gradient de prototypicalité lexical Exemple concret de la puissance d une recherche sémantique comparée à une recherche syntaxique Principe de la recherche d informations syntaxique (sans ontologie)

3 2.3.2 Principe de la recherche d informations à l aide de la plateforme Ethnosiris (avec ontologie) Etat de l art : formats d ontologie, ontologies célèbres et moteurs de recherche sémantique Formats d ontologie, logiciels d édition et ontologies célèbres Démonstration de la puissance des ontologies Les moteurs de recherche sémantiques actuels II Présentation du cadre applicatif du projet Ethnosiris 28 4 L association Arexpo et son fond documentaire L association AREXCPO L association EthnoDoc Mission de l association : collecte d informations relatives au patrimoine Vendéen La base de données EthnoDoc : un fond documentaire annoté et indéxé Travail effectué sur la base de données Ontologie fournie : OnthnoPhoto 32 III Contribution au projet : Ethnosiris, un moteur de recherche sémantique 34 6 Spécifications du moteur de recherche sémantique Attentes et contraintes sur le moteur Cas d utilisation d une recherche sémantique Le nuage de mots clés : un outil adapté aux focus Trois échelles de focalisation Focus sur le fond documentaire indépendemment de toute recherche Focus sur le fond documentaire vis-à-vis d une recherche Focus sur une ressource par rapport à une recherche Prémices au développement : choix du langage et de la structure générale du moteur de recherche Le choix d un langage portable et robuste Mise au point d une structure modulaire et réutilisable L implémentation de l ontologie Principaux choix d implémentation Les classes concepts, labels et instance

4 8.1.2 La classe Ontogie : opérations de parcours en temps minimal Optimisations nécessaires au fonctionnement de l ontologie sur un serveur PhP Implémentations des différentes recherches La recherche syntaxique Le gestionnaire de mots clés La pertinence syntaxique L afficheur La recherche sémantique La pertinence sémantique L afficheur Affineur de recherche Implémentation des Nuages Tags 52 4

5 Introduction L objectif de ce document est de présenter les différentes théories et procédés qui ont permis l implémentation d un moteur de recherche sémantique basé sur un fond documentaire (EthnoDoc) et sur une ontologie (OnthoPhoto). Ce moteur de recherche constitue un des éléments principaux de la plateforme Ethnosiris, plateforme dont le but est de permettre une recherche sémantique sur un corpus de documents indexés lexicalement. Cette plateforme devra pouvoir être intégrée à n importe quel corpus indexé ; elle devra par conséquent être multilingue, multi-dialecte et polygraphe (plusieurs alphabets). De plus, elle présentera des sessions d interactions identiques à un moteur de recherche d informations traditionnel (via champs de saisie de mots-clés), les seules différences avec ce dernier étant relatives à la pertinence des résultats fournis et aux comportements face à différents cas critiques. L acquisition et la représentation d informations par un système informatique ont toujours fait partie des problématiques fondamentales, non seulement dans la recherche informatique, mais également dans toute recherche relative à la sémiotique (étude du sens des choses) ou à la psychologie cognitive (centrée sur la mémoire, l apprentissage et le raisonnement). En 1968, un informaticien et un psychologue (Collin et Quillian), ont cherché à définir une représentation des informations stockées dans nos mémoires. A force d expériences basées sur le temps de réponse à des affirmations du style un chien est un animal et un chien est un mammifère, ils ont réussi à construire un modèle hiérarchique de catégories. Cette hiérarchisation de concepts est la base du modèle ontologique. Dans une première partie, nous présenterons les fondements et caractéristiques d un moteur de recherche d informations, puis nous enrichirons la notion d ontologie en présentant les ontologies pragmatisées [1], i.e des ontologies prenant en compte l aspect subjectif de la représentation de connaissances. Nous effectuerons également un bref état de l art des ontologies et de leur application dans le cadre d un système de recherche d informations sémantique. Dans un second temps, nous décrirons le cadre applicatif du projet Ethnosiris, en présentant les partenaires du projet, puis en détaillant le fond documentaire utilisé et l ontologie fournie. Nous reviendrons enfin sur notre contribution au projet Ethnosiris, en décrivant premièrement le 5

6 travail de spécification que nous avons effectué. En particulier, on veillera à la généricité (incluant des aspects polylingues et polygraphes), la portabilité (doit fonctionner sur tout type de serveur, fond et ontologie) et la complexité de l implémentation du moteur de recherche Ethnosiris. Nous discuterons finalement des principaux choix d implémentation effectués. Sans les citer formellement, nous nous sommes appuyé sur les travaux de l équipe de recherche COD (COnnaisance et Décision) [5, 2, 7, 3]. 6

7 Première partie Recherche d information sémantique : fondements théoriques 7

8 Chapitre 1 Recherche d informations dans un fond documentaire 1.1 Principe d un système de recherche d informations La recherche d informations occupe une place centrale dans l activité de n importe quel individu, qu il s agisse d une recherche documentaire dans une bibliothèque, d une recherche de produits dans un supermarché ou de la recherche de pages Web sur Internet. Dans tous ces cas, le cerveau humain effectue un travail en deux temps : 1. Premièrement, il qualifie la recherche (collection de livres, boîte de ravioli ou site Internet) à partir d une liste de caractéristiques (titre, catégorie et édition du livre,type du produit...). 2. Deuxièmement, il retourne les ressources les plus pertinentes pour la recherche fournie : par exemple, on se souvient de deux boîtes de ravioli achetées il y a plusieurs mois, et pour chacune d elles l endroit où la trouver (emplacement de la ressource). Ce travail effectué par notre cerveau constitue la base d un système de recherche d informations (SRI) : son rôle sera de comprendre la recherche, puis de fournir les ressources qu il pense être en relation avec ce qui lui est demandé. En se basant sur ces postulats, il est possible de déduire deux propriétés fondamentales d un SRI : 1. La mémoire : pour pouvoir identifier les ressources concernées par la recherche, le SRI devra se souvenir des caractéristiques (métadonnées) de chacune d entre elles. 2. La capacité de raisonnement : afin d évaluer la pertinence d une ressource par rapport à une recherche, le SRI devra suivre un raisonnement, guidé par différents critères. Il ne faut pas confondre moteur de recherche et SRI : en effet, bien que le moteur de recherche constitue le coeur d un SRI, il n en est qu un composant : un SRI peut également être muni de : 8

9 - fonctions d acquisition, qui lui permettront d ajouter des documents à sa mémoire. - fonctions d annotation, chargées de gérer les caractéristiques (meta-informations) des documents ajoutés. Ces fonctions doivent permettre la modification de ces meta-informations, et peuvent proposer différents moyens d accès, notamment leur indexation. - fonctions heuristiques, dont le rôle est de guider la recherche selon différents critères. Bien que le travail que nous ayons fourni ne concerne que l aspect moteur de recherche, nous nous appuyons bien évidemment sur ces différentes fonctions. Il convient donc de revenir sur certains mécanismes fondamentaux d un SRI, et en particulier le procédé d indexation lexicale. 1.2 L indexation lexicale : un procédé d optimisation de SRI efficace Importance des meta-informations dans un SRI Lorsque vous saisissez un terme dans un moteur de recherche classique (et ce fait est encore plus vrai pour un SRI de type sémantique), vous fournissez au système au moins une caractéristique qualifiant votre recherche. Cette caractéristique peut être de nature diverse : en effet, elle peut concerner le contenu textuel du document (titre, mots clés...), sa nature (type de fichier, organisation du document) ou aborder des notions plus abstraites comme les thèmes abordés ou encore sa localisation dans l espace ou le temps. Nous voyons clairement que le système doit au préalable avoir effectué un apprentissage, qui lui aura permis d établir des liaisons (caractéristique - document) ; cet apprentissage n est ni plus ni moins que la phase d indexation. La phase de recherche d informations peut être alors assimilée à un processus de reconnaissance de caractéristiques. Comme le dit Platon, La connaissance des mots conduit à la connaissance des choses. D une manière analogue, la connaissance des meta-informations d un document conduit à la connaissance du document lui-même. Réciproquement, un système de recherche d information ne peut donner de réponses pertinentes que si l index sur lequel il va se fonder a reçu un apprentissage suffisant. Le choix des critères à intégrer lors de l acquisition d un nouveau document est donc primordial, et constitue l un des travaux essentiels d un bon SRI. 9

10 1.2.2 Indexation lexicale : définition et principes Indexation - identification de l information contenue dans tout texte et représentation au moyen d un ensemble d entités (appelé index) pour faciliter la comparaison entre une recherche et la représentation d un document - transfert de l information contenue dans le texte vers un autre espace de représentation traitable par un système informatique. Autrement dit, un index peut être assimilé à une fonction f : D - M, où D est l ensemble des documents et M l ensemble des descripteurs. On dit qu un document DOC traite un thème identifié par un ensemble de descripteurs D si d D : d f(doc). On dit que les descripteurs d un Thème T décrivent un document DOC si t descripeurs(t) : d f 1 (DOC). Ces descripteurs peuvent être de différentes natures : - les mots simples du texte (hors mots vides, mots outils comme les articles ou les pronoms, etc...) ; - les groupes de mots du texte (à valeur sémantique plus forte que les mots simples). Par exemple, le groupe de mots danse traditionnelle vendéenne aura plus de valeurs que ces trois mots pris séparemment. - les radicaux des mots extraits, exemple : équins et équidés ont la même racine. On se base alors sur l étymologie pour regrouper des mots, ce qui permet d optimiser la taille de l index, mais qui peut se révéler faux : par exemple, les mots solstice et soleil ont le même radical mais désigne pourtant des notions différentes ; - des concepts définis par l utilisateur à partir d un vocabulaire organisé, d un thésaurus... - des N-grammes, suite de n caractères consécutifs ; - les contextes : termes n apparaissant pas explicitement dans le texte du document mais ayant un lien sémantique et/ou de co-occurence avec les mots du texte. Par exemple, si le mot hibou n est pas dans le document considéré mais, que dans d autres documents, il apparaît très souvent à côté du mot chouette, on considérera qu il existe une relation de co-occurence entre les mots hibou et chouette. - les mots simples hors mots vides (pronoms et déterminants) ; cette indexation favorise la précision 1 de la recherche (on est alors certain que les documents trouvés contiennent bien les termes présents dans la requête), mais engendre un index de taille volumineuse, et peut entrainer le rejet de certains documents pourtant en rapport avec la recherche. Par exemple, on lance une recherche sur le descripteur caniches. Avec ce type d indexation, tous les documents contenant ce mot au 1. Rapport du nombre de textes reconnus et contenant réellement le terme de la requête par le nombre de textes contenant un terme différent mais identifié comme contenant celui demandé dans la requête. 10

11 singulier uniquement ne seront pas retournés par la recherche. - les radicaux, afin de tenir compte des variations morphologiques (i.e variation du genre, du temps, de la personne ou du pluriel d un mot). Par exemple, adolescence et adolescents seront ramenés au radical adolesc. Cette méthode offre une amélioration du rappel 2 et nécessite un index de taille plus faible que pour le cas précédent. Cependant, cette technique d indexation peut provoquer une baisse de la précision de la recherche (mise en rapport des termes canif et caniche car il est très difficile de savoir que l un n est pas une variation morphologique de l autre). - les lemmes, indexation plus fine et concentrée sur les variations flexionnelles mais qui demande une opération préalable de traitement linguistique des textes ; cette méthode offre une augmentation du rappel et une baisse de la précision. Établir un index sur un corpus de documents consiste donc à attribuer à chacun des documents des descripteurs (i.e objets décrivant, caractérisant, un document à partir de son contenu). Le rôle d un index est par conséquent double, à savoir rôle de résumé (qualifier le document) et rôle d outil de recherche d information (accès à ce document à partir de son index, pendant la recherche lexicale). De part les multiples techniques d indexation présentées dans cette section, on voit bien l importance du choix de l une d entre elles, et des répercussions que ce choix peut avoir, non seulement en terme de qualité de la recherche (rappel et précision), mais également en terme de performances (taille de l index et rapidité de la recherche) Un exemple d indexation lexicale : Lucène Lucène est un moteur d indexation et de recherche lexicale libre 3. Cette API réalise une indexation à partir des radicaux (cf section 1.2.2), en supprimant au préalable les mots vides au moyen soit d un analyseur standard, soit d un analyseur propre à une langue. Toutes les chaînes de caractères sont dans un premier temps converties en minuscules. Les mots sont ensuite filtrés de manière à supprimer tous ceux qui ne sont pas particulièrement porteurs de sens (par défaut une liste propre à chaque langue est utilisée, liste ouverte et donc modifiable). Pour terminer, seules les racines sont retenues pour l indexation. On notera des performances très intéressantes : environ 4 minutes pour indexer un thésaurus de 3Mo(WordNet : http ://wordnet.princeton.edu). 2. Rapport du nombre de textes reconnus et contenant réellement le terme de la requête par le nombre de textes contenant ce terme mais non cités dans la réponse. 3. Site internet : http : //lucene.apache.org/ 11

12 1.3 La recherche d informations syntaxique : un mécanisme limité la recherche d information syntaxique : un mécanisme s appuyant fortement sur l indexation lexicale Le façon la plus courante d implémenter une recherche d information syntaxique est d effectuer une indexation sur les documents, puis de lancer une recherche lexicale sur cette index. On pourra notamment citer les moteurs de recherche Google et Yahoo, qui fonctionnent en deux temps : 1. Lors de la détection d un nouveau site (via des robots parcourant le Web) : Qualification du site à partir d une heuristique d indexation : on créé les descripteurs du site à partir de son adresse Internet et de son contenu, en pondérant chaque mot par son ocurrence sur le site et le type de balise dans lequel il apparaît (balise titre ou simple paragraphe). On incorpore également des méta-informations sur le site (langue(s) utilisée(s), site commercial ou non...). Ajout de ces descripteurs à l index du moteur de recherche. 2. Lors du lancement d une recherche A partir d une heuristique de parcours de l index, sélection des descripteurs correspondant aux critères de la recherche. A partir de ces descripteurs, obtention des documents concernés. Affichage de ces documents, triés selon le nombre de descripteurs satisfaisant la recherche. On voit ici que l indexation lexicale est au centre de toute recherche d informations syntaxique. Nous allons maintenant mettre en évidence les limites d un tel mécanisme Limites d une recherche d information syntaxique Par définition, le mécanisme d indexation lexicale ne prend pas en compte le sens des mots indexés : on considère ici un mot comme une suite de caractères. Or un mot est bien plus que cela : il possède de nombreuses relations avec d autres mots : synonymie, antinomie... Au delà de ces relations, un mot désigne souvent une entité physique du monde, cette entité ayant elle-même des relations avec d autres entitiés, et d autres mots. Prenons un exemple pour illustrer cette pauvreté : sur le moteur de recherche Google, je lance une recherche sur le mot teckel. Admettons qu aucun des documents indexés ne possède le descripteur associé à ce mot. Aucun résultat ne m est donc proposé. Cependant, le mot teckel de la langue française désigne un animal appartenant à la famille des canidés. Si l on avait fait une demande de livre associé au sujet teckel dans une bibliothèque, un documentaliste consciencieux, après avoir constaté qu il n avait aucun livre sur ce sujet précis, nous aurait proposé différents livres traitant des sujets voisins, c est à dire des livres parlant de canidés. Une recherche d information syntaxique basé sur une indexation lexicale ne permet pas d établir des liens entre différents descripteurs. Elle ne permettra donc pas d effectuer des opérations pourtant 12

13 utiles sur les documents retournés, telles que la proposition de documents similiaires si aucun résulat n est trouvé, ou la sélection de document plus représentatifs que d autres (sur des critères autre que le nombre d occurence d un mot). Or, comme le dit Bouddha, Meilleur que mille mots privés de sens est un seul mot raisonnable. Il convient donc de s interroger sur la possibilité de munir notre recherche, en plus d un index lexical, d une structure qui permettra de définir des relations entre les descripteurs Une solution potentielle : recherche d informations sémantique A partir du constat effectué dans la partie précédente, il convient de s interroger sur la possiblité de définir un nouveau type de recherche d informations qui, au lieu de se baser uniquement sur l indexation lexicale (un mot est alors une simple chaîne de caractères) prendrait en compte le sens des mots. Intuitivement, on perçoit la nécessité d utiliser une nouvelle structure, qui définirait des relations entre les mots-clés : par exemple, les mots chien et chat, bien que différents, désignent tous les deux des animaux domestiques. La question est de savoir comment organiser ces relations : en effet, elles peuvent être de nature très différentes (synonymie, appartenance à une même famille...), et on a vu dans les parties précédentes qu elles doivent être indexées pour permettre une recherche rapide et efficace. Dans le chapitre suivant, nous essayerons de définir une telle structure, en utilisant à la fois des normes et conventions informatiques et des travaux relatifs à la psychologie humaine, pour que le sens que l ontologie donne aux mots s approche le plus possible de celui que lui donnerait un être pensant. 13

14 Chapitre 2 Ontologies et recherches d informations sémantiques 2.1 Les Ontologies : un moyen de structurer des concepts Présentons premièrement la structure qui rendra possible la recherche sémantique : l ontologie. Avant de définir précisemment ce qu est une ontologie, on reviendra sur la notion de thésaurus, qui constitue un bon point de départ pour notre analyse Thésaurus : un dictionnaire introduisant des relations inter-termes Un thésaurus est un répertoire de termes normalisés pour l analyse de contenu et le classement de documentation dans un domaine 1. Cette définition aborde plusieurs notions fondamentales : premièrement, un thésaurus est donc une liste de termes relatifs à un domaine de connaissances particulier. Deuxièmement, la notion de classement est très importante : un thésaurus va définir des relations de type linguistique entre les termes de son dictionnaire, comme par exemple la synonymie, l antonymie, etc. C est un premier pas vers notre objectif, à savoir représenter le sens des mots : grâce au thésaurus, on est capable de dire si deux mots représentent la même idée. Quels sont les avantages concrets d un Thésaurus par rapport à un simple index? apport pour chaque terme d une liste de synonymes permettant une première possibilité d extension des requêtes ; offre d enrichissement du vocabulaire initial ; existence d un format d écriture standardisé : Simple Knowledge Organisation System11 (SKOS) 2 ; 1. Petit Robert, dictionnaire de la langue française 2. Site internet : http : // 14

15 outil ouvert, les utilisateurs peuvent compléter cette base par l apport de nouveaux termes ; aspect multilingue du vocabulaire. Un recherche d information basée sur un Thésaurus permettra notamment d élargir le champ de recherche : par exemple, si il est établi que les mots chien et toutou sont synonymes, alors si le parcours de l index lexical sur le mot toutou ne renvoie aucun résultat, on sera capable de lancer une recherche sur le mot chien et, peut-être, de trouver des documents, ce qu une recherche d information syntaxique n aurait pas permis. La création du thésaurus en lui-même ainsi que l implémentation d une recherche basée sur ce thésaurus sont de plus grandement facilitées par l existence du format SKOS : ce langage, standardisé par l organisme W3C, a notamment l avantage d être fondé sur RDF, langage lui aussi standardisé, pour lequel il existe des outils de traitement déjà existants tels que Jena (ensemble d outils de traitement de fichiers RDF en Java) 3,. Selon le langage SKOS (SKOS Core), un thésaurus est considéré comme un schéma de ressources RDF dotées d un Uniform Resource Identier (URI, identifiant unique) spécifique, avec pour chacune d elles : au plus un terme préférentiel par langue ; des définitions et notes relatives à ce terme ; des concepts reliés de façon hiérarchique par des relations générique-spécifique, ou par des relations associatives (non hiérarchiques) ; des représentations symboliques du terme (images). Plusieurs thésaurus ont été développés sous ce format, comme AGROVOC (terminologie à vocation agricole et environnementale) 4, GEMET (GEneral Multilingual Environmental Thesaurus, un thésaurus à dominante environnementale) 5 ou encore MESH (Medical Subject Heading, terminologie médicale bilingue français / anglais) Site internet : http : //jena.sourceforge.net 4. Site internet : http : // intro.htm 5. Site internet : http : // h tml 6. Site internet : http : //ist.inserm.fr/basismesh/mesh.html 15

16 Figure 2.1 Exemple d interrogation du thésaurus GEMET Ontologie : définition En philosophie, on définit l ontologie (du grec ontos, participe présent du verbe être) comme étant l étude de l être en tant qu être, c est-à-dire l étude des propriétés générales de ce qui existe. En s inspirant de cette définition, essayons de définir une ontologie en informatique. Ontologie - In theory, an ontology is a formal, explicit specification of a shared conceptualisation [4] - arboresence/treillis dont les noeuds/sommets correspondent à des concepts et les arêtes à des relations de type is a - théorie qui tente d expliquer les concepts qui existent dans le monde et comment ces concepts s imbriquent et s organisent. 7. Il s agit d une définition répandue de la notion d ontologie. Dans le cadre de notre projet, l équipe a enrichi cette notion : en enrichissant la notion de concept (voir partie suivante) ; en pondérant les relations is a : intuitivement, on saisit l intérêt d une telle démarche. En effet, il est logique de dire que, pour un individu français, le concept labrador est plus représentatif du concept chien que le concept Aïdi (chien originaire de l Atlas marocain). Le principal changement entre cette ontologie enrichie et la précédente est le fait qu elle est liée à un corpus de documents jugés représentatifs, à partir duquel on va calculer la pondération des liens is a et différents autres paramètres, que nous appelerons gradients (voir parties suivantes). Revenons premièrement sur la notion de concept. 16

17 Figure 2.2 Exemple d ontologie : hiérarchie des concepts issue du concept animal Les concepts : une vue sémantique d une entité Afin que les concepts de notre ontologie s approchent le plus possible de la façon dont un être pensant appréhende les entitiés qui l entourent, l équipe s est basée sur les études de sémiotique (théorie du sens) du scientifique/philosophe Charles Sanders Peirce. Ces études montrent que l être humain a trois façons de représenter un concept : point de vue intentionnel : on définit un concept par rapport à ses propriétés. Par exemple, on définira le concept feu comme étant quelque chose qui brûle et qui fait de la fumée. point de vue extensionnel : on définit un concept par rapport à des instances représentatives de ce concept. Par exemple, on définira le concept éléphant à l aide des instances Dumbo, Babar, ou l éléphant que l on a observé lors de notre dernière visite au zoo. point de vue expressionnel : on définit un concept par rapport à son champ lexical (mots le représentant) ou des symboles. Par exemple, les mots chien, toutou et clébard pour le concept chien, où une icône de flamme pour le concept feu. 17

18 Figure 2.3 Triangle de Peirce : les trois représentations du concept chat. Un être humain utilise ces trois points de vue pour définir un concept, se positionnant ainsi dans le triangle de Peirce. Selon que l on ait une connaissance approfondie d un domaine ou non, on se positionne plus au moins près des côtés du triangle. Par exemple, un zoologue définira l éléphant comme un pachyderme herbivore de poids important (point de vue intentionnel), alors qu un néophyte se référera à des instances d éléphants (point de vue extensionnel). A partir de ces études, on munit chaque concept d un moyen de représenter l aspect : intentionnel : un vecteur caractéristique de propriétés : pour toutes les propriétés définies dans l ontologie (peut voler, peut flotter...), on définit une valeur réelle comprise entre 0 et 1 représentant l importance de cette propriété pour définir ce concept. extensionnel : une liste d instances pondérées par la représentativité de chacune d elle pour ce concept. expressionnel : une liste de mots (simples chaînes de caractères) représentant tous les synonymes (labels) utilisés pour décrire ce concept. Là encore, on pondère chaque label en fonction de la manière dont il définit ce concept. On prend ainsi en compte les trois sommets du triangle de Peirce. Il va maintenant falloir définir un moyen de pondérer chacune des informations stockées. Pour ce faire, notre équipe a pris comme critère la prototypicalité d un élément par rapport à un autre, c est à dire sa capacité à résumer/représenter/définir l élément considéré. Comme nous l avons vu, cette notion dépend de chaque individu (culture, niveau de connaissance du domaine...). Nos ontologies ne porteront donc pas uniquement une vision sémantique de la connaissance, mais tiendront également compte de son côté subjectif et de sa dépendance à la culture, aux émotions et à 18

19 l éducation des individus qui en sont porteurs. Cette composante est des plus sensible lors de la phase de modélisation, de construction de l ontologie, plus précisément dans le choix des catégories et dans l élaboration des différentes hiérarchies. Le processus de décision d appartenance d un élément à une catégorie pour un individu donné se réalise en fonction d au moins deux éléments fortement subjectifs : le degré de prototypicalité d une part, et le niveau d abstraction d autre part. Ces points se mettent en place progressivement au fur et à mesure de l apprentissage de l agent humain dès l âge de six mois suivant certains spécialistes. 8 En se basant sur cette étude, on dira qu un élément est jugé typique s il représente un bon exemple de la catégorie, selon des critères propres à la culture, à l éducation et aux émotions de l individu. En reprenant un exemple précédent, pour le français moyen, la prototypicalité du concept labrador pour le concept chien sera beaucoup plus grande que la prototypicalité du concept aïdi pour le concept chien. Cherchons maintenant à quantifier précisemment ces relations de prototypicalité en créant une unité de mesure : les gradients de prototypicalité. 2.2 Les gradients de prototypicalité : des outils pour pondérer les relations entre concepts, labels, instances et propriétés L objectif des gradients est de pouvoir non seulement classer les résultats d une recherche par ordre de pertinence, mais également de les quantifier en fonction de leur valeurs. C est dans cet esprit que l équipe a développé différentes mesures, la première étant le gradient de prototypicalité conceptuelle(gpc). Les formules utilisées pour déterminier les gradients étant complexes et s appuyant sur plusieurs théories, nous nous contenterons ici de les exposer sans les justifier. La justification des formules est proposée dans les publications Gradients de prototypicalité appliqués à la personnalisation d ontologies [6] et Semiotic-based Prototypicality Gradient [8] Le gradient de prototypicalité conceptuelle Ce gradient est défini pour un concept père (C p ) et un concept fils(c f ), et sa valeur (entre 0 et 1) sera d autant plus grande que C f est typique pour C p. gpc(c p, C f ) = (α intensionnel(c p, C f ) + β extensionnel(c p, C f ) + γ expressionnel(c p, C f )) δ α, β et γ sont des coefficients réels représentant l importance de chaque approche pour apréhender un concept (α sera très élevé pour un spécialiste, β sera d autant plus fort que le sujet ne connait pas 8. Françoise Cordier. Les représentations cognitives privilégiées, typicalité et niveau de base. Presses Universitaires de Lille,

20 le domaine sur lequel porte l ontologie...). δ est la composante émotionelle. Découverte par des études en psychologie cognitive, cette composante s appuie sur le principe que plus on est stressé, plus on veut un résultat proche de notre recherche. En revanche, lorsque l on est détendu (positif), on accepte plus volontiers des concepts peu prototypiques (ouverture d esprit). On pourra imaginer divers moyens de calculer la composante émotionnelle d un utilisateur,tels la rapidité de déplacement de la souris sur la page, l analyse des messages postés par cet utilisateur, le nombre de clics par minute... On voit que le calcul du gpc fait appel à trois autres composantes : commençons par la composante expressionnelle, en définissant son moyen de calcul Composante expressionnelle du gpc L objectif de cette composante est de dire que tous les synonymes d un terme n ont pas forcément le même poids. Afin de déterminer dans quelle proportion le sous-concept représente le concept, on cherche à définir les relations entre leur termes : avec : expressionnel(c p, C f ) = pregnance(c f ) pregnance(c p) pregnance(c) = t lexique(c) count p(t) N t NbDoc(t) T otalnbdoc Cette formule pour calculer la prégnance permet d éviter, en prenant en compte la granularité, les effets de Buzz 9, qui polluerait l ontologie. Notre équipe travaille actuellement sur un moyen d intégrer le temps à cette formule : ainsi, si l on parle beaucoup de quelque chose mais pendant peu de temps, notre ontologie le détectera et minimisera le nombre d occurences du mot Composante extensionelle du gpc L objectif de ce gradient est de comparer les instances du concept fils à celles du concept père, toujours dans l optique de déterminer à quel point C f est typique de C p. extensionnel(c p, C f ) = NombreInstances(C f ) NombreInstances(C p). 9. Fait de parler énormément d un terme, mais dans peu de documents. Très courant sur le Web (Suzan Boyle...) 20

Montrer encore